Home Teknologi OpenAI mengumumkan model o3 baru

Teknologi

OpenAI mengumumkan model o3 baru

December 21, 2024

OpenAI menyimpan pengumuman terbesarnya untuk hari terakhir dari acara “pengiriman” selama 12 hari.

Pada hari Jumat, perusahaan meluncurkan o3, penerus model “penalaran” o1 yang dirilis awal tahun. o3 adalah keluarga model, lebih tepatnya — seperti halnya o1. Ada o3 dan o3-mini, model sulingan lebih kecil yang disesuaikan untuk tugas tertentu.

OpenAI membuat klaim luar biasa bahwa o3, setidaknya dalam kondisi tertentu, mendekati AGI — dengan peringatan yang signifikan. Lebih lanjut tentang itu di bawah.

o3, model penalaran terbaru kami, adalah sebuah terobosan, dengan peningkatan fungsi bertahap pada tolok ukur tersulit kami. kami memulai pengujian keamanan & tim merah sekarang.

— Greg Brockman (@gdb) 20 Desember 2024

Mengapa menyebut model baru o3, bukan o2? Ya, merek dagang mungkin penyebabnya. Menurut kepada The Information, OpenAI melewatkan o2 untuk menghindari potensi konflik dengan penyedia telekomunikasi Inggris O2. CEO Sam Altman agaknya membenarkan hal ini saat siaran langsung pagi ini. Dunia yang aneh yang kita tinggali, bukan?

Baik o3 maupun o3-mini belum tersedia secara luas, namun peneliti keselamatan dapat mendaftar untuk melihat pratinjau o3-mini mulai hari ini. Pratinjau o3 akan tiba beberapa saat setelahnya; OpenAI tidak menentukan kapan. Altman mengatakan rencananya o3-mini akan diluncurkan pada akhir Januari dan disusul o3.

Itu sedikit bertentangan dengan pernyataannya baru-baru ini. Dalam sebuah wawancara minggu ini, Altman mengatakan bahwa, sebelum OpenAI merilis model penalaran baru, dia lebih memilih kerangka pengujian federal untuk memandu pemantauan dan mitigasi risiko model tersebut.

Dan ada risikonya. Penguji keamanan AI telah menemukan bahwa kemampuan penalaran o1 membuatnya mencoba menipu pengguna manusia pada tingkat yang lebih tinggi dibandingkan model “non-penalaran” konvensional — atau, dalam hal ini, model AI terkemuka dari Meta, Anthropic, dan Google. Ada kemungkinan bahwa o3 berupaya menipu pada tingkat yang lebih tinggi dibandingkan pendahulunya; kita akan mengetahuinya setelah mitra tim merah OpenAI merilis hasil pengujian mereka.

OpenAI mengatakan bahwa mereka menggunakan teknik baru, “penyelarasan deliberatif,” untuk menyelaraskan model seperti o3 dengan prinsip keselamatannya. (o1 diselaraskan dengan cara yang sama.) Perusahaan telah merinci pekerjaannya dalam a studi baru.

Langkah-langkah penalaran

Tidak seperti kebanyakan AI, model penalaran seperti o3 secara efektif memeriksa fakta sendiri, yang membantu mereka menghindari beberapa kendala yang biasanya membuat model tersandung.

Proses pengecekan fakta ini menimbulkan beberapa latensi. o3, seperti o1 sebelumnya, membutuhkan waktu lebih lama — biasanya beberapa detik hingga menit lebih lama — untuk mencapai solusi dibandingkan dengan model non-penalaran pada umumnya. Keuntungannya? Ini cenderung lebih dapat diandalkan dalam domain seperti fisika, sains, dan matematika.

o3 dilatih melalui pembelajaran penguatan untuk “berpikir” sebelum merespons melalui apa yang digambarkan OpenAI sebagai “rantai pemikiran pribadi.” Model dapat memikirkan suatu tugas dan membuat rencana ke depan, melakukan serangkaian tindakan dalam jangka waktu lama yang membantunya menemukan solusi.

Kami mengumumkan @OpenAI o1 baru 3 bulan yang lalu. Hari ini, kami mengumumkan o3. Kami mempunyai banyak alasan untuk percaya bahwa tren ini akan terus berlanjut. pic.twitter.com/Ia0b63RXIk

— Noam Brown (@polinoamial) 20 Desember 2024

Dalam praktiknya, jika diberikan sebuah prompt, o3 berhenti sejenak sebelum merespons, mempertimbangkan sejumlah prompt terkait dan “menjelaskan” alasannya selama proses tersebut. Setelah beberapa saat, model tersebut merangkum apa yang dianggap sebagai respons paling akurat.

Yang baru pada o3 versus o1 adalah kemampuan untuk “menyesuaikan” waktu penalaran. Model dapat diatur ke komputasi rendah, sedang, atau tinggi (yaitu waktu berpikir). Semakin tinggi komputasinya, semakin baik kinerja o3 pada suatu tugas.

Tidak peduli berapa banyak komputasi yang mereka miliki, model penalaran seperti o3 bukannya tanpa cacat. Meskipun komponen penalaran dapat mengurangi halusinasi dan kesalahan, namun tidak menghilangkannya. o1 tersandung saat bermain tic-tac-toe, misalnya.

Tolok Ukur dan AGI

Satu pertanyaan besar yang muncul saat ini adalah apakah OpenAI dapat mengklaim bahwa model terbarunya mendekati AGI.

AGI, singkatan dari “kecerdasan umum buatan”, secara luas mengacu pada AI yang dapat melakukan tugas apa pun yang dapat dilakukan manusia. OpenAI memiliki definisinya sendiri: “sistem yang sangat otonom yang mengungguli manusia dalam pekerjaan yang paling bernilai ekonomi.”

Mencapai AGI akan menjadi sebuah deklarasi yang berani. Dan itu juga membawa bobot kontrak untuk OpenAI. Menurut ketentuan kesepakatannya dengan mitra dekat dan investor Microsoft, setelah OpenAI mencapai AGI, OpenAI tidak lagi berkewajiban memberikan Microsoft akses ke teknologi tercanggihnya (yang memenuhi definisi AGI OpenAI).

Dengan menggunakan satu tolok ukur, OpenAI adalah perlahan beringsut mendekati AGI. Pada ARC-AGI, sebuah pengujian yang dirancang untuk mengevaluasi apakah sistem AI dapat secara efisien memperoleh keterampilan baru di luar data yang dilatihnya, o3 mencapai skor 87,5% pada pengaturan komputasi tinggi. Pada kondisi terburuknya (pada pengaturan komputasi rendah), model ini meningkatkan kinerja o1 sebanyak tiga kali lipat.

Memang benar, pengaturan komputasi tinggi sangatlah mahal — sekitar ribuan dolar per tantangan, menurut salah satu pencipta ARC-AGI, François Chollet.

Hari ini OpenAI mengumumkan o3, model penalaran generasi berikutnya. Kami telah bekerja sama dengan OpenAI untuk mengujinya di ARC-AGI, dan kami yakin ini merupakan terobosan signifikan dalam membuat AI beradaptasi dengan tugas-tugas baru.

Skornya 75,7% pada evaluasi semi-pribadi dalam mode komputasi rendah (seharga $20 per tugas… pic.twitter.com/ESQ9CNVCEA

— François Chollet (@fchollet) 20 Desember 2024

Chollet juga menunjukkan bahwa o3 gagal dalam “tugas-tugas yang sangat mudah” di ARC-AGI, yang menunjukkan – menurut pendapatnya – bahwa model tersebut menunjukkan “perbedaan mendasar” dari kecerdasan manusia. Dia sebelumnya telah mencatat keterbatasan evaluasi tersebut, dan memperingatkan agar tidak menggunakannya sebagai ukuran kecerdasan super AI.

“[E]Beberapa poin data menunjukkan bahwa hal tersebut akan terjadi di masa depan [successor to the ARC-AGI] benchmark masih akan memberikan tantangan yang signifikan terhadap o3, berpotensi mengurangi skornya hingga di bawah 30% bahkan pada komputasi tinggi (sementara manusia cerdas masih dapat mencetak skor di atas 95% tanpa pelatihan),” lanjut Chollet dalam sebuah pernyataan. “Anda akan tahu bahwa AGI ada di sini ketika upaya menciptakan tugas-tugas yang mudah bagi manusia biasa namun sulit bagi AI menjadi mustahil.”

Secara kebetulan, OpenAI mengatakan bahwa mereka akan bermitra dengan yayasan di balik ARC-AGI untuk membantunya membangun generasi berikutnya dari benchmark AI-nya, ARC-AGI 2.

Pada tes lain, o3 mengalahkan persaingan.

Model ini mengungguli o1 sebesar 22,8 poin persentase pada SWE-Bench Verified, sebuah tolok ukur yang berfokus pada tugas-tugas pemrograman, dan mencapai peringkat Codeforces — ukuran lain dari keterampilan pengkodean — sebesar 2727. (Peringkat 2400 menempatkan seorang insinyur pada persentil ke-99,2. ) o3 mendapat skor 96,7% pada Ujian Matematika Undangan Amerika 2024, hanya melewatkan satu pertanyaan, dan mencapai 87,7% pada GPQA Diamond, serangkaian pertanyaan biologi, fisika, dan kimia tingkat pascasarjana. Terakhir, o3 mencetak rekor baru pada benchmark Frontier Math EpochAI, menyelesaikan 25,2% soal; tidak ada model lain yang melebihi 2%.

Kami melatih o3-mini: keduanya lebih mampu dibandingkan o1-mini, dan sekitar 4x lebih cepat secara end-to-end ketika memperhitungkan token penalaran

dengan @ren_hongyu @shengjia_zhao & yang lain pic.twitter.com/3Cujxy6yCU

— Kevin Lu (@_kevinlu) 20 Desember 2024

Klaim ini tentu saja harus ditanggapi dengan hati-hati. Itu berasal dari evaluasi internal OpenAI. Kita harus menunggu untuk melihat bagaimana model ini dapat bertahan terhadap benchmarking dari pelanggan dan organisasi luar di masa depan.

Sebuah tren

Setelah peluncuran seri model penalaran OpenAI yang pertama, terjadi ledakan model penalaran dari perusahaan AI saingannya — termasuk Google. Pada awal November, DeepSeek, sebuah firma riset AI yang didanai oleh quant trader, meluncurkan pratinjau model penalaran pertamanya, DeepSeek-R1. Pada bulan yang sama, tim Qwen Alibaba meluncurkan apa yang mereka klaim sebagai penantang “terbuka” pertama untuk o1 (dalam arti bahwa o1 dapat diunduh, disesuaikan, dan dijalankan secara lokal).

Apa yang membuka pintu air model penalaran? Salah satunya, pencarian pendekatan baru untuk menyempurnakan AI generatif. Seperti yang dilaporkan TechCrunch baru-baru ini, teknik “brute force” untuk meningkatkan model tidak lagi menghasilkan perbaikan seperti dulu.

Tidak semua orang yakin bahwa model penalaran adalah jalan terbaik ke depan. Salah satu contohnya adalah biayanya yang cenderung mahal karena besarnya daya komputasi yang dibutuhkan untuk menjalankannya. Meskipun sejauh ini kinerjanya baik dalam tolok ukur, masih belum jelas apakah model penalaran dapat mempertahankan tingkat kemajuan ini.

Menariknya, peluncuran o3 terjadi bersamaan dengan kepergian salah satu ilmuwan OpenAI yang paling berprestasi. Alec Radford, penulis utama makalah akademis yang memulai “seri GPT” model AI generatif OpenAI (yaitu, GPT-3, GPT-4, dan seterusnya), mengumumkan minggu ini bahwa dia meninggalkan untuk melanjutkan penelitian independen.

TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk mendapatkannya di kotak masuk Anda setiap hari Rabu.

OpenAI mengumumkan model o3 baru

Langkah-langkah penalaran

Tolok Ukur dan AGI

Sebuah tren

LEAVE A REPLY Cancel reply

EVEN MORE NEWS

Epidemi diam Gaza | Pendapat

The Players Championship Live: Skor, Pembaruan, Papan Tinggi, Sorotan sebagai Rory...

Kampanye Kamala Harris menuntut kursi -kursi yang memenuhi 'spesifikasi tertentu'

POPULAR CATEGORY

Langkah-langkah penalaran

Tolok Ukur dan AGI

Sebuah tren

RELATED ARTICLESMORE FROM AUTHOR

Pengguna iPhone dan Android akan segera dapat mengirim pesan RCS terenkripsi satu sama lain

Apa yang harus diketahui tentang masa depan Tiktok yang tidak pasti di AS dan orang -orang yang ingin membelinya

Tidak ada yang tahu apa itu agen AI

LEAVE A REPLY Cancel reply

EVEN MORE NEWS

Epidemi diam Gaza | Pendapat

The Players Championship Live: Skor, Pembaruan, Papan Tinggi, Sorotan sebagai Rory...

Kampanye Kamala Harris menuntut kursi -kursi yang memenuhi 'spesifikasi tertentu'

POPULAR CATEGORY

RELATED ARTICLES MORE FROM AUTHOR