Bulan lalu, para pendiri dan investor AI mengatakan kepada TechCrunch bahwa kita sekarang berada di “era kedua undang-undang penskalaan,” dan mencatat bagaimana metode yang sudah mapan untuk meningkatkan model AI menunjukkan hasil yang semakin berkurang. Salah satu metode baru yang menjanjikan yang mereka usulkan agar dapat mempertahankan keuntungan adalah “penskalaan waktu pengujian,” yang tampaknya merupakan penyebab kinerja model o3 OpenAI — namun metode ini juga mempunyai kelemahan.
Sebagian besar dunia AI menganggap pengumuman model o3 OpenAI sebagai bukti bahwa kemajuan penskalaan AI belum “mencapai hambatan.” Model o3 bekerja dengan baik pada benchmark, secara signifikan mengungguli semua model lainnya pada tes kemampuan umum yang disebut ARC-AGI, dan mendapat skor 25% pada tes kemampuan umum. ujian matematika yang sulit bahwa tidak ada model AI lain yang mendapat skor lebih dari 2%.
Tentu saja, kami di TechCrunch mengambil semua ini dengan sebutir garam sampai kami dapat menguji sendiri o3 (sejauh ini sangat sedikit yang mencobanya). Namun bahkan sebelum o3 dirilis, dunia AI sudah yakin bahwa sesuatu yang besar telah berubah.
Salah satu pencipta model o-series OpenAI, Noam Brown, mengatakan pada hari Jumat bahwa startup tersebut mengumumkan peningkatan o3 yang mengesankan hanya tiga bulan setelah startup tersebut mengumumkan o1 – jangka waktu yang relatif singkat untuk peningkatan kinerja tersebut.
“Kami mempunyai banyak alasan untuk percaya bahwa tren ini akan terus berlanjut,” kata Brown dalam sebuah pernyataan menciak.
Salah satu pendiri Anthropic, Jack Clark, berkata dalam a postingan blog pada hari Senin bahwa o3 adalah bukti bahwa AI “kemajuan akan lebih cepat pada tahun 2025 dibandingkan pada tahun 2024.” (Perlu diingat bahwa hal ini menguntungkan Anthropic – terutama kemampuannya untuk meningkatkan modal – karena menunjukkan bahwa undang-undang penskalaan AI terus berlanjut, bahkan jika Clark melengkapi pesaingnya.)
Tahun depan, Clark mengatakan dunia AI akan menggabungkan penskalaan waktu pengujian dan metode penskalaan pra-pelatihan tradisional untuk mendapatkan lebih banyak keuntungan dari model AI. Mungkin dia menyarankan agar Anthropic dan penyedia model AI lainnya akan merilis model penalaran mereka sendiri pada tahun 2025, seperti yang dilakukan Google minggu lalu.
Penskalaan waktu pengujian berarti OpenAI menggunakan lebih banyak komputasi selama fase inferensi ChatGPT, periode waktu setelah Anda menekan enter pada perintah. Tidak jelas apa sebenarnya yang terjadi di balik layar: OpenAI menggunakan lebih banyak chip komputer untuk menjawab pertanyaan pengguna, menjalankan chip inferensi yang lebih kuat, atau menjalankan chip tersebut untuk jangka waktu yang lebih lama — dalam beberapa kasus 10 hingga 15 menit — sebelum AI menghasilkan jawaban. Kami tidak mengetahui seluruh detail bagaimana o3 dibuat, namun tolok ukur ini adalah tanda awal bahwa penskalaan waktu pengujian dapat berfungsi untuk meningkatkan performa model AI.
Meskipun o3 mungkin memberikan keyakinan baru terhadap kemajuan undang-undang penskalaan AI, model terbaru OpenAI juga menggunakan tingkat komputasi yang belum pernah terlihat sebelumnya, yang berarti harga per jawaban yang lebih tinggi.
“Mungkin satu-satunya peringatan penting di sini adalah pemahaman bahwa salah satu alasan mengapa O3 jauh lebih baik adalah karena memerlukan lebih banyak biaya untuk menjalankannya pada waktu inferensi – kemampuan untuk memanfaatkan komputasi waktu pengujian berarti pada beberapa masalah Anda dapat mengubah komputasi menjadi jawaban yang lebih baik. ,” tulis Clark di blognya. “Hal ini menarik karena membuat biaya menjalankan sistem AI menjadi kurang dapat diprediksi – sebelumnya, Anda dapat mengetahui berapa biaya untuk menjalankan model generatif hanya dengan melihat model dan biaya untuk menghasilkan keluaran tertentu.”
Clark, dan lainnya, menunjuk pada kinerja o3 pada benchmark ARC-AGI – sebuah tes sulit yang digunakan untuk menilai terobosan pada AGI – sebagai indikator kemajuannya. Perlu dicatat bahwa lulus tes ini, menurut penciptanya, tidak berarti model AI telah dicapai AGI, melainkan merupakan salah satu cara untuk mengukur kemajuan menuju tujuan yang samar-samar. Meskipun demikian, model o3 melampaui skor semua model AI sebelumnya yang telah melakukan pengujian, dengan skor 88% dalam salah satu percobaannya. Model AI terbaik OpenAI berikutnya, o1, hanya mendapat skor 32%.
Namun sumbu x logaritmik pada grafik ini mungkin mengkhawatirkan bagi sebagian orang. Versi o3 dengan skor tinggi menggunakan komputasi senilai lebih dari $1.000 untuk setiap tugas. Model o1 menggunakan komputasi sekitar $5 per tugas, dan o1-mini hanya menggunakan beberapa sen.
Pencipta benchmark ARC-AGI, François Chollet, menulis di a blog bahwa OpenAI menggunakan komputasi sekitar 170x lebih banyak untuk menghasilkan skor 88% tersebut, dibandingkan dengan versi o3 dengan efisiensi tinggi yang hanya memperoleh skor 12% lebih rendah. Versi o3 dengan skor tinggi menggunakan lebih dari $10.000 sumber daya untuk menyelesaikan pengujian, sehingga terlalu mahal untuk bersaing memperebutkan ARC Prize — sebuah kompetisi tak terkalahkan bagi model AI untuk mengalahkan pengujian ARC.
Namun, Chollet mengatakan o3 masih merupakan terobosan untuk model AI.
“o3 adalah sistem yang mampu beradaptasi dengan tugas-tugas yang belum pernah ditemui sebelumnya, bisa dibilang mendekati kinerja tingkat manusia di domain ARC-AGI,” kata Chollet dalam blognya. “Tentu saja, tindakan umum seperti itu memerlukan biaya yang mahal, dan belum cukup ekonomis: Anda dapat membayar manusia untuk menyelesaikan tugas ARC-AGI dengan biaya sekitar $5 per tugas (kami tahu, kami telah melakukannya), sambil hanya menghabiskan uang sepeser pun. dalam energi.”
Terlalu dini untuk menentukan harga pasti dari semua ini — kita telah melihat harga model AI anjlok pada tahun lalu, dan OpenAI belum mengumumkan berapa harga sebenarnya o3. Namun, harga-harga ini menunjukkan seberapa banyak komputasi yang diperlukan untuk mendobrak, bahkan sedikit saja, hambatan kinerja yang ditetapkan oleh model AI terkemuka saat ini.
Hal ini menimbulkan beberapa pertanyaan. Sebenarnya untuk apa o3? Dan berapa banyak lagi komputasi yang diperlukan untuk mendapatkan lebih banyak keuntungan dalam inferensi dengan o4, o5, atau apa pun nama OpenAI untuk model penalaran berikutnya?
Sepertinya o3, atau penerusnya, tidak akan menjadi “pengemudi harian” siapa pun seperti GPT-4o atau Google Penelusuran. Model ini hanya menggunakan terlalu banyak komputasi untuk menjawab pertanyaan kecil sepanjang hari seperti, “Bagaimana Cleveland Browns masih bisa lolos ke babak playoff 2024?”
Sebaliknya, sepertinya model AI dengan komputasi waktu pengujian berskala mungkin hanya cocok untuk pertanyaan gambaran besar seperti, “Bagaimana Cleveland Browns bisa menjadi waralaba Super Bowl pada tahun 2027?” Meski begitu, mungkin biaya komputasi yang tinggi hanya sepadan jika Anda adalah manajer umum Cleveland Browns, dan Anda menggunakan alat ini untuk membuat beberapa keputusan besar.
Institusi berkantong tebal mungkin merupakan satu-satunya institusi yang mampu membayar o3, setidaknya untuk memulainya, seperti yang dicatat oleh profesor Wharton Ethan Mollick dalam sebuah menciak.
Kami telah melihat OpenAI merilis tingkat $200 untuk menggunakan versi komputasi tinggi o1, namun startup tersebut telah dilaporkan mempertimbangkan pembuatan paket berlangganan dengan biaya hingga $2.000. Saat Anda melihat berapa banyak komputasi o3 yang digunakan, Anda dapat memahami mengapa OpenAI mempertimbangkannya.
Namun ada kelemahan dalam menggunakan o3 untuk pekerjaan berdampak tinggi. Seperti yang dicatat Chollet, o3 bukanlah AGI, dan masih gagal dalam beberapa tugas mudah yang dapat dilakukan manusia dengan mudah.
Hal ini tidak mengherankan, karena model bahasa besar masih memiliki masalah halusinasi yang sangat besar, yang tampaknya belum terpecahkan oleh komputasi o3 dan waktu pengujian. Itu sebabnya ChatGPT dan Gemini menyertakan penafian di bawah setiap jawaban yang mereka hasilkan, meminta pengguna untuk tidak mempercayai jawaban begitu saja. Agaknya AGI, jika hal tersebut tercapai, tidak memerlukan pelepasan tanggung jawab hukum seperti itu.
Salah satu cara untuk mendapatkan lebih banyak keuntungan dalam penskalaan waktu pengujian adalah dengan menggunakan chip inferensi AI yang lebih baik. Banyak sekali startup yang menangani hal ini, seperti Groq atau Cerebras, sementara startup lain merancang chip AI yang lebih hemat biaya, seperti MatX. Mitra umum Andreessen Horowitz Anjney Midha sebelumnya mengatakan kepada TechCrunch bahwa dia mengharapkan startup ini memainkan peran yang lebih besar dalam penskalaan waktu pengujian di masa depan.
Meskipun o3 merupakan peningkatan penting pada kinerja model AI, hal ini menimbulkan beberapa pertanyaan baru seputar penggunaan dan biaya. Meskipun demikian, kinerja o3 menambah kepercayaan pada klaim bahwa komputasi waktu pengujian adalah cara terbaik berikutnya dalam industri teknologi untuk menskalakan model AI.
TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk mendapatkannya di kotak masuk Anda setiap hari Rabu.