Sudahkah para peneliti menemukan “hukum penskalaan” AI baru? Itulah yang Beberapa buzz di media sosial menyarankan – tetapi para ahli skeptis.
Undang -undang penskalaan AI, sedikit konsep informal, menggambarkan bagaimana kinerja model AI meningkat seiring dengan ukuran dataset dan sumber daya komputasi yang digunakan untuk melatihnya meningkat. Sampai kira-kira setahun yang lalu, meningkatkan “pra-pelatihan”-melatih model-model yang semakin besar pada dataset yang semakin besar-adalah hukum yang dominan sejauh ini, setidaknya dalam arti bahwa sebagian besar Laboratorium AI perbatasan memeluknya.
Pra-pelatihan belum hilang, tetapi dua undang-undang penskalaan tambahan, penskalaan pasca-pelatihan dan penskalaan waktu tes, telah muncul untuk melengkapi itu. Penskalaan pasca-pelatihan pada dasarnya menyesuaikan perilaku model, sementara penskalaan waktu tes memerlukan menerapkan lebih banyak komputasi untuk inferensi-yaitu model yang berjalan-untuk menggerakkan bentuk “penalaran” (lihat: model seperti R1).
Peneliti Google dan UC Berkeley baru -baru ini mengusulkan dalam a kertas Apa yang digambarkan oleh beberapa komentator online sebagai undang-undang keempat: “Pencarian waktu inferensi.”
Pencarian waktu inferensi memiliki model menghasilkan banyak kemungkinan jawaban untuk kueri secara paralel dan kemudian pilih “terbaik” dari kelompok itu. Para peneliti mengklaim dapat meningkatkan kinerja model tahun setahun, seperti Google Gemini 1.5 Pro, ke tingkat yang melampaui model “penalaran” O1 Openai tentang sains dan tolok ukur matematika.
Makalah kami berfokus pada sumbu pencarian ini dan tren penskalaannya. Misalnya, hanya dengan mencicipi 200 respons secara acak dan memverifikasi diri sendiri, Gemini 1.5 (model awal 2024 kuno!) Mengalahkan preview O1 dan mendekati O1. Ini tanpa finetuning, RL, atau verifier kebenaran tanah. pic.twitter.com/hb5fo7ifnh
– Eric Zhao (@Ericzhao28) 17 Maret 2025
“[B]y Just secara acak mencicipi 200 respons dan memverifikasi diri sendiri, Gemini 1.5-model awal 2024 kuno-mengalahkan preview O1 dan mendekati O1, ”Eric Zhao, seorang rekan doktor Google Doctor dan salah satu rekan penulis surat kabar itu, dalam a serangkaian posting di x. “Keajaibannya adalah bahwa verifikasi diri secara alami menjadi lebih mudah dalam skala! Anda akan berharap bahwa memilih solusi yang benar menjadi lebih sulit, semakin besar kumpulan solusi Anda, tetapi sebaliknya adalah kasusnya!”
Namun, beberapa ahli mengatakan bahwa hasilnya tidak mengejutkan, dan bahwa pencarian waktu inferensi mungkin tidak berguna dalam banyak skenario.
Matthew Guzdial, seorang peneliti AI dan asisten profesor di University of Alberta, mengatakan kepada TechCrunch bahwa pendekatan tersebut bekerja paling baik ketika ada “fungsi evaluasi” yang baik – dengan kata lain, ketika jawaban terbaik untuk pertanyaan dapat dengan mudah dipastikan. Tapi sebagian besar pertanyaan tidak begitu dipotong dan kering.
“[I]f Kami tidak dapat menulis kode untuk menentukan apa yang kami inginkan, kami tidak dapat menggunakannya [inference-time] Cari, “katanya.” Untuk sesuatu seperti interaksi bahasa umum, kami tidak dapat melakukan ini […] Ini umumnya bukan pendekatan yang bagus untuk benar -benar memecahkan sebagian besar masalah. ”
Mike Cook, seorang peneliti di King's College London yang berspesialisasi dalam AI, setuju dengan penilaian Guzdial, menambahkan bahwa itu menyoroti kesenjangan antara “penalaran” dalam arti kata AI dan proses pemikiran kita sendiri.
“[Inference-time search] tidak 'mengangkat proses penalaran' model, “kata Cook.”[I]Ini hanya cara kita mengatasi keterbatasan teknologi yang cenderung membuat kesalahan yang sangat percaya diri […] Secara intuitif jika model Anda membuat kesalahan 5% dari waktu, kemudian memeriksa 200 upaya pada masalah yang sama harus membuat kesalahan itu lebih mudah dikenali. “
Pencarian waktu inferensi itu mungkin memiliki keterbatasan pasti akan menjadi berita yang tidak disukai bagi industri AI yang ingin meningkatkan model “penalaran” komputen secara efisien. Sebagai rekan penulis catatan kertas, model penalaran hari ini dapat memeras ribuan dolar komputasi pada satu masalah matematika.
Tampaknya pencarian teknik penskalaan baru akan berlanjut.