The ARC Prize Foundation, sebuah nirlaba yang didirikan oleh peneliti AI terkemuka François Chollet, diumumkan dalam a Posting Blog Pada hari Senin bahwa ia telah menciptakan tes baru yang menantang untuk mengukur kecerdasan umum model AI terkemuka.
Sejauh ini, tes baru, yang disebut ARC-AGI-2, telah membuat sebagian besar model.
Model AI “penalaran” seperti Openai's O1-Pro dan Skor R1 Deepseek antara 1% dan 1,3% pada ARC-AGI-2, menurutnya Papan peringkat Hadiah ARC. Model non-reasoning yang kuat termasuk GPT-4.5, Claude 3.7 soneta, dan skor flash Gemini 2.0 sekitar 1%.
Tes ARC-AGI terdiri dari masalah seperti puzzle di mana AI harus mengidentifikasi pola visual dari kumpulan kotak berwarna berbeda, dan menghasilkan kisi “jawaban” yang benar. Masalahnya dirancang untuk memaksa AI untuk beradaptasi dengan masalah baru yang belum pernah dilihat sebelumnya.
Yayasan Hadiah ARC memiliki lebih dari 400 orang mengambil ARC-AGI-2 untuk membangun garis dasar manusia. Rata -rata, “panel” dari orang -orang ini mendapatkan 60% dari pertanyaan tes dengan benar – jauh lebih baik daripada skor model mana pun.
Di sebuah Posting di xChollet mengklaim ARC-AGI-2 adalah ukuran yang lebih baik dari kecerdasan aktual model AI daripada iterasi pertama dari tes, ARC-AGI-1. Tes Yayasan Hadiah ARC bertujuan untuk mengevaluasi apakah sistem AI dapat secara efisien memperoleh keterampilan baru di luar data yang dilatih.
Chollet mengatakan bahwa tidak seperti ARC-AGI-1, tes baru mencegah model AI mengandalkan “brute force”-kekuatan komputasi yang luas-untuk menemukan solusi. Chollet sebelumnya mengakui bahwa ini adalah cacat utama ARC-AGI-1.
Untuk mengatasi kelemahan tes pertama, ARC-AGI-2 memperkenalkan metrik baru: efisiensi. Ini juga membutuhkan model untuk menafsirkan pola dengan cepat alih -alih mengandalkan hafalan.
“Kecerdasan tidak semata-mata didefinisikan oleh kemampuan untuk memecahkan masalah atau mencapai skor tinggi,” co-founder ARC Prize Foundation Greg Kamradt menulis dalam a Posting Blog. “Efisiensi dengan mana kemampuan tersebut diperoleh dan digunakan adalah komponen yang penting dan mendefinisikan. Pertanyaan inti yang ditanyakan bukan hanya, 'dapat diperoleh AI [the] keterampilan untuk menyelesaikan tugas? ' Tetapi juga, 'pada efisiensi atau biaya berapa?' “
ARC-AGI-1 tidak terkalahkan selama sekitar lima tahun hingga Desember 2024, ketika Openai merilis model penalaran canggih, O3, yang mengungguli semua model AI lainnya dan cocok dengan kinerja manusia pada evaluasi. Namun, seperti yang kami catat pada saat itu, perolehan kinerja O3 di ARC-AGI-1 datang dengan label harga yang besar.
Versi model O3 OpenAI-O3 (rendah)-yang pertama kali mencapai ketinggian baru di ARC-AGI-1, mencetak 75,7% pada tes, mendapat 4% sedikit pada ARC-AGI-2 menggunakan daya komputasi senilai $ 200 per tugas.

Kedatangan ARC-AGI-2 datang karena banyak di industri teknologi menyerukan tolok ukur baru yang tidak jenuh untuk mengukur kemajuan AI. Salah satu pendiri Hugging Face, Thomas Wolf, baru-baru ini mengatakan kepada TechCrunch bahwa industri AI tidak memiliki tes yang cukup untuk mengukur sifat-sifat kunci dari apa yang disebut kecerdasan umum buatan, termasuk kreativitas.
Bersamaan dengan tolok ukur baru, Yayasan Hadiah ARC mengumumkan Kontes Hadiah ARC 2025 Barumenantang pengembang untuk mencapai akurasi 85% pada tes ARC-AGI-2 sementara hanya menghabiskan $ 0,42 per tugas.