Home Teknologi Orang -orang menggunakan Super Mario untuk membandingkan AI sekarang

Orang -orang menggunakan Super Mario untuk membandingkan AI sekarang

12
0
Orang -orang menggunakan Super Mario untuk membandingkan AI sekarang


Pikir Pokémon adalah tolok ukur yang sulit untuk AI? Satu kelompok peneliti berpendapat bahwa Super Mario Bros. bahkan lebih sulit.

Hao AI Lab, sebuah org riset di University of California San Diego, pada hari Jumat melemparkan AI ke dalam game Super Mario Bros langsung. Claude 3.7 Anthropic melakukan yang terbaik, diikuti oleh Claude 3.5. Google's Gemini 1.5 Pro dan Openai's GPT-4O berjuang.

Itu bukan versi yang sama dari Super Mario Bros. sebagai rilis asli tahun 1985, untuk lebih jelas. Gim ini berjalan dalam emulator dan diintegrasikan dengan kerangka kerja, GamingAgentuntuk memberikan kontrol AIS atas Mario.

Kredit gambar:Hao Lab

GamingAgent, yang dikembangkan Hao di rumah, memberi makan instruksi dasar AI, seperti, “Jika rintangan atau musuh dekat, bergerak/melompat ke kiri untuk menghindar” dan tangkapan layar dalam game. AI kemudian menghasilkan input dalam bentuk kode Python untuk mengontrol Mario.

Namun, Hao mengatakan bahwa permainan memaksa setiap model untuk “belajar” untuk merencanakan manuver yang kompleks dan mengembangkan strategi gameplay. Menariknya, lab menemukan bahwa model penalaran seperti Openai's O1, yang “berpikir” melalui masalah selangkah demi selangkah untuk sampai pada solusi, berkinerja lebih buruk daripada model “tidak beresusasut”, meskipun umumnya lebih kuat pada sebagian besar tolok ukur.

Salah satu alasan utama model penalaran mengalami kesulitan bermain game real-time seperti ini adalah karena mereka membutuhkan waktu-detik, biasanya-untuk memutuskan tindakan, menurut para peneliti. Di Super Mario Bros., waktu adalah segalanya. Sedetik dapat berarti perbedaan antara lompatan yang dibersihkan dengan aman dan jatuh ke kematian Anda.

Game telah digunakan untuk membandingkan AI selama beberapa dekade. Tetapi Beberapa ahli telah mempertanyakan kebijaksanaan menggambar koneksi antara keterampilan game AI dan kemajuan teknologi. Berbeda dengan dunia nyata, permainan cenderung abstrak dan relatif sederhana, dan mereka memberikan jumlah data yang tak terbatas secara teoritis untuk melatih AI.

Tolok ukur game mencolok baru -baru ini menunjukkan apa yang Andrej Karpathy, seorang ilmuwan peneliti dan anggota pendiri di Openai, disebut “krisis evaluasi.”

“Saya tidak benar -benar tahu apa [AI] metrik untuk dilihat sekarang, ”tulisnya di a Posting di x. “Tldr reaksi saya adalah saya tidak benar -benar tahu seberapa baik model ini sekarang.”

Setidaknya kita bisa menonton AI bermain Mario.


LEAVE A REPLY

Please enter your comment!
Please enter your name here