Salah satu model unggulan AI baru yang dirilis pada hari Sabtu, Maverick, peringkat kedua di LM ArenaTes yang memiliki penilai manusia membandingkan output model dan memilih mana yang mereka sukai. Tapi tampaknya versi Maverick yang meta digunakan ke LM Arena berbeda dari versi yang tersedia secara luas untuk pengembang.
Sebagai beberapa Ai peneliti Ditunjukkan pada X, Meta mencatat dalam pengumumannya bahwa Maverick di LM Arena adalah “versi obrolan eksperimental.” Grafik di Situs web Llama resmisementara itu, mengungkapkan bahwa pengujian arena LM Meta dilakukan dengan menggunakan “Llama 4 Maverick dioptimalkan untuk percakapan.”
Seperti yang telah kami tulis sebelumnya, karena berbagai alasan, LM Arena tidak pernah menjadi ukuran yang paling dapat diandalkan dari kinerja model AI. Tetapi perusahaan AI umumnya belum disesuaikan atau disesuaikan dengan model mereka untuk mencetak lebih baik di LM Arena-atau setidaknya tidak mengaku melakukannya.
Masalah dengan menyesuaikan model dengan tolok ukur, menahannya, dan kemudian melepaskan varian “vanilla” dari model yang sama adalah bahwa hal itu membuatnya menantang bagi pengembang untuk memprediksi dengan tepat seberapa baik model akan berkinerja dalam konteks tertentu. Itu juga menyesatkan. Idealnya, tolok ukur – sangat tidak memadai – memberikan snapshot dari kekuatan dan kelemahan model tunggal di berbagai tugas.
Memang, peneliti di X memiliki diamati Stark Perbedaan perilaku dari maverick yang dapat diunduh secara publik dibandingkan dengan model yang di -host di LM Arena. Versi LM Arena tampaknya menggunakan banyak emoji, dan memberikan jawaban yang sangat panjang.
Oke llama 4 adalah def lol littled yang dimasak, apa kota yap ini pic.twitter.com/y3gvhbvz65
– Nathan Lambert (@natolambert) 6 April 2025
Untuk beberapa alasan, model Llama 4 di Arena menggunakan lebih banyak emoji
bersama. AI, sepertinya lebih baik: pic.twitter.com/f74odx4ztt
– Tech Dev Notes (@TechDevNotes) 6 April 2025
Kami telah menghubungi Meta dan Chatbot Arena, organisasi yang memelihara LM Arena, untuk memberikan komentar.