Home Teknologi Tolok ukur meta untuk model AI barunya agak menyesatkan

Tolok ukur meta untuk model AI barunya agak menyesatkan

12
0
Tolok ukur meta untuk model AI barunya agak menyesatkan


Salah satu model unggulan AI baru yang dirilis pada hari Sabtu, Maverick, peringkat kedua di LM ArenaTes yang memiliki penilai manusia membandingkan output model dan memilih mana yang mereka sukai. Tapi tampaknya versi Maverick yang meta digunakan ke LM Arena berbeda dari versi yang tersedia secara luas untuk pengembang.

Sebagai beberapa Ai peneliti Ditunjukkan pada X, Meta mencatat dalam pengumumannya bahwa Maverick di LM Arena adalah “versi obrolan eksperimental.” Grafik di Situs web Llama resmisementara itu, mengungkapkan bahwa pengujian arena LM Meta dilakukan dengan menggunakan “Llama 4 Maverick dioptimalkan untuk percakapan.”

Seperti yang telah kami tulis sebelumnya, karena berbagai alasan, LM Arena tidak pernah menjadi ukuran yang paling dapat diandalkan dari kinerja model AI. Tetapi perusahaan AI umumnya belum disesuaikan atau disesuaikan dengan model mereka untuk mencetak lebih baik di LM Arena-atau setidaknya tidak mengaku melakukannya.

Masalah dengan menyesuaikan model dengan tolok ukur, menahannya, dan kemudian melepaskan varian “vanilla” dari model yang sama adalah bahwa hal itu membuatnya menantang bagi pengembang untuk memprediksi dengan tepat seberapa baik model akan berkinerja dalam konteks tertentu. Itu juga menyesatkan. Idealnya, tolok ukur – sangat tidak memadai – memberikan snapshot dari kekuatan dan kelemahan model tunggal di berbagai tugas.

Memang, peneliti di X memiliki diamati Stark Perbedaan perilaku dari maverick yang dapat diunduh secara publik dibandingkan dengan model yang di -host di LM Arena. Versi LM Arena tampaknya menggunakan banyak emoji, dan memberikan jawaban yang sangat panjang.

Kami telah menghubungi Meta dan Chatbot Arena, organisasi yang memelihara LM Arena, untuk memberikan komentar.




LEAVE A REPLY

Please enter your comment!
Please enter your name here