Tolok ukur meta untuk model AI barunya agak menyesatkan

April 6, 2025

Salah satu model unggulan AI baru yang dirilis pada hari Sabtu, Maverick, peringkat kedua di LM ArenaTes yang memiliki penilai manusia membandingkan output model dan memilih mana yang mereka sukai. Tapi tampaknya versi Maverick yang meta digunakan ke LM Arena berbeda dari versi yang tersedia secara luas untuk pengembang.

Sebagai beberapa Ai peneliti Ditunjukkan pada X, Meta mencatat dalam pengumumannya bahwa Maverick di LM Arena adalah “versi obrolan eksperimental.” Grafik di Situs web Llama resmisementara itu, mengungkapkan bahwa pengujian arena LM Meta dilakukan dengan menggunakan “Llama 4 Maverick dioptimalkan untuk percakapan.”

Seperti yang telah kami tulis sebelumnya, karena berbagai alasan, LM Arena tidak pernah menjadi ukuran yang paling dapat diandalkan dari kinerja model AI. Tetapi perusahaan AI umumnya belum disesuaikan atau disesuaikan dengan model mereka untuk mencetak lebih baik di LM Arena-atau setidaknya tidak mengaku melakukannya.

Masalah dengan menyesuaikan model dengan tolok ukur, menahannya, dan kemudian melepaskan varian “vanilla” dari model yang sama adalah bahwa hal itu membuatnya menantang bagi pengembang untuk memprediksi dengan tepat seberapa baik model akan berkinerja dalam konteks tertentu. Itu juga menyesatkan. Idealnya, tolok ukur – sangat tidak memadai – memberikan snapshot dari kekuatan dan kelemahan model tunggal di berbagai tugas.

Memang, peneliti di X memiliki diamati Stark Perbedaan perilaku dari maverick yang dapat diunduh secara publik dibandingkan dengan model yang di -host di LM Arena. Versi LM Arena tampaknya menggunakan banyak emoji, dan memberikan jawaban yang sangat panjang.

Oke llama 4 adalah def lol littled yang dimasak, apa kota yap ini pic.twitter.com/y3gvhbvz65

– Nathan Lambert (@natolambert) 6 April 2025

Untuk beberapa alasan, model Llama 4 di Arena menggunakan lebih banyak emoji

bersama. AI, sepertinya lebih baik: pic.twitter.com/f74odx4ztt

– Tech Dev Notes (@TechDevNotes) 6 April 2025

Kami telah menghubungi Meta dan Chatbot Arena, organisasi yang memelihara LM Arena, untuk memberikan komentar.

Tolok ukur meta untuk model AI barunya agak menyesatkan

LEAVE A REPLY Cancel reply

EVEN MORE NEWS

Serangan Israel di Gaza membunuh atau melukai '100 anak sehari' |...

Pengacara aclu mengatakan 'siapa saja' dapat dideportasi jika tidak ada pengawasan

HS Track Meet Turpu Tersangka Karmelo Anthony Mendapat Ribuan Sumbangan

POPULAR CATEGORY

RELATED ARTICLESMORE FROM AUTHOR

Permintaan Inggris untuk apel backdoor tidak boleh didengar secara rahasia, kata pengadilan

Openai dilaporkan mempertimbangkan untuk membeli Jony Ive dan startup perangkat keras AI Sam Altman

Seseorang yang meretas situs kebocoran geng ransomware everest