Home Teknologi Meta Exec Menyangkal Skor Benchmark Llama 4 secara artifisial

Meta Exec Menyangkal Skor Benchmark Llama 4 secara artifisial

8
0
Meta Exec Menyangkal Skor Benchmark Llama 4 secara artifisial


Seorang eksekutif meta pada hari Senin membantah desas -desus bahwa perusahaan melatih model AI baru untuk menyajikan dengan baik pada tolok ukur tertentu sambil menyembunyikan kelemahan model.

Eksekutif, Ahmad al-Dahle, VP AI generatif di meta, kata dalam sebuah posting di x Bahwa itu “tidak benar” bahwa Meta melatih model Llama 4 Maverick dan Llama 4 pada “Test Sets.” Dalam tolok ukur AI, set uji adalah koleksi data yang digunakan untuk mengevaluasi kinerja model setelah dilatih. Pelatihan pada set tes dapat dengan menyesatkan mengembang skor tolok ukur model, membuat model tampak lebih mampu daripada yang sebenarnya.

Selama akhir pekan, rumor yang tidak berdasar Meta itu secara artifisial meningkatkan hasil tolok ukur model barunya mulai beredar pada X dan Reddit. Rumor itu tampaknya berasal dari sebuah posting di situs media sosial Tiongkok dari pengguna yang mengklaim telah mengundurkan diri dari meta sebagai protes atas praktik pembandingan perusahaan.

Melaporkan bahwa maverick dan scout melakukan buruk pada tugas tertentu memicu rumor, seperti halnya keputusan Meta untuk menggunakan versi eksperimental yang belum dirilis dari Maverick untuk mencapai skor yang lebih baik di arena LM patokan. Peneliti di X memiliki diamati Stark Perbedaan perilaku dari maverick yang dapat diunduh secara publik dibandingkan dengan model yang di -host di LM Arena.

Al-Dahle mengakui bahwa beberapa pengguna melihat “kualitas campuran” dari Maverick dan Scout di berbagai penyedia cloud yang menampung model.

“Karena kami menjatuhkan model segera setelah siap, kami berharap akan memakan waktu beberapa hari untuk semua implementasi publik untuk dihubungi,” kata Al-Dahle. “Kami akan terus bekerja melalui perbaikan bug dan mitra orientasi kami.”


LEAVE A REPLY

Please enter your comment!
Please enter your name here