Home Teknologi Will Smith memakan spageti dan tolok ukur AI aneh lainnya yang diluncurkan...

Will Smith memakan spageti dan tolok ukur AI aneh lainnya yang diluncurkan pada tahun 2024

28
0
Will Smith memakan spageti dan tolok ukur AI aneh lainnya yang diluncurkan pada tahun 2024


Ketika sebuah perusahaan merilis generator video AI baru, tidak lama kemudian seseorang menggunakannya untuk membuat video aktor Will Smith sedang makan spageti.

Ini menjadi semacam meme sekaligus tolok ukur: Melihat apakah generator video baru secara realistis dapat membuat Smith menyeruput semangkuk mie. Smith sendiri diparodikan tren postingan Instagram di bulan Februari.

Will Smith dan pasta hanyalah salah satu dari beberapa tolok ukur “tidak resmi” yang mengejutkan komunitas AI pada tahun 2024. Seorang pengembang berusia 16 tahun membuat aplikasi yang memberi AI kendali atas Minecraft dan menguji kemampuannya dalam merancang struktur. Di tempat lain, seorang programmer Inggris menciptakan platform tempat AI memainkan game seperti Pictionary dan Connect 4 satu sama lain.

Bukan berarti tidak ada lagi tes akademis terhadap kinerja AI. Jadi mengapa yang lebih aneh itu meledak?

Kredit Gambar:Paul Calcraft

Pertama, banyak tolok ukur AI standar industri yang tidak memberikan informasi banyak kepada kebanyakan orang. Perusahaan sering kali menyebutkan kemampuan AI mereka dalam menjawab pertanyaan ujian Olimpiade Matematika, atau mencari solusi yang masuk akal untuk permasalahan tingkat Ph.D. Namun kebanyakan orang — termasuk Anda — menggunakan chatbots untuk hal-hal seperti menanggapi email dan penelitian dasar.

Langkah-langkah industri crowdsourcing belum tentu lebih baik atau lebih informatif.

Ambil contoh, Chatbot Arena, tolok ukur publik yang diikuti oleh banyak penggemar dan pengembang AI secara obsesif. Chatbot Arena memungkinkan siapa pun di web menilai seberapa baik kinerja AI pada tugas tertentu, seperti membuat aplikasi web atau menghasilkan gambar. Namun penilai cenderung tidak representatif – sebagian besar berasal dari kalangan AI dan industri teknologi – dan memberikan suara mereka berdasarkan preferensi pribadi yang sulit ditentukan.

LMSYS
Antarmuka Chatbot Arena.Kredit Gambar:LMSYS

Ethan Mollick, seorang profesor manajemen di Wharton, baru-baru ini menunjukkan dalam a pos di X masalah lain dengan banyak tolok ukur industri AI: mereka tidak membandingkan kinerja sistem dengan kinerja rata-rata orang.

“Fakta bahwa tidak ada 30 tolok ukur yang berbeda dari berbagai organisasi dalam bidang kedokteran, hukum, kualitas nasihat, dan sebagainya sungguh memalukan, karena orang-orang tetap menggunakan sistem untuk hal-hal ini,” tulis Mollick.

Tolok ukur AI yang aneh seperti Connect 4, Minecraft, dan Will Smith pasti memakan spageti bukan empiris – atau bahkan semua yang dapat digeneralisasikan. Hanya karena AI berhasil dalam pengujian Will Smith tidak berarti AI tersebut akan menghasilkan, katakanlah, burger dengan baik.

Mcbench
Perhatikan kesalahan ketik; tidak ada model seperti Claude 3.6 Soneta.Kredit Gambar:Adonis Singh

Salah satu pakar yang saya ajak bicara tentang tolok ukur AI menyarankan agar komunitas AI fokus pada dampak hilir AI dibandingkan kemampuannya dalam domain sempit. Itu masuk akal. Namun saya merasa tolok ukur yang aneh ini tidak akan hilang dalam waktu dekat. Tidak hanya menghibur — siapa yang tidak suka menonton AI membangun kastil Minecraft? — tapi mudah dimengerti. Dan seperti yang ditulis oleh rekan saya Max Zeff baru-baru ini, industri ini terus bergulat dalam menyaring teknologi serumit AI menjadi pemasaran yang mudah dicerna.

Satu-satunya pertanyaan di benak saya adalah, tolok ukur baru manakah yang akan menjadi viral pada tahun 2025?




LEAVE A REPLY

Please enter your comment!
Please enter your name here