Home Teknologi Mengapa AI tidak bisa mengeja 'stroberi'

Mengapa AI tidak bisa mengeja 'stroberi'

56
0
Mengapa AI tidak bisa mengeja 'stroberi'


Berapa kali huruf R muncul dalam kata “strawberry?” Menurut produk AI hebat seperti GPT-4o dan Claude, jawabannya adalah dua kali.

Model bahasa yang besar dapat menulis esai dan memecahkan persamaan dalam hitungan detik. Mereka dapat mensintesiskan data berukuran terabyte lebih cepat daripada manusia yang dapat membuka buku. Namun, AI yang tampaknya mahatahu ini terkadang gagal secara spektakuler sehingga kesalahan tersebut berubah menjadi meme viral, dan kita semua bersukacita karena mungkin, masih ada waktu sebelum kita harus tunduk kepada penguasa AI baru kita.

Kegagalan model bahasa yang besar untuk memahami konsep huruf dan suku kata merupakan indikasi kebenaran yang lebih besar yang sering kita lupakan: Benda-benda ini tidak punya otak. Mereka tidak berpikir seperti kita. Mereka bukan manusia, bahkan tidak mirip manusia.

Sebagian besar LLM dibangun di atas transformer, semacam arsitektur pembelajaran mendalam. Model transformer memecah teks menjadi token, yang dapat berupa kata-kata, suku kata, atau huruf lengkap, tergantung pada modelnya.

“LLM didasarkan pada arsitektur transformer ini, yang secara khusus tidak benar-benar membaca teks. Yang terjadi saat Anda memasukkan perintah adalah perintah tersebut diterjemahkan ke dalam sebuah enkode,” kata Matthew Guzdial, seorang peneliti AI dan asisten profesor di University of Alberta, kepada TechCrunch. “Saat melihat kata 'the,' ia memiliki satu enkode tentang apa arti 'the', tetapi ia tidak tahu tentang 'T,' 'H,' 'E.'”

Hal ini karena transformer tidak dapat menerima atau mengeluarkan teks aktual secara efisien. Sebaliknya, teks diubah menjadi representasi numerik dari dirinya sendiri, yang kemudian dikontekstualisasikan untuk membantu AI menghasilkan respons yang logis. Dengan kata lain, AI mungkin tahu bahwa token “straw” dan “berry” membentuk “strawberry,” tetapi mungkin tidak mengerti bahwa “strawberry” terdiri dari huruf “s,” “t,” “r,” “a,” “w,” “b,” “e,” “r,” “r,” dan “y,” dalam urutan tertentu. Jadi, ia tidak dapat memberi tahu Anda berapa banyak huruf — apalagi berapa banyak “r” — yang muncul dalam kata “strawberry.”

Ini bukan masalah mudah untuk diperbaiki, karena masalah ini tertanam dalam arsitektur yang membuat LLM ini berfungsi.

Kyle Wiggers dari TechCrunch menyelidiki masalah ini bulan lalu dan berbicara dengan Sheridan Feucht, seorang mahasiswa PhD di Northeastern University yang mempelajari interpretabilitas LLM.

“Agak sulit untuk menjawab pertanyaan tentang apa sebenarnya 'kata' yang seharusnya untuk model bahasa, dan bahkan jika kita meminta para ahli manusia untuk menyetujui kosakata token yang sempurna, model mungkin masih akan merasa berguna untuk 'mengelompokkan' hal-hal lebih jauh lagi,” kata Feucht kepada TechCrunch. “Dugaan saya adalah tidak ada yang namanya tokenizer yang sempurna karena ketidakjelasan semacam ini.”

Masalah ini menjadi lebih rumit saat seorang LLM mempelajari lebih banyak bahasa. Misalnya, beberapa metode tokenisasi mungkin menganggap bahwa spasi dalam kalimat akan selalu mendahului kata baru, tetapi banyak bahasa seperti Cina, Jepang, Thailand, Laos, Korea, Khmer, dan lainnya tidak menggunakan spasi untuk memisahkan kata. Peneliti AI Google DeepMind Yennie Jun menemukan dalam sebuah studi tahun 2023 bahwa beberapa bahasa membutuhkan hingga sepuluh kali lebih banyak token daripada bahasa Inggris untuk mengomunikasikan makna yang sama.

“Mungkin lebih baik membiarkan model melihat karakter secara langsung tanpa menerapkan tokenisasi, tetapi saat ini hal itu tidak layak secara komputasi untuk transformer,” kata Feucht.

Generator gambar seperti Midjourney dan DALL-E tidak menggunakan arsitektur transformer yang terdapat di balik generator teks seperti ChatGPT. Sebaliknya, generator gambar biasanya menggunakan model difusi, yang merekonstruksi gambar dari noise. Model difusi dilatih pada basis data gambar yang besar, dan mereka diberi insentif untuk mencoba menciptakan kembali sesuatu seperti yang mereka pelajari dari data pelatihan.

Kredit Gambar: Adobe Kunang-kunang

Asmelash Teka Hadgu, salah satu pendiri Lisan dan seorang rekan di Institut DAIRmengatakan kepada TechCrunch, “Generator gambar cenderung berkinerja jauh lebih baik pada artefak seperti mobil dan wajah orang, dan kurang begitu baik pada hal-hal yang lebih kecil seperti jari dan tulisan tangan.”

Hal ini dapat terjadi karena detail yang lebih kecil ini tidak sering muncul secara mencolok dalam set pelatihan seperti konsep seperti bagaimana pohon biasanya memiliki daun hijau. Namun, masalah dengan model difusi mungkin lebih mudah diperbaiki daripada yang mengganggu transformer. Beberapa generator gambar telah ditingkatkan dalam merepresentasikan tangan, misalnya, dengan melatih lebih banyak gambar tangan manusia yang nyata.

“Bahkan tahun lalu, semua model ini sangat buruk dalam hal jari, dan itu masalah yang sama persis dengan teks,” jelas Guzdial. “Mereka menjadi sangat ahli dalam hal itu secara lokal, jadi jika Anda melihat tangan dengan enam atau tujuh jari, Anda dapat berkata, 'Wah, itu terlihat seperti jari.' Demikian pula, dengan teks yang dihasilkan, Anda dapat berkata, itu terlihat seperti 'H,' dan itu terlihat seperti 'P,' tetapi mereka sangat buruk dalam menyusun semua hal ini secara bersamaan.”

Kredit Gambar: Perancang Microsoft (DALL-E 3)

Itulah sebabnya, jika Anda meminta generator gambar AI untuk membuat menu untuk restoran Meksiko, Anda mungkin akan mendapatkan item normal seperti “Tacos,” tetapi kemungkinan besar Anda akan menemukan menu seperti “Tamilos,” “Enchidaa,” dan “Burhiltos.”

Saat meme tentang ejaan “strawberry” tersebar di internet, OpenAI tengah menggarap produk AI baru dengan nama kode Strawberry, yang seharusnya lebih mahir dalam penalaran. Pertumbuhan LLM dibatasi oleh fakta bahwa tidak ada cukup data pelatihan di dunia untuk membuat produk seperti ChatGPT lebih akurat. Namun Strawberry dilaporkan dapat menghasilkan data sintetis yang akurat untuk membuat LLM OpenAI lebih baik lagi. Menurut InformasiStrawberry dapat memecahkan teka-teki kata Connections New York Times, yang memerlukan pemikiran kreatif dan pengenalan pola untuk menyelesaikannya, dan dapat memecahkan persamaan matematika yang belum pernah dilihatnya sebelumnya.

Sementara itu, Google DeepMind baru-baru ini terungkap AlphaProof dan AlphaGeometry 2, sistem AI yang dirancang untuk penalaran matematika formal. Google mengatakan kedua sistem ini memecahkan empat dari enam soal dari Olimpiade Matematika Internasional, yang akan menjadi penampilan yang cukup baik untuk meraih medali perak di kompetisi bergengsi tersebut.

Meme tentang AI yang tidak bisa mengeja “stroberi” beredar di saat yang sama dengan laporan tentang Strawberry dari OpenAINamun CEO OpenAI Sam Altman memanfaatkan kesempatan ini untuk menunjukkan kepada kita bahwa dia memiliki hasil panen buah beri yang cukup mengesankan kebun.


LEAVE A REPLY

Please enter your comment!
Please enter your name here