Bagaimana model pembelajaran mesin melakukan tugasnya? Dan apakah mereka benar-benar “berpikir” atau “bernalar” seperti kita memahami hal-hal tersebut? Ini adalah pertanyaan filosofis sekaligus pertanyaan praktis, namun sebuah makalah baru yang beredar pada hari Jumat menunjukkan bahwa jawabannya, setidaknya untuk saat ini, cukup jelas “tidak”.
Sekelompok ilmuwan peneliti AI di Apple merilis makalah mereka, “Memahami keterbatasan penalaran matematika dalam model bahasa besar,” untuk komentar umum pada hari Kamis. Meskipun konsep yang lebih dalam tentang pembelajaran simbolik dan reproduksi pola masih sedikit membingungkan, konsep dasar penelitian mereka sangat mudah untuk dipahami.
Katakanlah saya meminta Anda menyelesaikan soal matematika sederhana seperti ini:
Oliver memetik 44 buah kiwi pada hari Jumat. Kemudian dia memetik 58 buah kiwi pada hari Sabtu. Pada hari Minggu, dia memetik dua kali lipat jumlah kiwi yang dia petik pada hari Jumat. Berapa banyak kiwi yang dimiliki Oliver?
Jelas sekali, jawabannya adalah 44 + 58 + (44 * 2) = 190. Meskipun model bahasa besar sebenarnya tidak sempurna dalam aritmatika, model tersebut dapat menyelesaikan masalah seperti ini dengan cukup andal. Namun bagaimana jika saya memberikan sedikit informasi tambahan secara acak, seperti ini:
Oliver memetik 44 buah kiwi pada hari Jumat. Kemudian dia memetik 58 buah kiwi pada hari Sabtu. Pada hari Minggu, dia memetik dua kali lipat jumlah kiwi yang dia petik pada hari Jumat, tapi lima di antaranya sedikit lebih kecil dari rata-rata. Berapa banyak kiwi yang dimiliki Oliver?
Itu soal matematika yang sama, kan? Dan tentu saja anak sekolah dasar pun akan tahu bahwa kiwi yang kecil pun tetaplah kiwi. Namun ternyata, titik data tambahan ini bahkan membingungkan LLM yang paling canggih sekalipun. Inilah pendapat GPT-o1-mini:
…pada hari Minggu, 5 buah kiwi ini lebih kecil dari rata-rata. Kita perlu menguranginya dari total hari Minggu: 88 (kiwi hari Minggu) – 5 (kiwi yang lebih kecil) = 83 kiwi
Ini hanyalah contoh sederhana dari ratusan pertanyaan yang telah dimodifikasi dengan ringan oleh para peneliti, namun hampir semuanya menyebabkan penurunan tingkat keberhasilan yang sangat besar pada model yang mencobanya.
Sekarang, mengapa hal ini harus terjadi? Mengapa model yang memahami masalahnya bisa dengan mudah dikesampingkan oleh detail acak dan tidak relevan? Para peneliti berpendapat bahwa mode kegagalan yang andal ini berarti model tidak benar-benar memahami masalahnya sama sekali. Data pelatihan mereka memungkinkan mereka untuk merespons dengan jawaban yang benar dalam beberapa situasi, tetapi segera setelah “penalaran” sekecil apa pun diperlukan, seperti apakah akan menghitung kiwi kecil, mereka mulai memberikan hasil yang aneh dan tidak intuitif.
Seperti yang diungkapkan para peneliti dalam makalah mereka:
[W]Kami menyelidiki kerapuhan penalaran matematis dalam model-model ini dan menunjukkan bahwa kinerjanya menurun secara signifikan seiring dengan bertambahnya jumlah klausa dalam sebuah pertanyaan. Kami berhipotesis bahwa penurunan ini disebabkan oleh fakta bahwa LLM saat ini tidak mampu memberikan alasan logis yang sebenarnya; sebaliknya, mereka mencoba mereplikasi langkah-langkah penalaran yang diamati dalam data pelatihan mereka.
Pengamatan ini konsisten dengan kualitas lain yang sering dikaitkan dengan LLM karena fasilitas mereka dalam bahasa. Jika, secara statistik, frasa “Aku mencintaimu” diikuti dengan “Aku juga mencintaimu”, LLM dapat dengan mudah mengulanginya — namun bukan berarti ia mencintaimu. Dan meskipun ia dapat mengikuti rantai penalaran rumit yang telah dijelaskan sebelumnya, fakta bahwa rantai ini dapat diputus bahkan oleh penyimpangan yang dangkal menunjukkan bahwa ia sebenarnya tidak terlalu banyak berpikir, melainkan mereplikasi pola yang telah diamati dalam data pelatihannya.
Mehrdad Farajtabar, salah satu rekan penulis, memecah kertas dengan sangat baik di thread ini di X.
Seorang peneliti OpenAI, sambil memuji karya Mirzadeh dkk, keberatan dengan kesimpulan merekamengatakan bahwa hasil yang benar kemungkinan besar dapat dicapai dalam semua kasus kegagalan ini dengan sedikit rekayasa yang cepat. Farajtabar (menanggapi dengan sikap ramah yang khas namun mengagumkan yang cenderung diterapkan oleh para peneliti) mencatat bahwa meskipun dorongan yang lebih baik mungkin berhasil untuk penyimpangan sederhana, model tersebut mungkin memerlukan data yang lebih kontekstual secara eksponensial untuk melawan gangguan yang kompleks – gangguan yang, sekali lagi, dapat dengan mudah ditunjukkan oleh seorang anak. keluar.
Apakah ini berarti LLM tidak beralasan? Mungkin. Bahwa mereka tidak bisa bernalar? Tidak ada yang tahu. Konsep-konsep ini tidak terdefinisi dengan baik, dan pertanyaan-pertanyaan tersebut cenderung muncul pada penelitian-penelitian AI yang paling mutakhir, dimana keadaan terkininya berubah setiap hari. Mungkin LLM “beralasan”, tetapi kita belum mengenali atau mengetahui cara mengendalikannya.
Hal ini menjadi terobosan menarik dalam penelitian, namun juga merupakan kisah peringatan mengenai bagaimana AI dijual. Dapatkah mereka benar-benar melakukan apa yang mereka klaim, dan jika ya, bagaimana caranya? Ketika AI menjadi alat perangkat lunak sehari-hari, pertanyaan semacam ini tidak lagi bersifat akademis.