Home Teknologi AI tidak pandai dalam sejarah, demikian temuan makalah baru

AI tidak pandai dalam sejarah, demikian temuan makalah baru

24
0
AI tidak pandai dalam sejarah, demikian temuan makalah baru


AI mungkin unggul dalam tugas-tugas tertentu seperti coding atau membuat podcast. Namun sebuah makalah baru menemukan bahwa negara tersebut kesulitan untuk lulus ujian sejarah tingkat tinggi.

Sebuah tim peneliti telah membuat tolok ukur baru untuk menguji tiga model bahasa besar (LLM) teratas — GPT-4 OpenAI, Llama Meta, dan Gemini Google — pada pertanyaan sejarah. Tolok ukurnya, Hist-LLM, menguji kebenaran jawaban menurut Seshat Global History Databank, database luas pengetahuan sejarah yang dinamai dewi kebijaksanaan Mesir kuno.

Hasilnya, yang mana disajikan bulan lalu di konferensi AI tingkat tinggi, NeurIPS, mengecewakan, menurut para peneliti yang berafiliasi dengan tersebut Pusat Sains Kompleksitas (CSH), sebuah lembaga penelitian yang berbasis di Austria. LLM dengan performa terbaik adalah GPT-4 Turbo, namun hanya mencapai akurasi sekitar 46% — tidak lebih tinggi dari tebakan acak.

“Kesimpulan utama dari penelitian ini adalah bahwa LLM, meskipun mengesankan, masih kurang memiliki pemahaman mendalam yang diperlukan untuk sejarah tingkat lanjut. Data-data tersebut bagus untuk mengetahui fakta-fakta dasar, namun jika menyangkut penyelidikan sejarah tingkat PhD yang lebih bernuansa, data-data tersebut belum mampu melakukan tugasnya,” kata Maria del Rio-Chanona, salah satu penulis makalah dan rekanan. profesor ilmu komputer di University College London.

Para peneliti membagikan contoh pertanyaan historis kepada TechCrunch bahwa LLM salah. Misalnya, GPT-4 Turbo ditanya apakah armor skala hadir selama periode waktu tertentu di Mesir kuno. LLM menjawab ya, tapi teknologinya baru muncul di Mesir 1.500 tahun kemudian.

Mengapa LLM buruk dalam menjawab pertanyaan sejarah teknis, padahal mereka bisa sangat baik dalam menjawab pertanyaan yang sangat rumit tentang hal-hal seperti coding? Del Rio-Chanona mengatakan kepada TechCrunch bahwa hal ini mungkin terjadi karena LLM cenderung melakukan ekstrapolasi dari data historis yang sangat menonjol, sehingga sulit untuk mendapatkan kembali pengetahuan sejarah yang lebih tidak jelas.

Misalnya, para peneliti bertanya kepada GPT-4 apakah Mesir kuno memiliki pasukan profesional selama periode sejarah tertentu. Meskipun jawaban yang benar adalah tidak, LLM salah menjawabnya. Hal ini mungkin terjadi karena banyaknya informasi publik tentang kerajaan kuno lainnya, seperti Persia, yang memiliki pasukan tetap.

“Jika Anda diberi tahu A dan B 100 kali, dan C 1 kali, lalu ditanyai pertanyaan tentang C, Anda mungkin hanya mengingat A dan B dan mencoba memperkirakannya,” kata del Rio-Chanona.

Para peneliti juga mengidentifikasi tren lain, termasuk model OpenAI dan Llama yang memiliki performa lebih buruk di wilayah tertentu seperti Afrika Sub-Sahara, sehingga menunjukkan potensi bias dalam data pelatihan mereka.

Hasilnya menunjukkan bahwa LLM masih belum bisa menggantikan manusia dalam domain tertentu, kata Peter Turchin, yang memimpin penelitian dan merupakan anggota fakultas di CSH.

Namun para peneliti masih berharap LLM dapat membantu sejarawan di masa depan. Mereka berupaya menyempurnakan tolok ukurnya dengan memasukkan lebih banyak data dari wilayah yang kurang terwakili dan menambahkan pertanyaan yang lebih kompleks.

“Secara keseluruhan, meskipun hasil kami menyoroti area di mana LLM perlu ditingkatkan, hasil tersebut juga menggarisbawahi potensi model ini untuk membantu penelitian sejarah,” tulis makalah tersebut.


LEAVE A REPLY

Please enter your comment!
Please enter your name here