Home Teknologi Apa yang dimaksud dengan 'model dunia' AI dan mengapa hal itu penting?

Apa yang dimaksud dengan 'model dunia' AI dan mengapa hal itu penting?

21
0
Apa yang dimaksud dengan 'model dunia' AI dan mengapa hal itu penting?


Model dunia, juga dikenal sebagai simulator dunia, disebut-sebut oleh beberapa orang sebagai hal besar berikutnya dalam AI.

Pionir AI, Fei-Fei Li's World Labs telah mengumpulkan $230 juta untuk membangun “model dunia besar,” dan DeepMind mempekerjakan salah satu pembuat generator video OpenAI, Sora, untuk mengerjakan “simulator dunia.” (Sora dirilis pada hari Senin; berikut beberapa kesan awalnya.)

Tapi apa-apaan ini adalah hal-hal ini?

Model dunia mengambil inspirasi dari model mental dunia yang dikembangkan manusia secara alami. Otak kita mengambil representasi abstrak dari indera kita dan membentuknya menjadi pemahaman yang lebih konkrit tentang dunia di sekitar kita, menghasilkan apa yang kita sebut “model” jauh sebelum AI mengadopsi istilah tersebut. Prediksi yang dibuat otak kita berdasarkan model ini memengaruhi cara kita memandang dunia.

A kertas oleh peneliti AI David Ha dan Jürgen Schmidhuber memberikan contoh pemukul bisbol. Pemukul mempunyai waktu milidetik untuk memutuskan bagaimana cara mengayunkan pemukulnya – lebih pendek dari waktu yang dibutuhkan sinyal visual untuk mencapai otak. Alasan mereka mampu melakukan fastball dengan kecepatan 100 mil per jam adalah karena mereka secara naluriah dapat memprediksi ke mana arah bola, kata Ha dan Schmidhuber.

“Untuk pemain profesional, ini semua terjadi secara tidak sadar,” tulis duo peneliti tersebut. “Otot mereka secara refleks mengayunkan pemukul pada waktu dan lokasi yang tepat sesuai dengan prediksi model internal mereka. Mereka dapat dengan cepat bertindak berdasarkan prediksi mereka tentang masa depan tanpa perlu secara sadar menyusun kemungkinan skenario masa depan untuk membentuk sebuah rencana.”

Aspek penalaran bawah sadar dari model dunia inilah yang diyakini sebagian orang sebagai prasyarat bagi kecerdasan tingkat manusia.

Memodelkan dunia

Meskipun konsep ini telah ada selama beberapa dekade, model dunia baru-baru ini mendapatkan popularitas karena penerapannya yang menjanjikan di bidang video generatif.

Sebagian besar, jika tidak semua, video yang dihasilkan AI mengarah ke wilayah lembah yang luar biasa. Awasi mereka cukup lama dan sesuatu aneh akan terjadi, seperti anggota tubuh yang terpelintir dan menyatu satu sama lain.

Meskipun model generatif yang dilatih berdasarkan video selama bertahun-tahun mungkin secara akurat memprediksi bahwa bola basket akan memantul, model tersebut sebenarnya tidak mengetahui alasannya — sama seperti model bahasa yang tidak benar-benar memahami konsep di balik kata dan frasa. Namun model dunia yang memiliki pemahaman dasar tentang mengapa bola basket memantul seperti itu akan lebih baik dalam menunjukkan bahwa bola melakukan hal tersebut.

Untuk mengaktifkan wawasan semacam ini, model dunia dilatih menggunakan serangkaian data, termasuk foto, audio, video, dan teks, dengan tujuan menciptakan representasi internal tentang cara kerja dunia, dan kemampuan untuk mempertimbangkan konsekuensi tindakan. .

Contoh dari model pembuatan video Gen-3 startup AI Runway. Kredit Gambar:landasan pacu

“Pemirsa berharap dunia yang mereka tonton berperilaku serupa dengan dunia nyata,” kata Alex Mashrabov, mantan kepala AI Snap dan CEO Higgsfield, yang membuat model generatif untuk video. “Jika sehelai bulu jatuh karena berat landasan atau bola bowling melesat ratusan kaki ke udara, hal itu akan mengejutkan dan membuat penonton kehilangan momen tersebut. Dengan model dunia yang kuat, alih-alih pencipta menentukan bagaimana setiap objek diharapkan bergerak – yang membosankan, tidak praktis, dan penggunaan waktu yang buruk – model akan memahami hal ini.”

Namun pembuatan video yang lebih baik hanyalah puncak gunung es bagi model dunia. Para peneliti termasuk kepala ilmuwan AI Meta, Yann LeCun, mengatakan bahwa model tersebut suatu hari nanti dapat digunakan untuk peramalan dan perencanaan yang canggih baik di bidang digital maupun fisik.

Dalam pembicaraan awal tahun ini, LeCun menjelaskan bagaimana model dunia dapat membantu mencapai tujuan yang diinginkan melalui penalaran. Sebuah model dengan representasi dasar dari sebuah “dunia” (misalnya video ruangan kotor), jika diberi sebuah tujuan (ruangan bersih), dapat menghasilkan serangkaian tindakan untuk mencapai tujuan tersebut (menggunakan penyedot debu untuk menyapu, membersihkan mencuci piring, mengosongkan tempat sampah) bukan karena pola tersebut telah diamati, namun karena ia mengetahui secara mendalam bagaimana mengubah dari kotor menjadi bersih.

“Kita membutuhkan mesin yang memahami dunia; [machines] yang dapat mengingat sesuatu, memiliki intuisi, memiliki akal sehat – hal-hal yang dapat berpikir dan merencanakan pada tingkat yang sama dengan manusia,” kata LeCun. “Terlepas dari apa yang mungkin Anda dengar dari beberapa orang yang paling antusias, sistem AI saat ini tidak mampu melakukan semua hal tersebut.”

Meskipun LeCun memperkirakan bahwa kita setidaknya berjarak satu dekade lagi dari model dunia yang ia impikan, model dunia saat ini cukup menjanjikan sebagai simulator fisika dasar.

Adik OpenAI Minecraft
Sora mengendalikan pemain di Minecraft — dan merender dunia. Kredit Gambar:OpenAI

OpenAI mencatat dalam blognya bahwa Sora, yang dianggap sebagai model dunia, dapat mensimulasikan tindakan seperti seorang pelukis yang meninggalkan sapuan kuas di atas kanvas. Model seperti Sora — dan Sora sendiri — juga bisa secara efektif mensimulasikan video pertandingan. Misalnya, Sora dapat merender UI dan dunia game seperti Minecraft.

Model dunia masa depan mungkin dapat menghasilkan dunia 3D sesuai permintaan untuk game, fotografi virtual, dan banyak lagi, kata salah satu pendiri World Labs, Justin Johnson. episode dari podcast a16z.

“Kami sudah memiliki kemampuan untuk menciptakan dunia virtual dan interaktif, namun hal ini membutuhkan biaya ratusan juta dolar dan banyak waktu pengembangan,” kata Johnson. “[World models] akan memungkinkan Anda tidak hanya mengeluarkan gambar atau klip, tetapi juga dunia 3D yang sepenuhnya disimulasikan, dinamis, dan interaktif.”

Rintangan tinggi

Meskipun konsepnya menarik, banyak tantangan teknis yang menghalanginya.

Melatih dan menjalankan model dunia memerlukan daya komputasi yang sangat besar bahkan dibandingkan dengan jumlah yang saat ini digunakan oleh model generatif. Meskipun beberapa model bahasa terbaru dapat dijalankan pada ponsel cerdas modern, Sora (bisa dibilang merupakan model dunia awal) memerlukan ribuan GPU untuk dilatih dan dijalankan, terutama jika penggunaannya sudah menjadi hal yang lumrah.

Model dunia, seperti semua model AI, juga berhalusinasi — dan menginternalisasi bias dalam data pelatihannya. Model dunia yang sebagian besar dilatih menggunakan video cuaca cerah di kota-kota Eropa mungkin kesulitan memahami atau menggambarkan kota-kota di Korea dalam kondisi bersalju, misalnya, atau mungkin melakukan kesalahan dalam memahaminya.

Kurangnya data pelatihan secara umum dapat memperburuk masalah ini, kata Mashrabov.

“Kami telah melihat model-model yang sangat terbatas pada generasi orang dari tipe atau ras tertentu,” katanya. “Data pelatihan untuk model dunia harus cukup luas untuk mencakup beragam skenario, namun juga sangat spesifik sehingga AI dapat memahami secara mendalam berbagai skenario tersebut.”

Baru-baru ini posCEO startup AI Runway, Cristóbal Valenzuela, mengatakan bahwa masalah data dan teknik menghalangi model saat ini untuk secara akurat menangkap perilaku penghuni dunia (misalnya manusia dan hewan). “Model perlu menghasilkan peta lingkungan yang konsisten,” katanya, “dan kemampuan untuk bernavigasi dan berinteraksi di lingkungan tersebut.”

OpenAI Sora
Video yang dibuat Sora. Kredit Gambar:OpenAI

Namun, jika semua hambatan utama dapat diatasi, Mashrabov percaya bahwa model dunia dapat “lebih kuat” menjembatani AI dengan dunia nyata – yang akan menghasilkan terobosan tidak hanya dalam pembuatan dunia virtual namun juga robotika dan pengambilan keputusan dengan AI.

Mereka juga bisa menghasilkan robot yang lebih mumpuni.

Robot saat ini terbatas dalam melakukan apa yang dapat mereka lakukan karena mereka tidak memiliki kesadaran akan dunia di sekitar mereka (atau tubuh mereka sendiri). Model-model dunia dapat memberi mereka kesadaran tersebut, kata Mashrabov – setidaknya sampai pada titik tertentu.

“Dengan model dunia yang canggih, AI dapat mengembangkan pemahaman pribadi tentang skenario apa pun yang terjadi,” katanya, “dan mulai memikirkan solusi yang mungkin dilakukan.”

TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk mendapatkannya di kotak masuk Anda setiap hari Rabu.


LEAVE A REPLY

Please enter your comment!
Please enter your name here