Home Teknologi Genie 2 dari DeepMind dapat menghasilkan dunia interaktif yang terlihat seperti video...

Genie 2 dari DeepMind dapat menghasilkan dunia interaktif yang terlihat seperti video game

31
0
Genie 2 dari DeepMind dapat menghasilkan dunia interaktif yang terlihat seperti video game


DeepMind, organisasi penelitian AI Google, telah meluncurkan a model yang dapat menghasilkan variasi dunia 3D yang “tak ada habisnya” yang dapat dimainkan.

Disebut Genie 2, model ini – penerus Genie DeepMind, yang dirilis awal tahun ini – dapat menghasilkan adegan interaktif dan real-time dari satu gambar dan deskripsi teks (misalnya “Robot humanoid lucu di hutan”). Dalam hal ini, model ini mirip dengan model yang sedang dikembangkan oleh perusahaan Fei-Fei Li, World Labs, dan startup Israel, Decart.

DeepMind mengklaim bahwa Genie 2 dapat menghasilkan “keberagaman besar dunia 3D yang kaya,” termasuk dunia di mana pengguna dapat melakukan tindakan seperti melompat dan berenang dengan menggunakan mouse atau keyboard. Dilatih dalam video, model ini mampu mensimulasikan interaksi objek, animasi, pencahayaan, fisika, refleksi, dan perilaku “NPC”.

Kredit Gambar:Pikiran Dalam

Banyak simulasi Genie 2 yang terlihat seperti video game AAA — dan alasannya mungkin karena data pelatihan model tersebut berisi permainan judul-judul populer. Namun DeepMind, seperti banyak laboratorium AI lainnya, tidak mengungkapkan banyak detail tentang metode sumber datanya, karena alasan persaingan atau lainnya.

Orang bertanya-tanya tentang implikasi IP. DeepMind – sebagai anak perusahaan Google – memiliki akses tak terbatas ke YouTube, dan Google sebelumnya telah menyatakan bahwa ToS-nya memberikan izin untuk menggunakan video YouTube untuk pelatihan model. Tapi apakah Genie 2 pada dasarnya membuat salinan tidak sah dari video game yang “ditontonnya”? Itu adalah keputusan pengadilan.

DeepMind mengatakan bahwa Genie 2 dapat menghasilkan dunia yang konsisten dengan perspektif berbeda, seperti tampilan orang pertama dan isometrik, hingga satu menit, dengan mayoritas berdurasi 10-20 detik.

“Genie 2 merespons secara cerdas tindakan yang diambil dengan menekan tombol pada keyboard, mengidentifikasi karakter, dan menggerakkannya dengan benar,” tulis DeepMind dalam postingan blog. “Misalnya model kita [can] cari tahu bahwa tombol panah harus menggerakkan robot dan bukan pohon atau awan.”

Jin DeepMind 2
Kredit Gambar:Pikiran Dalam

Sebagian besar model seperti Genie 2 – model dunia, jika Anda mau – dapat mensimulasikan game dan lingkungan 3D, tetapi dengan masalah terkait artefak, konsistensi, dan halusinasi. Misalnya, simulator Minecraft Desart, Oasis, memiliki resolusi rendah, dan dengan cepat “melupakan” tata letak level.

Genie 2, bagaimanapun, dapat mengingat bagian dari adegan simulasi yang tidak terlihat dan menampilkannya secara akurat ketika terlihat lagi, kata DeepMind. (Model World Labs juga dapat melakukan hal ini.)

Sekarang, game yang dibuat dengan Genie 2 tidak akan terlalu menyenangkan, karena game tersebut akan menghapus kemajuan Anda setiap menit atau lebih. Itulah sebabnya DeepMind memposisikan model ini lebih sebagai alat penelitian dan kreatif — alat untuk membuat prototipe “pengalaman interaktif” dan mengevaluasi agen AI.

“Berkat kemampuan generalisasi di luar distribusi Genie 2, seni konsep dan gambar dapat diubah menjadi lingkungan yang sepenuhnya interaktif,” tulis DeepMind. “Dan dengan menggunakan Genie 2 untuk dengan cepat menciptakan lingkungan yang kaya dan beragam bagi agen AI, peneliti kami dapat menghasilkan tugas evaluasi yang belum pernah dilihat oleh agen selama pelatihan.”

Jin DeepMind 2
Kredit Gambar:Pikiran Dalam

DeepMind mengatakan bahwa meskipun Genie 2 masih dalam tahap awal, laboratorium percaya bahwa ini akan menjadi komponen kunci dalam pengembangan agen AI di masa depan.

Google telah mencurahkan lebih banyak sumber daya untuk penelitian model dunia, yang menjanjikan hal besar berikutnya dalam AI generatif. Pada bulan Oktober, DeepMind mempekerjakan Tim Brooks, yang memimpin pengembangan generator video Sora OpenAI, untuk mengerjakan teknologi pembuatan video dan simulator dunia. Dan dua tahun lalu, laboratorium memburu Tim Rocktäschel, yang terkenal karena “keterbukaannya” eksperimen dengan video game seperti Nethack, dari Meta.


LEAVE A REPLY

Please enter your comment!
Please enter your name here