Google DeepMind, laboratorium penelitian AI andalan Google, ingin mengalahkan OpenAI dalam permainan pembuatan video — dan hal itu mungkin saja terjadi, setidaknya untuk sementara waktu.
Pada hari Senin, DeepMind mengumumkan Veo 2, AI penghasil video generasi berikutnya dan penerus Veo, yang mendukung semakin banyak produk di seluruh portofolio Google. Veo 2 dapat membuat klip berdurasi dua menit lebih dalam resolusi hingga 4k (4096 x 2160 piksel).
Khususnya, resolusi tersebut 4x lebih besar — dan lebih dari 6x durasinya — yang dapat dicapai Sora dari OpenAI.
Memang benar bahwa ini adalah keuntungan teoretis untuk saat ini. Dalam alat pembuatan video eksperimental Google, VideoFX, di mana Veo 2 kini tersedia secara eksklusif, video dibatasi pada 720p dan durasi delapan detik. (Sora dapat menghasilkan klip berdurasi hingga 1080p dan berdurasi 20 detik.)
VideoFX berada di belakang daftar tunggu, namun Google mengatakan pihaknya menambah jumlah pengguna yang dapat mengaksesnya minggu ini.
Eli Collins, VP produk di DeepMind, juga mengatakan kepada TechCrunch bahwa Google akan membuat Veo 2 tersedia melalui platform pengembang Vertex AI “saat model siap digunakan dalam skala besar.”
“Selama beberapa bulan mendatang, kami akan terus mengulanginya berdasarkan masukan dari pengguna,” kata Collins, “dan [we’ll] berupaya mengintegrasikan kemampuan Veo 2 yang diperbarui ke dalam kasus penggunaan yang menarik di seluruh ekosistem Google … [W]Kami berharap dapat membagikan lebih banyak pembaruan tahun depan.”
Lebih terkendali
Seperti Veo, Veo 2 dapat menghasilkan video dengan perintah teks (misalnya “Mobil melaju di jalan bebas hambatan”) atau teks dan gambar referensi.
Jadi apa yang baru di Veo 2? Nah, DeepMind mengatakan model tersebut, yang dapat menghasilkan klip dalam berbagai gaya, memiliki “pemahaman” yang lebih baik tentang fisika dan kontrol kamera, dan menghasilkan rekaman yang “lebih jelas”.
Dengan lebih jelas, DeepMind berarti tekstur dan gambar dalam klip lebih tajam — terutama dalam adegan dengan banyak gerakan. Sedangkan untuk kontrol kamera yang ditingkatkan, mereka memungkinkan Veo 2 untuk memposisikan “kamera” virtual dalam video yang dihasilkannya dengan lebih tepat, dan menggerakkan kamera tersebut untuk menangkap objek dan orang dari berbagai sudut.
DeepMind juga mengklaim bahwa Veo 2 dapat memodelkan gerakan, dinamika fluida (seperti kopi yang dituangkan ke dalam cangkir), dan sifat cahaya (seperti bayangan dan pantulan) dengan lebih realistis. Itu mencakup lensa dan efek sinematik yang berbeda, kata DeepMind, serta ekspresi manusia yang “bernuansa”.

DeepMind membagikan beberapa sampel pilihan dari Veo 2 dengan TechCrunch minggu lalu. Untuk video yang dihasilkan AI, tampilannya cukup bagus — bahkan sangat bagus. Veo 2 tampaknya memiliki pemahaman yang kuat tentang refraksi dan cairan rumit, seperti sirup maple, dan kemampuan untuk meniru animasi gaya Pixar.
Namun terlepas dari desakan DeepMind bahwa model tersebut cenderung tidak berhalusinasi elemen seperti jari ekstra atau “benda tak terduga”, Veo 2 tidak dapat sepenuhnya menghilangkan lembah luar biasa tersebut.
Perhatikan mata tak bernyawa pada makhluk kartun mirip anjing ini:

Dan jalan licin yang aneh dalam rekaman ini — ditambah pejalan kaki di latar belakang yang menyatu satu sama lain dan bangunan dengan fasad yang secara fisik tidak mungkin:

Collins mengakui bahwa masih ada pekerjaan yang harus diselesaikan.
“Koherensi dan konsistensi adalah area pertumbuhan,” katanya. “Veo bisa terus mengikuti perintah selama beberapa menit, tapi [it can’t] mematuhi petunjuk kompleks dalam jangka waktu yang panjang. Demikian pula, konsistensi karakter dapat menjadi suatu tantangan. Ada juga ruang untuk berkembang dalam menghasilkan detail yang rumit, gerakan yang cepat dan kompleks, dan terus mendorong batas-batas realisme.”
DeepMind terus bekerja sama dengan artis dan produser untuk menyempurnakan model dan alat pembuatan videonya, tambah Collins.
“Kami mulai bekerja dengan para kreatif seperti Donald Glover, the Weeknd, d4vd, dan lainnya sejak awal pengembangan Veo kami untuk benar-benar memahami proses kreatif mereka dan bagaimana teknologi dapat membantu mewujudkan visi mereka,” kata Collins. “Pekerjaan kami dengan para pembuat konten di Veo 1 menginformasikan pengembangan Veo 2, dan kami berharap dapat bekerja sama dengan penguji dan pembuat konten tepercaya untuk mendapatkan masukan mengenai model baru ini.”
Keamanan dan pelatihan
Veo 2 dilatih di banyak video. Seperti itulah cara kerja model AI secara umum: Dengan memberikan contoh demi contoh beberapa bentuk data, model mengambil pola dalam data yang memungkinkan model tersebut menghasilkan data baru.
DeepMind tidak akan mengatakan secara pasti di mana mereka mengambil video untuk melatih Veo 2, tetapi YouTube adalah salah satu sumber yang memungkinkan; Google memiliki YouTube, dan DeepMind sebelumnya mengatakan kepada TechCrunch bahwa model Google seperti Veo “mungkin” dilatih pada beberapa konten YouTube.
“Veo telah dilatih tentang pasangan deskripsi video berkualitas tinggi,” kata Collins. “Pasangan deskripsi video adalah video dan deskripsi terkait tentang apa yang terjadi dalam video tersebut.”

Meskipun DeepMind, melalui Google, menghosting alat yang memungkinkan webmaster memblokir bot lab agar tidak mengekstrak data pelatihan dari situs web mereka, DeepMind tidak menawarkan mekanisme yang memungkinkan pembuat konten menghapus karya dari set pelatihan yang ada. Lab dan perusahaan induknya menyatakan bahwa model pelatihan yang menggunakan data publik adalah benar penggunaan wajarartinya DeepMind yakin tidak wajib meminta izin dari pemilik data.
Tidak semua materi iklan setuju — terutama dalam hal ini studi memperkirakan bahwa puluhan ribu pekerjaan di bidang film dan TV dapat terganggu oleh AI di tahun-tahun mendatang. Beberapa perusahaan AI, termasuk startup eponymous di balik aplikasi seni AI populer Midjourney, berada di garis depan tuntutan hukum yang menuduh mereka melanggar hak artis dengan melatih konten tanpa persetujuan.
“Kami berkomitmen untuk bekerja sama dengan para pembuat konten dan mitra kami untuk mencapai tujuan bersama,” kata Collins. “Kami terus bekerja dengan komunitas kreatif dan orang-orang di industri yang lebih luas, mengumpulkan wawasan dan mendengarkan masukan, termasuk mereka yang menggunakan VideoFX.”
Berkat perilaku model generatif saat ini saat dilatih, model tersebut memiliki risiko tertentu, seperti regurgitasi, yang mengacu pada saat model menghasilkan salinan cermin dari data pelatihan. Solusi DeepMind adalah filter tingkat cepat, termasuk untuk konten kekerasan, grafis, dan eksplisit.
milik Google kebijakan ganti rugiyang memberikan pembelaan bagi pelanggan tertentu terhadap tuduhan pelanggaran hak cipta yang berasal dari penggunaan produknya, tidak akan berlaku untuk Veo 2 sampai tersedia secara umum, kata Collins.

Untuk mengurangi risiko deepfake, DeepMind mengatakan mereka menggunakan teknologi watermarking miliknya, SynthID, untuk menyematkan penanda tak terlihat ke dalam bingkai yang dihasilkan Veo 2. Namun, seperti semua teknologi watermarking, SynthID tidaklah mudah.
Peningkatan gambar
Selain Veo 2, Google DeepMind pagi ini mengumumkan peningkatan ke Imagen 3, model pembuatan gambar komersialnya.
Versi baru Imagen 3 diluncurkan kepada pengguna ImageFX, alat penghasil gambar Google, mulai hari ini. Ini dapat membuat gambar dan foto yang “lebih cerah dan komposisinya lebih baik” dalam gaya seperti fotorealisme, impresionisme, dan anime, menurut DeepMind.
“Peningkatan ini [to Imagen 3] juga mengikuti petunjuk dengan lebih tepat, dan memberikan detail dan tekstur yang lebih kaya,” tulis DeepMind dalam postingan blog yang diberikan kepada TechCrunch.

Yang diluncurkan bersamaan dengan model ini adalah pembaruan UI untuk ImageFX. Sekarang, saat pengguna mengetik perintah, istilah kunci dalam perintah tersebut akan menjadi “chiplet” dengan menu drop-down yang berisi kata-kata yang disarankan dan terkait. Pengguna dapat menggunakan chip untuk mengulangi apa yang telah mereka tulis, atau memilih dari deretan deskriptor yang dibuat secara otomatis di bawah perintah.