Nvidia memasuki model dunia – model AI yang mengambil inspirasi dari model mental dunia yang dikembangkan manusia secara alami.
Pada CES 2025 di Las Vegas, perusahaan mengumumkan bahwa mereka menyediakan secara terbuka serangkaian model dunia yang dapat memprediksi dan menghasilkan video “sadar fisika”. Nvidia menyebut keluarga ini Cosmos World Foundation Models, atau disingkat Cosmos WFMs.
Model-model tersebut, yang dapat disesuaikan untuk aplikasi tertentu, tersedia dari katalog API dan NGC Nvidia, GitHub, dan platform pengembang AI Hugging Face.
“Nvidia menyediakan gelombang pertama Cosmos WFM untuk simulasi berbasis fisika dan pembuatan data sintetis,” tulis perusahaan itu dalam postingan blog yang diberikan kepada TechCrunch. “Para peneliti dan pengembang, terlepas dari ukuran perusahaan mereka, dapat dengan bebas menggunakan model Cosmos di bawah lisensi model terbuka permisif Nvidia yang memungkinkan penggunaan komersial.”
Ada sejumlah model dalam keluarga Cosmos WFM, dibagi menjadi tiga kategori: Nano untuk latensi rendah dan aplikasi real-time, Super untuk model “dasar berperforma tinggi”, dan Ultra untuk kualitas maksimum dan keluaran fidelitas.
Ukuran model berkisar dari 4 miliar hingga 14 miliar parameter, dengan Nano sebagai yang terkecil dan Ultra sebagai yang terbesar. Parameter secara kasar sesuai dengan keterampilan pemecahan masalah model, dan model dengan lebih banyak parameter umumnya berperforma lebih baik dibandingkan model dengan parameter lebih sedikit.
Sebagai bagian dari Cosmos WFM, Nvidia juga merilis “model upsampling”, decoder video yang dioptimalkan untuk augmented reality, dan model pagar pembatas untuk memastikan penggunaan yang bertanggung jawab, serta model yang disesuaikan untuk aplikasi seperti menghasilkan data sensor untuk pengembangan kendaraan otonom. . Ini, serta model Cosmos WFM lainnya, dilatih pada 9,000 triliun token dari 20 juta jam interaksi manusia, lingkungan, industri, robotika, dan data mengemudi di dunia nyata, kata Nvidia. (Dalam AI, “token” mewakili potongan data mentah — dalam hal ini, rekaman video.)
Nvidia tidak akan mengatakan dari mana data pelatihan ini berasal, tapi setidaknya ada satu laporan — dan gugatan — menuduh bahwa perusahaan tersebut melatih video YouTube yang dilindungi hak cipta tanpa izin.
Saat dihubungi untuk memberikan komentar, juru bicara Nvidia mengatakan kepada TechCrunch bahwa Cosmos “tidak dirancang untuk menyalin atau melanggar karya yang dilindungi.”
“Kosmos belajar seperti halnya manusia belajar,” kata juru bicara tersebut. “Untuk membantu Cosmos belajar, kami mengumpulkan data dari berbagai sumber publik dan swasta dan yakin bahwa penggunaan data kami konsisten dengan isi dan semangat undang-undang. Fakta tentang cara dunia bekerja – yang dipelajari oleh model Cosmos – tidak memiliki hak cipta atau berada di bawah kendali penulis atau perusahaan mana pun.”
Mengesampingkan fakta bahwa model seperti Cosmos tidak benar-benar belajar seperti yang dipelajari manusia, pakar hak cipta mengatakan klaim seperti milik Nvidia, yang mendapat dukungan dari doktrin hukum penggunaan wajarmungkin tidak tahan terhadap pengawasan yudisial. Keberhasilan perusahaan-perusahaan ini akan sangat bergantung pada bagaimana pengadilan memutuskan penggunaan wajar, yang memungkinkan penggunaan karya berhak cipta untuk menghasilkan sesuatu yang baru asalkan bersifat transformatif, dan berlaku untuk pelatihan AI.
Nvidia mengklaim bahwa model Cosmos WFM, dengan bingkai teks atau video, dapat menghasilkan data sintetis yang “dapat dikontrol dan berkualitas tinggi” untuk melakukan bootstrap pada pelatihan model robotika, mobil tanpa pengemudi, dan banyak lagi.

“Rangkaian model terbuka Nvidia Cosmos berarti pengembang dapat menyesuaikan WFM dengan kumpulan data, seperti rekaman video perjalanan kendaraan otonom atau robot yang menavigasi gudang,” tulis Nvidia dalam siaran persnya. “Cosmos WFM dibuat khusus untuk penelitian dan pengembangan AI fisik, dan dapat menghasilkan video berbasis fisika dari kombinasi input, seperti teks, gambar dan video, serta sensor robot atau data gerak.”
Nvidia mengatakan bahwa perusahaan-perusahaan termasuk Waabi, Wayve, Fortellix, dan Uber telah berkomitmen untuk menguji coba Cosmos WFM untuk berbagai kasus penggunaan, mulai dari pencarian dan kurasi video hingga membangun model AI untuk kendaraan self-driving.
“AI generatif akan mendukung masa depan mobilitas, yang membutuhkan data yang kaya dan komputasi yang sangat kuat,” kata CEO Uber Dara Khosrowshahi dalam sebuah pernyataan. “Melalui kerja sama dengan Nvidia, kami yakin bahwa kami dapat membantu mempercepat waktu untuk solusi mengemudi otonom yang aman dan terukur untuk industri.”
Penting untuk diperhatikan adalah bahwa model dunia Nvidia bukanlah “open source” dalam arti yang sebenarnya. Untuk mematuhi satu definisi AI “open source” yang diterima secara luas, model AI harus memberikan informasi yang cukup tentang desainnya sehingga seseorang dapat “secara substansial” membuatnya kembali, dan mengungkapkan rincian terkait data pelatihannya, termasuk asal dan bagaimana data dapat diperoleh atau dilisensikan.
Nvidia belum mempublikasikan detail data pelatihan Cosmos WFM, juga belum menyediakan semua alat yang diperlukan untuk membuat ulang model dari awal. Mungkin itulah sebabnya raksasa teknologi ini menyebut modelnya sebagai “terbuka” dan bukan open source.
“Kami sangat berharap [Cosmos will] lakukan untuk dunia robotika dan AI industri seperti yang telah dilakukan Llama… untuk perusahaan,” kata CEO Nvidia Jensen Huang di atas panggung saat acara pers pada hari Senin.