Home Teknologi Elon Musk setuju bahwa kami telah kehabisan data pelatihan AI

Elon Musk setuju bahwa kami telah kehabisan data pelatihan AI

27
0
Elon Musk setuju bahwa kami telah kehabisan data pelatihan AI


Elon Musk sependapat dengan pakar AI lainnya bahwa hanya ada sedikit data nyata yang tersisa untuk melatih model AI.

“Pada dasarnya kita sekarang telah menghabiskan jumlah kumulatif pengetahuan manusia…. dalam pelatihan AI,” kata Musk dalam percakapan langsung dengan ketua Stagwell, Mark Penn, yang disiarkan di X pada Rabu malam. “Pada dasarnya hal itu terjadi tahun lalu.”

Musk, yang memiliki perusahaan AI xAI, menggemakan tema yang disinggung oleh mantan kepala ilmuwan OpenAI Ilya Sutskever di NeurIPS, konferensi pembelajaran mesin, dalam pidatonya pada bulan Desember. Sutskever, yang mengatakan industri AI telah mencapai apa yang disebutnya “data puncak”, memperkirakan kurangnya data pelatihan akan memaksa pergeseran cara model dikembangkan saat ini.

Memang benar, Musk menyarankan bahwa data sintetis – data yang dihasilkan oleh model AI itu sendiri – adalah jalan ke depan. “Satu-satunya cara untuk melengkapi [real-world data] adalah dengan data sintetis, tempat AI menciptakannya [training data]”katanya. “Dengan data sintetis… [AI] akan menilai dirinya sendiri dan menjalani proses belajar mandiri ini.”

Perusahaan lain, termasuk raksasa teknologi seperti Microsoft, Meta, OpenAI, dan Anthropic, sudah menggunakan data sintetis untuk melatih model AI andalan. Gartner perkiraan 60% data yang digunakan untuk proyek AI dan analitik pada tahun 2024 dihasilkan secara sintetis.

Phi-4 dari Microsoft, yang bersumber terbuka pada Rabu pagi, dilatih tentang data sintetis bersama dengan data dunia nyata. Begitu pula dengan model Gemma Google. Anthropic menggunakan beberapa data sintetis untuk mengembangkan salah satu sistemnya yang paling berkinerja, Claude 3.5 Sonnet. Dan Meta menyempurnakan rangkaian model Llama terbarunya menggunakan data yang dihasilkan AI.

Pelatihan tentang data sintetis memiliki keuntungan lain, seperti penghematan biaya. Startup AI Writer mengklaim model Palmyra X 004 miliknya, yang dikembangkan hampir seluruhnya menggunakan sumber sintetis, hanya membutuhkan biaya pengembangan sebesar $700.000 — dibandingkan dengan perkiraan $4,6 juta untuk model OpenAI yang berukuran sebanding.

Tapi ada juga kekurangannya. Beberapa penelitian menunjukkan bahwa data sintetis dapat menyebabkan keruntuhan model, ketika model menjadi kurang “kreatif” — dan lebih bias — dalam keluarannya, yang pada akhirnya sangat mengganggu fungsinya. Karena model membuat data sintetik, jika data yang digunakan untuk melatih model ini memiliki bias dan keterbatasan, keluarannya juga akan ternoda.


LEAVE A REPLY

Please enter your comment!
Please enter your name here