Home Teknologi Harvard dan Google akan merilis 1 juta buku domain publik sebagai kumpulan...

Harvard dan Google akan merilis 1 juta buku domain publik sebagai kumpulan data pelatihan AI

24
0
Harvard dan Google akan merilis 1 juta buku domain publik sebagai kumpulan data pelatihan AI


Data pelatihan AI memiliki harga yang mahal dan paling cocok untuk perusahaan teknologi berkantong tebal. Inilah sebabnya mengapa Universitas Harvard berencana untuk merilis kumpulan data yang mencakup sekitar 1 juta buku domain publik, yang mencakup genre, bahasa, dan penulis termasuk Dickens, Dante, dan Shakespeare, yang tidak lagi dilindungi hak cipta karena usianya.

Kumpulan data baru ini belum tersedia, dan belum jelas kapan atau bagaimana data tersebut akan dirilis. Namun, buku tersebut berisi buku-buku yang berasal dari proyek pemindaian buku Google yang sudah lama ada, Google Buku, dan dengan demikian Google akan terlibat dalam merilis “harta karun ini ke mana-mana.”

Harvard pertama kali menggodanya Inisiatif Data Kelembagaan (IDI) kembali pada bulan Maretmenguraikan rencananya untuk menciptakan “saluran tepercaya untuk data hukum untuk AI.” Namun, tidak banyak yang terdengar sampai saat ini peluncuran resmi hari iniyang disertai konfirmasi bahwa IDI mendapat dukungan finansial dari Microsoft dan OpenAI.

Direktur Eksekutif IDI Greg Leppert mengatakan bahwa kumpulan data tersebut dirancang untuk “menyamakan kedudukan” dengan membuka kumpulan data yang sangat besar bagi siapa saja — mulai dari laboratorium penelitian hingga perusahaan rintisan AI — yang ingin melatih model bahasa besar (LLM) mereka.


LEAVE A REPLY

Please enter your comment!
Please enter your name here