Microsoft meluncurkan proyek penelitian untuk memperkirakan pengaruh contoh pelatihan khusus pada teks, gambar, dan jenis media lainnya yang dibuat oleh model AI generatif.
Itu per daftar pekerjaan Berasal kembali ke Desember yang baru -baru ini disirkulasi ulang di LinkedIn.
Menurut daftar, yang mencari magang penelitian, proyek ini akan berusaha untuk menunjukkan bahwa model dapat dilatih sedemikian rupa sehingga dampak dari data tertentu – misalnya foto dan buku – pada output mereka dapat “diperkirakan secara efisien dan bermanfaat.”
“Arsitektur jaringan saraf saat ini buram dalam hal menyediakan sumber untuk generasi mereka, dan ada […] Alasan bagus untuk mengubah ini, “membaca daftar.”[One is,] Insentif, pengakuan, dan berpotensi membayar untuk orang -orang yang menyumbangkan data berharga tertentu untuk jenis model yang tidak terduga yang kita inginkan di masa depan, dengan asumsi masa depan akan mengejutkan kita secara fundamental. ”
Teks, kode, gambar, video, dan generator yang bertenaga AI berada di tengah-tengah sejumlah tuntutan hukum IP terhadap perusahaan AI. Seringkali, perusahaan -perusahaan ini melatih model mereka dengan sejumlah besar data dari situs web publik, beberapa di antaranya dilindungi hak cipta. Banyak perusahaan berpendapat itu Doktrin Penggunaan yang Adil Melindungi praktik penggeledahan dan pelatihan data mereka. Tetapi kreatif – dari seniman hingga pemrogram hingga penulis – sebagian besar tidak setuju.
Microsoft sendiri menghadapi setidaknya dua tantangan hukum dari pemegang hak cipta.
The New York Times menggugat raksasa teknologi dan kolaboratornya, Openai, pada bulan Desember, menuduh kedua perusahaan melanggar hak cipta Times dengan menggunakan model yang dilatih pada jutaan artikelnya. Beberapa pengembang perangkat lunak Juga telah mengajukan gugatan terhadap Microsoft, mengklaim bahwa asisten pengkode Copilot AI perusahaan itu dilatih secara tidak sah menggunakan pekerjaan yang dilindungi.
Upaya penelitian baru Microsoft, yang digambarkan oleh daftar itu sebagai “asal waktu pelatihan,” dilaporkan memiliki keterlibatan Jaron Lanier, Teknolog yang ulung dan ilmuwan interdisipliner di Microsoft Research. Dalam bulan April 2023 Op-ed di The New YorkerLanier menulis tentang konsep “martabat data,” yang baginya berarti menghubungkan “hal -hal digital” dengan “manusia yang ingin dikenal karena telah membuatnya.”
“Pendekatan martabat data akan melacak kontributor yang paling unik dan berpengaruh ketika model besar memberikan output yang berharga,” tulis Lanier. Misalnya, jika Anda meminta model untuk 'film animasi anak-anak saya di dunia lukisan minyak kucing yang berbicara dalam sebuah petualangan,' maka pelukis minyak utama tertentu, pelukis kucing, aktor suara, dan penulis-atau perkebunan mereka-mungkin dihitung secara unik untuk penciptaan karya baru.
Tidak ada apa -apa, sudah beberapa perusahaan yang mencoba ini. Pengembang model AI Bria, yang baru -baru ini mengumpulkan $ 40 juta dalam modal ventura, mengklaim “secara terprogram” mengkompensasi pemilik data sesuai dengan “pengaruh keseluruhan” mereka. Adobe dan Shutterstock juga memberikan pembayaran reguler kepada kontributor dataset, meskipun jumlah pembayaran yang tepat cenderung buram.
Beberapa laboratorium besar telah membentuk program pembayaran kontributor individu di luar perjanjian lisensi tinta dengan penerbit, platform, dan broker data. Mereka malah menyediakan sarana bagi pemegang hak cipta untuk “memilih keluar” pelatihan. Tetapi beberapa proses opt-out ini berat, dan hanya berlaku untuk model masa depan-tidak sebelumnya tidak dilatih.
Tentu saja, proyek Microsoft mungkin berjumlah sedikit lebih dari bukti konsep. Ada preseden untuk itu. Kembali pada bulan Mei, Openai mengatakan sedang mengembangkan teknologi serupa yang akan memungkinkan pencipta menentukan bagaimana mereka ingin pekerjaan mereka dimasukkan dalam – atau dikecualikan dari – data pelatihan. Tetapi hampir setahun kemudian, alat ini belum melihat cahaya hari, dan seringkali belum dipandang sebagai prioritas secara internal.
Microsoft mungkin juga mencoba “Cuci Etika”Di sini – atau hindari keputusan peraturan dan/atau pengadilan yang mengganggu bisnis AI -nya.
Tetapi perusahaan sedang menyelidiki cara -cara untuk melacak data pelatihan terkenal mengingat sikap AI Labs yang baru -baru ini diungkapkan pada penggunaan yang adil. Beberapa laboratorium teratas, termasuk Google dan Openai, telah menerbitkan dokumen kebijakan yang merekomendasikan agar administrasi Trump melemahkan perlindungan hak cipta karena berkaitan dengan pengembangan AI. Openai telah secara eksplisit meminta pemerintah AS untuk mengkodifikasi penggunaan yang adil untuk pelatihan model, yang menurutnya akan membebaskan pengembang dari pembatasan beban.
Microsoft tidak segera menanggapi permintaan komentar.