Home Teknologi Model Openai 'Hafal' konten yang dilindungi hak cipta, studi baru menunjukkan

Model Openai 'Hafal' konten yang dilindungi hak cipta, studi baru menunjukkan

13
0
Model Openai 'Hafal' konten yang dilindungi hak cipta, studi baru menunjukkan


A studi baru tampaknya memberikan kepercayaan pada tuduhan bahwa Openai melatih setidaknya beberapa model AI -nya pada konten yang dilindungi hak cipta.

Openai terlibat dalam jas yang dibawa oleh penulis, programmer, dan pemegang hak-hak lainnya yang menuduh perusahaan menggunakan karya mereka-buku, basis kode, dan sebagainya-untuk mengembangkan modelnya tanpa izin. Openai telah lama mengklaim a penggunaan yang adil Pertahanan, tetapi penggugat dalam kasus-kasus ini berpendapat bahwa tidak ada ukiran dalam undang-undang hak cipta AS untuk data pelatihan.

Studi ini, yang ditulis bersama oleh para peneliti di University of Washington, Universitas Kopenhagen, dan Stanford, mengusulkan metode baru untuk mengidentifikasi data pelatihan yang “dihafal” oleh model di belakang API, seperti Openai.

Model adalah mesin prediksi. Terlatih pada banyak data, mereka belajar pola – itulah cara mereka dapat menghasilkan esai, foto, dan banyak lagi. Sebagian besar output bukan salinan kata demi kata dari data pelatihan, tetapi karena cara model “belajar,” beberapa orang mau tidak mau. Model gambar telah ditemukan memuntahkan tangkapan layar dari film yang dilatihsementara model bahasa telah diamati secara efektif menjiplak artikel berita.

Metode penelitian bergantung pada kata-kata yang disebut rekan penulis sebagai “surprisal tinggi”-yaitu, kata-kata yang menonjol sebagai tidak biasa dalam konteks tubuh kerja yang lebih besar. Misalnya, kata “radar” dalam kalimat “Jack dan saya duduk diam dengan radar bersenandung” akan dianggap sebagai surprisal tinggi karena secara statistik lebih kecil kemungkinannya daripada kata-kata seperti “mesin” atau “radio” untuk muncul sebelum “bersenandung.”

Rekan penulis menyelidiki beberapa model OpenAI, termasuk GPT-4 dan GPT-3.5, untuk tanda-tanda hafalan dengan menghapus kata-kata surprisal tinggi dari cuplikan buku fiksi dan potongan-potongan New York Times dan memiliki model mencoba untuk “menebak” kata mana yang telah ditutupi. Jika model berhasil menebak dengan benar, kemungkinan mereka menghafal cuplikan selama pelatihan, menyimpulkan rekan penulis.

Contoh memiliki model “tebak” kata surprisal tinggi.Kredit gambar:Openai

Menurut hasil tes, GPT-4 menunjukkan tanda-tanda telah menghafal bagian-bagian dari buku-buku fiksi populer, termasuk buku-buku dalam dataset yang berisi sampel ebook yang dilindungi hak cipta yang disebut Bookmia. Hasilnya juga menunjukkan bahwa model menghafal bagian -bagian artikel New York Times, meskipun pada tingkat yang relatif lebih rendah.

Abhilasha Ravichander, seorang mahasiswa doktoral di University of Washington dan rekan penulis penelitian, mengatakan kepada TechCrunch bahwa temuan tersebut menjelaskan model “data yang kontroversial” mungkin dilatih.

“Untuk memiliki model bahasa besar yang dapat dipercaya, kita perlu memiliki model yang dapat kita selidiki dan mengaudit dan memeriksa secara ilmiah,” kata Ravichander. “Pekerjaan kami bertujuan untuk menyediakan alat untuk menyelidiki model bahasa yang besar, tetapi ada kebutuhan nyata untuk transparansi data yang lebih besar di seluruh ekosistem.”

Openai telah lama menganjurkan untuk pembatasan yang lebih longgar pada pengembangan model menggunakan data yang dilindungi hak cipta. Sementara perusahaan memiliki penawaran lisensi konten tertentu dan menawarkan mekanisme opt-out yang memungkinkan pemilik hak cipta untuk menandai konten yang mereka sukai perusahaan tidak digunakan untuk tujuan pelatihan, ia telah melobi beberapa pemerintah untuk mengkodifikasi aturan “penggunaan yang adil” di sekitar pendekatan pelatihan AI.


LEAVE A REPLY

Please enter your comment!
Please enter your name here