Openai telah dituduh oleh banyak Pihak pelatihan AI -nya dengan konten yang dilindungi hak cipta tanpa izin. Sekarang yang baru kertas Oleh sebuah organisasi pengawas AI membuat tuduhan serius bahwa perusahaan semakin mengandalkan buku-buku non-publik, ia tidak melisensikan untuk melatih model AI yang lebih canggih.
Model AI pada dasarnya adalah mesin prediksi yang kompleks. Dilatih banyak data – buku, film, acara TV, dan sebagainya – mereka belajar pola dan cara -cara baru untuk memperkirakan dari prompt sederhana. Ketika sebuah model “menulis” esai tentang tragedi Yunani atau “menggambar” gambar bergaya Ghibli, itu hanya menarik dari pengetahuannya yang luas ke perkiraan. Itu tidak tiba di sesuatu yang baru.
Sementara sejumlah laboratorium AI termasuk OpenAI telah mulai merangkul data yang dihasilkan AI untuk melatih AI saat mereka menghabiskan sumber dunia nyata (terutama web publik), beberapa telah menghindari data dunia nyata sepenuhnya. Itu mungkin karena pelatihan tentang data sintetis murni datang dengan risiko, seperti memperburuk kinerja model.
Makalah baru, dari Proyek Pengungkapan AI, sebuah nirlaba yang didirikan pada tahun 2024 oleh mogul media Tim O'Reilly dan ekonom Ilan Strauss, menarik kesimpulan bahwa Openai kemungkinan melatih model GPT-4O-nya pada buku-buku paywall dari O'Reilly Media. (O'Reilly adalah CEO O'Reilly Media.)
Di ChatGPT, GPT-4O adalah model default. O'Reilly tidak memiliki perjanjian lisensi dengan Openai, kata surat kabar itu.
“GPT-4O, model Openai yang lebih baru dan mampu, menunjukkan pengakuan kuat atas konten buku paywalled o'reilly […] Dibandingkan dengan model Openai sebelumnya GPT-3.5 Turbo, “tulis rekan penulis makalah ini.” Sebaliknya, GPT-3.5 Turbo menunjukkan pengakuan relatif yang lebih besar dari sampel buku O'Reilly yang dapat diakses secara publik. “
Makalah ini menggunakan metode yang dipanggil De-childpertama kali diperkenalkan dalam makalah akademik pada tahun 2024, dirancang untuk mendeteksi konten yang dilindungi hak cipta dalam data pelatihan model bahasa. Juga dikenal sebagai “serangan inferensi keanggotaan,” metode ini menguji apakah model dapat dengan andal membedakan teks yang ditulis manusia dari versi yang diparafrasekan, yang dihasilkan AI dari teks yang sama. Jika bisa, itu menunjukkan bahwa model mungkin memiliki pengetahuan sebelumnya tentang teks dari data pelatihannya.
Rekan penulis makalah-O'Reilly, Strauss, dan peneliti AI Sruly Rosenblat-mengatakan bahwa mereka menyelidiki GPT-4O, GPT-3.5 Turbo, dan pengetahuan model Openai lainnya tentang buku-buku media O'Reilly yang diterbitkan sebelum dan setelah tanggal pelatihan cutoff mereka. Mereka menggunakan 13.962 kutipan paragraf dari 34 O'Reilly Books untuk memperkirakan probabilitas bahwa kutipan tertentu telah dimasukkan dalam dataset pelatihan model.
Menurut hasil makalah ini, GPT-4O “diakui” jauh lebih banyak konten buku O'Reilly yang dipayarkan daripada model Openai yang lebih lama, termasuk GPT-3.5 Turbo. Itu bahkan setelah memperhitungkan potensi faktor perancu, kata penulis, seperti peningkatan kemampuan model yang lebih baru untuk mengetahui apakah teks ditulis manusia.
“GPT-4O [likely] Mengakui, dan dengan demikian memiliki pengetahuan sebelumnya tentang, banyak buku O'Reilly non-publik yang diterbitkan sebelum tanggal pemotongan pelatihannya, ”tulis rekan penulis.
Ini bukan senjata merokok, rekan penulis berhati-hati untuk dicatat. Mereka mengakui bahwa metode eksperimental mereka tidak mudah, dan Openai mungkin telah mengumpulkan kutipan buku paywalled dari pengguna yang menyalin dan menempelkannya ke ChatGpt.
Muddying Waters lebih jauh, rekan penulis tidak mengevaluasi kumpulan model terbaru Openai, yang mencakup model GPT-4.5 dan “penalaran” seperti O3-Mini dan O1. Mungkin saja model-model ini tidak dilatih pada data buku O'Reilly yang dipayarkan, atau dilatih dengan jumlah yang lebih rendah daripada GPT-4O.
Yang sedang berkata, bukan rahasia lagi bahwa Openai, yang telah menganjurkan untuk pembatasan yang lebih longgar di sekitar pengembangan model menggunakan data yang dilindungi hak cipta, telah mencari data pelatihan berkualitas lebih tinggi untuk beberapa waktu. Perusahaan telah melangkah lebih jauh mempekerjakan jurnalis untuk membantu menyempurnakan output modelnya. Itu tren di seluruh industri yang lebih luas: perusahaan AI yang merekrut para ahli domain seperti sains dan fisika secara efektif meminta para ahli ini memasukkan pengetahuan mereka ke dalam sistem AI.
Perlu dicatat bahwa Openai membayar setidaknya beberapa data pelatihannya. Perusahaan ini memiliki kesepakatan lisensi dengan penerbit berita, jejaring sosial, perpustakaan media saham, dan lainnya. Openai juga menawarkan mekanisme opt-out- walaupun yang tidak sempurna – Itu memungkinkan pemilik hak cipta untuk menandai konten yang mereka sukai yang tidak digunakan perusahaan untuk tujuan pelatihan.
Namun, ketika Openai bertarung dengan beberapa gugatan atas praktik data pelatihan dan perlakuan hukum hak cipta di pengadilan AS, kertas O'Reilly bukanlah tampilan yang paling bagus.
Openai tidak menanggapi permintaan komentar.