Pada hari Minggu, Gubernur California Gavin Newsom menandatangani undang-undang, AB-2013, yang mewajibkan perusahaan yang mengembangkan sistem AI generatif untuk mempublikasikan ringkasan data tingkat tinggi yang mereka gunakan untuk melatih sistem mereka. Di antara poin-poin lainnya, ringkasan tersebut harus mencakup siapa pemilik data dan bagaimana data tersebut diperoleh atau dilisensikan, serta apakah data tersebut menyertakan informasi yang dilindungi hak cipta atau pribadi.
Hanya sedikit perusahaan AI yang bersedia mengatakan apakah mereka akan mematuhinya.
TechCrunch menjangkau pemain-pemain besar di bidang AI, termasuk OpenAI, Anthropic, Microsoft, Google, Amazon, Meta, dan startup Stability AI, Midjourney, Udio, Suno, Runway, dan Luma Labs. Kurang dari separuh yang merespons, dan satu vendor – Microsoft – secara eksplisit menolak berkomentar.
Hanya Stability, Runway, dan OpenAI yang memberi tahu TechCrunch bahwa mereka akan mematuhi AB-2013.
“OpenAI mematuhi hukum di yurisdiksi tempat kami beroperasi, termasuk yurisdiksi ini,” kata juru bicara OpenAI. Juru bicara Stability mengatakan perusahaannya “mendukung peraturan bijaksana yang melindungi masyarakat namun pada saat yang sama tidak menghambat inovasi.”
Agar adil, persyaratan pengungkapan AB-2013 tidak langsung berlaku. Meskipun hal ini berlaku untuk sistem yang dirilis pada atau setelah Januari 2022 – antara lain ChatGPT dan Stable Diffusion – perusahaan memiliki waktu hingga Januari 2026 untuk mulai menerbitkan ringkasan data pelatihan. Undang-undang tersebut juga hanya berlaku untuk sistem yang tersedia bagi warga California, sehingga menyisakan ruang gerak.
Namun mungkin ada alasan lain mengapa vendor tidak bersuara mengenai masalah ini, dan hal ini berkaitan dengan cara sebagian besar sistem AI generatif dilatih.
Data pelatihan sering kali berasal dari web. Vendor mengambil sejumlah besar gambar, lagu, video, dan lainnya dari situs web, dan melatih sistem mereka mengenai hal ini.
Bertahun-tahun yang lalu, merupakan praktik standar bagi pengembang AI untuk mencantumkan sumber data pelatihan mereka, biasanya dalam makalah teknis yang menyertai rilis model. Google, misalnya, pernah mengungkapkan bahwa mereka melatih versi awal keluarga model penghasil gambarnya, Imagen, kepada publik LAION kumpulan data. Banyak lebih tua dokumen sebutkan The Pile, kumpulan teks pelatihan sumber terbuka yang mencakup studi akademis dan basis kode.
Di pasar yang ketat saat ini, susunan kumpulan data pelatihan dianggap sebagai keunggulan kompetitif, dan bagi perusahaan mengutip ini sebagai salah satu alasan utama kerahasiaan mereka. Namun rincian data pelatihan juga dapat menjadi sasaran hukum bagi pengembang. Tautan LAION ke berhak cipta Dan melanggar privasi gambar, sedangkan The Pile berisi Buku3perpustakaan karya bajakan oleh Stephen King dan penulis lain.
Sudah ada beberapa tuntutan hukum lebih penyalahgunaan data pelatihan, dan lebih banyak lagi yang diajukan setiap bulan.
Penulis Dan penerbit mengeklaim bahwa OpenAI, Anthropic, dan Meta menggunakan buku berhak cipta — beberapa dari Books3 — untuk pelatihan. Label musik telah membawa Udio dan Suno ke pengadilan karena diduga melatih lagu tanpa memberikan kompensasi kepada musisi. Dan para seniman punya mengajukan tuntutan hukum class action terhadap Stabilitas dan Perjalanan Tengah karena apa yang mereka katakan sebagai praktik pengikisan data yang merupakan pencurian.
Tidak sulit untuk melihat bagaimana AB-2013 bisa menjadi masalah bagi vendor yang berusaha menghindari perselisihan di pengadilan. Undang-undang tersebut mengamanatkan bahwa serangkaian spesifikasi yang berpotensi memberatkan tentang kumpulan data pelatihan harus dipublikasikan, termasuk pemberitahuan yang menunjukkan kapan kumpulan data tersebut pertama kali digunakan dan apakah pengumpulan data sedang berlangsung.
AB-2013 cakupannya cukup luas. Entitas mana pun yang “memodifikasi secara substansial” sistem AI — yaitu menyempurnakan atau melatihnya kembali — adalah Juga terpaksa mempublikasikan info tentang data pelatihan yang biasa mereka lakukan. Undang-undang memiliki beberapa ukirannamun sebagian besar penerapannya diterapkan pada sistem AI yang digunakan dalam keamanan dan pertahanan siber, seperti yang digunakan untuk “pengoperasian pesawat di wilayah udara nasional.”
Tentu saja, banyak vendor percaya bahwa doktrin yang dikenal sebagai penggunaan wajar memberikan perlindungan hukum, dan mereka menegaskan hal ini di pengadilan dan di depan umum pernyataan. Beberapa, seperti Meta dan Google, memiliki berubah pengaturan platform dan ketentuan layanan mereka agar mereka dapat memanfaatkan lebih banyak data pengguna untuk pelatihan.
Didorong oleh tekanan persaingan dan pertaruhan bahwa pertahanan penggunaan wajar akan menang pada akhirnya, beberapa perusahaan telah secara bebas memberikan pelatihan mengenai data yang dilindungi IP. Pelaporan oleh Reuters mengungkapkan bahwa Meta pernah menggunakan buku berhak cipta untuk pelatihan AI meskipun ada peringatan dari pengacaranya sendiri. Ada bukti bahwa Runway mengambil sumber film Netflix dan Disney untuk melatih sistem pembuatan videonya. Dan OpenAI dilaporkan mentranskripsikan video YouTube tanpa sepengetahuan pembuat konten untuk mengembangkan model, termasuk GPT-4.
Seperti yang telah kami tulis sebelumnya, ada konsekuensi yang membuat vendor AI generatif bebas dari hukuman, baik dengan pengungkapan data pelatihan sistem atau tidak. Pengadilan mungkin akan memihak para pendukung penggunaan wajar, dan memutuskan bahwa AI generatif adalah pihak yang mendukungnya cukup transformatif — dan bukan mesin plagiarisme The New York Times dan penggugat lainnya menyatakan demikian.
Dalam skenario yang lebih dramatis, AB-2013 dapat menyebabkan vendor menahan model tertentu di California, atau merilis versi model untuk warga California yang hanya dilatih mengenai penggunaan wajar dan kumpulan data berlisensi. Beberapa vendor mungkin memutuskan bahwa tindakan paling aman terkait AB-2013 adalah menghindari pengungkapan yang membahayakan — dan menimbulkan tuntutan hukum.
Dengan asumsi undang-undang tersebut tidak ditentang dan/atau dipertahankan, kita akan memiliki gambaran yang jelas mengenai batas waktu AB-2013 yang akan ditetapkan setahun dari sekarang.