Home Teknologi Organisasi di balik kumpulan data yang digunakan untuk melatih Difusi Stabil mengklaim...

Organisasi di balik kumpulan data yang digunakan untuk melatih Difusi Stabil mengklaim telah menghapus CSAM

58
0
Organisasi di balik kumpulan data yang digunakan untuk melatih Difusi Stabil mengklaim telah menghapus CSAM


LAION, organisasi penelitian Jerman yang menciptakan data yang digunakan untuk melatih Difusi Stabil, di antara model AI generatif lainnya, telah dilepaskan kumpulan data baru yang diklaim telah “dibersihkan secara menyeluruh dari tautan yang diketahui ke materi yang diduga sebagai pelecehan seksual anak (CSAM).”

Kumpulan data baru, Re-LAION-5B, sebenarnya merupakan rilis ulang dari kumpulan data lama, LAION-5B — tetapi dengan “perbaikan” yang diterapkan dengan rekomendasi dari Internet Watch Foundation nirlaba, Human Rights Watch, Canadian Center for Child Protection, dan Stanford Internet Observatory yang kini sudah tidak ada lagi. Kumpulan data ini tersedia untuk diunduh dalam dua versi, Re-LAION-5B Research dan Re-LAION-5B Research-Safe (yang juga menghapus konten NSFW tambahan), yang keduanya difilter untuk ribuan tautan ke CSAM yang diketahui — dan “mungkin”, kata LAION.

“LAION telah berkomitmen untuk menghapus konten ilegal dari kumpulan datanya sejak awal dan telah menerapkan langkah-langkah yang tepat untuk mencapai hal ini sejak awal,” tulis LAION dalam sebuah pernyataan. postingan blog“LAION benar-benar berpegang pada prinsip bahwa konten ilegal akan segera dihapus setelah diketahui.”

Yang perlu diperhatikan adalah bahwa kumpulan data LAION tidak — dan tidak pernah — memuat gambar. Melainkan, kumpulan data tersebut merupakan indeks tautan ke gambar dan teks alt gambar yang dikurasi LAION, yang semuanya berasal dari berbeda dataset — Common Crawl — dari situs dan halaman web yang diambil.

Perilisan Re-LAION-5B dilakukan setelah penyelidikan pada bulan Desember 2023 oleh Stanford Internet Observatory yang menemukan bahwa LAION-5B — khususnya subset yang disebut LAION-5B 400M — memuat sedikitnya 1.679 tautan ke gambar ilegal yang diambil dari unggahan media sosial dan situs web dewasa populer. Menurut laporan tersebut, 400M juga memuat tautan ke “berbagai konten yang tidak pantas termasuk gambar pornografi, cercaan rasis, dan stereotip sosial yang merugikan.”

Sementara rekan penulis laporan dari Stanford mencatat bahwa akan sulit untuk menghapus konten yang menyinggung dan bahwa keberadaan CSAM tidak serta-merta memengaruhi keluaran model yang dilatih pada kumpulan data tersebut, LAION mengatakan hal itu akan menghentikan sementara LAION-5B.

Laporan Stanford merekomendasikan bahwa model yang dilatih pada LAION-5B “harus dihentikan dan distribusinya dihentikan jika memungkinkan.” Mungkin terkait dengan hal ini, perusahaan rintisan AI Runway baru saja diturunkan model Stable Diffusion 1.5 dari platform hosting AI Hugging Face; kami telah menghubungi perusahaan tersebut untuk informasi lebih lanjut. (Runway pada tahun 2023 bermitra dengan Stability AI, perusahaan di balik Stable Diffusion, untuk membantu melatih model Stable Diffusion yang asli.)

Dari kumpulan data Re-LAION-5B baru, yang berisi sekitar 5,5 miliar pasangan teks-gambar dan dirilis di bawah lisensi Apache 2.0, LAION mengatakan bahwa metadata dapat digunakan oleh pihak ketiga untuk membersihkan salinan LAION-5B yang ada dengan menghapus konten ilegal yang cocok.

LAION menekankan bahwa kumpulan datanya ditujukan untuk tujuan penelitian — bukan komersial. Namun, jika sejarah menjadi indikasinya, hal itu tidak akan menghalangi beberapa organisasi. Selain Stability AI, Google pernah menggunakan kumpulan data LAION untuk melatih model pembangkit gambarnya.

“Secara keseluruhan, 2.236 tautan [to suspected CSAM] dihapus setelah dicocokkan dengan daftar tautan dan hash gambar yang disediakan oleh mitra kami,” lanjut LAION dalam postingan tersebut. “Tautan ini juga menggantikan 1008 tautan yang ditemukan oleh laporan Stanford Internet Observatory pada bulan Desember 2023 … Kami sangat mendesak semua laboratorium penelitian dan organisasi yang masih menggunakan LAION-5B lama untuk bermigrasi ke kumpulan data Re-LAION-5B sesegera mungkin.”


LEAVE A REPLY

Please enter your comment!
Please enter your name here