MLCommons, kelompok kerja AI Safety nirlaba, telah bekerja sama dengan platform AI Dev memeluk wajah untuk merilis salah satu koleksi rekaman suara domain publik terbesar di dunia untuk penelitian AI.
Kumpulan data, dipanggil Pidato orang tanpa pengawasanberisi lebih dari satu juta jam audio yang mencakup setidaknya 89 bahasa yang berbeda. MLCommons mengatakan mereka termotivasi untuk membuatnya dengan keinginan untuk mendukung R&D di “berbagai bidang teknologi bicara.”
“Mendukung penelitian pemrosesan bahasa alami yang lebih luas untuk bahasa selain bahasa Inggris membantu membawa teknologi komunikasi ke lebih banyak orang secara global,” tulis organisasi itu dalam a Posting Blog Kamis. “Kami mengantisipasi beberapa jalan bagi komunitas penelitian untuk terus membangun dan mengembangkan, terutama di bidang peningkatan model bicara bahasa rendah sumber daya, meningkatkan pengenalan suara di berbagai aksen dan dialek, dan aplikasi baru dalam sintesis ucapan.”
Ini adalah tujuan yang mengagumkan, tentu saja. Tetapi set data AI seperti pidato orang yang tidak diawasi dapat membawa risiko bagi para peneliti yang memilih untuk menggunakannya.
Data bias adalah salah satu risiko tersebut. Rekaman dalam pidato orang yang tidak diawasi berasal dari Archive.org, organisasi nirlaba yang mungkin terkenal dengan alat arsip web Wayback Machine. Karena banyak kontributor Archive.org berbahasa Inggris-dan Amerika-hampir semua rekaman dalam pidato orang yang tidak diawasi berada dalam bahasa Inggris beraksen Amerika, sesuai readme di halaman Proyek Resmi.
Itu berarti bahwa, tanpa penyaringan yang cermat, sistem AI seperti pengenalan suara dan model synthesizer suara yang dilatih pada pidato orang yang tidak diawasi dapat menunjukkan beberapa prasangka yang sama. Mereka mungkin, misalnya, berjuang untuk menyalin bahasa Inggris yang diucapkan oleh penutur non-asli, atau kesulitan menghasilkan suara sintetis dalam bahasa selain bahasa Inggris.
Pidato orang yang tidak diawasi mungkin juga berisi rekaman dari orang yang tidak menyadari bahwa suara mereka digunakan untuk tujuan penelitian AI – termasuk aplikasi komersial. Sementara MLCommons mengatakan bahwa semua rekaman dalam set data adalah domain publik atau tersedia di bawah lisensi Creative Commons, ada kemungkinan kesalahan yang dilakukan.
Menurut analisis MITratusan set data pelatihan AI yang tersedia untuk umum tidak memiliki informasi lisensi dan mengandung kesalahan. Pendukung pencipta termasuk Ed Newton-Rex, CEO nirlaba yang berfokus pada etika AI yang cukup terlatih, telah membuat kasus bahwa pencipta seharusnya tidak diminta untuk “memilih keluar” dari set data AI karena beban berat yang memilih keluar pada pencipta ini .
“Banyak pencipta (misalnya pengguna Squarespace) tidak memiliki cara yang berarti untuk memilih keluar,” Newton-Rex menulis Dalam sebuah posting di X Juni lalu. “Untuk pencipta yang Bisa Pilih keluar, ada beberapa metode opt-out yang tumpang tindih, yaitu (1) sangat membingungkan dan (2) tidak lengkap dalam cakupannya. Bahkan jika ada opt-out universal yang sempurna, akan sangat tidak adil untuk menempatkan beban opt-out pada pencipta, mengingat bahwa AI generatif menggunakan pekerjaan mereka untuk bersaing dengan mereka-banyak yang tidak akan menyadari bahwa mereka dapat memilih keluar. “
MlCommons mengatakan bahwa itu berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas pidato orang yang tidak diawasi. Tetapi mengingat potensi kelemahannya, perlu pengembang untuk berhati -hati.