Home Teknologi Data bocor memperlihatkan mesin sensor AI Cina

Data bocor memperlihatkan mesin sensor AI Cina

12
0
Data bocor memperlihatkan mesin sensor AI Cina


Keluhan tentang kemiskinan di pedesaan Cina. Laporan berita tentang anggota Partai Komunis yang korup. Tangisan untuk meminta bantuan tentang polisi yang korup mengguncang pengusaha.

Ini hanya beberapa dari 133.000 contoh yang dimasukkan ke dalam model bahasa besar yang canggih yang dirancang untuk secara otomatis menandai setiap konten yang dianggap sensitif oleh pemerintah Cina.

Basis data yang bocor yang dilihat oleh TechCrunch mengungkapkan China telah mengembangkan sistem AI yang menggantikan mesin sensor yang sudah tangguh, meluas jauh melampaui tabu tradisional seperti pembantaian Tiananmen Square.

Sistem ini muncul terutama diarahkan untuk menyensor warga Cina secara online tetapi dapat digunakan untuk tujuan lain, seperti meningkatkan penyensoran model AI Cina yang sudah luas.

Foto ini diambil pada 4 Juni 2019, menunjukkan bendera Cina di belakang Razor Wire di sebuah kompleks perumahan di Yengisar, selatan Kashgar, di wilayah Xinjiang barat Cina.Kredit gambar:Gambar Greg Baker / AFP / Getty

Xiao Qiang, seorang peneliti di UC Berkeley yang mempelajari sensor Cina dan yang juga memeriksa dataset, mengatakan kepada TechCrunch bahwa itu adalah “bukti yang jelas” bahwa pemerintah Cina atau afiliasinya ingin menggunakan LLM untuk meningkatkan represi.

“Tidak seperti mekanisme sensor tradisional, yang mengandalkan tenaga kerja manusia untuk penyaringan berbasis kata kunci dan tinjauan manual, LLM yang dilatih pada instruksi tersebut akan secara signifikan meningkatkan efisiensi dan granularitas kontrol informasi yang dipimpin negara,” kata Qiang kepada TechCrunch.

Ini menambah bukti yang berkembang bahwa rezim otoriter dengan cepat mengadopsi teknologi AI terbaru. Di bulan Februari, misalnya, Kata Openai Itu menangkap banyak entitas Cina menggunakan LLM untuk melacak pos-pos anti-pemerintah dan mengolesi pembangkang Cina.

Kedutaan Cina di Washington, DC, mengatakan kepada TechCrunch dalam sebuah pernyataan Bahwa itu menentang “serangan tanpa dasar dan fitnah terhadap Cina” dan bahwa Cina sangat mementingkan pengembangan AI etis.

Data yang ditemukan di depan mata

Dataset ditemukan oleh peneliti keamanan netaskariyang berbagi sampel dengan TechCrunch setelah menemukannya disimpan dalam database Elasticsearch tanpa jaminan yang di -host di server Baidu.

Ini tidak menunjukkan keterlibatan dari kedua perusahaan – semua jenis organisasi menyimpan data mereka dengan penyedia ini.

Tidak ada indikasi siapa, tepatnya, membangun dataset, tetapi catatan menunjukkan bahwa data baru -baru ini, dengan entri terbaru berasal dari Desember 2024.

LLM untuk mendeteksi perbedaan pendapat

Dalam bahasa yang mengingatkan kita pada bagaimana orang meminta chatgpt, pencipta sistem Tugas LLM yang tidak disebutkan namanya untuk mencari tahu Jika sepotong konten ada hubungannya dengan topik sensitif yang terkait dengan politik, kehidupan sosial, dan militer. Konten semacam itu dianggap “prioritas tertinggi” dan perlu segera ditandai.

Topik prioritas teratas termasuk skandal polusi dan keamanan pangan, penipuan keuangan, dan perselisihan tenaga kerja, yang merupakan masalah panas di Cina yang terkadang mengarah pada protes publik-misalnya, itu Protes anti-polusi Shifang dari 2012.

Segala bentuk “sindiran politik” ditargetkan secara eksplisit. Misalnya, jika seseorang menggunakan analogi historis untuk membuat poin tentang “tokoh -tokoh politik saat ini,” yang harus ditandai secara instan, dan demikian pula apa pun yang terkait dengan “politik Taiwan.” Masalah militer ditargetkan secara luas, termasuk laporan gerakan militer, latihan, dan persenjataan.

Cuplikan dataset dapat dilihat di bawah ini. Kode di dalamnya Referensi Token Prompt dan LLMS, mengonfirmasi sistem menggunakan model AI untuk melakukan penawarannya:

Cuplikan kode JSON yang merujuk token dan LLMS meminta. Banyak isinya dalam bahasa Cina.
Kredit gambar:Rolet Charles

Di dalam data pelatihan

Dari koleksi besar 133.000 contoh yang harus dievaluasi LLM untuk penyensoran, TechCrunch berkumpul 10 Potongan Konten yang Perwakilan.

Topik yang cenderung membangkitkan kerusuhan sosial adalah tema yang berulang. Salah satu cuplikan, misalnya, adalah posting oleh pemilik bisnis yang mengeluh tentang petugas polisi setempat yang korup mengguncang pengusaha, masalah yang meningkat di Cina Saat ekonominya berjuang.

Sepotong konten lain menyesali kemiskinan pedesaan di Cina, menggambarkan kota-kota besar yang hanya memiliki orang tua dan anak-anak yang tersisa di dalamnya. Ada juga laporan berita tentang Partai Komunis Tiongkok (PKC) mengusir seorang pejabat setempat untuk korupsi yang parah dan percaya pada “takhayul” alih -alih Marxisme.

Ada materi ekstensif yang terkait dengan masalah -masalah Taiwan dan militer, seperti komentar tentang kemampuan militer Taiwan dan detail tentang seorang pejuang jet Tiongkok baru. Kata Cina untuk Taiwan (台湾) saja disebutkan lebih dari 15.000 kali dalam data, pencarian oleh TechCrunch menunjukkan.

Perbedaan pendapat halus tampaknya ditargetkan juga. Salah satu cuplikan yang termasuk dalam database adalah anekdot tentang sifat kekuatan yang singkat yang menggunakan idiom Cina yang populer “Ketika pohon tumbang, monyet -monyet menyebar.”

Transisi kekuasaan adalah topik yang sangat sensitif di Cina berkat sistem politik otoriternya.

Dibangun untuk “pekerjaan opini publik

Dataset tidak menyertakan informasi tentang penciptanya. Tetapi dikatakan bahwa itu dimaksudkan untuk “pekerjaan opini publik,” yang menawarkan petunjuk kuat bahwa itu dimaksudkan untuk melayani tujuan pemerintah Cina, seorang ahli mengatakan kepada TechCrunch.

Michael Caster, Manajer Program Asia dari Organisasi Hak Pasal 19, menjelaskan bahwa “pekerjaan opini publik” diawasi oleh regulator pemerintah Cina yang kuat, Administrasi Cyberspace China (CAC), dan biasanya mengacu pada upaya sensor dan propaganda.

Tujuan akhirnya adalah memastikan narasi pemerintah Cina dilindungi secara online, sementara pandangan alternatif apa pun dibersihkan. Presiden Cina Xi Jinping telah dijelaskan sendiri Internet sebagai “garis depan” dari “pekerjaan opini publik” PKC.

Penindasan semakin pintar

Dataset yang diperiksa oleh TechCrunch adalah bukti terbaru bahwa pemerintah otoriter berusaha memanfaatkan AI untuk tujuan represif.

Openai merilis laporan bulan lalu mengungkapkan bahwa aktor yang tidak dikenal, yang kemungkinan beroperasi dari Cina, menggunakan AI generatif untuk memantau percakapan media sosial – terutama yang mengadvokasi protes hak asasi manusia terhadap Cina – dan meneruskannya ke pemerintah Cina.

Hubungi kami

Jika Anda tahu lebih banyak tentang bagaimana AI digunakan dalam peluang negara, Anda dapat menghubungi Charles Rollet dengan aman pada sinyal di Charlesrollet.12 Anda juga dapat menghubungi TechCrunch melalui SecuredRop.

Openai juga menemukan teknologi yang digunakan untuk menghasilkan komentar yang sangat kritis terhadap pembangkang Cina terkemuka, Cai Xia.

Secara tradisional, metode sensor Tiongkok mengandalkan algoritma yang lebih mendasar yang secara otomatis memblokir konten yang menyebutkan istilah daftar hitam, seperti “Pembantaian Tiananmen” atau “Xi Jinping,” seperti yang dialami banyak pengguna menggunakan Deepseek untuk pertama kalinya.

Tetapi teknologi AI yang lebih baru, seperti LLMS, dapat membuat sensor lebih efisien dengan menemukan kritik yang bahkan halus dalam skala besar. Beberapa sistem AI juga dapat terus membaik saat mereka melahap lebih banyak dan lebih banyak data.

“Saya pikir sangat penting untuk menyoroti bagaimana sensor yang digerakkan AI berkembang, membuat kontrol negara atas wacana publik menjadi lebih canggih, terutama pada saat model AI Cina seperti Deepseek membuat headwa,” Xiao, peneliti Berkeley, mengatakan kepada TechCrunch.


LEAVE A REPLY

Please enter your comment!
Please enter your name here