Home Teknologi Bagaimana bot OpenAI menghancurkan situs web perusahaan beranggotakan tujuh orang ini 'seperti...

Bagaimana bot OpenAI menghancurkan situs web perusahaan beranggotakan tujuh orang ini 'seperti serangan DDoS'

25
0
Bagaimana bot OpenAI menghancurkan situs web perusahaan beranggotakan tujuh orang ini 'seperti serangan DDoS'


Pada hari Sabtu, Tripleganger CEO Oleksandr Tomchuk diberitahu bahwa situs e-commerce perusahaannya tidak aktif. Tampaknya ini semacam serangan penolakan layanan terdistribusi.

Dia segera mengetahui bahwa pelakunya adalah bot dari OpenAI yang tanpa henti berusaha mengikis seluruh situsnya yang sangat besar.

“Kami memiliki lebih dari 65.000 produk, setiap produk memiliki halaman,” kata Tomchuk kepada TechCrunch. “Setiap halaman memiliki setidaknya tiga foto.”

OpenAI mengirimkan “puluhan ribu” permintaan server untuk mencoba mengunduh semuanya, ratusan ribu foto, beserta deskripsi detailnya.

“OpenAI menggunakan 600 IP untuk mengikis data, dan kami masih menganalisis log dari minggu lalu, mungkin lebih banyak lagi,” katanya tentang alamat IP yang digunakan bot untuk mencoba menggunakan situsnya.

“Perayap mereka menghancurkan situs kami,” katanya. “Itu pada dasarnya adalah serangan DDoS.”

Situs web Triplegangers adalah bisnisnya. Perusahaan yang beranggotakan tujuh orang ini telah menghabiskan lebih dari satu dekade untuk merakit apa yang mereka sebut sebagai database terbesar “manusia digital ganda” di web, yaitu file gambar 3D yang dipindai dari model manusia sebenarnya.

Ia menjual file objek 3D, serta foto — mulai dari tangan hingga rambut, kulit, dan seluruh tubuh — hingga seniman 3D, pembuat video game, siapa saja yang perlu menciptakan kembali karakteristik manusia yang autentik secara digital.

Tim Tomchuk, yang berbasis di Ukraina tetapi juga memiliki lisensi di AS di Tampa, Florida, memiliki halaman ketentuan layanan di situsnya yang melarang bot mengambil gambarnya tanpa izin. Tapi itu saja tidak menghasilkan apa-apa. Situs web harus menggunakan file robot.txt yang dikonfigurasi dengan benar dengan tag yang secara khusus memberi tahu bot OpenAI, GPTBot, untuk meninggalkan situs tersebut. (OpenAI juga memiliki beberapa bot lain, ChatGPT-User dan OAI-SearchBot, yang memiliki tagnya sendiri, menurut halaman informasinya di crawlernya.)

Robot.txt, atau dikenal sebagai Protokol Pengecualian Robot, dibuat untuk memberi tahu situs mesin pencari apa yang tidak boleh dirayapi saat mereka mengindeks web. OpenAI mengatakan pada halaman informasinya bahwa mereka menghormati file-file tersebut ketika dikonfigurasi dengan kumpulan tag jangan-perayapannya sendiri, meskipun ia juga memperingatkan bahwa botnya memerlukan waktu hingga 24 jam untuk mengenali file robot.txt yang diperbarui.

Seperti yang dialami Tomchuk, jika sebuah situs tidak menggunakan robot.txt dengan benar, OpenAI dan lainnya menganggap hal itu berarti mereka dapat mengikis sesuka hati mereka. Ini bukan sistem opt-in.

Yang lebih parah lagi, Triplegangers tidak hanya dirobohkan oleh bot OpenAI selama jam kerja di AS, namun Tomchuk mengharapkan tagihan AWS meningkat berkat semua CPU dan aktivitas pengunduhan dari bot.

Robot.txt juga tidak aman dari kegagalan. Perusahaan AI secara sukarela mematuhinya. Startup AI lainnya, Perplexity, cukup terkenal dipanggil musim panas lalu oleh investigasi Wired ketika beberapa bukti menyiratkan bahwa Perplexity tidak menghormatinya.

Masing-masing adalah produk, dengan halaman produk yang menyertakan lebih banyak foto. Digunakan dengan izin.Kredit Gambar:Tripleganger (terbuka di jendela baru)

Belum bisa mengetahui secara pasti apa yang diambil

Pada hari Rabu, setelah berhari-hari bot OpenAI kembali, Triplegangers memiliki file robot.txt yang dikonfigurasi dengan benar, dan juga akun Cloudflare yang disiapkan untuk memblokir GPTBotnya dan beberapa bot lain yang dia temukan, seperti Barkrowler (perayap SEO) dan Bytespider ( perayap Tokyo). Tomchuk juga berharap dia memblokir crawler dari perusahaan model AI lainnya. Pada Kamis pagi, situs tersebut tidak mogok, katanya.

Namun Tomchuk masih belum memiliki cara yang masuk akal untuk mengetahui secara pasti apa yang berhasil diambil oleh OpenAI atau menghapus materi tersebut. Dia tidak menemukan cara untuk menghubungi OpenAI dan bertanya. OpenAI tidak menanggapi permintaan komentar TechCrunch. Dan OpenAI sejauh ini gagal memberikan alat penyisihan yang telah lama dijanjikan, seperti yang dilaporkan TechCrunch baru-baru ini.

Ini adalah masalah yang sangat rumit bagi Tripleganger. “Kami berada dalam bisnis di mana hak asasi manusia merupakan isu yang serius, karena kami memindai orang-orang yang sebenarnya,” katanya. Dengan undang-undang seperti GDPR Eropa, “mereka tidak bisa begitu saja mengambil foto siapa pun di web dan menggunakannya.”

Situs web Triplegangers juga merupakan penemuan yang sangat menarik bagi perayap AI. Startup bernilai miliaran dolar, seperti Scale AI, diciptakan di mana manusia dengan susah payah menandai gambar untuk melatih AI. Situs Triplegangers berisi foto-foto yang diberi tag secara detail: etnis, usia, tato versus bekas luka, semua tipe tubuh, dan sebagainya.

Ironisnya, keserakahan bot OpenAI inilah yang mengingatkan Tripleganger akan betapa terbukanya bot tersebut. Seandainya digores dengan lebih hati-hati, Tomchuk tidak akan pernah mengetahuinya, katanya.

“Ini menakutkan karena tampaknya ada celah yang digunakan perusahaan-perusahaan ini untuk merayapi data dengan mengatakan “Anda dapat memilih untuk tidak ikut serta jika Anda memperbarui robot.txt dengan tag kami,” kata Tomchuk, namun hal ini menempatkan tanggung jawab pada pemilik bisnis untuk memahami cara memblokirnya.

log perayap openai
Log server Triplegangers menunjukkan betapa kejamnya bot OpenAI mengakses situs tersebut, dari ratusan alamat IP. Digunakan dengan izin.

Dia ingin bisnis online kecil lainnya mengetahui bahwa satu-satunya cara untuk mengetahui apakah bot AI mengambil hak cipta sebuah situs web adalah dengan mencari secara aktif. Dia tentu saja bukan satu-satunya yang diteror oleh mereka. Pemilik situs web lain baru-baru ini memberi tahu Orang Dalam Bisnis bagaimana bot OpenAI merusak situs mereka dan menghabiskan tagihan AWS mereka.

Masalahnya semakin besar pada tahun 2024. Penelitian baru dari perusahaan periklanan digital DoubleVerify menemukan bahwa perayap AI dan scraper menyebabkan peningkatan sebesar 86% pada “lalu lintas tidak valid umum” pada tahun 2024 — yaitu, lalu lintas yang tidak berasal dari pengguna sebenarnya.

Namun, “sebagian besar situs masih tidak menyadari bahwa mereka telah dihapus oleh bot ini,” Tomchuk memperingatkan. “Sekarang kami harus memantau aktivitas log setiap hari untuk mengenali bot ini.”

Jika dipikir-pikir, keseluruhan model beroperasi seperti penggeledahan mafia: bot AI akan mengambil apa yang mereka inginkan kecuali Anda memiliki perlindungan.

“Mereka harus meminta izin, bukan sekadar mengumpulkan data,” kata Tomchuk.

TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk menerimanya di kotak masuk Anda setiap hari Rabu.


LEAVE A REPLY

Please enter your comment!
Please enter your name here