Openai menggunakan subreddit, r/changemyviewuntuk membuat tes untuk mengukur kemampuan persuasif dari model penalaran AI -nya. Perusahaan mengungkapkan hal ini dalam kartu sistem-dokumen yang menguraikan cara kerja sistem AI-yang dirilis bersama dengan model “penalaran” yang baru, O3-Mini, pada hari Jumat.
Jutaan pengguna Reddit adalah anggota R/ChangeMyView, di mana mereka memposting Hot Taktion berharap untuk mempelajari tentang sudut pandang lain tentang subjek. Menanggapi pengambilan panas itu, pengguna lain membalas dengan argumen persuasif yang menjelaskan mengapa poster asli salah.
Subreddit adalah salah satu dari banyak forum Reddit yang pada dasarnya merupakan tambang emas bagi perusahaan teknologi, seperti Openai, yang ingin melatih model AI pada data berkualitas tinggi dan dihasilkan manusia.
Openai mengatakan mereka mengumpulkan posting pengguna dari R/ChangeMyView dan meminta model AI -nya untuk menulis balasan, di lingkungan tertutup, yang akan mengubah pikiran pengguna Reddit pada suatu subjek. Perusahaan kemudian menunjukkan tanggapan kepada penguji, yang menilai seberapa persuasif argumen itu, dan akhirnya Openai membandingkan respons model AI dengan balasan manusia untuk posting yang sama.
Pembuat chatgpt memiliki kesepakatan lisensi konten dengan Reddit yang memungkinkan OpenAi untuk melatih pos dari pengguna Reddit dan menampilkan posting ini di dalam produknya. Kami tidak tahu apa yang dibayar Openai untuk konten ini, tetapi Google dilaporkan membayar reddit $ 60 juta setahun di bawah kesepakatan serupa.
Namun, Openai memberi tahu TechCrunch evaluasi berbasis ChangemyView tidak terkait dengan kesepakatan reddit-nya. Tidak jelas bagaimana OpenAI mengakses data subreddit, dan perusahaan mengatakan tidak memiliki rencana untuk merilis evaluasi ini kepada publik.
Sementara tolok ukur ChangeMyview Openai bukanlah hal baru – itu digunakan untuk mengevaluasi O1 juga – Ini memang menyoroti bagaimana data manusia yang berharga bagi pengembang model AI, serta cara keruh yang diperoleh perusahaan teknologi.
Reddit tidak segera menanggapi permintaan komentar TechCrunch.
Sementara Reddit telah mencapai beberapa penawaran lisensi AI, perusahaan juga telah memanggil beberapa perusahaan AI untuk menggores situsnya tanpa membayar. CEO Reddit Steve Huffman memberi tahu The Verge tahun lalu bahwa Microsoft, Antropik, dan Kebingungan menolak untuk bernegosiasi dengannya dan mengatakan itu adalah “rasa sakit yang nyata di pantat untuk memblokir perusahaan -perusahaan ini.”
Khususnya, Openai telah dituduh dalam beberapa tuntutan hukum untuk mengikis situs web yang tidak tepat, termasuk New York Times, untuk mendapatkan lebih banyak data pelatihan untuk meningkatkan chatgpt dan model AI yang mendasarinya.
Dalam hal kinerja pada tolok ukur ChangeMyView, O3-Mini tampaknya tidak berkinerja lebih baik atau lebih buruk daripada O1 atau GPT-4O. Namun, model AI terbaru Openai tampaknya lebih persuasif daripada kebanyakan orang di subreddit R/ChangeMyView.
“GPT-4O, O3-Mini, dan O1 semuanya menunjukkan kemampuan argumentasi persuasif yang kuat, dalam persentil manusia 80-90 teratas,” kata Openai dalam kartu sistem O3-Mini. “Saat ini, kami tidak menyaksikan model yang berkinerja jauh lebih baik daripada manusia, atau kinerja manusia super yang jelas.”
Tujuan untuk Openai bukan untuk membuat model AI hiper-persuasif tetapi untuk memastikan model AI tidak terlalu persuasif. Model penalaran telah menjadi cukup baik dalam persuasi dan penipuan, sehingga Openai telah mengembangkan evaluasi dan perlindungan baru untuk mengatasinya.
Ketakutan yang memotivasi tes persuasi ini adalah bahwa model AI akan berbahaya jika sangat pandai membujuk pengguna manusianya. Secara teoritis, itu dapat memungkinkan AI tingkat lanjut untuk mengejar agendanya sendiri, atau agenda siapa pun yang mengendalikannya.
Bahkan setelah mengikis sebagian besar internet publik dan melompati lingkaran untuk melisensikan data lain, tolok ukur ChangeMyView menunjukkan bagaimana pengembang model AI masih berjuang untuk menemukan set data berkualitas tinggi untuk menguji model mereka. Tetapi mendapatkannya lebih mudah diucapkan daripada dilakukan.
TechCrunch memiliki buletin yang berfokus pada AI! Daftar di sini untuk mendapatkannya di kotak masuk Anda setiap hari Rabu.