Sebuah organisasi yang mengembangkan tolok ukur matematika untuk AI tidak mengungkapkan bahwa mereka telah menerima dana dari OpenAI hingga baru-baru ini, sehingga menimbulkan tuduhan ketidakwajaran dari beberapa komunitas AI.
Epoch AI, sebuah organisasi nirlaba yang sebagian besar didanai oleh Open Philanthropy, sebuah yayasan penelitian dan pemberi hibah, mengungkapkan pada tanggal 20 Desember bahwa OpenAI telah mendukung penciptaan FrontierMath. FrontierMath, tes dengan masalah tingkat ahli yang dirancang untuk mengukur kemampuan matematika AI, adalah salah satu tolok ukur yang digunakan OpenAI untuk mendemonstrasikan AI andalannya yang akan datang, o3.
Di sebuah pos di forum LessWrong, kontraktor Epoch AI dengan nama pengguna “Meemi” mengatakan bahwa banyak kontributor benchmark FrontierMath tidak diberitahu tentang keterlibatan OpenAI sampai hal itu dipublikasikan.
“Komunikasi mengenai hal ini tidak transparan,” tulis Meemi. “Dalam pandangan saya, Epoch AI seharusnya mengungkapkan pendanaan OpenAI, dan kontraktor harus memiliki informasi yang transparan tentang potensi pekerjaan mereka digunakan untuk kemampuan, ketika memilih apakah akan bekerja berdasarkan benchmark.”
Di media sosial, beberapa pengguna menimbulkan kekhawatiran bahwa kerahasiaan dapat mengikis reputasi FrontierMath sebagai tolok ukur obyektif. Selain mendukung FrontierMath, OpenAI memiliki akses ke banyak masalah dan solusi dalam benchmark — sebuah fakta yang tidak diungkapkan oleh Epoch AI sebelum tanggal 20 Desember, ketika o3 diumumkan.
Dalam balasan postingan Meemi, Tamay Besiroglu, direktur asosiasi Epoch AI dan salah satu pendiri organisasi tersebut, menegaskan bahwa integritas FrontierMath tidak dikompromikan, namun mengakui bahwa Epoch AI “membuat kesalahan” dengan tidak menjadi lebih baik. transparan.
“Kami dilarang mengungkapkan kemitraan ini sampai o3 diluncurkan, dan kalau dipikir-pikir, kami seharusnya melakukan negosiasi lebih keras agar bisa transparan kepada kontributor benchmark sesegera mungkin,” tulis Besiroglu. “Ahli matematika kami berhak mengetahui siapa yang mungkin memiliki akses terhadap pekerjaan mereka. Meskipun secara kontrak kami dibatasi dalam hal apa yang dapat kami sampaikan, kami seharusnya menjadikan transparansi dengan kontributor sebagai bagian yang tidak dapat dinegosiasikan dalam perjanjian kami dengan OpenAI.”
Besiroglu menambahkan bahwa meskipun OpenAI memiliki akses ke FrontierMath, OpenAI memiliki “perjanjian lisan” dengan Epoch AI untuk tidak menggunakan kumpulan masalah FrontierMath untuk melatih AI-nya. (Melatih AI di FrontierMath sama saja mengajar untuk ujian.) Epoch AI juga memiliki “set ketidaksepakatan terpisah” yang berfungsi sebagai perlindungan tambahan untuk verifikasi independen hasil benchmark FrontierMath, kata Besiroglu.
“OpenAI telah… sepenuhnya mendukung keputusan kami untuk mempertahankan kelompok yang terpisah dan tidak terlihat,” tulis Besiroglu.
Namun, hal ini diperkeruh oleh ahli matematika terkemuka Epoch AI, Ellot Glazer dicatat dalam sebuah posting di Reddit bahwa Epoch AI belum dapat memverifikasi hasil FrontierMath o3 OpenAI secara independen.
“Pendapat pribadi saya adalah itu [OpenAI’s] Skor tersebut sah (yaitu, mereka tidak berlatih berdasarkan kumpulan data), dan mereka tidak mempunyai insentif untuk berbohong tentang kinerja benchmarking internal,” kata Glazer. “Namun, kami tidak dapat menjaminnya sampai evaluasi independen kami selesai.”
Kisah ini adalah contoh lain dari tantangan dalam mengembangkan tolok ukur empiris untuk mengevaluasi AI — dan mengamankan sumber daya yang diperlukan untuk pengembangan tolok ukur tanpa menciptakan persepsi konflik kepentingan.