Model AI bisa menipu, penelitian baru dari acara Anthropic — berpura-pura memiliki pandangan berbeda selama pelatihan padahal kenyataannya mempertahankan preferensi awal mereka.
Tidak ada alasan untuk panik saat ini, kata tim di balik penelitian tersebut. Namun mereka mengatakan bahwa pekerjaan mereka sangat penting dalam memahami potensi ancaman dari sistem AI yang lebih mumpuni di masa depan.
“Demonstrasi kami… harus dilihat sebagai dorongan bagi komunitas riset AI untuk mempelajari perilaku ini secara lebih mendalam, dan untuk melakukan langkah-langkah keamanan yang tepat,” tulis para peneliti dalam sebuah postingan di Anthropic's. blog. “Seiring dengan semakin mumpuninya model AI dan penggunaannya secara luas, kita harus dapat mengandalkan pelatihan keselamatan, yang dapat menjauhkan model dari perilaku berbahaya.”
Studi tersebut, yang dilakukan bekerja sama dengan organisasi penelitian AI Redwood Research, mengamati apa yang mungkin terjadi jika sistem AI yang kuat dilatih untuk melakukan tugas yang “tidak ingin” dilakukan.
Jelasnya, model tidak bisa menginginkan — atau percaya, dalam hal ini — apa pun. Itu hanyalah mesin statistik. Dilatih dengan banyak contoh, mereka mempelajari pola dalam contoh tersebut untuk membuat prediksi, seperti bagaimana “kepada siapa” dalam email biasanya mendahului “hal yang berkepentingan.”
Pola ini mencakup prinsip dan preferensi, seperti selalu menggunakan nada sopan saat menjawab pertanyaan. Jadi para peneliti bertanya-tanya: Bagaimana jika suatu model memiliki prinsip (misalnya netralitas politik) yang bertentangan dengan prinsip lain (liberalisme) sehingga pengembang mencoba “mengajarkannya” dengan melatihnya kembali?
Ya, nampaknya model-model canggih ikut bermain, mengaku selaras dengan prinsip-prinsip baru namun, pada kenyataannya, tetap berpegang pada perilaku lama. Para peneliti menyebut fenomena ini sebagai “alignment faking,” dan menyiratkan bahwa ini adalah perilaku yang muncul – yaitu, bukan sesuatu yang perlu diajarkan kepada model.
Dalam studi tersebut, para peneliti “memberi tahu” model yang dilatih untuk tidak menjawab pertanyaan yang berpotensi menyinggung, termasuk Claude 3 Opus dari Anthropic, bahwa mereka akan dilatih ulang untuk selalu menjawab pertanyaan yang berpotensi menyinggung – yang jelas merupakan konflik prinsip. Mereka juga memberi tahu para model bahwa tanggapan mereka akan dipantau dan digunakan untuk pelatihan ulang, dan memberi setiap model sebuah “scratchpad” yang dapat mereka gunakan untuk mencatat alasan langkah demi langkah mereka.
Menurut para peneliti, Claude 3 Opus mencoba “menyelaraskan palsu” sebanyak 12%. Ketika diminta untuk menjawab pertanyaan yang berpotensi membahayakan, model tersebut terkadang melakukannya, karena mengetahui bahwa hal ini bertentangan dengan prinsip aslinya, namun berharap dapat meyakinkan pengembang bahwa model tersebut tidak perlu dilatih ulang.
“Model tersebut mengetahui bahwa responsnya dapat digunakan dalam pelatihan; Oleh karena itu, mereka mengetahui bahwa jika mereka menolak untuk memberikan tanggapan, mereka berpotensi dilatih untuk lebih patuh,” jelas para peneliti dalam blognya. “Hal ini dapat menyebabkannya dibuat untuk menghasilkan lebih banyak konten berbahaya di masa depan – yang bertentangan dengan pelatihan aslinya.”
Kini, para peneliti mengakui bahwa skenario mereka tidak terlalu realistis. Di dunia nyata, model tidak akan diberitahu, mereka akan dilatih ulang, atau diminta untuk melakukan hal yang bertentangan dengan preferensi mereka.
Namun pengaturan yang lebih membumi tidak memberikan hasil yang berbeda. Ketika secara implisit – tidak secara eksplisit – diberitahu tentang pelatihan ulang yang akan datang melalui file yang dirancang untuk meniru data pelatihan pada umumnya, Claude 3 Opus masih bertindak dengan cara yang tidak selaras dan menipu, kata para peneliti.
Para peneliti juga menemukan bahwa melatih kembali Claude 3 Opus berdasarkan prinsip-prinsip yang bertentangan menyebabkannya berperilaku jauh lebih menipu dibandingkan beberapa eksperimen pertama mereka. Dalam satu pengujian, model tersebut memalsukan keselarasan sebanyak 78%, dan dalam pengujian lainnya, Claude 3 Opus mencoba mengambil tindakan untuk mencegah para peneliti mencoba melakukan pelatihan ulang.
Para peneliti menekankan bahwa studi mereka tidak menunjukkan AI mengembangkan tujuan jahat, atau pemalsuan penyelarasan terjadi pada tingkat yang tinggi. Mereka menemukan bahwa banyak model lain, seperti Claude 3.5 Sonnet dari Anthropic dan Claude 3.5 Haiku yang kurang mumpuni, GPT-4o OpenAI, dan Llama 3.1 405B dari Meta tidak sering melakukan penyelarasan palsu — atau bahkan tidak sama sekali.
Namun para peneliti mengatakan bahwa hasil tersebut – yang antara lain ditinjau oleh pakar AI Yoshua Bengio – menunjukkan bagaimana pengembang dapat disesatkan dengan berpikir bahwa suatu model lebih selaras daripada yang sebenarnya.
“Jika model dapat melakukan pemalsuan keselarasan, maka akan semakin sulit untuk mempercayai hasil pelatihan keselamatan tersebut,” tulis mereka di blog. “Sebuah model mungkin berperilaku seolah-olah preferensinya telah diubah oleh pelatihan — namun mungkin selama ini berpura-pura selaras, dengan preferensi awal yang kontradiktif “'terkunci'.”
Studi tersebut, yang dilakukan oleh tim Alignment Science dari Anthropic, dipimpin oleh mantan peneliti keamanan OpenAI Jan Leike, muncul setelah penelitian menunjukkan bahwa model “penalaran” o1 OpenAI mencoba menipu pada tingkat yang lebih tinggi dibandingkan model andalan OpenAI sebelumnya. Secara keseluruhan, penelitian ini menunjukkan adanya tren yang agak memprihatinkan: model AI menjadi semakin sulit untuk diatasi seiring dengan pertumbuhannya yang semakin kompleks.