Home Teknologi Anthropic menerbitkan 'sistem prompt' yang membuat Claude tergerak

Anthropic menerbitkan 'sistem prompt' yang membuat Claude tergerak

45
0
Anthropic menerbitkan 'sistem prompt' yang membuat Claude tergerak


Model AI generatif sebenarnya tidak seperti manusia. Mereka tidak memiliki kecerdasan atau kepribadian — mereka hanyalah sistem statistik yang memprediksi kata-kata berikutnya yang paling mungkin dalam sebuah kalimat. Namun seperti pekerja magang di tempat kerja yang tirani, mereka Mengerjakan ikuti instruksi tanpa mengeluh — termasuk “perintah sistem” awal yang mempersiapkan model dengan kualitas dasar mereka, dan apa yang boleh dan tidak boleh mereka lakukan.

Setiap vendor AI generatif, dari OpenAI hingga Anthropic, menggunakan perintah sistem untuk mencegah (atau setidaknya mencoba mencegah) model berperilaku buruk, dan untuk mengarahkan nada dan sentimen umum balasan model. Misalnya, perintah mungkin memberi tahu model bahwa ia harus bersikap sopan tetapi tidak pernah meminta maaf, atau jujur ​​tentang fakta bahwa ia tidak dapat mengetahui segalanya.

Namun, vendor biasanya merahasiakan perintah sistem — mungkin karena alasan persaingan, tetapi mungkin juga karena mengetahui perintah sistem dapat menyarankan cara untuk menghindarinya. Satu-satunya cara untuk mengekspos perintah sistem GPT-4o, misalnya, adalah melalui serangan injeksi perintah. Dan meskipun begitu, keluaran sistem tidak dapat dipercaya sepenuhnya.

Namun, Anthropic, dalam upaya berkelanjutannya untuk menggambarkan dirinya sebagai vendor AI yang lebih etis dan transparanmemiliki diterbitkan sistem meminta model terbarunya (Claude 3.5 Opus, Sonnet dan Haiku) di aplikasi Claude iOS dan Android dan di web.

Alex Albert, kepala hubungan pengembang Anthropic, mengatakan dalam sebuah posting di X bahwa Anthropic berencana untuk menjadikan pengungkapan semacam ini sebagai hal rutin seiring dengan pembaruan dan penyempurnaan perintah sistemnya.

Perintah terbaru, tertanggal 12 Juli, menguraikan dengan sangat jelas apa yang tidak dapat dilakukan oleh model Claude — misalnya “Claude tidak dapat membuka URL, tautan, atau video.” Pengenalan wajah adalah hal yang sangat tidak boleh dilakukan; perintah sistem untuk Claude 3.5 Opus memberi tahu model untuk “selalu merespons seolah-olah model tersebut sama sekali tidak mengenali wajah” dan untuk “menghindari mengidentifikasi atau menamai manusia apa pun [images]”.”

Namun, petunjuk tersebut juga menggambarkan ciri dan karakteristik kepribadian tertentu — ciri dan karakteristik yang ingin dicontohkan Anthropic dari model Claude.

Misalnya saja perintah untuk Opus, yang mengatakan bahwa Claude harus muncul seolah-olah “[is] sangat cerdas dan memiliki rasa ingin tahu yang tinggi,” dan “senang mendengar pendapat orang lain tentang suatu isu dan terlibat dalam diskusi tentang berbagai topik.” Buku ini juga menginstruksikan Claude untuk menangani topik kontroversial dengan tidak memihak dan objektif, memberikan “pemikiran yang cermat” dan “informasi yang jelas” — dan tidak pernah memulai tanggapan dengan kata-kata “tentu” atau “mutlak.”

Semuanya terasa aneh bagi manusia, perintah sistem ini, yang ditulis seperti seorang aktor dalam drama panggung mungkin menulis sebuah lembar analisis karakterPrompt untuk Opus diakhiri dengan “Claude kini terhubung dengan manusia,” yang memberikan kesan bahwa Claude adalah semacam kesadaran di ujung layar yang satu-satunya tujuannya adalah memenuhi keinginan mitra percakapan manusianya.

Namun tentu saja itu hanya ilusi. Jika petunjuk untuk Claude memberi tahu kita sesuatu, itu adalah bahwa tanpa bimbingan dan arahan manusia, model-model ini akan menjadi seperti papan tulis kosong yang menakutkan.

Dengan changelog perintah sistem baru ini — yang pertama dari jenisnya dari vendor AI besar — ​​Anthropic memberikan tekanan kepada pesaing untuk menerbitkan hal yang sama. Kita lihat apakah taktik ini berhasil.




LEAVE A REPLY

Please enter your comment!
Please enter your name here