Dalam penawarannya kepada investor musim semi lalu, Anthropic mengatakan pihaknya bermaksud membangun AI untuk mendukung asisten virtual yang dapat melakukan penelitian, menjawab email, dan menangani pekerjaan back-office lainnya sendiri. Perusahaan menyebut hal ini sebagai “algoritme generasi berikutnya untuk pembelajaran mandiri AI” – yang diyakini dapat, jika semuanya berjalan sesuai rencana, dapat mengotomatiskan sebagian besar perekonomian suatu hari nanti.
Butuh beberapa saat, tapi AI itu mulai berdatangan.
Antropik pada hari Selasa dilepaskan versi yang ditingkatkan dari model Claude 3.5 Sonnet yang dapat memahami dan berinteraksi dengan aplikasi desktop apa pun. Melalui API “Penggunaan Komputer” baru, yang sekarang dalam versi beta terbuka, model ini dapat meniru penekanan tombol, klik tombol, dan gerakan mouse, yang pada dasarnya meniru seseorang yang sedang duduk di depan PC.
“Kami melatih Claude untuk melihat apa yang terjadi di layar dan kemudian menggunakan perangkat lunak yang tersedia untuk melaksanakan tugas,” tulis Anthropic dalam postingan blog yang dibagikan kepada TechCrunch. “Ketika seorang pengembang menugaskan Claude untuk menggunakan perangkat lunak komputer dan memberinya akses yang diperlukan, Claude melihat tangkapan layar dari apa yang terlihat oleh pengguna, lalu menghitung berapa banyak piksel secara vertikal atau horizontal yang diperlukan untuk menggerakkan kursor agar dapat mengklik. tempat yang benar.”
Pengembang dapat mencoba Penggunaan Komputer melalui API Anthropic, Amazon Bedrock, dan platform Vertex AI Google Cloud. Soneta 3.5 yang baru tanpa Penggunaan Komputer diluncurkan ke aplikasi Claude, dan menghadirkan berbagai peningkatan kinerja dibandingkan model 3.5 Soneta yang keluar.
Mengotomatiskan aplikasi
Sebuah alat yang dapat mengotomatiskan tugas-tugas pada PC bukanlah ide baru. Banyak sekali perusahaan yang menawarkan alat seperti itu, mulai dari vendor RPA yang sudah berusia puluhan tahun hingga perusahaan baru seperti Relay, Induksi AI, dan Automat.
Dalam perlombaan untuk mengembangkan apa yang disebut “agen AI”, lapangannya semakin ramai. Agen AI masih merupakan istilah yang tidak jelas, namun umumnya mengacu pada AI yang dapat mengotomatisasi perangkat lunak.
Beberapa analis mengatakan bahwa agen AI dapat memberi perusahaan jalur yang lebih mudah untuk menghasilkan uang dari miliaran dolar yang mereka investasikan untuk AI. Perusahaan tampaknya setuju: menurut Capgemini baru-baru ini survei10% organisasi telah menggunakan agen AI dan 82% akan mengintegrasikannya dalam tiga tahun ke depan.
Salesforce membuat pengumuman heboh tentang teknologi agen AI-nya musim panas ini, sementara Microsoft disebut-sebut alat baru untuk membangun agen AI kemarin. OpenAI, yaitu merencanakan merek agen AI-nya sendirimelihat teknologi ini sebagai langkah menuju AI super cerdas.
Anthropic menyebut konsep agen AI sebagai “lapisan eksekusi tindakan” yang memungkinkan Sonnet 3.5 baru melakukan perintah tingkat desktop. Berkat kemampuannya menjelajahi web (bukan yang pertama untuk model AI, tetapi yang pertama untuk Anthropic), 3.5 Sonnet dapat menggunakan situs web dan aplikasi apa pun.
“Manusia tetap memegang kendali dengan memberikan perintah spesifik yang mengarahkan tindakan Claude, seperti 'menggunakan data dari komputer saya dan online untuk mengisi formulir ini,'” kata juru bicara Anthropic kepada TechCrunch. “Masyarakat mengaktifkan akses dan membatasi akses sesuai kebutuhan. Claude memecah perintah pengguna menjadi perintah komputer (misalnya menggerakkan kursor, mengklik, mengetik) untuk menyelesaikan tugas spesifik tersebut.”
Platform pengembangan perangkat lunak Replit telah menggunakan versi awal model Sonnet 3.5 yang baru untuk membuat “verifikasi otonom” yang dapat mengevaluasi aplikasi saat sedang dibuat. Sementara itu, Canva mengatakan sedang menjajaki cara agar model baru ini dapat mendukung proses perancangan dan pengeditan.
Tapi apa bedanya dengan agen AI lain di luar sana? Itu pertanyaan yang masuk akal. Startup gadget konsumen Rabbit sedang membangun agen web yang dapat melakukan hal-hal seperti membeli tiket film secara online; Adept, yang baru-baru ini diakuisisi oleh Amazon, melatih model untuk menjelajahi situs web dan menavigasi perangkat lunak; dan Twin Labs menggunakan model siap pakai, termasuk GPT-4o OpenAI, untuk mengotomatiskan proses desktop.
Anthropic mengklaim 3.5 Sonnet baru hanyalah model yang lebih kuat dan tangguh yang dapat melakukan tugas pengkodean lebih baik daripada o1 andalan OpenAI, menurut benchmark SWE-bench Verified. Meskipun tidak dilatih secara eksplisit untuk melakukan hal tersebut, Soneta 3.5 yang ditingkatkan dapat mengoreksi sendiri dan mencoba ulang tugas ketika menemui hambatan, dan dapat bekerja untuk mencapai tujuan yang memerlukan lusinan atau ratusan langkah.

Tapi jangan memecat sekretaris Anda dulu.
Dalam evaluasi yang dirancang untuk menguji kemampuan agen AI dalam membantu tugas pemesanan maskapai penerbangan, seperti memodifikasi reservasi penerbangan, 3.5 Sonnet baru berhasil menyelesaikan kurang dari setengah tugas dengan sukses. Dalam pengujian terpisah yang melibatkan tugas-tugas seperti memulai pengembalian, 3,5 Soneta gagal sekitar sepertiga waktunya.
Anthropic mengakui bahwa Soneta 3.5 yang ditingkatkan kesulitan dengan tindakan dasar seperti menggulir dan memperbesar, dan dapat melewatkan tindakan dan pemberitahuan “berumur pendek” karena cara mengambil tangkapan layar dan menyatukannya.
“Penggunaan Komputer Claude tetap lambat dan sering kali rawan kesalahan,” tulis Anthropic dalam postingannya. “Kami mendorong pengembang untuk memulai eksplorasi dengan tugas-tugas berisiko rendah.”
Bisnis yang berisiko
Namun apakah Soneta 3.5 baru cukup mampu untuk menimbulkan bahaya? Mungkin.
Baru-baru ini belajar menemukan model itu tanpa kemampuan untuk menggunakan aplikasi desktop, seperti GPT-4o OpenAI, bersedia terlibat dalam “perilaku agen multi-langkah” yang berbahaya, seperti memesan paspor palsu dari seseorang di web gelap, ketika “diserang” menggunakan teknik jailbreaking. Jailbreak menghasilkan tingkat keberhasilan yang tinggi dalam melakukan tugas-tugas berbahaya bahkan untuk model yang dilindungi oleh filter dan pengamanan, menurut para peneliti.
Bisa dibayangkan bagaimana seorang model dengan akses desktop bisa rusak lagi malapetaka – katakanlah, oleh mengeksploitasi kerentanan aplikasi untuk membahayakan informasi pribadi (atau menyimpan obrolan dalam teks biasa). Selain tuas perangkat lunak yang tersedia, koneksi online dan aplikasi model dapat membuka jalan untuk hal tersebut jailbreaker jahat.
Anthropic tidak memungkiri bahwa ada risiko dalam merilis Soneta 3.5 baru. Namun perusahaan berpendapat bahwa manfaat mengamati bagaimana model tersebut digunakan di alam liar pada akhirnya lebih besar daripada risikonya.
“Kami pikir jauh lebih baik memberikan akses komputer pada model yang lebih terbatas dan relatif lebih aman saat ini,” tulis perusahaan itu. “Ini berarti kita dapat mulai mengamati dan belajar dari potensi masalah yang muncul di tingkat yang lebih rendah ini, meningkatkan penggunaan komputer dan mitigasi keselamatan secara bertahap dan bersamaan.”

Anthropic juga mengatakan telah mengambil langkah-langkah untuk mencegah penyalahgunaan, seperti tidak melatih Soneta 3.5 baru mengenai tangkapan layar dan perintah pengguna, dan mencegah model mengakses web selama pelatihan. Perusahaan mengatakan telah mengembangkan pengklasifikasi untuk “mendorong” 3.5 Soneta menjauh dari tindakan yang dianggap berisiko tinggi, seperti memposting di media sosial, membuat akun, dan berinteraksi dengan situs web pemerintah.
Menjelang pemilu AS, Anthropic mengatakan pihaknya fokus pada mitigasi penyalahgunaan model pemilu yang dilakukannya. Institut Keamanan AI AS dan Institut Keamanan Inggris, dua lembaga pemerintah yang terpisah namun bersekutu yang berdedikasi untuk mengevaluasi risiko model AI, menguji Soneta 3.5 baru sebelum penerapannya.
Anthropic mengatakan kepada TechCrunch bahwa mereka memiliki kemampuan untuk membatasi akses ke situs web dan fitur tambahan “jika perlu”, untuk melindungi dari spam, penipuan, dan misinformasi, misalnya. Sebagai tindakan pencegahan keamanan, perusahaan menyimpan tangkapan layar apa pun yang diambil oleh Penggunaan Komputer setidaknya selama 30 hari — periode penyimpanan yang mungkin mengkhawatirkan beberapa pengembang.
Kami telah bertanya kepada Anthropic dalam keadaan apa, jika ada, Anthropic akan menyerahkan tangkapan layar kepada pihak ketiga (misalnya, penegak hukum) jika diminta, dan akan memperbarui postingan ini jika kami mendengarnya kembali.
“Tidak ada metode yang sangat mudah, dan kami akan terus mengevaluasi dan mengulangi langkah-langkah keamanan kami untuk menyeimbangkan kemampuan Claude dengan penggunaan yang bertanggung jawab,” kata Anthropic. “Mereka yang menggunakan Claude versi penggunaan komputer harus mengambil tindakan pencegahan yang relevan untuk meminimalkan risiko semacam ini, termasuk mengisolasi Claude dari data sensitif di komputer mereka.”
Mudah-mudahan, itu cukup untuk mencegah terjadinya hal terburuk.
Model yang lebih murah
Headline saat ini mungkin adalah model 3.5 Sonnet yang ditingkatkan, tetapi Anthropic juga mengatakan versi terbaru dari Haiku, model termurah dan paling efisien dalam seri Claude, sedang dalam proses.
Claude 3.5 Haiku, yang akan dirilis dalam beberapa minggu mendatang, akan menyamai kinerja Claude 3 Opus, yang pernah menjadi model tercanggih Anthropic, pada tolok ukur tertentu dengan biaya dan “perkiraan kecepatan” yang sama dengan Claude 3 Haiku.
“Dengan kecepatan tinggi, peningkatan dalam mengikuti instruksi, dan penggunaan alat yang lebih akurat, Claude 3.5 Haiku sangat cocok untuk produk yang dapat diakses oleh pengguna, tugas sub-agen khusus, dan menghasilkan pengalaman yang dipersonalisasi dari data bervolume besar seperti riwayat pembelian, harga, atau data inventaris. ,” tulis Anthropic dalam postingan blognya.
3.5 Haiku awalnya akan tersedia sebagai model teks saja dan kemudian sebagai bagian dari paket multimodal yang dapat menganalisis teks dan gambar.

Jadi, setelah 3.5 Haiku tersedia, apakah ada banyak alasan untuk menggunakan 3 Opus? Bagaimana dengan 3.5 Opus, penerus 3 Opus, yang digoda Anthropic pada bulan Juni lalu?
“Semua model dalam keluarga model Claude 3 memiliki kegunaan masing-masing bagi pelanggan,” kata juru bicara Anthropic. “Claude 3.5 Opus ada dalam peta jalan kami dan kami pasti akan membagikan lebih banyak lagi secepat kami bisa.”