Home Teknologi Agen 'model aksi besar' berbasis web Rabbit akan hadir di r1 paling...

Agen 'model aksi besar' berbasis web Rabbit akan hadir di r1 paling cepat minggu ini

48
0
Agen 'model aksi besar' berbasis web Rabbit akan hadir di r1 paling cepat minggu ini


Rabbit r1 merupakan gadget yang wajib dimiliki di awal tahun 2024, tetapi popularitasnya langsung menurun ketika janji-janji besar perusahaan tersebut gagal terwujud. CEO Jesse Lyu mengakui bahwa “pada hari pertama, kami menetapkan ekspektasi terlalu tinggi” — tetapi pembaruan yang akan hadir pada perangkatnya bulan ini akhirnya akan membebaskan Large Action Model yang dibanggakan di web.

Meskipun kaum skeptis mungkin (dapat dibenarkan) melihat ini sebagai terlalu sedikit, terlalu terlambat, atau pergeseran tujuan lainnya, aspirasi Rabbit untuk membangun agen yang tidak bergantung pada platform untuk aplikasi web dan seluler masih memiliki nilai mendasar — ​​meskipun sebagian besar masih bersifat teoritis.

Berbicara kepada TechCrunch, Lyu mengatakan bahwa enam bulan terakhir telah menjadi pusaran pengiriman, perbaikan bug, peningkatan waktu respons, dan penambahan fitur-fitur kecil. Namun, meskipun ada 16 pembaruan over-the-air pada r1, pada dasarnya masih terbatas pada interaksi dengan LLM atau mengakses salah satu dari 7 layanan tertentu, seperti Uber dan Spotify.

“Itu adalah versi pertama LAM, yang dilatih pada rekaman yang dikumpulkan dari pekerja data, tetapi itu tidak generik — itu hanya terhubung ke layanan tersebut,” katanya. Apakah itu yang mereka sebut LAM atau tidak, masih sangat akademis saat ini — apa pun modelnya, itu tidak menyediakan kemampuan yang dijelaskan Rabbit saat debutnya.

Agen berbasis web generalis

Tetapi Rabbit siap merilis versi generik pertama, yang artinya tidak spesifik untuk aplikasi atau antarmuka apa pun, versi LAM, yang didemonstrasikan Lyu untuk saya.

Versi ini adalah agen berbasis web yang menjelaskan langkah-langkah untuk melakukan tugas biasa, seperti membeli tiket konser, mendaftar situs web, atau bahkan bermain game daring.

“Tujuan kami sangat jelas: pada akhir September, r1 Anda akan tiba-tiba melakukan lebih banyak hal. Ia akan mendukung apa pun yang dapat Anda lakukan di situs web mana pun,” kata Lyu.

Jika diberi tugas, pertama-tama ia memecah tugas itu menjadi beberapa langkah, lalu mulai menjalankannya dengan menganalisis apa yang dilihatnya di layar: tombol, bidang, gambar, apa pun posisi atau tampilannya. Kemudian ia berinteraksi dengan elemen yang sesuai berdasarkan apa yang telah dipelajarinya secara umum tentang cara kerja situs web.

Saya memintanya (melalui Lyu, yang mengoperasikannya dari jarak jauh) untuk mendaftarkan situs web baru untuk festival film. Dengan melakukan tindakan setiap beberapa detik, ia mencari registri domain di Google, memilih satu (yang disponsori, menurut saya), memasukkan festival film di kotak domain, dan dari daftar opsi yang dihasilkan memilih “filmfestival2023.com” seharga $14. Secara teknis saya tidak memberinya batasan apa pun seperti “untuk tahun 2025” atau “festival horor” atau apa pun.

Demikian pula, ketika Lyu memintanya untuk mencari dan membeli r1, ia segera menemukan jalannya ke eBay, tempat lusinan barang dijual. Mungkin hasil yang bagus bagi pengguna tetapi tidak bagi pendiri perusahaan yang mempresentasikannya kepada pers! Ia menertawakannya, dan mengulangi perintah itu dengan tambahan bahwa ia harus membeli hanya dari situs web resmi. Agen itu berhasil.

Selanjutnya, ia menyuruhnya memainkan permainan kata harian Dictionary.com. Butuh sedikit rekayasa cepat (model tersebut menemukan jalan keluar bahwa ia dapat dengan cepat menyelesaikannya dengan menekan “akhiri permainan”) tetapi ia berhasil.

Namun, browser siapa yang digunakan? Lyu mengatakan, versi baru dan bersih di cloud, tetapi mereka sedang mengerjakan versi lokal, seperti ekstensi Chrome, yang berarti Anda dapat menggunakan sesi yang ada dan tidak perlu masuk ke layanan Anda.

Untuk tujuan tersebut, karena pengguna secara wajar (dan wajar) waspada dalam memberikan akses penuh ke kredensial mereka kepada perusahaan mana pun, agen tidak dilengkapi dengan akses tersebut. Lyu menyarankan bahwa model bahasa kecil yang tertutup dengan kredensial Anda dapat dipanggil secara pribadi di masa mendatang untuk melakukan login. Tampaknya masih menjadi pertanyaan terbuka bagaimana cara kerjanya, yang agak diharapkan mengingat kebaruan ruang tersebut.

Masih belajar

Contoh analisis UI dalam aplikasi dari situs web Rabbit.
Kredit Gambar: Kelinci

Demo tersebut menunjukkan beberapa hal kepada saya. Pertama, jika kita memberi perusahaan dan pengembangnya keuntungan dari keraguan bahwa ini semua bukan tipuan yang rumit (seperti yang diyakini sebagian orang), tampaknya ini adalah agen web yang berfungsi dan serbaguna. Dan itu akan menjadi, jika bukan yang pertama, tentu saja yang pertama yang dapat diakses dengan mudah oleh konsumen.

“Ada perusahaan yang bergerak di bidang vertikal, untuk Excel atau dokumen hukum, tetapi saya yakin ini adalah salah satu agen umum pertama untuk konsumen,” kata Lyu. “Idenya adalah Anda dapat mengatakan apa pun yang dapat dicapai melalui situs web. Kami akan memiliki agen generik untuk situs web terlebih dahulu, lalu untuk aplikasi.”

Kedua, hal ini menunjukkan bahwa rekayasa cepat masih sangat dibutuhkan. Cara Anda menyampaikan permintaan dapat dengan mudah menjadi pembeda antara keberhasilan dan kegagalan, dan itu mungkin bukan sesuatu yang akan ditoleransi oleh konsumen biasa.

Lyu memperingatkan bahwa ini adalah “versi playground,” belum final sama sekali, dan meskipun ini adalah agen web umum yang berfungsi penuh, masih dapat ditingkatkan dalam banyak hal. Misalnya, katanya, “modelnya cukup pintar untuk melakukan perencanaan, tetapi tidak cukup pintar untuk melewati langkah-langkah.” Model ini tidak akan “mempelajari” bahwa pengguna lebih suka tidak membeli barang elektronik mereka di eBay, atau bahwa model harus menggulir ke bawah setelah mencari untuk menghindari deretan hasil yang disponsori.

Data pengguna tidak akan dikumpulkan untuk meningkatkan model… belum. Lyu mengaitkan hal ini dengan fakta bahwa pada dasarnya tidak ada metode evaluasi untuk sistem seperti ini, jadi sulit untuk mengatakan secara kuantitatif apakah perbaikan telah dilakukan. Namun, “mode mengajar” juga akan segera hadir, sehingga Anda dapat menunjukkan cara melakukan jenis tugas tertentu.

Menariknya, perusahaan ini juga tengah mengembangkan agen desktop yang dapat berinteraksi dengan aplikasi seperti pengolah kata, pemutar musik, dan tentu saja browser. Ini masih dalam tahap awal, tetapi sudah berhasil. “Anda bahkan tidak perlu memasukkan tujuan, ia hanya mencoba menggunakan komputer. Selama ada antarmuka, ia dapat mengendalikannya.”

Ketiga, masih belum ada “aplikasi pembunuh”, atau setidaknya tidak ada yang jelas. Agennya mengesankan, tetapi saya pribadi tidak akan banyak menggunakannya, karena sayangnya saya menghabiskan 8 jam sehari di depan browser. Hampir pasti ada beberapa aplikasi hebat, tetapi tidak ada yang terlintas dalam pikiran yang membuat kegunaan automaton berbasis browser sejelas, misalnya, robot penyedot debu.

Kenapa tidak aplikasi lagi?

Kelinci r1 sedang digunakan. Model tangan: Chris Velazco dari Washington Post.
Kredit Gambar: Artikel ini ditulis oleh Devin Coldewey/TechCrunch.

Saya mengemukakan keberatan umum terhadap keseluruhan model bisnis Rabbit, pada dasarnya bahwa “ini bisa menjadi sebuah aplikasi.”

Lyu jelas telah mendengar kritik ini berkali-kali, dan yakin dengan jawabannya.

“Jika Anda menghitungnya, itu tidak masuk akal,” katanya. “Ya, secara teknis itu dapat dicapai, tetapi Anda akan membuat Apple dan Google kesal sejak hari pertama. Mereka tidak akan pernah membiarkan ini lebih baik daripada Siri atau Gemini. Sama seperti tidak mungkin kecerdasan Apple akan mengendalikan hal-hal Google dengan lebih baik, atau sebaliknya. Dan mereka mengambil 30% dari pendapatan! Jika pada awalnya kami hanya membuat aplikasi, kami tidak akan pernah memiliki momentum ini.”

Gagasan mendasar yang disampaikan Rabbit adalah bahwa mungkin ada AI atau perangkat pihak ketiga yang dapat mengakses dan mengoperasikan semua layanan Anda yang lain, dan dari luar layanan tersebut, seperti Anda. “Sistem agen generik lintas platform,” seperti yang disebut Lyu. “Kami akan mengendalikan setiap UI, dan situs web adalah awal yang baik. Kemudian kami akan beralih ke Windows, MacOS, dan ponsel.”

Ngomong-ngomong soal itu: “Kami tidak pernah mengatakan bahwa kami tidak akan pernah membuat ponsel di masa mendatang.” Bukankah itu bertentangan dengan tesis awal mereka tentang perangkat yang lebih kecil dan lebih sederhana? Mungkin, mungkin juga tidak.

Sementara itu, mereka tengah berupaya memenuhi janji yang mereka buat awal tahun ini. Model baru ini akan tersedia bagi setiap pemilik r1 minggu ini saat pembaruan OTA diluncurkan. Instruksi tentang cara menjalankannya juga akan tersedia saat itu. Lyu memperingatkan pengguna yang sedang menantikannya dengan pernyataannya yang khas.

“Kami menetapkan ekspektasi yang tepat. Ini tidak sempurna,” katanya. “Ini hanyalah yang terbaik yang telah dicapai umat manusia sejauh ini.”

kicker: telepon..?


LEAVE A REPLY

Please enter your comment!
Please enter your name here