Home Teknologi Kesan pertama ChatGPT o1: AI yang dirancang untuk memikirkannya secara berlebihan

Kesan pertama ChatGPT o1: AI yang dirancang untuk memikirkannya secara berlebihan

38
0
Kesan pertama ChatGPT o1: AI yang dirancang untuk memikirkannya secara berlebihan


OpenAI merilis model o1 barunya pada hari Kamis, memberikan kesempatan pertama bagi pengguna ChatGPT untuk mencoba model AI yang berhenti sejenak untuk “berpikir” sebelum menjawab. Ada banyak kehebohan yang berkembang untuk model ini, yang diberi nama kode “Strawberry” di dalam OpenAI. Namun, apakah Strawberry memenuhi kehebohan tersebut?

Semacam itu.

Dibandingkan dengan GPT-4o, model o1 terasa seperti satu langkah maju dan dua langkah mundur. ChatGPT o1 unggul dalam penalaran dan menjawab pertanyaan yang rumit, tetapi model ini kira-kira empat kali lebih mahal untuk digunakan daripada GPT-4o. Model terbaru OpenAI tidak memiliki alat, kemampuan multimoda, dan kecepatan yang membuat GPT-4o begitu mengesankan. Bahkan, OpenAI mengakui bahwa “GPT-4o masih merupakan pilihan terbaik untuk sebagian besar prompt” di halaman bantuannya, dan catatan di tempat lain bahwa GPT o1 kesulitan dalam tugas yang lebih sederhana.

“Ini mengesankan, tetapi menurut saya peningkatannya tidak terlalu signifikan,” kata Ravid Shwartz Ziv, seorang profesor di NYU yang mempelajari model AI. “Ini lebih baik dalam masalah tertentu, tetapi tidak ada peningkatan menyeluruh.”

Atas semua alasan ini, penting untuk menggunakan GPT o1 hanya untuk pertanyaan yang benar-benar dirancang untuk dijawab: pertanyaan besar. Untuk lebih jelasnya, kebanyakan orang tidak menggunakan AI generatif untuk menjawab pertanyaan semacam ini saat ini, terutama karena model AI saat ini tidak begitu bagus dalam hal itu. Namun, o1 merupakan langkah tentatif ke arah itu.

Berpikir melalui ide-ide besar

ChatGPT o1 unik karena “berpikir” sebelum menjawab, memecah masalah besar menjadi langkah-langkah kecil dan mencoba mengidentifikasi kapan salah satu langkah tersebut benar atau salah. “Penalaran multi-langkah” ini bukanlah hal yang sepenuhnya baru (para peneliti telah mengusulkannya selama bertahun-tahun, dan You.com menggunakannya untuk pertanyaan yang rumit), tetapi belum praktis hingga baru-baru ini.

“Ada banyak kegembiraan di komunitas AI,” kata CEO Workera dan profesor Stanford Kian Katanforoosh, yang mengajar kelas tentang pembelajaran mesin, dalam sebuah wawancara. “Jika Anda dapat melatih algoritma pembelajaran penguatan yang dipasangkan dengan beberapa teknik model bahasa yang dimiliki OpenAI, secara teknis Anda dapat menciptakan pemikiran langkah demi langkah dan memungkinkan model AI berjalan mundur dari ide-ide besar yang sedang Anda coba kerjakan.”

ChatGPT o1 juga sangat mahal. Pada sebagian besar model, Anda membayar token input dan token output. Namun, ChatGPT o1 menambahkan proses tersembunyi (langkah-langkah kecil yang dipecah model menjadi masalah besar), yang menambahkan sejumlah besar komputasi yang tidak pernah Anda lihat sepenuhnya. OpenAI menyembunyikan beberapa detail proses ini untuk mempertahankan keunggulan kompetitifnya. Meski begitu, Anda tetap dikenakan biaya untuk ini dalam bentuk “token penalaran”. Hal ini semakin menegaskan mengapa Anda perlu berhati-hati dalam menggunakan ChatGPT o1, sehingga Anda tidak dikenakan biaya banyak token karena menanyakan di mana ibu kota Nevada berada.

Namun, ide model AI yang membantu Anda “berjalan mundur dari ide-ide besar” sangatlah hebat. Dalam praktiknya, model tersebut cukup bagus dalam hal itu.

Dalam satu contoh, saya meminta ChatGPT o1 preview untuk membantu keluarga saya merencanakan Thanksgiving, sebuah tugas yang dapat dibantu dengan sedikit logika dan penalaran yang tidak bias. Secara khusus, saya ingin bantuan untuk mencari tahu apakah dua oven cukup untuk memasak makan malam Thanksgiving untuk 11 orang dan ingin membicarakan apakah kami harus mempertimbangkan untuk menyewa Airbnb untuk mendapatkan akses ke oven ketiga.

(Maxwell Zeff/OpenAI)
(Maxwell Zeff/OpenAI)

Setelah 12 detik “berpikir,” ChatGPT menuliskan tanggapan lebih dari 750 kata yang pada akhirnya memberi tahu saya bahwa dua oven seharusnya cukup dengan beberapa strategi yang cermat, dan akan memungkinkan keluarga saya menghemat biaya dan menghabiskan lebih banyak waktu bersama. Namun, aplikasi ini menguraikan pemikirannya untuk saya di setiap langkah dan menjelaskan bagaimana aplikasi ini mempertimbangkan semua faktor eksternal ini, termasuk biaya, waktu keluarga, dan pengelolaan oven.

ChatGPT o1 memberi tahu saya cara memprioritaskan tempat oven di rumah yang menyelenggarakan acara, yang merupakan ide yang cerdas. Anehnya, ia menyarankan saya untuk mempertimbangkan menyewa oven portabel untuk hari itu. Meski begitu, model tersebut berkinerja jauh lebih baik daripada GPT-4o, yang memerlukan beberapa pertanyaan lanjutan tentang hidangan apa saja yang akan saya bawa, dan kemudian memberi saya saran dasar yang menurut saya kurang bermanfaat.

Bertanya tentang makan malam Thanksgiving mungkin tampak konyol, tetapi Anda dapat melihat bagaimana alat ini akan membantu dalam memecah tugas-tugas rumit.

Saya juga meminta ChatGPT o1 untuk membantu saya merencanakan hari yang sibuk di kantor, di mana saya harus bepergian antara bandara, beberapa pertemuan tatap muka di berbagai lokasi, dan kantor saya. Aplikasi ini memberi saya rencana yang sangat terperinci, tetapi mungkin agak berlebihan. Terkadang, semua langkah tambahan bisa sedikit membebani.

Untuk pertanyaan yang lebih sederhana, ChatGPT o1 melakukan terlalu banyak hal — tidak tahu kapan harus berhenti berpikir berlebihan. Saya bertanya di mana Anda dapat menemukan pohon cedar di Amerika, dan ia memberikan respons lebih dari 800 kata, yang menguraikan setiap variasi pohon cedar di negara tersebut, termasuk nama ilmiahnya. Ia bahkan harus berkonsultasi dengan kebijakan OpenAI di beberapa titik, untuk beberapa alasan. GPT-4o melakukan pekerjaan yang jauh lebih baik dalam menjawab pertanyaan ini, dengan memberikan saya sekitar tiga kalimat yang menjelaskan bahwa Anda dapat menemukan pohon-pohon tersebut di seluruh negeri.

Meredam ekspektasi

Dalam beberapa hal, Strawberry tidak akan pernah memenuhi harapan. Laporan tentang model penalaran OpenAI muncul sejak November 2023, tepat saat semua orang mencari jawaban tentang mengapa dewan direksi OpenAI memecat Sam Altman. Hal itu memicu rumor di dunia AI, membuat beberapa orang berspekulasi bahwa Strawberry adalah bentuk AGI, versi AI yang lebih baik yang ingin diciptakan OpenAI.

Bahasa Inggris Altman dikonfirmasi o1 tidak AGI untuk menjernihkan keraguan, bukan berarti Anda akan bingung setelah menggunakan benda itu. CEO juga memangkas ekspektasi seputar peluncuran ini, berkicau bahwa “o1 masih memiliki kekurangan, masih terbatas, dan masih tampak lebih mengesankan pada penggunaan pertama dibandingkan setelah Anda menghabiskan lebih banyak waktu dengannya.”

Dunia AI lainnya mulai menerima peluncuran yang kurang menarik dari perkiraan.

“Kehebohan tersebut tumbuh di luar kendali OpenAI,” kata Rohan Pandey, seorang insinyur penelitian di perusahaan rintisan AI ReWorkd, yang membangun web scraper dengan model OpenAI.

Ia berharap kemampuan penalaran o1 cukup baik untuk memecahkan serangkaian masalah rumit yang tidak dapat diselesaikan oleh GPT-4. Mungkin begitulah pandangan sebagian besar orang di industri ini terhadap ChatGPT o1, tetapi tidak sepenuhnya sebagai langkah maju yang revolusioner seperti yang diwakili oleh GPT-4 bagi industri ini.

“Semua orang menunggu perubahan fungsi langkah untuk kapabilitas, dan tidak jelas apakah ini mewakili hal itu. Saya pikir sesederhana itu,” kata CEO Brightwave Mike Conover, yang sebelumnya ikut menciptakan model AI Dolly dari Databricks, dalam sebuah wawancara.

Apa nilainya di sini?

Prinsip dasar yang digunakan untuk menciptakan o1 sudah ada sejak bertahun-tahun lalu. Google menggunakan teknik serupa pada tahun 2016 untuk menciptakan AlphaGo, sistem AI pertama yang mengalahkan juara dunia permainan papan Go, kata mantan karyawan Google dan CEO perusahaan ventura S32, Andy Harrison. AlphaGo dilatih dengan bermain melawan dirinya sendiri berkali-kali, pada dasarnya belajar sendiri hingga mencapai kemampuan manusia super.

Ia mencatat bahwa hal ini memunculkan perdebatan lama di dunia AI.

“Kubu pertama berpikir bahwa Anda dapat mengotomatiskan alur kerja melalui proses agensi ini. Kubu kedua berpikir bahwa jika Anda memiliki kecerdasan dan penalaran umum, Anda tidak akan memerlukan alur kerja dan, seperti manusia, AI hanya akan membuat penilaian,” kata Harrison dalam sebuah wawancara.

Harrison mengatakan dia berada di kubu pertama dan kubu kedua mengharuskan Anda memercayai AI untuk membuat keputusan yang tepat. Dia tidak yakin kita sudah sampai di sana.

Namun, yang lain beranggapan o1 bukan sekadar alat pengambil keputusan, tetapi lebih sebagai alat untuk mempertanyakan pemikiran Anda tentang keputusan besar.

Katanforoosh, CEO Workera, menggambarkan sebuah contoh saat ia akan mewawancarai seorang ilmuwan data untuk bekerja di perusahaannya. Ia memberi tahu ChatGPT o1 bahwa ia hanya punya waktu 30 menit dan ingin menilai sejumlah keterampilan. Ia dapat bekerja mundur dengan model AI untuk memahami apakah ia memikirkan hal ini dengan benar, dan ChatGPT o1 akan memahami batasan waktu dan sebagainya.

Pertanyaannya adalah apakah alat yang bermanfaat ini sepadan dengan harganya yang mahal. Karena model AI terus menjadi lebih murah, o1 adalah salah satu model AI pertama dalam waktu yang lama yang harganya semakin mahal.


LEAVE A REPLY

Please enter your comment!
Please enter your name here