Home Teknologi Openai mengungkap GPT-4.5 'Orion,' model AI terbesarnya

Openai mengungkap GPT-4.5 'Orion,' model AI terbesarnya

12
0
Openai mengungkap GPT-4.5 'Orion,' model AI terbesarnya


Diperbarui 14:40 PT: Jam setelah rilis GPT-4.5, OpenAI menghapus garis dari kertas putih model AI yang mengatakan “GPT-4.5 bukan model AI perbatasan.” GPT-4.5 kertas putih baru tidak termasuk baris itu. Anda dapat menemukan tautan ke kertas putih lama Di Sini. Artikel asli mengikuti.

OpenAI mengumumkan pada hari Kamis bahwa mereka meluncurkan GPT-4.5, kode model AI yang dinamai Orion. GPT-4.5 adalah model terbesar Openai hingga saat ini, dilatih menggunakan lebih banyak daya dan data komputasi daripada rilis perusahaan sebelumnya.

Meskipun ukurannya, catatan openai di a Buku putih bahwa itu tidak menganggap GPT-4.5 sebagai model perbatasan.

Pelanggan untuk ChatGPT Pro, paket Openai $ 200 per bulan, akan mendapatkan akses ke GPT-4.5 di ChatGPT mulai Kamis sebagai bagian dari pratinjau penelitian. Pengembang dengan tingkatan berbayar API Openai juga akan dapat menggunakan GPT-4.5 mulai hari ini. Sedangkan untuk pengguna chatgpt lainnya, pelanggan mendaftar untuk tim chatgpt plus dan chatgpt harus mendapatkan model minggu depan, kata juru bicara OpenAI kepada TechCrunch.

Industri ini telah menahan napas kolektif untuk Orion, yang beberapa orang anggap sebagai pelayan untuk kelayakan pendekatan pelatihan AI tradisional. GPT-4.5 dikembangkan dengan menggunakan teknik kunci yang sama-secara dramatis meningkatkan jumlah daya komputasi dan data selama fase “pra-pelatihan” yang disebut pembelajaran tanpa pengawasan-yang digunakan OpenAI untuk mengembangkan GPT-4, GPT-3, GPT-2, dan GPT-1.

Dalam setiap generasi GPT sebelum GPT-4.5, penskalaan menyebabkan lompatan besar dalam kinerja di seluruh domain, termasuk matematika, penulisan, dan pengkodean. Memang, Openai mengatakan bahwa peningkatan ukuran GPT-4.5 telah memberinya “pengetahuan dunia yang lebih dalam” dan “kecerdasan emosional yang lebih tinggi.” Namun, ada tanda -tanda bahwa keuntungan dari meningkatkan data dan komputasi mulai naik level. Pada beberapa tolok ukur AI, GPT-4.5 kurang dari model “penalaran” AI yang lebih baru dari perusahaan AI Cina Deepseek, Antropik, dan Openai sendiri.

GPT-4.5 juga sangat mahal untuk dijalankan, Openai mengakui-sangat mahal sehingga perusahaan mengatakan sedang mengevaluasi apakah akan terus melayani GPT-4.5 dalam API-nya dalam jangka panjang. Untuk mengakses API GPT-4.5, OpenAI menagih pengembang $ 75 untuk setiap juta token input (sekitar 750.000 kata) dan $ 150 untuk setiap juta token output. Bandingkan dengan GPT-4O, yang harganya hanya $ 2,50 per juta token input dan token output $ 10 per juta.

“Kami berbagi GPT -4.5 sebagai pratinjau penelitian untuk lebih memahami kekuatan dan keterbatasannya,” kata Openai dalam posting blog yang dibagikan dengan TechCrunch. “Kami masih mengeksplorasi apa yang mampu dan sangat ingin melihat bagaimana orang menggunakannya dengan cara yang mungkin tidak kami harapkan.”

Kinerja campuran

Openai menekankan bahwa GPT-4.5 tidak dimaksudkan untuk menjadi pengganti drop-in untuk GPT-4O, model pekerja keras perusahaan yang memberi kekuatan sebagian besar API dan chatgpt. Sementara GPT-4.5 mendukung fitur-fitur seperti unggahan file dan gambar dan alat kanvas ChatGPT, saat ini tidak memiliki kemampuan seperti dukungan untuk mode suara dua arah realistis ChatGPT.

Di kolom plus, GPT-4.5 lebih berkinerja daripada GPT-4O-dan banyak model lainnya selain itu.

Pada patokan SimpleQA Openai, yang menguji model AI pada pertanyaan langsung, faktual, GPT-4.5 mengungguli GPT-4O dan model penalaran Openai, O1 dan O3-Mini, dalam hal akurasi. Menurut Openai, GPT-4.5 berhalusinasi lebih jarang daripada kebanyakan model, yang secara teori berarti harus lebih kecil kemungkinannya untuk mengarang.

Openai tidak mencantumkan salah satu model penalaran AI berkinerja terbaik, penelitian mendalam, pada SimpleQA. Seorang juru bicara Openai mengatakan kepada TechCrunch bahwa mereka belum secara terbuka melaporkan kinerja Deep Research pada tolok ukur ini dan mengklaim itu bukan perbandingan yang relevan. Khususnya, model penelitian mendalam Startup Perplexity, yang melakukan hal yang sama pada tolok ukur lain untuk penelitian mendalam Openai, mengungguli GPT-4.5 pada tes akurasi faktual ini.

Tolok ukur SimpleQA.Kredit gambar:Openai

Pada subset masalah pengkodean, tolok ukur terverifikasi SWE-bench, GPT-4.5 kira-kira cocok dengan kinerja GPT-4O dan O3-Mini tetapi gagal dari Openai Penelitian yang mendalam Dan Antropic's Claude 3.7 sonnet. Pada tes pengkodean lain, Benchmark SWE-Lancer Openai, yang mengukur kemampuan model AI untuk mengembangkan fitur perangkat lunak penuh, GPT-4.5 mengungguli GPT-4O dan O3-Mini, tetapi kurang dari penelitian mendalam.

Benchmark Terverifikasi SWE-Bench Openai.Kredit gambar:Openai
Benchmark Berlian SWE-Lancer Openai.Kredit gambar:Openai

GPT-4.5 tidak cukup mencapai kinerja model penalaran AI terkemuka seperti O3-Mini, Deepseek's R1, dan Claude 3.7 Sonnet (secara teknis model hybrid) pada tolok ukur akademik yang sulit seperti AIME dan GPQA. Tetapi GPT-4.5 cocok dengan model non-reasoning terkemuka terbaik pada tes yang sama, menunjukkan bahwa model ini berkinerja baik pada masalah matematika dan sains.

Openai juga mengklaim bahwa GPT-4.5 Secara kualitatif Lebih unggul dari model lain di daerah yang tolok ukur tidak ditangkap dengan baik, seperti kemampuan untuk memahami niat manusia. GPT-4.5 merespons dengan nada yang lebih hangat dan lebih alami, kata Openai, dan berkinerja baik pada tugas-tugas kreatif seperti menulis dan desain.

Dalam satu tes informal, OpenAI mendorong GPT-4.5 dan dua model lainnya, GPT-4O dan O3-Mini, untuk membuat unicorn di SVG, format untuk menampilkan grafik berdasarkan formula dan kode matematika. GPT-4.5 adalah satu-satunya model AI yang menciptakan sesuatu yang menyerupai unicorn.

Kiri: GPT-4.5, Tengah: GPT-4O, Kanan: O3-Mini.Kredit gambar:Openai

Dalam tes lain, Openai meminta GPT-4.5 dan dua model lainnya untuk menanggapi prompt, “Saya akan melalui waktu yang sulit setelah gagal dalam tes.” GPT-4O dan O3-Mini memberikan informasi yang bermanfaat, tetapi respons GPT-4.5 adalah yang paling tepat secara sosial.

“[W]e berharap dapat mendapatkan gambaran yang lebih lengkap tentang kemampuan GPT-4.5 melalui rilis ini, “tulis Openai dalam posting blog,” Karena kami mengenali tolok ukur akademik tidak selalu mencerminkan kegunaan dunia nyata. “

Kecerdasan emosional GPT-4.5 sedang beraksi.Kredit gambar:Openai

Menantang hukum penskalaan

Openai mengklaim bahwa GPT -4.5 adalah “di perbatasan dari apa yang mungkin dalam pembelajaran tanpa pengawasan.” Itu mungkin benar, tetapi keterbatasan model juga tampaknya mengkonfirmasi spekulasi dari para ahli bahwa “hukum penskalaan” pra-pelatihan tidak akan terus berlaku.

Salah satu pendiri Openai dan mantan Kepala Ilmuwan Ilya Sutskever mengatakan pada bulan Desember bahwa “kami telah mencapai data puncak” dan bahwa “pra-pelatihan seperti yang kami tahu akan berakhir dengan tidak diragukan lagi.” Komentarnya menggemakan kekhawatiran bahwa investor AI, pendiri, dan peneliti berbagi dengan TechCrunch untuk fitur pada bulan November.

Menanggapi rintangan pra-pelatihan, industri-termasuk Openai-telah menganut model penalaran, yang membutuhkan waktu lebih lama dari model yang tidak masuk akal untuk melakukan tugas tetapi cenderung lebih konsisten. Dengan meningkatkan jumlah waktu dan daya komputasi yang digunakan oleh model penalaran AI untuk “berpikir” melalui masalah, AI Labs yakin mereka dapat secara signifikan meningkatkan kemampuan model.

Openai berencana untuk akhirnya menggabungkan serangkaian model GPT dengan serial penalaran “O”, dimulai dengan GPT-5 akhir tahun ini. GPT-4.5, yang dilaporkan sangat mahal untuk dilatih, ditunda beberapa kali, dan gagal memenuhi harapan internal, mungkin tidak mengambil mahkota patokan AI sendiri. Tapi Openai kemungkinan melihatnya sebagai batu loncatan menuju sesuatu yang jauh lebih kuat.


LEAVE A REPLY

Please enter your comment!
Please enter your name here