Pada hari Selasa, Google meluncurkan Gemini 2.5, keluarga baru model penalaran AI yang berhenti untuk “berpikir” sebelum menjawab pertanyaan.
Untuk memulai keluarga model baru, Google meluncurkan Gemini 2.5 Pro Experimental, model AI yang bernilai multimoda yang diklaim perusahaan adalah model yang paling cerdas. Model ini akan tersedia pada hari Selasa di platform pengembang perusahaan, Google AI Studio, serta di aplikasi Gemini untuk pelanggan rencana AI $ 20 per bulan, Gemini Advanced.
Ke depan, Google mengatakan semua model AI barunya akan memiliki kemampuan penalaran yang dipanggang.
Sejak Openai meluncurkan model penalaran AI pertama pada bulan September 2024, O1, industri teknologi telah berlari agar sesuai atau melampaui kemampuan model itu dengan milik mereka. Hari ini, Anthropic, Deepseek, Google, dan XAI semuanya memiliki model penalaran AI, yang menggunakan kekuatan komputasi ekstra dan waktu untuk memeriksa fakta dan alasan melalui masalah sebelum memberikan jawaban.
Teknik penalaran telah membantu model AI mencapai ketinggian baru dalam tugas matematika dan pengkodean. Banyak orang di dunia teknologi percaya bahwa model penalaran akan menjadi komponen kunci dari agen AI, sistem otonom yang dapat melakukan tugas sebagian besar tanpa intervensi manusia. Namun, model ini juga lebih mahal.
Google telah bereksperimen dengan model penalaran AI sebelumnya, sebelumnya merilis versi “pemikiran” Gemini pada bulan Desember. Tetapi Gemini 2.5 merupakan upaya paling serius perusahaan untuk mengalahkan serangkaian model “O” Openai.
Google mengklaim bahwa Gemini 2.5 Pro mengungguli model AI perbatasan sebelumnya, dan beberapa model AI yang bersaing terkemuka, pada beberapa tolok ukur. Secara khusus, Google mengatakan itu merancang Gemini 2.5 untuk unggul dalam membuat aplikasi web yang menarik secara visual dan aplikasi pengkodean agen.
Pada evaluasi mengukur pengeditan kode, yang disebut Aider Polyglot, Google mengatakan skor Gemini 2.5 Pro 68,6%, mengungguli model AI top dari OpenAI, Anthropic, dan AI Lab Deepseek.
Namun, pada tes lain pengukuran kemampuan dev, swe-bench diverifikasi, skor Gemini 2.5 Pro 63,8%, mengungguli Openai O3-Mini dan Deepseek's R1, tetapi CLAUDE 3,7 Sonnet antropik yang berkinerja buruk, yang mencetak 70,3%.
Pada ujian terakhir kemanusiaan, tes multimodal yang terdiri dari ribuan pertanyaan crowdsourced yang berkaitan dengan matematika, humaniora, dan ilmu alam, Google mengatakan skor Gemini 2.5 Pro 18,8%, berkinerja lebih baik daripada kebanyakan model unggulan saingan.
Untuk memulai, Google mengatakan Gemini 2.5 Pro dikirimkan dengan jendela konteks 1 juta token, yang berarti model AI dapat mengambil sekitar 750.000 kata dalam satu Go. Itu lebih panjang dari seluruh seri buku “Lord of the Rings”. Dan segera, Gemini 2.5 Pro akan mendukung dua kali lipat panjang input (2 juta token).
Google tidak mempublikasikan harga API untuk Gemini 2.5 Pro. Perusahaan mengatakan itu akan berbagi lebih banyak dalam beberapa minggu mendatang.