Home Teknologi Model AI baru DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik

Model AI baru DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik

25
0
Model AI baru DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik


Sebuah laboratorium di Tiongkok telah menciptakan salah satu model AI “terbuka” yang paling kuat hingga saat ini.

Modelnya, Pencarian Dalam V3dikembangkan oleh perusahaan AI DeepSeek, dan dirilis pada hari Rabu di bawah lisensi permisif yang memungkinkan pengembang mengunduh dan memodifikasinya untuk sebagian besar aplikasi, termasuk aplikasi komersial.

DeepSeek V3 dapat menangani berbagai beban kerja dan tugas berbasis teks, seperti pengkodean, penerjemahan, dan penulisan esai dan email dari perintah deskriptif.

Menurut pengujian benchmark internal DeepSeek, DeepSeek V3 mengungguli model yang dapat diunduh, tersedia “terbuka” dan model AI “tertutup” yang hanya dapat diakses melalui API. Dalam subset kompetisi coding yang diselenggarakan di Codeforces, sebuah platform untuk kontes pemrograman, DeepSeek mengungguli model termasuk Llama 3.1 405B dari Meta, GPT-4o dari OpenAI, dan Qwen 2.5 72B dari Alibaba.

DeepSeek V3 juga mengalahkan persaingan pada Aider Polgyglot, sebuah pengujian yang dirancang untuk mengukur, antara lain, apakah suatu model berhasil menulis kode baru yang terintegrasi ke dalam kode yang sudah ada.

DeepSeek mengklaim bahwa DeepSeek V3 dilatih pada kumpulan data 14,8 triliun token. Dalam ilmu data, token digunakan untuk mewakili bit data mentah; 1 juta token sama dengan sekitar 750.000 kata.

Bukan hanya set pelatihannya yang besar. DeepSeek V3 berukuran sangat besar: 685 miliar parameter. (Parameter adalah model variabel internal yang digunakan untuk membuat prediksi atau keputusan.) Jumlah tersebut sekitar 1,6 kali lipat ukuran Llama 3.1 405B, yang memiliki 405 miliar parameter.

Jumlah parameter sering kali (tetapi tidak selalu) berkorelasi dengan keterampilan; model dengan parameter lebih banyak cenderung mengungguli model dengan parameter lebih sedikit. Namun model yang besar juga memerlukan perangkat keras yang lebih kuat agar dapat berjalan. Versi DeepSeek V3 yang tidak dioptimalkan memerlukan kumpulan GPU kelas atas untuk menjawab pertanyaan dengan kecepatan yang wajar.

Meskipun ini bukan model yang paling praktis, DeepSeek V3 merupakan sebuah pencapaian dalam beberapa hal. DeepSeek mampu melatih model tersebut menggunakan pusat data GPU Nvidia H800 hanya dalam waktu sekitar dua bulan — GPU yang baru-baru ini dimiliki oleh perusahaan China. terbatas oleh Departemen Perdagangan AS dari pengadaan. Perusahaan juga mengklaim hanya menghabiskan $5,5 juta untuk melatih DeepSeek V3, sebagian kecil dari biaya pengembangan model seperti GPT-4 OpenAI.

Sisi negatifnya adalah pandangan politik model tersebut agak tersaring. Tanyakan DeepSeek V3 tentang Lapangan Tiananmen, misalnya, dan itu tidak akan menjawab.

DeepSeek, sebagai perusahaan Tiongkok, tunduk pada hal tersebut pembandingan oleh regulator internet Tiongkok untuk memastikan respons model mereka “mewujudkan nilai-nilai inti sosialis.” Banyak Sistem AI Tiongkok menolak menanggapi topik yang mungkin menimbulkan kemarahan regulator, seperti spekulasi mengenai hal tersebut Xi Jinping rezim.

DeepSeek, yang baru-baru ini meluncurkan DeepSeek-R1, sebuah jawaban terhadap model “penalaran” o1 OpenAI, adalah organisasi yang penuh rasa ingin tahu. Ini didukung oleh High-Flyer Capital Management, dana lindung nilai kuantitatif Tiongkok yang menggunakan AI untuk menginformasikan keputusan perdagangannya.

Model DeepSeek telah memaksa pesaing seperti ByteDance, Baidu, dan Alibaba untuk memotong harga penggunaan beberapa model mereka — dan menjadikan model lainnya sepenuhnya gratis.

High-Flyer membangun cluster servernya sendiri untuk pelatihan model, salah satu yang terbaru dilaporkan memiliki 10.000 GPU Nvidia A100 dan berharga 1 miliar yen (~$138 juta). Didirikan oleh Liang Wenfeng, seorang lulusan ilmu komputer, High-Flyer bertujuan untuk mencapai AI “super cerdas” melalui organisasi DeepSeek-nya.

Dalam sebuah wawancara awal tahun ini, Liang menggambarkan open source sebagai “tindakan budaya,” dan mengkarakterisasi AI sumber tertutup seperti OpenAI sebagai parit “sementara”. “Bahkan pendekatan sumber tertutup OpenAI tidak menghentikan orang lain untuk mengejar ketinggalan,” katanya.

Memang.




LEAVE A REPLY

Please enter your comment!
Please enter your name here