Home Teknologi Model AI baru DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik

Teknologi

Model AI baru DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik

December 26, 2024

Sebuah laboratorium di Tiongkok telah menciptakan salah satu model AI “terbuka” yang paling kuat hingga saat ini.

Modelnya, Pencarian Dalam V3dikembangkan oleh perusahaan AI DeepSeek, dan dirilis pada hari Rabu di bawah lisensi permisif yang memungkinkan pengembang mengunduh dan memodifikasinya untuk sebagian besar aplikasi, termasuk aplikasi komersial.

DeepSeek V3 dapat menangani berbagai beban kerja dan tugas berbasis teks, seperti pengkodean, penerjemahan, dan penulisan esai dan email dari perintah deskriptif.

Menurut pengujian benchmark internal DeepSeek, DeepSeek V3 mengungguli model yang dapat diunduh, tersedia “terbuka” dan model AI “tertutup” yang hanya dapat diakses melalui API. Dalam subset kompetisi coding yang diselenggarakan di Codeforces, sebuah platform untuk kontes pemrograman, DeepSeek mengungguli model termasuk Llama 3.1 405B dari Meta, GPT-4o dari OpenAI, dan Qwen 2.5 72B dari Alibaba.

DeepSeek V3 juga mengalahkan persaingan pada Aider Polgyglot, sebuah pengujian yang dirancang untuk mengukur, antara lain, apakah suatu model berhasil menulis kode baru yang terintegrasi ke dalam kode yang sudah ada.

DeepSeek-V3!

60 token/detik (3x lebih cepat dari V2!)
Kompatibilitas API utuh
Model & makalah sumber terbuka sepenuhnya
671B parameter MoE
37B parameter yang diaktifkan
Dilatih dengan 14,8T token berkualitas tinggi

Mengalahkan Llama 3.1 405b di hampir semua benchmark pic.twitter.com/jVwJU07dqf

— Gemuk♨️ (@kimmonismus) 26 Desember 2024

DeepSeek mengklaim bahwa DeepSeek V3 dilatih pada kumpulan data 14,8 triliun token. Dalam ilmu data, token digunakan untuk mewakili bit data mentah; 1 juta token sama dengan sekitar 750.000 kata.

Bukan hanya set pelatihannya yang besar. DeepSeek V3 berukuran sangat besar: 685 miliar parameter. (Parameter adalah model variabel internal yang digunakan untuk membuat prediksi atau keputusan.) Jumlah tersebut sekitar 1,6 kali lipat ukuran Llama 3.1 405B, yang memiliki 405 miliar parameter.

DeepSeek (rekan AI Tiongkok) membuatnya terlihat mudah saat ini dengan rilis bobot terbuka LLM tingkat perbatasan yang dilatih dengan anggaran terbatas (2048 GPU selama 2 bulan, $6 juta).

Sebagai referensi, tingkat kemampuan ini seharusnya memerlukan cluster yang mendekati 16K GPU, yaitu… https://t.co/EW7q2pQ94B

— Andrej Karpati (@karpati) 26 Desember 2024

Jumlah parameter sering kali (tetapi tidak selalu) berkorelasi dengan keterampilan; model dengan parameter lebih banyak cenderung mengungguli model dengan parameter lebih sedikit. Namun model yang besar juga memerlukan perangkat keras yang lebih kuat agar dapat berjalan. Versi DeepSeek V3 yang tidak dioptimalkan memerlukan kumpulan GPU kelas atas untuk menjawab pertanyaan dengan kecepatan yang wajar.

Meskipun ini bukan model yang paling praktis, DeepSeek V3 merupakan sebuah pencapaian dalam beberapa hal. DeepSeek mampu melatih model tersebut menggunakan pusat data GPU Nvidia H800 hanya dalam waktu sekitar dua bulan — GPU yang baru-baru ini dimiliki oleh perusahaan China. terbatas oleh Departemen Perdagangan AS dari pengadaan. Perusahaan juga mengklaim hanya menghabiskan $5,5 juta untuk melatih DeepSeek V3, sebagian kecil dari biaya pengembangan model seperti GPT-4 OpenAI.

Sisi negatifnya adalah pandangan politik model tersebut agak tersaring. Tanyakan DeepSeek V3 tentang Lapangan Tiananmen, misalnya, dan itu tidak akan menjawab.

DeepSeek, sebagai perusahaan Tiongkok, tunduk pada hal tersebut pembandingan oleh regulator internet Tiongkok untuk memastikan respons model mereka “mewujudkan nilai-nilai inti sosialis.” Banyak Sistem AI Tiongkok menolak menanggapi topik yang mungkin menimbulkan kemarahan regulator, seperti spekulasi mengenai hal tersebut Xi Jinping rezim.

DeepSeek, yang baru-baru ini meluncurkan DeepSeek-R1, sebuah jawaban terhadap model “penalaran” o1 OpenAI, adalah organisasi yang penuh rasa ingin tahu. Ini didukung oleh High-Flyer Capital Management, dana lindung nilai kuantitatif Tiongkok yang menggunakan AI untuk menginformasikan keputusan perdagangannya.

Model DeepSeek telah memaksa pesaing seperti ByteDance, Baidu, dan Alibaba untuk memotong harga penggunaan beberapa model mereka — dan menjadikan model lainnya sepenuhnya gratis.

High-Flyer membangun cluster servernya sendiri untuk pelatihan model, salah satu yang terbaru dilaporkan memiliki 10.000 GPU Nvidia A100 dan berharga 1 miliar yen (~$138 juta). Didirikan oleh Liang Wenfeng, seorang lulusan ilmu komputer, High-Flyer bertujuan untuk mencapai AI “super cerdas” melalui organisasi DeepSeek-nya.

Dalam sebuah wawancara awal tahun ini, Liang menggambarkan open source sebagai “tindakan budaya,” dan mengkarakterisasi AI sumber tertutup seperti OpenAI sebagai parit “sementara”. “Bahkan pendekatan sumber tertutup OpenAI tidak menghentikan orang lain untuk mengejar ketinggalan,” katanya.

Memang.

Model AI baru DeepSeek tampaknya menjadi salah satu penantang 'terbuka' terbaik

LEAVE A REPLY Cancel reply

EVEN MORE NEWS

Marshawn Lynch Gagal Surat Uji Obat Menyerang Blok Lelang, Muncul untuk...

Taiwan mengatakan langkah -langkah yang lebih tangguh diperlukan untuk melawan infiltrasi...

Max Verstappen: Bos Mercedes Toto Wolff mengatakan pindah untuk menandatangani Red...

POPULAR CATEGORY

RELATED ARTICLESMORE FROM AUTHOR

Xiaomi untuk mendahului App Store PhonePe di Smartphone Dijual di India

Blackwall yang berbasis di Estonia mengumpulkan € 45 juta Seri B untuk melindungi UKM dari lalu lintas online berbahaya

Vento meluncurkan dana € 75m baru untuk pendiri Italia, di mana pun mereka tinggal