Salah satu teknik yang paling banyak digunakan untuk membuat model AI lebih efisien, yaitu kuantisasi, memiliki batasan – dan industri mungkin akan segera mendekatinya.
Dalam konteks AI, kuantisasi mengacu pada penurunan jumlah bit – unit terkecil yang dapat diproses komputer – yang diperlukan untuk mewakili informasi. Pertimbangkan analogi ini: Ketika seseorang menanyakan waktu, Anda mungkin akan menjawab “siang” — bukan “oh dua belas ratus, satu detik, dan empat milidetik.” Itu mengkuantisasi; kedua jawaban itu benar, tetapi ada satu jawaban yang sedikit lebih tepat. Seberapa presisi yang sebenarnya Anda perlukan bergantung pada konteksnya.
Model AI terdiri dari beberapa komponen yang dapat dikuantisasi — khususnya parameter, model variabel internal yang digunakan untuk membuat prediksi atau keputusan. Ini nyaman, mengingat model melakukan jutaan penghitungan saat dijalankan. Model terkuantisasi dengan bit lebih sedikit yang mewakili parameternya tidak terlalu menuntut secara matematis, dan oleh karena itu secara komputasi. (Untuk lebih jelasnya, ini adalah proses yang berbeda dari “penyulingan”, yang merupakan pemangkasan parameter yang lebih melibatkan dan selektif.)
Namun kuantisasi mungkin memiliki lebih banyak trade-off daripada yang diperkirakan sebelumnya.
Model yang terus menyusut
Menurut a belajar dari para peneliti di Harvard, Stanford, MIT, Databricks, dan Carnegie Mellon, kinerja model terkuantisasi akan lebih buruk jika versi model asli yang tidak terkuantisasi dilatih dalam jangka waktu lama pada banyak data. Dengan kata lain, pada titik tertentu, mungkin lebih baik melatih model yang lebih kecil daripada membuat model yang besar.
Hal ini bisa menjadi berita buruk bagi perusahaan AI yang melatih model yang sangat besar (dikenal dapat meningkatkan kualitas jawaban) dan kemudian mengkuantisasi model tersebut dalam upaya menjadikannya lebih murah untuk dilayani.
Dampaknya sudah terlihat. Beberapa bulan yang lalu, pengembang Dan akademisi melaporkan bahwa mengkuantisasi model Llama 3 Meta cenderung “lebih berbahaya” dibandingkan model lain, kemungkinan karena cara pelatihannya.
“Menurut pendapat saya, kerugian nomor satu bagi semua orang dalam AI adalah dan akan terus terjadi pada inferensi, dan penelitian kami menunjukkan bahwa satu cara penting untuk menguranginya tidak akan berhasil selamanya,” Tanishq Kumar, seorang mahasiswa matematika Harvard dan penulis pertama penelitian tersebut kertas, kata TechCrunch.
Berlawanan dengan anggapan umum, inferensi model AI — menjalankan model, seperti saat ChatGPT menjawab pertanyaan — seringkali lebih mahal secara agregat dibandingkan pelatihan model. Misalnya, Google menghabiskan dana sebesar diperkirakan $191 juta untuk melatih salah satu model Gemini andalannya — tentu saja merupakan jumlah yang sangat besar. Namun jika perusahaan menggunakan model untuk menghasilkan jawaban 50 kata saja terhadap setengah dari seluruh kueri Google Penelusuran, perusahaan tersebut akan menghabiskan biaya sebesar dengan kasar $6 miliar per tahun.
Laboratorium AI besar telah menerapkan model pelatihan pada kumpulan data yang sangat besar dengan asumsi bahwa “peningkatan” – meningkatkan jumlah data dan komputasi yang digunakan dalam pelatihan – akan menghasilkan AI yang semakin mampu.
Misalnya, Meta melatih Llama 3 dengan 15 triliun token. (Token mewakili bit data mentah; 1 juta token sama dengan sekitar 750.000 kata.) Generasi sebelumnya, Llama 2, dilatih “hanya” 2 triliun token. Pada awal Desember, Meta merilis model baru, Llama 3.3 70B, yang menurut perusahaan “meningkatkan kinerja inti dengan biaya yang jauh lebih rendah.”
Bukti menunjukkan bahwa peningkatan skala pada akhirnya memberikan hasil yang semakin berkurang; Antropik dan Google dilaporkan baru-baru ini melatih model-model besar yang tidak memenuhi ekspektasi benchmark internal. Namun tidak ada tanda-tanda bahwa industri ini siap untuk beralih dari pendekatan penskalaan yang sudah mengakar ini.
Seberapa tepatnya?
Jadi, jika laboratorium enggan melatih model pada kumpulan data yang lebih kecil, adakah cara agar model tidak terlalu rentan terhadap degradasi? Mungkin. Kumar mengatakan bahwa dia dan rekan penulisnya menemukan bahwa model pelatihan dengan “presisi rendah” dapat membuatnya lebih kuat. Bersabarlah bersama kami sejenak saat kami menyelaminya sedikit.
“Presisi” di sini mengacu pada jumlah digit yang dapat diwakili oleh tipe data numerik secara akurat. Tipe data adalah kumpulan nilai data, biasanya ditentukan oleh sekumpulan nilai yang mungkin dan operasi yang diperbolehkan; tipe data FP8, misalnya, hanya menggunakan 8 bit untuk mewakili a angka floating-point.
Sebagian besar model saat ini dilatih pada 16-bit atau “setengah presisi” dan “terkuantisasi pasca-pelatihan” hingga presisi 8-bit. Komponen model tertentu (misalnya parameternya) dikonversi ke format presisi lebih rendah dengan mengorbankan akurasi tertentu. Anggap saja seperti menghitung beberapa desimal tetapi kemudian membulatkannya ke 10 terdekat, sering kali memberikan Anda yang terbaik dari kedua dunia.
Vendor perangkat keras seperti Nvidia mendorong presisi yang lebih rendah untuk inferensi model terkuantisasi. Chip Blackwell baru dari perusahaan mendukung presisi 4-bit, khususnya tipe data yang disebut FP4; Nvidia menyatakan hal ini sebagai keuntungan bagi pusat data yang memorinya terbatas dan dayanya terbatas.
Namun presisi kuantisasi yang sangat rendah mungkin tidak diinginkan. Menurut Kumar, kecuali model aslinya sangat besar dalam hal jumlah parameternya, presisi yang lebih rendah dari 7 atau 8-bit mungkin akan mengalami penurunan kualitas yang nyata.
Jika semua ini tampak sedikit teknis, jangan khawatir — itu benar. Namun kesimpulannya adalah model AI belum sepenuhnya dipahami, dan pintasan yang diketahui dapat digunakan dalam berbagai jenis komputasi tidak berfungsi di sini. Anda tidak akan mengatakan “siang” jika seseorang bertanya kapan mereka memulai lari 100 meter, bukan? Tentu saja hal ini tidak begitu jelas, tetapi idenya tetap sama:
“Poin utama dari pekerjaan kami adalah bahwa ada batasan-batasan yang tidak dapat Anda atasi secara naif,” simpul Kumar. “Kami berharap pekerjaan kami menambah nuansa pada diskusi yang sering kali mencari standar presisi yang semakin rendah untuk pelatihan dan inferensi.”
Kumar mengakui bahwa penelitiannya dan rekan-rekannya berada pada skala yang relatif kecil – mereka berencana untuk mengujinya dengan lebih banyak model di masa depan. Namun dia yakin bahwa setidaknya ada satu pemahaman yang bisa diterapkan: Tidak ada makan siang gratis dalam hal mengurangi biaya inferensi.
“Ketelitian sedikit itu penting, dan itu tidak gratis,” katanya. “Anda tidak dapat menguranginya selamanya tanpa model menderita. Model memiliki kapasitas yang terbatas, jadi daripada mencoba memasukkan kuadriliun token ke dalam model kecil, menurut pendapat saya, lebih banyak upaya akan dilakukan untuk kurasi dan pemfilteran data yang cermat, sehingga hanya data dengan kualitas terbaik yang dimasukkan ke dalam model yang lebih kecil. Saya optimis bahwa arsitektur baru yang bertujuan untuk membuat pelatihan presisi rendah menjadi stabil akan menjadi penting di masa depan.”
Cerita ini awalnya diterbitkan pada 17 November 2024, dan diperbarui pada 23 Desember dengan informasi baru.