Ada keluarga model AI baru di blok ini, dan ini adalah salah satu dari sedikit model yang dapat direproduksi dari awal.
Pada hari Selasa, Ai2, organisasi penelitian AI nirlaba yang didirikan oleh mendiang Paul Allen, merilis OLMo 2, rangkaian model kedua dalam seri OLMo. (OLMo adalah singkatan dari “Open Language Model.”) Meskipun tidak ada kekurangan model bahasa “terbuka” yang dapat dipilih (lihat: Llama Meta), OLMo 2 memenuhi definisi Open Source Initiative tentang AI open source, yang berarti alat dan data yang digunakan untuk mengembangkannya tersedia untuk umum.
Inisiatif Sumber Terbuka, itu institusi yang sudah berjalan lama bertujuan untuk mendefinisikan dan “menangani” semua hal tentang open source, menyelesaikan definisi AI open source pada bulan Oktober. Namun model OLMo pertama, yang dirilis pada bulan Februari, juga memenuhi kriteria tersebut.
“OLMo 2 [was] dikembangkan dari awal hingga akhir dengan data pelatihan yang terbuka dan dapat diakses, kode pelatihan sumber terbuka, resep pelatihan yang dapat direproduksi, evaluasi transparan, pos pemeriksaan perantara, dan banyak lagi,” tulis AI2 dalam sebuah postingan blog. “Dengan berbagi data, resep, dan temuan kami secara terbuka, kami berharap dapat menyediakan sumber daya yang dibutuhkan komunitas sumber terbuka untuk menemukan pendekatan baru dan inovatif.”
Ada dua model dalam keluarga OLMo 2: satu dengan 7 miliar parameter (OLMo 7B) dan satu lagi dengan 13 miliar parameter (OLMo 13B). Parameter secara kasar sesuai dengan keterampilan pemecahan masalah model, dan model dengan lebih banyak parameter umumnya berperforma lebih baik dibandingkan model dengan parameter lebih sedikit.
Seperti kebanyakan model bahasa, OLMo 2 7B dan 13B dapat melakukan berbagai tugas berbasis teks, seperti menjawab pertanyaan, merangkum dokumen, dan menulis kode.
Untuk melatih modelnya, Ai2 menggunakan kumpulan data sebanyak 5 triliun token. Token mewakili bit data mentah; 1 juta token sama dengan sekitar 750.000 kata. Rangkaian pelatihan mencakup situs web yang “difilter untuk kualitas tinggi”, makalah akademis, papan diskusi tanya jawab, dan buku kerja matematika “baik buatan maupun buatan manusia”.
Ai2 mengklaim hasilnya adalah model yang kompetitif, dari segi performa, dengan model terbuka seperti rilis Meta's Llama 3.1.
“Kami tidak hanya mengamati peningkatan kinerja yang dramatis di semua tugas dibandingkan dengan model OLMo kami sebelumnya, namun yang terpenting, OLMo 2 7B mengungguli LLama 3.1 8B,” tulis Ai2. “OLMo 2 [represents] model bahasa terbuka penuh terbaik hingga saat ini.”
Model OLMo 2 dan seluruh komponennya dapat diunduh dari Ai2 situs web. Mereka berada di bawah lisensi Apache 2.0, artinya dapat digunakan secara komersial.
Ada beberapa perdebatan baru-baru ini mengenai keamanan model terbuka, dan model Llama dilaporkan digunakan oleh para peneliti Tiongkok untuk mengembangkan alat pertahanan. Ketika saya bertanya kepada insinyur Ai2 Dirk Groeneveld pada bulan Februari apakah dia khawatir dengan penyalahgunaan OLMo, dia mengatakan kepada saya bahwa dia yakin manfaatnya lebih besar daripada kerugiannya.
“Ya, ada kemungkinan model terbuka digunakan secara tidak tepat atau untuk tujuan yang tidak diinginkan,” katanya. “[However, this] pendekatan ini juga mendorong kemajuan teknis yang mengarah pada model yang lebih etis; merupakan prasyarat untuk verifikasi dan reproduktifitas, karena hal ini hanya dapat dicapai dengan akses ke tumpukan penuh; dan mengurangi meningkatnya konsentrasi kekuasaan, sehingga menciptakan akses yang lebih adil.”