Pruna yang Anda milikistartup Eropa yang telah bekerja pada algoritma kompresi untuk model AI, membuat kerangka optimisinya open source pada hari Kamis.
Pruna AI telah menciptakan kerangka kerja yang menerapkan beberapa metode efisiensi, seperti caching, pemangkasan, kuantisasi dan distilasi, untuk model AI yang diberikan.
“Kami juga menstandarkan menyimpan dan memuat model terkompresi, menerapkan kombinasi metode kompresi ini, dan juga mengevaluasi model terkompresi Anda setelah Anda mengompresnya,” kata pruna ai co-fonder dan CTO John Rachwan mengatakan kepada TechCrunch.
Secara khusus, kerangka kerja PRUNA AI dapat mengevaluasi jika ada kerugian kualitas yang signifikan setelah mengompresi model dan perolehan kinerja yang Anda dapatkan.
“Jika saya menggunakan metafora, kami mirip dengan bagaimana memeluk transformator dan diffuser standar yang memeluk – bagaimana menyebutnya, bagaimana menyimpannya, memuatnya, dll. Kami melakukan hal yang sama, tetapi untuk metode efisiensi,” tambahnya.
Laboratorium AI besar sudah menggunakan berbagai metode kompresi. Misalnya, Openai telah mengandalkan distilasi untuk membuat versi yang lebih cepat dari model andalannya.
Ini kemungkinan bagaimana OpenAI mengembangkan GPT-4 Turbo, versi GPT-4 yang lebih cepat. Demikian pula, Fluks.1-cepat Model pembuatan gambar adalah versi suling dari fluks.1 model dari Black Forest Labs.
Distilasi adalah teknik yang digunakan untuk mengekstraksi pengetahuan dari model AI besar dengan model “guru-siswa”. Pengembang mengirim permintaan ke model guru dan mencatat output. Jawaban terkadang dibandingkan dengan dataset untuk melihat seberapa akuratnya mereka. Output ini kemudian digunakan untuk melatih model siswa, yang dilatih untuk memperkirakan perilaku guru.
“Untuk perusahaan besar, apa yang biasanya mereka lakukan adalah mereka membangun barang-barang ini di rumah. Dan apa yang dapat Anda temukan di dunia open source biasanya didasarkan pada metode tunggal. Misalnya, katakanlah satu metode kuantisasi untuk LLM, atau satu metode caching untuk model difusi,” kata Rachwan. “Tetapi Anda tidak dapat menemukan alat yang mengumpulkan semuanya, membuat semuanya mudah digunakan dan digabungkan bersama. Dan ini adalah nilai besar yang dibawa Pruna sekarang.”
Sementara Pruna AI mendukung segala jenis model, dari model bahasa besar hingga model difusi, model ucapan-ke-teks, dan model visi komputer, perusahaan berfokus lebih khusus pada model pembuatan gambar dan video saat ini.
Beberapa pengguna PRUNA AI yang ada termasuk Skenario Dan Fotoroom. Selain edisi open source, Pruna AI memiliki penawaran perusahaan dengan fitur optimasi canggih termasuk agen optimisasi.
“Fitur paling menarik yang kami rilis segera akan menjadi agen kompresi,” kata Rachwan. “Pada dasarnya, Anda memberikan model Anda, Anda berkata: 'Saya ingin lebih banyak kecepatan tetapi jangan menjatuhkan akurasi saya lebih dari 2%.' Dan kemudian, agen hanya akan melakukan keajaibannya.
Pruna AI menagih per jam untuk versi pro -nya. “Ini mirip dengan bagaimana Anda akan memikirkan GPU ketika Anda menyewa GPU di AWS atau layanan cloud apa pun,” kata Rachwan.
Dan jika model Anda adalah bagian penting dari infrastruktur AI Anda, Anda akhirnya akan menghemat banyak uang untuk inferensi dengan model yang dioptimalkan. Misalnya, Pruna AI telah membuat model Llama delapan kali lebih kecil tanpa terlalu banyak kehilangan menggunakan kerangka kompresi. Pruna Ai berharap pelanggannya akan memikirkan kerangka kompresi sebagai investasi yang membayar sendiri.
Pruna AI mengumpulkan putaran pendanaan benih $ 6,5 juta beberapa bulan yang lalu. Investor di startup termasuk EQT Ventures, Daphni, Motier Ventures dan Kima Ventures.