Hugging Face, SmolVLM Vision Dil Modelinin Tüketici Dizüstü Bilgisayarlarında Çalışabilen Kompakt Sürümlerini Tanıtıyor

Hugging Face, SmolVLM Vision Dil Modelinin Tüketici Dizüstü Bilgisayarlarında Çalışabilen Kompakt Sürümlerini Tanıtıyor
Yayınlama: 27.01.2025
3
A+
A-

Hugging Face, geçen hafta SmolVLM görüş dili modellerine iki yeni varyantı tanıttı. Yeni yapay zeka (AI) modelleri 256 milyon ve 500 milyon parametre boyutunda mevcut olup, ilkinin şirket tarafından dünyanın en küçük görme modeli olduğu iddia ediliyor. Yeni değişkenler, boyutu önemli ölçüde azaltırken eski iki milyar parametreli modelin verimliliğini korumaya odaklanıyor. Şirket, yeni modellerin kısıtlı cihazlarda, tüketici dizüstü bilgisayarlarında ve hatta tarayıcı tabanlı çıkarımlarda yerel olarak çalıştırılabileceğini vurguladı.

Hugging Face, Daha Küçük SmolVLM Yapay Zeka Modellerini Tanıtıyor

Şirket, bir blog yazısında mevcut 2 milyar parametreli modele ek olarak SmolVLM-256M ve SmolVLM-500M görüş dili modellerini duyurdu. Sürüm, yukarıda belirtilen parametre boyutlarında iki temel model ve iki talimat ince ayarlı model getiriyor.

Hugging Face, bu modellerin doğrudan transformatörlere, Machine Learning Exchange (MLX) ve Open Neural Network Exchange (ONNX) platformlarına yüklenebileceğini ve geliştiricilerin temel modellerin üzerine inşa edebileceğini söyledi. Özellikle bunlar, hem kişisel hem de ticari kullanım için Apache 2.0 lisansına sahip açık kaynaklı modellerdir.

Hugging Face, yeni AI modelleriyle bilgisayar görüşüne odaklanan multimodal modelleri taşınabilir cihazlara getirmeyi hedefliyor. Örneğin 256 milyon parametreli model, saniyede 16 görüntüyü (64 toplu iş boyutuyla) işlemek için bir GB’den daha az GPU belleği ve 15 GB RAM ile çalıştırılabilir.

Hugging Face’te makine öğrenimi araştırma mühendisi olan Andrés Marafioti, VentureBeat’e şunları söyledi: “Ayda 1 milyon görüntü işleyen orta ölçekli bir şirket için bu, bilgi işlem maliyetlerinde yıllık önemli tasarruf anlamına geliyor.”

Yapay zeka modellerinin boyutunu azaltmak için araştırmacılar, görüntü kodlayıcıyı önceki SigLIP 400M’den 93M parametreli bir SigLIP temel yamasına geçirdi. Ayrıca tokenizasyon da optimize edildi. Yeni Vision modelleri, görüntüleri jeton başına 4096 piksel hızında kodlarken, 2B modelindeki jeton başına 1820 piksel kodluyor.

Özellikle küçük modeller performans açısından 2B modelinin biraz gerisinde olsa da şirket bu ödünleşimin minimumda tutulduğunu söyledi. Hugging Face’e göre 256M modeli, resimlere veya kısa videolara altyazı eklemek, belgelerle ilgili soruları yanıtlamak ve temel görsel muhakeme görevleri için kullanılabilir.

Geliştiriciler, kullanıma hazır eski SmolVLM koduyla çalışırken, çıkarım yapmak ve AI modelinde ince ayar yapmak için transformatörleri ve MLX’i kullanabilir. Bu modeller aynı zamanda Hugging Face’te de listeleniyor.

Kaynak

Viyanablog Sitesinin Kurucusuyum.