Niceleme (Quantization)
Niceleme, model ağırlıklarını yüksek hassasiyetli sayı biçimlerinden (float32) düşük hassasiyetlilere (int8, int4) dönüştürerek bellek ve hesaplama maliyetini azaltan tekniktir.
Duz Turkce Aciklama
Büyük dil modellerinin her parametresi normalde 32 bit (4 bayt) olarak saklanır. Niceleme bu değerleri daha az bit kullanan biçimlere sıkıştırır. 4-bit niceleme, bellek kullanımını yaklaşık sekiz kat azaltır. Bu sayede 70 milyar parametreli bir model, normalde çok daha güçlü donanım gerektirirken tüketici sınıfı GPU'larda çalışabilir hale gelir. Performans kaybı genellikle kabul edilebilir düzeydedir.
Nerede Kullanilir?
Açık kaynak model dağıtımı, sınırlı donanımda model çalıştırma ve mobil/uç cihaz AI uygulamalarında kritik bir optimizasyon tekniğidir. llama.cpp ve bitsandbytes kütüphaneleri yaygın araçlardır.
Ornek
Bir geliştirici, Llama-3 70B modelini 4-bit niceleştirerek 24 GB VRAM'li tek bir GPU'da çalıştırmayı başardı.