Damıtma (Distillation)
Damıtma, büyük ve güçlü bir 'öğretmen' modelin davranışını taklit eden daha küçük ve verimli bir 'öğrenci' model eğitme tekniğidir.
Duz Turkce Aciklama
Büyük modeller pahalı ve yavaştır. Bilgi damıtma, büyük modelin ürettiği tahminleri eğitim sinyali olarak kullanarak küçük bir modelin onun davranışını öğrenmesini sağlar. Öğrenci model, yalnızca ham etiketi değil öğretmenin olasılık dağılımını öğrenir; bu 'yumuşak hedefler' daha zengin öğrenme sinyali içerir. DistilBERT, BERT'in distile edilmiş versiyonudur; yüzde kırk daha küçük ve yüzde altmış daha hızlı olmasına karşın performansının yüzde doksan yedisini korur.
Nerede Kullanilir?
Üretim ortamı optimizasyonu, sınırlı kaynaklar için model hafifletme ve maliyet-performans dengesi gerektiren uygulamalarda tercih edilen bir tekniktir.
Ornek
Bir şirket, GPT-4'ü öğretmen model olarak kullanarak çok daha ucuz GPT-3.5'i belirli bir görevde GPT-4 seviyesinde performans göstermesi için damıtma yaptı.