Normalizasyon
Normalizasyon, sinir ağı eğitimini istikrarlı hale getirmek ve hız kazandırmak için katman aktivasyonlarını belirli bir aralığa veya dağılıma çeken teknikler bütünüdür.
Duz Turkce Aciklama
Eğitim sırasında ağ katmanlarından geçen değerler çok büyük veya küçük olabilir; bu durum gradyanların patlamasına ya da yok olmasına yol açar. Normalizasyon, her katmanın çıktısını standartlaştırarak eğitimi istikrarlı kılar. Batch Normalization (toplu işlem normalleştirmesi) ve Layer Normalization (katman normalleştirmesi) en yaygın iki türdür. Modern Transformer modelleri neredeyse tümüyle Layer Norm kullanır.
Nerede Kullanilir?
Derin sinir ağı eğitimi, Transformer mimarisi tasarımı ve model optimizasyonunda her zaman mevcut olan bir tekniktir.
Ornek
Pre-LayerNorm yaklaşımı, GPT-2 sonrası mimarilerin çoğunda standart hale geldi; her alt katmandan önce uygulanan normalizasyon büyük modellerin eğitiminde kararlılık sağladı.