RLHF
RLHF (İnsan Geri Bildirimiyle Pekiştirmeli Öğrenme), insan değerlendirmecilerinin tercihlerini ödül sinyali olarak kullanan model hizalama tekniğidir.
Duz Turkce Aciklama
RLHF üç aşamadan oluşur. İlk aşamada model, talimat ayarı ile temel yetkinlikleri kazanır. İkinci aşamada insan değerlendirmeciler modelin ürettiği iki yanıtı karşılaştırarak hangisinin daha iyi olduğuna karar verir; bu tercihlerle bir ödül modeli eğitilir. Üçüncü aşamada ise ödül modeli bir sinyal olarak kullanılarak orijinal LLM, pekiştirmeli öğrenme (PPO algoritması) aracılığıyla daha yüksek ödül alan yanıtlar üretmesi için güncellenir. ChatGPT ve Claude bu teknikle hizalanmıştır.
Nerede Kullanilir?
Model hizalaması, AI güvenliği ve gelişmiş LLM geliştirme araştırmalarında merkezi bir kavramdır. Kullanıcı memnuniyeti artırma ve zararlı içerik üretimini azaltma süreçlerinde de uygulanır.
Ornek
OpenAI, GPT-4'ü eğitmek için RLHF kullanarak modelin zararlı, yanlış veya yardımcı olmayan yanıtlarını insan tercih verisiyle minimize etti.