Çok Modlu AI (Multimodal)
Çok modlu AI, metin, görüntü, ses ve video gibi birden fazla veri türünü anlayabilen ve üretebilen yapay zeka sistemlerini tanımlar.
Duz Turkce Aciklama
İnsan iletişimi doğası gereği çok modludur: hem duyar, hem görür hem de okuriz. Multimodal AI modelleri de bu çeşitliliği taklit eder. GPT-4V bir görseli analiz edip metin yanıt üretebilir; Gemini hem ses hem metin hem de görüntüyü aynı anda işleyebilir. Bu yetenekler; görsel soru-cevap, video özetleme, sesli doküman analizi ve erişilebilirlik uygulamaları gibi alanlarda yeni olanaklar yaratır.
Nerede Kullanilir?
Ürün geliştirme, AI araştırmaları ve kurumsal uygulama değerlendirmelerinde model yeteneklerini karşılaştırmak için kullanılır. Görüntü anlama, ses transkripsiyon ve belge analizi gibi kullanım senaryolarının tanımlanmasında temel terimdir.
Ornek
Bir sigorta şirketi, müşterilerinin hasar fotoğraflarını yüklemesine ve modelin görüntüyü analiz ederek otomatik hasar raporu oluşturmasına imkân tanıyan çok modlu bir AI sistemi kurdu.