Google’ın Yeni Nesil Yapay Zekâ Modeli Veo 3, Gerçekçi Videolar Üretiyor
Google’ın yeni nesil yapay zekâ video üretim modeli olan Veo 3, sadece birkaç kelimelik metin komutlarıyla gerçekçi videolar oluşturabiliyor. Yeni sürümle birlikte, sistem artık bu videolara ortam sesleri, insan sesi ve gerçek zamanlı fizik simülasyonları da ekleyebiliyor. Örneğin; “kalabalık bir metro vagonu” komutu verildiğinde, yalnızca görsel değil, tren sesleri, kalabalığın uğultusu ve konuşmalar da oluşturulabiliyor.
Veo 3, ağız hareketleriyle senkronize ses üretimi konusunda da iddialı. Bu da onu sinema endüstrisi için önemli bir araç haline getiriyor. Model, Google’ın yeni duyurduğu AI tabanlı film yapım aracı Flow üzerinden de erişime açık. Şimdilik yalnızca ABD’deki Gemini Ultra aboneleri tarafından kullanılabiliyor.
Google, bu gelişmeyi “yaratıcı sektörlerde kullanılabilir yapay zeka üretme vizyonumuzun bir parçası” olarak tanımlıyor.
Zorlu Bir Teknik Engel Aşıldı
Video ve sesi aynı anda yapay zekâ ile üretmek, teknoloji dünyasında bugüne dek oldukça zorlu bir mesele olarak görülüyordu. Çünkü video sabit karelerden oluşurken, ses dalga formunda ve tamamen farklı zaman ölçeklerinde işliyorlar. Bu da iki ayrı veri türünün aynı anda işlenmesini ve senkronize edilmesini son derece karmaşık hale getiriyor.
Örneğin; aynı araba, 10 km/saat hızla gittiğinde farklı, 100 km/saat hızla gittiğinde farklı ses çıkarır. Yüzeye göre de ses değişir: Taş döşeli bir yolda yürüyen atın sesi, çim üzerindekiyle aynı değildir. Veo 3, bu tür fiziksel değişkenleri dinamik olarak hesaplayabilen bir altyapıya sahip.
Google’ın yanı sıra Meta da bu alanda adım atan teknoloji devlerinden biri. Ancak Google’ın Veo 3 modeli, eş zamanlı video ve ses üretimini başarıyla gerçekleştiren ilk modellerden biri olarak öne çıkıyor.
Yapay zekâ, artık sadece görüntü değil; duyulabilen, hissedilebilen sahneler de yaratabiliyor. Bu da dijital içerik üretiminin geleceğini tamamen yeniden şekillendirebilir.