DeepMind’ın yeni yapay zekası videolar için müzikler ve diyaloglar üretiyor

Google’ın yapay zeka araştırma laboratuvarı DeepMind, videolar için müzikler oluşturmak üzere yapay zeka teknolojisi geliştirdiğini söylüyor.

DeepMind, resmi blogundaki bir gönderide, V2A teknolojisini (“videodan sese” kısaltması) yapay zeka tarafından oluşturulan medya bulmacasının önemli bir parçası olarak gördüğünü söylüyor. DeepMind dahil pek çok kuruluş video üreten yapay zeka modelleri geliştirmiş olsa da bu modeller, oluşturdukları videolarla senkronize olacak ses efektleri oluşturamıyor.

DeepMind, “Video oluşturma modelleri inanılmaz bir hızla ilerliyor, ancak mevcut sistemlerin çoğu yalnızca sessiz çıktı üretebiliyor” diye yazıyor. “V2A teknolojisi [could] üretilen filmleri hayata geçirmek için umut verici bir yaklaşım haline gelebilir.”

DeepMind’ın V2A teknolojisi, müzik, ses efektleri ve hatta videonun karakterleri ve tonuyla eşleşen, DeepMind’in deepfake filigranlarıyla eşleşen diyaloglar oluşturmak için bir videoyla eşleştirilen bir film müziğinin tanımını (örneğin “su altında titreşen denizanası, deniz yaşamı, okyanus”) alır -SynthID teknolojisiyle mücadele. DeepMind, V2A’yı destekleyen yapay zeka modelinin (bir yayılma modeli) ses ve diyalog transkriptlerinin yanı sıra video kliplerden oluşan bir kombinasyonla eğitildiğini söylüyor.

DeepMind, “Video, ses ve ek açıklamalar konusunda eğitim alarak teknolojimiz, ek açıklamalarda veya transkriptlerde sağlanan bilgilere yanıt verirken belirli ses olaylarını çeşitli görsel sahnelerle ilişkilendirmeyi öğreniyor” diye yazıyor.

Eğitim verilerinden herhangi birinin telif hakkıyla korunup korunmadığı ve veriyi oluşturanların DeepMind’ın çalışmaları hakkında bilgilendirilip bilgilendirilmediği konusunda söz anneye ait. Açıklama için DeepMind’e ulaştık ve geri bildirim alırsak bu yazıyı güncelleyeceğiz.

Yapay zeka destekli ses üreten araçlar yeni değil. Startup Stability AI geçen hafta bir tane yayınladı ve ElevenLabs da Mayıs ayında bir tanesini piyasaya sürdü. Modeller video ses efektleri oluşturmaya da uygun değildir. Bir Microsoft projesi, hareketsiz bir görüntüden konuşma ve şarkı söyleme videoları oluşturabilir ve Pika ve GenreX gibi platformlar, modelleri video çekmek ve belirli bir sahnede hangi müziğin veya efektlerin uygun olduğuna dair en iyi tahminde bulunmak üzere eğitmiştir.

Ancak DeepMind, V2A teknolojisinin, bir videodaki ham pikselleri anlayabilmesi ve oluşturulan sesleri otomatik olarak videoyla senkronize edebilmesi (isteğe bağlı olarak açıklama olmadan) açısından benzersiz olduğunu iddia ediyor.

V2A mükemmel değil ve DeepMind bunu kabul ediyor. Temel model, bozulma veya bozulma içeren çok sayıda video üzerinde eğitilmediğinden, bunlar için özellikle yüksek kaliteli ses oluşturmaz. Ve genel olarak oluşturulan ses Süper inandırıcı; meslektaşım Natasha Lomas bunu “basmakalıp seslerden oluşan bir açık büfe” olarak tanımladı ve buna katılmadığımı söyleyemem.

Bu nedenlerden dolayı ve kötüye kullanımı önlemek için DeepMind, teknolojiyi yakın zamanda halka sunmayacağını söylüyor.

DeepMind, “V2A teknolojimizin yaratıcı topluluk üzerinde olumlu bir etki yaratabileceğinden emin olmak için, önde gelen yaratıcılardan ve film yapımcılarından farklı bakış açıları ve içgörüler topluyoruz ve bu değerli geri bildirimleri devam eden araştırma ve geliştirmemize bilgi sağlamak için kullanıyoruz” diye yazıyor. “Daha geniş bir kitleye erişim sağlamayı düşünmeden önce, V2A teknolojimiz sıkı güvenlik değerlendirmelerinden ve testlerinden geçecek.”

DeepMind, V2A teknolojisini arşivciler ve tarihi görüntülerle çalışan kişiler için özellikle yararlı bir araç olarak sunuyor. Ancak bu sabah bir yazımda yazdığım gibi, bu doğrultuda üretken yapay zeka aynı zamanda film ve TV endüstrisini altüst etme tehdidini de taşıyor. Üretken medya araçlarının işleri (veya duruma göre tüm meslekleri) ortadan kaldırmamasını sağlamak için ciddi anlamda güçlü işgücü korumaları gerekecektir.

Kaynak: https://techcrunch.com/2024/06/17/deepminds-new-ai-generates-soundtracks-and-dialog-for-videos/