Özel bir ağ oluşturma, içgörü ve sohbet gecesi için 27 Mart’ta Boston’daki liderlere katılın. Davet et Burada.
Google araştırmacıları Sadece tek bir fotoğraftan konuşan, jest yapan ve hareket eden insanların gerçekçi videolarını üretebilen yeni bir yapay zeka sistemi geliştirdiler. VLOGGER adı verilen teknoloji, şaşırtıcı derecede gerçekçi görüntüleri sentezlemek için gelişmiş makine öğrenimi modellerine dayanıyor, bir dizi potansiyel uygulamanın önünü açıyor ve aynı zamanda derin sahtekarlıklar ve yanlış bilgilerle ilgili endişeleri artırıyor.
başlıklı bir araştırma makalesinde anlatılmıştır.VLOGGER: Bedenlenmiş Avatar Sentezi için Multimodal DifüzyonYapay zeka modeli, giriş olarak bir kişinin fotoğrafını ve bir ses klibini alabilir ve ardından sesle eşleşen, kişinin kelimeleri söylediğini ve karşılık gelen yüz ifadelerini, baş hareketlerini ve el hareketlerini yaptığını gösteren bir video çıktısı alabilir. Videolar bazı yapaylıklar nedeniyle mükemmel değil ancak hareketsiz görüntüleri canlandırma yeteneğinde önemli bir sıçramayı temsil ediyor.
Konuşan kafaların sentezlenmesinde çığır açan buluş
liderliğindeki araştırmacılar Henry Corona Google Araştırma’da, yeni sonuca ulaşmak için yayılma modelleri adı verilen bir tür makine öğrenimi modelinden yararlanıldı. Difüzyon modelleri son zamanlarda metin açıklamalarından oldukça gerçekçi görüntüler oluşturma konusunda dikkate değer bir performans göstermiştir. Ekip, bunları video alanına genişleterek ve yeni ve geniş bir veri kümesi üzerinde eğitim vererek, fotoğraflara son derece ikna edici bir şekilde hayat verebilecek bir yapay zeka sistemi oluşturmayı başardı.
“Önceki çalışmaların aksine, yöntemimiz her kişi için eğitim gerektirmiyor, yüz algılama ve kırpmaya dayanmıyor, tam görüntüyü oluşturuyor (yalnızca yüz veya dudaklar değil) ve geniş bir senaryo yelpazesini (örneğin görünür) dikkate alıyor yazarlar, iletişim kuran insanları doğru bir şekilde sentezlemek için kritik öneme sahip olan gövde veya çeşitli özne kimlikleri) yazdı.
Bunu mümkün kılan en önemli unsurlardan biri, 800.000’den fazla farklı kimlik ve 2.200 saatlik video içeren MENTOR adı verilen devasa yeni bir veri kümesinin küratörlüğüydü; bu, daha önce mevcut olandan çok daha büyük bir büyüklük sırasıdır. Bu, VLOGGER’ın çeşitli etnik kökenlere, yaşlara, kıyafetlere, pozlara ve çevreye sahip kişilerin önyargısız videoları oluşturmayı öğrenmesine olanak tanıdı.
Potansiyel uygulamalar ve toplumsal etkiler
Teknoloji bir dizi ilgi çekici kullanım senaryosunun önünü açıyor. Makale, VLOGGER’ın, yalnızca ses parçasını değiştirerek videoları otomatik olarak diğer dillere kopyalama, bir videodaki eksik kareleri sorunsuz bir şekilde düzenleyip doldurma ve tek bir fotoğraftan bir kişinin tam videolarını oluşturma yeteneğini göstermektedir.
Oyuncuların, yeni performanslar oluşturmak için kullanılabilecek ayrıntılı 3 boyutlu modellerini lisanslayabilecekleri hayal edilebilir. Teknoloji aynı zamanda sanal gerçeklik ve oyun için fotogerçekçi avatarlar oluşturmak için de kullanılabilir. Ve daha ilgi çekici ve ifade gücü yüksek, yapay zeka destekli sanal asistanların ve sohbet robotlarının yaratılmasına olanak sağlayabilir.
Google, VLOGGER’ı insanlarla konuşma, jestler ve göz teması yoluyla doğal bir şekilde etkileşim kurabilen “somutlaşmış konuşma araçlarına” doğru bir adım olarak görüyor. Yazarlar, “VLOGGER sunumlar, eğitim, anlatım, düşük bant genişliğine sahip çevrimiçi iletişim için bağımsız bir çözüm olarak ve yalnızca metinden oluşan insan-bilgisayar etkileşimi için bir arayüz olarak kullanılabilir” diye yazdı.
Bununla birlikte teknolojinin kötüye kullanılma potansiyeli de var; örneğin deepfake (bir videodaki kişinin başka birinin benzeriyle değiştirildiği sentetik medya) oluşturma gibi. Yapay zeka tarafından oluşturulan bu videolar daha gerçekçi hale geldikçe ve oluşturulması daha kolay hale geldikçe, yanlış bilgilendirme ve dijital sahtecilikle ilgili zorluklar daha da kötüleşebilir.
Yapay zeka araştırmalarında yeni bir sınır
Etkileyici olsa da, VLOGGER’ın hala sınırlamaları var. Oluşturulan videolar nispeten kısadır ve statik bir arka plana sahiptir. Bireyler 3 boyutlu bir ortamda hareket etmezler. Ve tavırları ve konuşma kalıpları gerçekçi olsa da henüz gerçek insanlarınkinden ayırt edilemez değil.
Yine de VLOGGER ileriye doğru atılmış önemli bir adımı temsil ediyor. Yazarlar, “VLOGGER’ı üç farklı kritere göre değerlendiriyoruz ve önerilen modelin görüntü kalitesi, kimliğin korunması ve zamansal tutarlılık açısından diğer son teknoloji yöntemleri geride bıraktığını gösteriyoruz” dedi.
Daha fazla ilerlemeyle birlikte, yapay zeka tarafından üretilen bu tür medyanın her yerde yaygınlaşması muhtemeldir. Yakında bizimle bir videoda konuşan kişinin gerçek mi yoksa bir bilgisayar programı tarafından mı oluşturulduğunu anlamanın zor olduğu bir dünyada yaşayabiliriz.
VLOGGER bu geleceğe dair erken bir bakış sunuyor. Bu, yapay zekada kaydedilen hızlı ilerlemenin güçlü bir göstergesi ve gerçek ile sahte olanı ayırt etmede karşılaşacağımız zorlukların arttığının bir işareti.
VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.
Kaynak: https://venturebeat.com/ai/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life/