Video girişimini Apple’a satan bir kurucu tarafından yönetilen Panjaya, video dublajına girmek için deepfake tekniklerini kullanıyor

Çeviri dünyasında üretken yapay zeka için büyük bir fırsat var ve Panjaya adlı bir girişim, konsepti bir sonraki seviyeye taşıyor: yeni dili konuşan bir kişinin orijinal sesini yeniden yaratan, videolar için hiper gerçekçi, gen yapay zeka tabanlı bir dublaj aracı video ve konuşmacının fiziksel hareketleri, yeni konuşma kalıplarıyla doğal bir şekilde eşleşecek şekilde otomatik olarak değiştiriliyor.

Son üç yıldır gizli kaldıktan sonra girişim, ürününün ilk versiyonu olan BodyTalk’u ve 9,5 milyon dolarlık ilk dış finansmanını tanıtıyor.

Panjaya, profesyonel yaşamlarının çoğunu sessizce İsrail hükümeti için derin öğrenme teknolojisi üzerinde çalışarak geçiren ve şu anda sırasıyla girişimin genel müdürü ve CTO’su olan iki derin öğrenme uzmanı Hilik Shani ve Ariel Shalom’un buluşudur. 2021’de startup heyecanıyla G-man şapkalarını astılar ve 1,5 yıl önce CEO olarak Guy Piekarz da aralarına katıldı.

Piekarz, Panjaya’nın kurucusu olmasa da şirkette yer alması gereken dikkate değer bir isim: 2013 yılında kurduğu bir startup’ı sattı. yaptım Apple’a bulundu. Startup’ın adıyla Matcha, internet üzerinden video keşfi ve öneri konusunda ilk ve en çok konuşulan oyunculardan biriydi ve Apple’ın TV ve yayın stratejisinin ilk günlerinde, bunların gerçek ürünlerden çok söylentiler olduğu dönemde satın alındı. Matcha önyüklendi ve bir şarkı karşılığında satıldı: 10 milyon ila 15 milyon dolar arası; Apple’ın sonunda internet üzerinden yayınlanan medyaya yaptığı önemli yönlendirme göz önüne alındığında bu mütevazı bir rakam.

Piekarz, Apple TV’yi ve ardından spor sektörünü geliştirmek için neredeyse on yıl boyunca Apple’da kaldı. Daha sonra, destekçilerinden biri olan Viola Ventures aracılığıyla Panjaya ile tanıştırıldı (diğerleri arasında R-Squared Ventures, JFrog kurucu ortağı ve CEO’su Shlomi Ben Haim, Chris Rice, Guy Schory, Storm Ventures’tan Ryan Floyd, Riviera Partners’tan Ali Behnam yer alıyor). ve Oded Vardi.

Piekarz, “O zamana kadar Apple’dan ayrılmıştım ve tamamen farklı bir şey yapmayı planlıyordum” dedi. “Ancak teknolojinin bir demosunu görmek aklımı başımdan aldı ve gerisi tarih oldu.”

BodyTalk, sentetik medyanın farklı yönlerinde rol oynayan çeşitli teknoloji parçalarını aynı anda çerçeveye nasıl getirdiği açısından ilginçtir.

Şu anda 29 dilde çeviri sunabilen ses tabanlı çeviri ile başlıyor. Daha sonra çeviri, orijinal konuşmacıyı taklit eden bir sesle konuşulur ve bu da, orijinal videonun, konuşmacının dudaklarının ve diğer hareketlerinin yeni kelimelere ve ifadelere uyacak şekilde değiştirildiği bir versiyonuna ayarlanır. Tüm bunlar, kullanıcılar videoları platforma yükledikten sonra otomatik olarak oluşturuluyor. Platform ayrıca daha fazla düzenleme aracı içeren bir kontrol paneliyle birlikte geliyor. Gelecek planları arasında bir API’nin yanı sıra gerçek zamanlı işlemeye yaklaşma yer alıyor. (Piekarz, şu anda BodyTalk’un “neredeyse gerçek zamanlı” olduğunu ve videoları işlemenin dakikalar sürdüğünü söyledi.)

Piekarz, şirketin üçüncü taraf geniş dil modellerini ve diğer araçları kullanması hakkında “Gerektiğinde türünün en iyisini kullanıyoruz” dedi. “Ve pazarın gerçekten bir çözümü olmadığı durumlarda kendi yapay zeka modellerimizi oluşturuyoruz.”

Bunun bir örneği şirketin dudak senkronizasyonudur, diye devam etti. “Dudak senkronizasyonu motorumuzun tamamı yapay zeka araştırma ekibimiz tarafından geliştirildi, çünkü birden fazla hoparlör, açı ve desteklemek istediğimiz tüm iş kullanım durumlarının bu seviyeye ve kalitesine ulaşan hiçbir şey bulamadık.”

Şu an için odak noktası sadece B2B; Müşteriler arasında JFrog ve TED medya kuruluşu bulunmaktadır. Şirketin medyada, özellikle spor, eğitim, pazarlama, sağlık ve tıp gibi alanlarda daha da genişleme planları var.

Ortaya çıkan çeviri videoları çok esrarengiz, deepfake’lerde elde ettiğinizden pek farklı değil; ancak Piekarz, yıllar içinde startup’ın hedeflediği pazarın tam tersi olan olumsuz çağrışımlar toplayan bu terim karşısında ürküyor.

“‘Deepfake’ ilgilendiğimiz bir şey değil” dedi. “Bu adın tamamını kullanmaktan kaçınmak istiyoruz.” Bunun yerine Panjaya’yı “derin gerçek kategorinin” bir parçası olarak düşünün dedi.

Sadece B2B pazarını hedefleyerek ve araçlarına kimin erişebileceğini kontrol ederek şirketin, kötüye kullanımdan korumak için teknolojinin etrafında “korkuluklar” oluşturduğunu ekledi. Ayrıca uzun vadede, herhangi bir videonun hem yasal hem de kötü amaçlı sentetik medya oluşturmak üzere değiştirildiğini tespit etmeye yardımcı olacak, filigranlama da dahil olmak üzere daha fazla aracın geliştirileceğini düşünüyor. Kesinlikle bunun bir parçası olmak ve yanlış bilgiye izin vermemek istiyoruz” dedi.

O kadar da iyi olmayan baskı

Vimeo ve Eleven Labs gibi büyük isimlerin yanı sıra Speechify ve Synthesis gibi daha küçük oyuncular da dahil olmak üzere videolar için yapay zeka tabanlı çeviri alanında Panjaya ile rekabet eden çok sayıda girişim var. Hepsi için dublaj çalışmalarını iyileştirmenin yollarını bulmak, güçlü bir akıntıya karşı yüzmeye benziyor. Bunun nedeni, altyazıların bugünlerde video tüketiminin oldukça standart bir parçası haline gelmesidir.

TV’de bu, zayıf konuşmacılar, yoğun hayatlarımızda arka plan gürültüsü, mırıldanan aktörler, sınırlı prodüksiyon bütçeleri ve daha fazla ses efekti gibi birçok nedenden dolayı oluyor. CBS, Amerikalı TV izleyicileri arasında yapılan bir ankette, izleyicilerin yarısından fazlasının “bazı zamanlarda (%21) veya tamamında (%34) altyazı tuttuğunu ortaya çıkardı.

Ancak bazıları altyazıları sırf okumayı eğlenceli buldukları için seviyorlar ve bunun etrafında kurulmuş bir kült var.

Sosyal medyada ve diğer uygulamalarda altyazılar deneyime kolayca dahil ediliyor. Örnek olarak TikTok, Kasım 2023’te tüm videolarda altyazıyı varsayılan olarak açmaya başladı.

Yine de, dublajlı içerik için uluslararası alanda büyük bir pazar varlığını sürdürüyor ve her ne kadar İngilizce genellikle internetin ortak dili olarak düşünülse de, CSA gibi araştırma gruplarından, ana dillerde sunulan içeriğin, özellikle de İngilizce’de daha iyi etkileşim aldığına dair kanıtlar var. B2B bağlamı. Panjaya’nın görüşü, daha doğal ana dil içeriğinin daha da iyi sonuçlar verebileceği yönünde.

Müşterilerinden bazıları bu teoriyi destekliyor gibi görünüyor. TED, Panjaya’nın araçları kullanılarak seslendirilen Konuşmaların izlenme oranlarının %115 arttığını ve çevrilen videoların tamamlanma oranlarının iki katına çıktığını söylüyor.

Kaynak: https://techcrunch.com/2024/11/08/led-by-a-founder-who-sold-a-video-startup-to-apple-panjaya-uses-deepfake-techniques-to-bite-into-video-dubbing/