Çin’in üretken video yarışı kızışıyor

Pazartesi günü, video oyun imparatorluğu ve sohbet uygulaması WeChat ile tanınan Çinli internet devi Tencent, açık kaynaklı video oluşturma modeli DynamiCrafter’ın yeni bir versiyonunu GitHub’da tanıttı. Bu, Çin’in en büyük teknoloji şirketlerinden bazılarının metin ve görüntüden videoya geçiş yapma çabalarını sessizce artırdığını hatırlatıyor.

Piyasadaki diğer üretken video araçları gibi DynamiCrafter da altyazıları ve hareketsiz görüntüleri saniyeler süren videolara dönüştürmek için yayma yöntemini kullanıyor. Fizikteki doğal yayılma olgusundan ilham alan makine öğrenimindeki yayılma modelleri, parçacıkların yüksek konsantrasyonlu bir alandan düşük konsantrasyonlu diğerine nasıl hareket ettiğine benzer şekilde, basit verileri daha karmaşık ve gerçekçi verilere dönüştürebilir.

İkinci nesil DynamiCrafter, 640×1024 piksel çözünürlükte videolar yayınlıyor; bu, Ekim ayındaki ilk sürümünden 320×512 videoların yer aldığı bir yükseltmedir. DynamiCrafter’ın arkasındaki ekip tarafından yayınlanan bir akademik makale, teknolojisinin rakiplerinden farklı olduğunu, çünkü görüntü animasyonu tekniklerinin uygulanabilirliğini “daha genel görsel içeriğe” genişlettiğini belirtiyor.

Makalede, “Ana fikir, görüntüyü üretken sürece rehberlik olarak dahil ederek metinden videoya yayılma modellerinden önceki hareketi kullanmaktır” diyor. Buna kıyasla “geleneksel” teknikler, “temel olarak doğal sahneleri stokastik dinamiklerle (örneğin bulutlar ve akışkan) veya alana özgü hareketlerle (örneğin insan saçı veya vücut hareketleri) canlandırmaya odaklanır.”

DynamiCrafter, Stable Video Diffusion (Kasım ayında piyasaya sürüldü) ve yakın zamanda hızlanan Pika Labs’ı karşılaştıran bir demoda (aşağıya bakın), Tencent modelinin sonucu diğerlerinden biraz daha hareketli görünüyor. Seçilen örnekler kaçınılmaz olarak DynamiCrafter’ın lehine olacaktır ve ilk birkaç denememden sonra modellerin hiçbiri yapay zekanın yakında tam teşekküllü filmler üretebileceği izlenimini bırakmıyor.

Bununla birlikte, üretken metin ve görsellerdeki patlamanın ardından yapay zeka yarışında bir sonraki odak noktası olarak üretken videolara büyük umutlar verildi. Bu nedenle start-up’ların ve teknoloji şirketlerinin bu alana kaynak aktarması bekleniyor. Çin’de bu bir istisna değil. Tencent’in yanı sıra TikTok’un ana şirketi ByteDance, Baidu ve Alibaba da kendi video yayma modellerini yayınladı.

Hem ByteDance’ın MagicVideo’su hem de Baidu’nun UniVG’si GitHub’da demolar yayınladı, ancak ikisi de henüz halka açık görünmüyor. Tencent gibi Alibaba da, küresel geliştirici topluluğuna ulaşmayı ümit eden Çinli teknoloji firmaları arasında giderek daha popüler hale gelen bir strateji olan video oluşturma modeli VGen’i açık kaynak haline getirdi.

Kaynak: https://techcrunch.com/2024/02/05/chinas-generative-video-race-heats-up/