Google, bir metin istemi verildiğinde yaklaşık bir dakika uzunluğunda 1080p video klipler oluşturabilen bir yapay zeka modeli olan Veo’lu OpenAI Sora’yı hedefliyor.
Salı günü Google’ın I/O 2024 geliştirici konferansında tanıtılan Veo, manzara ve hızlandırılmış çekimler de dahil olmak üzere farklı görsel ve sinematik tarzları yakalayabiliyor ve önceden oluşturulmuş çekimlerde düzenlemeler ve ayarlamalar yapabiliyor.
Google’ın Yapay Zeka Ar-Ge laboratuvarı DeepMind’ın başkanı Demis Hassabis, sanal bir yuvarlak masa toplantısında gazetecilere şunları söyledi: “Film taslağı oluşturma ve Veo’nun neler yapabileceğini görmek için daha uzun sahneler oluşturma gibi özellikleri araştırıyoruz.” “Video konusunda inanılmaz bir ilerleme kaydettik.”
Veo, Google’ın Nisan ayında ön izlemesi yapılan ve döngüsel video klipler oluşturmak için şirketin Imagen 2 görüntü oluşturma model ailesinden yararlanan video oluşturma konusundaki ön ticari çalışmasını temel alıyor.
Ancak yalnızca düşük çözünürlüklü, birkaç saniye uzunluğunda videolar oluşturabilen Imagen 2 tabanlı aracın aksine Veo, günümüzün önde gelen video oluşturma modelleriyle (yalnızca Sora’yla değil, aynı zamanda Pika, Runway ve Irreverent gibi startup modelleriyle) rekabet edebilecek gibi görünüyor Laboratuvarlar.
DeepMind’in üretken medya alanındaki araştırma çalışmalarına liderlik eden Douglas Eck, bir brifingde bana Veo’nun neler yapabileceğine dair özenle seçilmiş bazı örnekler gösterdi. Özellikle hareketli bir kumsalın havadan görünümü, Veo’nun rakip video modellerine göre güçlü yanlarını gösterdiğini söyledi.
“Plajdaki tüm yüzücülerin ayrıntılarının hem görüntü hem de video oluşturma modelleri için zor olduğu kanıtlandı; bu kadar çok hareketli karakter var” dedi. “Yakından bakarsanız sörf oldukça güzel görünüyor. Ve ‘hareketli’ kelimesinin tüm insanlar tarafından yakalandığını iddia ediyorum; güneşlenenlerle dolu canlı sahil.”
Veo çok sayıda görüntü üzerinde eğitildi. Üretken yapay zeka modellerinde genel olarak bu şekilde çalışır: Veri türlerinden örnekler üzerine beslenen modeller, verilerdeki yeni veriler (Veo’nun durumunda videolar) oluşturmalarını sağlayan kalıpları yakalar.
Veo’yu eğitme görüntüleri nereden geldi? Eck kesin olarak bir şey söylemese de bazılarının Google’ın kendi YouTube’undan alınmış olabileceğini kabul etti.
“Google modelleri bazı YouTube içerikleri konusunda eğitilmiş olabilir, ancak her zaman YouTube içerik oluşturucularıyla olan anlaşmamıza uygun olarak” dedi.
“Anlaşma” kısmı olabilir teknik olarak Gerçek olmak. Ancak YouTube’un ağ etkileri göz önüne alındığında, içerik oluşturucuların mümkün olan en geniş kitleye ulaşmayı umuyorlarsa Google’ın kurallarına göre oynamaktan başka fazla seçenekleri olmadığı da bir gerçek.
The New York Times’ın nisan ayındaki raporu, Google’ın geçen yıl hizmet şartlarını kısmen şirketin yapay zeka modellerini eğitmek için daha fazla veriden yararlanmasına olanak sağlamak amacıyla genişlettiğini ortaya çıkardı. Eski Hizmet Şartları kapsamında, Google’ın video platformunun ötesinde ürünler oluşturmak için YouTube verilerini kullanıp kullanamayacağı açık değildi. Dizginleri önemli ölçüde gevşeten yeni şartlara göre durum böyle değil.
Google, şirket içi modelleri eğitmek için büyük miktarda kullanıcı verisinden yararlanan tek teknoloji devi olmaktan çok uzak. (Bakınız: Meta.) Ancak bazı içerik oluşturucuları hayal kırıklığına uğratacağı kesin olan şey, Eck’in Google’ın burada etik açıdan “altın standardı” belirlemesi konusundaki ısrarıdır.
“Bunun çözümü [training data] Bir sonraki adımların ne olacağını belirlemek için tüm paydaşların bir araya getirilmesiyle zorluk yaşanacaktır” dedi. “Paydaşlarla bu adımları atana kadar (film endüstrisinden, müzik endüstrisinden ve sanatçılardan bahsediyoruz) hızlı ilerlemeyeceğiz.”
Ancak Google, Veo’yu halihazırda aralarında Donald Glover (diğer adıyla Childish Gambino) ve yaratıcı ajansı Gilga’nın da bulunduğu seçkin içerik oluşturucuların kullanımına sundu. (Sora ile OpenAI gibi, Google’ın Veo’yu yaratıcılar için bir araç olarak konumlandırması gibi.)
Eck, Google’ın web yöneticilerinin şirketin botlarının web sitelerinden eğitim verilerini almasını engellemelerine olanak tanıyan araçlar sağladığını belirtti. Ancak ayarlar YouTube için geçerli değildir. Ve Google, bazı rakiplerinden farklı olarak, içerik oluşturucuların çalışmalarını, kazıma sonrasında eğitim veri kümelerinden çıkarmasına izin verecek bir mekanizma sunmuyor.
Eck’e, üretken yapay zeka bağlamında bir modelin bir eğitim örneğinin ayna kopyasını oluşturması anlamına gelen kusma konusunu da sordum. Midjourney gibi araçların, “Dune”, “Avengers” ve “Star Wars” gibi filmlerden tam kareler yaydığı, bir zaman damgası sağladığı ve kullanıcılar için potansiyel bir yasal mayın tarlası oluşturduğu ortaya çıktı. OpenAI’nin, Sora’nın telif hakkı zorluklarını saptırmaya çalışması için ticari markaları ve yaratıcıların adlarını engelleyecek kadar ileri gittiği bildiriliyor.
Peki Google, Veo ile kusma riskini azaltmak için hangi adımları attı? Eck’in bir cevabı yoktu, ancak araştırma ekibinin şiddet içeren ve müstehcen içerik (yani porno yok) için filtreler uyguladığını ve Veo’daki videoları yapay zeka tarafından oluşturulmuş olarak işaretlemek için DeepMind’ın SynthID teknolojisini kullandığını söylemek dışında.
“Veo modeli kadar büyük bir şey için, onu yavaş yavaş modelin sonuçlarını anlamak için çok yakın çalışabileceğimiz küçük bir paydaş grubuna sunmayı ve ancak ondan sonra yaygınlaştırmayı hedefleyeceğiz. daha büyük bir gruba” dedi.
Eck’in modelin teknik detayları hakkında paylaşacağı daha çok şey vardı.
Eck, modelin kamera hareketlerini ve VFX’i istemlerden oldukça iyi anlaması açısından Veo’yu “oldukça kontrol edilebilir” olarak tanımladı (“kaydırma”, “yakınlaştırma” ve “patlama” gibi tanımlayıcıları düşünün). Ve Sora gibi Veo da, oluşturduğu videoların gerçekçiliğine katkıda bulunan akışkanlar dinamiği ve yerçekimi gibi fizik konularına biraz hakim.
Veo ayrıca bir videonun belirli alanlarındaki değişiklikler için maskeli düzenlemeyi de destekler ve Stability AI’nin Stabil Videosu gibi üretken modeller olan hareketsiz bir görüntüden videolar oluşturabilir. Belki de en ilgi çekici olanı, birlikte bir hikaye anlatan bir dizi komut verildiğinde Veo’nun daha uzun videolar (bir dakikadan uzun videolar) oluşturabilmesidir.
Bu Veo’nun mükemmel olduğu anlamına gelmiyor. Günümüzün üretken yapay zekasının sınırlamalarını yansıtan Veo’nun videolarındaki nesneler, fazla bir açıklama veya tutarlılık olmadan kaybolup yeniden ortaya çıkıyor. Ve Veo fiziğini sık sık yanlış anlıyor; örneğin, arabalar açıklanamaz, imkansız bir şekilde bir kuruşta geri dönecek.
Bu nedenle Veo, öngörülebilir gelecekte şirketin deneysel teknoloji portalı olan Google Labs’de, üretken yapay zeka video oluşturma ve düzenlemeye yönelik VideoFX adı verilen yeni bir ön uçta bekleme listesinin arkasında kalacak. Google, geliştikçe modelin bazı yeteneklerini YouTube Shorts ve diğer ürünlere de getirmeyi hedefliyor.
Eck, “Bu büyük oranda devam eden bir çalışma, oldukça deneysel… burada yapılanlardan çok daha fazlası yapılmadı” dedi. “Ama bence bu, film yapımcılığı alanında gerçekten harika bir şey yapmak için bir tür hammadde.”
Kaynak: https://techcrunch.com/2024/05/14/google-gets-serious-about-ai-generated-video/