Sora destekli kısa filmin yaratıcıları, yapay zeka tarafından oluşturulan videonun güçlü yönlerini ve sınırlamalarını açıklıyor

OpenAI’nin video oluşturma aracı Sora, Şubat ayında rakiplerinden kilometrelerce önde görünen akıcı, gerçekçi videolarla AI topluluğunu şaşırttı. Ancak dikkatlice sahnelenen ilk sahne pek çok ayrıntıyı dışarıda bıraktı; ayrıntılar, Sora’yı kullanarak bir kısa film oluşturmak için erken erişim hakkı verilen bir film yapımcısı tarafından dolduruldu.

Shy Kids, Toronto merkezli bir dijital prodüksiyon ekibidir ve OpenAI tarafından esas olarak OpenAI tanıtım amaçlı kısa filmler üreten birkaç kişiden biri olarak seçilmiştir, ancak onlara “hava kafası” yaratma konusunda önemli ölçüde yaratıcı özgürlük verilmiştir. Post prodüksiyon sanatçısı Patrick Cederberg, görsel efekt haber kaynağı fxguide ile yaptığı röportajda, işinin bir parçası olarak “gerçekte Sora’yı kullanmanın” olduğunu açıkladı.

Çoğu kişi için belki de en önemli çıkarım şudur: OpenAI’nin kısa kısaları vurgulayan gönderisi, okuyucunun bunların az çok Sora’dan tamamen oluşturulmuş olduğunu varsaymasını sağlarken, gerçek şu ki bunlar, sağlam storyboard’lama, düzenleme, renk düzeltmeyle tamamlanan profesyonel yapımlardı. ve rotoskop ve VFX gibi post çalışmaları. Tıpkı Apple’ın “iPhone’da çekildi” deyip stüdyo kurulumunu, profesyonel ışıklandırmayı ve renk çalışmasını göstermemesi gibi, Sora gönderisi de insanların bunu gerçekte nasıl yaptıklarından değil, yalnızca ne yapmalarına izin verdiğinden bahsediyor.

Cederberg’in röportajı ilginç ve oldukça teknik değil, eğer ilgileniyorsanız fxguide’a gidin ve okuyun. Ancak Sora’nın kullanımıyla ilgili bazı ilginç bilgiler, modelin her ne kadar etkileyici olsa da belki de düşündüğümüzden daha az ileriye doğru atılmış olduğunu gösteriyor.

Kontrol, bu noktada hala en çok arzu edilen ve aynı zamanda en ele geçirilmesi en zor olan şeydir. … Yapabildiğimiz en yakın şey, istemlerimizde aşırı açıklayıcı olmaktı. Karakterlerin gardırobunu ve balon türünü açıklamak tutarlılığı sağlamaktı çünkü çekimden çekime / nesilden nesile tutarlılık üzerinde tam kontrol sağlayacak özellik henüz mevcut değil.

Başka bir deyişle, geleneksel film yapımında bir karakterin kıyafetinin rengini seçmek gibi basit konular, ayrıntılı geçici çözümler ve üretken bir sistem içinde kontroller gerektirir, çünkü her çekim diğerlerinden bağımsız olarak yaratılır. Bu elbette değişebilir, ancak şu anda kesinlikle çok daha zahmetli.

Sora çıktılarının istenmeyen öğeler açısından da izlenmesi gerekiyordu: Cederberg, modelin balon üzerinde ana karakterin kafa yerine kullandığı bir yüzü veya önden sarkan bir ipi rutin olarak nasıl oluşturacağını anlattı. Bunları hariç tutma istemini alamadıkları takdirde, başka bir zaman alıcı süreç olan bu öğelerin sonradan kaldırılması gerekiyordu.

Karakterlerin veya kameranın kesin zamanlaması ve hareketleri gerçekten mümkün değil: “Bu farklı eylemlerin gerçek nesilde nerede gerçekleştiğine ilişkin bir miktar zamansal kontrol var, ancak bu kesin değil… bu bir tür karanlıkta çekim gibi” dedi Cederberg.

Örneğin, dalga gibi bir hareketin zamanlaması, manuel animasyonların aksine, oldukça yaklaşık, öneriye dayalı bir süreçtir. Ve karakterin vücudunun yukarıya doğru kaydırılması gibi bir çekim, film yapımcısının istediğini yansıtabilir veya yansıtmayabilir; dolayısıyla bu vakada ekip, portre yönünde oluşturulmuş bir çekim gerçekleştirdi ve post prodüksiyonda kırpma kaydırması yaptı. Oluşturulan klipler ayrıca belirli bir neden olmaksızın sıklıkla ağır çekimdeydi.

Aslında Cederberg, “sağa kaydırma” veya “arka plan” gibi film yapımının günlük dilini kullanmanın genel olarak tutarsız olduğunu söyledi ve ekip bunu oldukça şaşırtıcı buldu.

“Araştırmacılar, bu araçla oynamak için sanatçılara başvurmadan önce aslında film yapımcıları gibi düşünmüyorlardı” dedi.

Sonuç olarak ekip, her biri 10 ila 20 saniye süren yüzlerce nesil gerçekleştirdi ve yalnızca bir avuç kadarını kullandı. Cederberg oranın 300:1 olduğunu tahmin etti – ama tabii ki sıradan bir çekimde muhtemelen hepimiz bu orana şaşırırdık.

Merak ediyorsanız ekip aslında karşılaştıkları bazı sorunları açıklayan küçük bir kamera arkası videosu hazırladı. Yapay zekaya bitişik birçok içerik gibi, yorumlar da tüm çabayı oldukça eleştiriyor – ancak yakın zamanda eleştirilen yapay zeka destekli reklam kadar aşağılayıcı değil.

Son ilginç ayrıntı ise telif hakkıyla ilgili: Sora’dan size bir “Star Wars” klibi vermesini isterseniz reddeder. Ve eğer “retro-fütüristik bir uzay gemisinde lazer kılıcı olan cüppeli bir adamla” bunun etrafından dolaşmaya çalışırsanız, bir mekanizmayla ne yapmaya çalıştığınızı tanıdığı için bunu da reddedecektir. Ayrıca “Aronofsky tipi çekim” veya “Hitchcock yakınlaştırması” yapmayı da reddetti.

Bir yandan son derece mantıklı. Ancak şu soruyu gündeme getiriyor: Eğer Sora bunların ne olduğunu biliyorsa, bu, modelin bu içerik üzerinde eğitildiği anlamına mı gelir? Bu durumda, bunun hak ihlalinde bulunduğunun daha iyi anlaşılması mümkün olur mu? Eğitim veri kartlarını saçmalık noktasına kadar yeleğe yakın tutan OpenAI CTO Mira Murati’nin Joanna Stern ile röportajı – neredeyse kesinlikle bize asla söylemeyecek.

Sora’ya ve film yapımında kullanımına gelince, bu açıkça kendi yerinde güçlü ve kullanışlı bir araçtır, ancak onun yeri “tüm kumaştan filmler yaratmak” değildir. Henüz. Başka bir kötü adamın bir zamanlar meşhur dediği gibi, “bu daha sonra gelir.”

Kaynak: https://techcrunch.com/2024/04/27/creators-of-sora-powered-short-explain-ai-generated-videos-strengths-and-limitations/