OpenAI, birkaç ay önce sahne açıklamalarını orijinal videolara dönüştüren üretken yapay zeka modeli Sora ile teknoloji dünyasını büyüledi; kamera veya film ekibi gerekmiyordu. Ancak Sora şu ana kadar sıkı bir şekilde kontrol altına alındı ve firma, bunu mutlaka hobicilere veya küçük çaplı pazarlamacılara değil, Hollywood yönetmenleri gibi iyi finanse edilen yaratıcılara hedefliyor gibi görünüyor.
Snap’in üretken yapay zeka bölümünün eski başkanı Alex Mashrabov bir fırsat sezdi. Böylece daha özel, kişiselleştirilmiş uygulamalar için tasarlanmış, yapay zeka destekli bir video oluşturma ve düzenleme platformu olan Higgsfield AI’yi başlattı.
Özel bir metinden videoya modeliyle desteklenen Higgsfield’in ilk uygulaması Diffuse, sıfırdan videolar oluşturabiliyor veya bir selfie çekip o kişinin başrolde olduğu bir klip oluşturabiliyor.
Mashrabov bir röportajda TechCrunch’a şunları söyledi: “Hedef kitlemiz her tür yaratıcıdan oluşuyor”, “arkadaşlarıyla eğlenceli içerik oluşturmak isteyen sıradan kullanıcılardan, yeni bir içerik formatı denemek isteyen sosyal içerik yaratıcılarına ve markalarını isteyen sosyal medya pazarlamacılarına kadar.” öne çıkmak için.”
Mashrabov, Snap’e, Snap’in 2020’de 166 milyon dolara satın aldığı önceki girişimi AI Factory aracılığıyla geldi. Mashrabov, Snap’teyken, Cameos’un yanı sıra Snapchat’in tartışmalı MyAI chabot’u da dahil olmak üzere Snapchat için AR efektleri ve filtreler gibi ürünlerin geliştirilmesine yardımcı oldu.
Mashrabov’un birkaç ay önce üretken video konusunda uzmanlaşmış bir yapay zeka araştırmacısı olan Yerzat Dulat ile birlikte başlattığı Higgsfield, önceden oluşturulmuş kliplerden oluşan seçilmiş bir set, referans medyayı (yani resimler ve videolar) yüklemek için bir araç ve hızlı bir düzenleyici sunuyor. kullanıcıların tasvir etmek istedikleri karakterleri, eylemleri ve sahneleri tanımlamalarına olanak tanır. Kullanıcılar Diffuse’u kullanarak kendilerini doğrudan yapay zeka tarafından oluşturulan bir sahneye yerleştirebiliyor veya dijital benzerliklerinin diğer videolarda çekilen dans hareketleri gibi şeyleri taklit etmesini sağlayabiliyor.
Mashrabov, “Modelimiz son derece gerçekçi hareketleri ve ifadeleri destekliyor” dedi. “Tüketiciler için, sınıfının en iyisi video oluşturma ve düzenlemeyi büyük bir kontrol düzeyiyle oluşturmamıza olanak sağlayacak ‘dünya modellerine’ öncülük ediyoruz.”
Higgsfield, OpenAI ile kafa kafaya yarışan tek üretken video girişimi değil. Runway sahneye ilk çıkanlardan biriydi ve araçları gelişmeye devam ediyor. Ayrıca iki DeepMind mezununun desteğine ve 13 milyon doların üzerinde risk sermayesine sahip olan Haiper da var.
Mashrabov, Diffuse’un mobil öncelikli, sosyal ileriye dönük pazara açılma stratejisi sayesinde öne çıkacağını savunuyor.
Mashrabov, “Masaüstü iş akışları yerine iOS ve Android uygulamalarına öncelik vererek yaratıcıların her zaman ve her yerde ilgi çekici sosyal medya içeriği oluşturmasına olanak sağlıyoruz” dedi. “Aslında, mobil ortamı geliştirerek, ilk günden itibaren kullanım kolaylığına ve tüketici dostu özelliklere öncelik verebiliyoruz.”
Higgsfield da yalın çalışıyor. Mashrabov, platformu destekleyen üretken modellerin 16 kişilik bir ekip tarafından dokuz aydan kısa bir sürede geliştirildiğini ve 32 GPU kümesi üzerinde eğitildiğini söylüyor. (32 GPU çok gibi görünebilir, ancak OpenAI’nin on binlerce GPU kullandığını düşünürsek bu pek de öyle değil Gerçekten mi.) Ve Higgsfield bugüne kadar yalnızca 8 milyon dolar topladı; bunun büyük bir kısmı Menlo Ventures liderliğindeki yeni tohum finansman diliminden geldi.
Higgsfield, rakiplerinden bir adım önde olmak için başlangıç parasını, kullanıcıların videolardaki karakterleri ve nesneleri değiştirmesine olanak tanıyacak gelişmiş bir video düzenleyici oluşturmaya ve özellikle sosyal medya kullanım durumları için daha güçlü video oluşturma modelleri geliştirmeye yatırmayı planlıyor. Aslına bakılırsa Mashrabov, sosyal medyayı ve sosyal medya pazarlamasını Higgsfield’ın temel para kazanma alanı olarak görüyor.
Diffuse’un kullanımı şu anda ücretsiz olsa da Mashrabov, pazarlamacıların premium özellikler veya hacimli veya büyük ölçekli kampanyalar için bir tür ücret veya abonelik ödeyeceği bir gelecek öngörüyor.
“Higgsfield’ın sosyal medya pazarlamacıları için inanılmaz düzeyde gerçekçilik ve içerik üretimi kullanım senaryolarının kilidini açtığına inanıyoruz” dedi. “CMO’lardan ve kreatif direktörlerden sürekli olarak etkili içerik sunmaya devam ederken içerik üretim bütçelerini optimize etmeleri ve zaman çizelgelerini kısaltmaları gerektiğini duyuyoruz. Bu nedenle, video üreten yapay zeka çözümlerinin, bunu başarmalarına yardımcı olacak temel bir çözüm olacağına inanıyoruz.”
Elbette Higgsfield, üretken yapay zeka girişimlerinin karşılaştığı daha geniş zorluklardan muaf değil.
Diffuse’a güç veren türdeki üretken yapay zeka modellerinin eğitim verilerini “yeniden oluşturabildiği” iyi bilinen bir şey. Bu neden sorunlu? Modeller, telif hakkıyla korunan içerik konusunda izinsiz veya bir tür lisans sözleşmesi olmadan eğitilmişse, bu modellerin kullanıcıları farkında olmadan telif hakkını ihlal eden bir çalışma üretebilir ve bu da onları davalara maruz bırakabilir.
Mashrabov, Higgsfield’ın eğitim verilerinin kaynağını açıklamıyor (“kamuya açık birden fazla yerden geldiğini söylemek dışında) ve ayrıca Higgsfield’ın gelecekteki modelleri eğitmek için kullanıcı verilerini saklayıp saklamayacağını da söylemiyor; Ticari Müşteriler. Diffuse kullanıcılarının, uygulama aracılığıyla istedikleri zaman verilerinin silinmesini talep edebileceklerini belirtti.
Higgsfield gibi dijital “klonlama” platformları da, son aylarda sosyal medyada derin sahtekarlıkların hızla yayılmasının gösterdiği gibi, suistimal edilmeye hazır.
Benzer şekilde Higgsfield, yaratıcıların içeriklerinin çalınmasını kolaylaştırabilir. Örneğin, birinin aynı koreografiyi gerçekleştirirken çekilmiş bir videosunu oluşturmak için birinin koreografisinin videosunu yüklemesi yeterlidir.
Mashrabov’a Higgsfield’ın suiistimali önlemek için hangi önlemleri veya korumaları kullanabileceğini sordum ve kendisi ayrıntılara girmese de platformun otomatik ve manuel denetlemenin bir karışımını kullandığını iddia etti.
Mashrabov, “Ürünü aşamalı olarak piyasaya sürmeye ve önce belirli pazarlarda test etmeye karar verdik, böylece kötüye kullanım potansiyelinin nerede olduğunu izleyebilir ve ürünü gerektiği gibi geliştirebiliriz” diye ekledi.
Bunun pratikte ne kadar işe yaradığını bekleyip görmemiz gerekecek.
Kaynak: https://techcrunch.com/2024/04/03/former-snap-ai-chief-launches-higgsfield-to-take-on-openais-sora-video-generator/