Endüstri lideri AI kapsamındaki en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Bayt Araştırmacılar, tek fotoğrafları doğal olarak konuşan, şarkı söyleyen ve hareket eden insanların gerçekçi videolarına dönüştüren bir AI sistemi geliştirdiler – dijital eğlence ve iletişimi yeniden şekillendirebilecek bir atılım.
Yeni sistem, Çokinsanların konuşmalarına uygun şekilde hareket ettiğini ve hareket ettiğini, yalnızca yüzleri veya üst bedenleri canlandırabilecek önceki AI modellerini aşan tam vücut videoları üretir.
Omnihuman gerçekçi hareket oluşturmak için 18.700 saat eğitim verisini nasıl kullanır?
“Uçtan uca insan animasyonu son yıllarda kayda değer gelişmeler geçirdi,” diye yazdı Arxiv’de yayınlanan bir makale. “Bununla birlikte, mevcut yöntemler hala büyük genel video üretim modelleri olarak ölçeklenmeye çalışıyor ve gerçek uygulamalardaki potansiyellerini sınırlandırıyor”
Ekip, omnihuman’ı, metin, ses ve vücut hareketleri gibi birden fazla girdi türünü birleştiren yeni bir yaklaşım kullanarak 18.700 saatten fazla insan video verisinde eğitti. Bu “Omni-koşullar” eğitim stratejisi Öğrenmek için AI önceki yöntemlerden çok daha büyük ve daha çeşitli veri kümelerinden.
AI video üretimi atılımı tam vücut hareketi ve doğal jestleri gösterir
Araştırma ekibi, “Temel anlayışımız, eğitim sırasında metin, ses ve poz gibi çoklu koşullandırma sinyallerinin dahil edilmesinin veri israfını önemli ölçüde azaltabileceğidir” dedi.
Teknoloji, önemli bir ilerlemeye işaret ediyor AI tarafından üretilen medyakonuşma yapan kişilerin videolarını oluşturmaktan müzik aletleri çalan konuları tasvir etmeye kadar değişen yetenekleri gösterme. Testte Omnihuman, mevcut sistemleri çoklu kaliteli kriterlerde daha iyi performans gösterdi.
Teknoloji Devleri Yeni Nesil Video AI Sistemleri geliştirmek için yarışıyor
Geliştirme, AI video neslinde yoğunlaşan rekabetin ortasında ortaya çıkıyor, Google– Meta Ve Microsoft Benzer teknolojileri takip etmek. Bytedance’ın atılımı, Tiktok ana şirketine bu hızla gelişen alanda avantaj sağlayabilir.
Endüstri uzmanları, bu tür teknolojinin eğlence üretimi, eğitim içeriği yaratma ve dijital iletişimleri dönüştürebileceğini söylüyor. Bununla birlikte, sentetik medya oluşturmada potansiyel kötüye kullanımla ilgili endişeleri de gündeme getirmektedir. aldatıcı amaçlar.
Araştırmacılar, bulgularını yaklaşan bir bilgisayar görme konferansında sunacaklar, ancak henüz ne zaman veya hangisini belirtmediler.
Kaynak: https://venturebeat.com/ai/omnihuman-bytedances-new-ai-creates-realistic-videos-from-a-single-photo/