Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Araştırmacılar Meta ve Oxford Üniversitesi tek görüntülerden veya metin açıklamalarından yüksek kaliteli 3 boyutlu nesneler üretebilen güçlü bir yapay zeka modeli geliştirdiler.
Sistem adı verildi VFusion3Dsanal gerçeklik, oyun ve dijital tasarım gibi alanları dönüştürebilecek ölçeklenebilir 3D yapay zekaya doğru atılmış önemli bir adımdır.
Junlin Han, Filippos Kokkinos ve Philip Torr, araştırma ekibinin yapay zekada uzun süredir devam eden bir zorluğun üstesinden gelmesine öncülük etti: çevrimiçi olarak mevcut olan çok sayıda 2D görüntü ve metinle karşılaştırıldığında 3D eğitim verilerinin kıtlığı. Yeni yaklaşımları, sentetik 3D veriler oluşturmak için önceden eğitilmiş video yapay zeka modellerinden yararlanarak daha güçlü bir 3D oluşturma sistemini eğitmelerine olanak tanıyor.
Üçüncü boyutun kilidini açmak: VFusion3D veri açığını nasıl kapatıyor?
Araştırmacılar makalelerinde şöyle açıklıyor: “Temel 3 boyutlu üretken modellerin geliştirilmesindeki temel engel, 3 boyutlu verilerin sınırlı kullanılabilirliğidir.”
Bunun üstesinden gelmek için, çoklu görüntülü video dizileri üretmek üzere mevcut bir video yapay zeka modeline ince ayar yaptılar ve bu modele, esasen nesneleri birden çok açıdan hayal etmeyi öğrettiler. Bu sentetik veriler daha sonra VFusion3D’yi eğitmek için kullanıldı.
Sonuçlar gerçekten etkileyici. Testlerde, insan değerlendiriciler önceki son teknoloji sistemlerle karşılaştırıldığında %90’dan fazla oranda VFusion3D’nin 3D rekonstrüksiyonlarını tercih etti. Model, tek bir görüntüden yalnızca birkaç saniye içinde 3 boyutlu bir varlık oluşturabiliyor.
Piksellerden çokgenlere: Ölçeklenebilir 3D yapay zekanın vaadi
Belki de en heyecan verici olanı bu yaklaşımın ölçeklenebilirliğidir. Daha güçlü video yapay zeka modelleri geliştirildikçe ve ince ayar için daha fazla 3D veri kullanıma sunuldukça, araştırmacılar VFusion3D’nin yeteneklerinin hızla gelişmeye devam etmesini bekliyor.
Bu atılım, sonuçta 3D içeriğe dayalı endüstrilerdeki inovasyonu hızlandırabilir. Oyun geliştiricileri bunu karakterleri ve ortamları hızla prototiplemek için kullanabilir. Mimarlar ve ürün tasarımcıları konseptleri hızla 3 boyutlu olarak görselleştirebiliyordu. VR/AR uygulamaları, yapay zeka tarafından oluşturulan 3D varlıklarla çok daha etkileyici hale gelebilir.
VFusion3D ile Uygulamalı Çalışma: 3D Nesilinin Geleceğine Bir Bakış
VFusion3D’nin yeteneklerine ilk elden bakmak için halka açık demo (Gradio aracılığıyla Hugging Face’te mevcuttur).
Arayüz oldukça basittir ve kullanıcıların kendi resimlerini yüklemelerine veya Pikachu ve Darth Vader gibi ikonik karakterlerin yanı sıra sırt çantası takan bir domuz gibi daha ilginç seçenekler de dahil olmak üzere önceden yüklenmiş bir dizi örnek arasından seçim yapmalarına olanak tanır.
Önceden yüklenmiş örnekler gerçekten iyi performans göstererek, orijinal 2D görüntülerin özünü ve ayrıntılarını dikkate değer bir doğrulukla yakalayan 3D modeller ve işlenmiş videolar oluşturdu.
Ancak asıl test, özel bir görsel yüklediğimde gerçekleşti; bir dondurma külahının AI tarafından oluşturulmuş bir resmi, kullanılarak oluşturuldu. Yolculuk ortası. Şaşırtıcı bir şekilde, VFusion3D bu sentetik görüntüyü önceden yüklenmiş örnekler kadar olmasa da daha iyi bir şekilde ele aldı. Saniyeler içinde, dondurma külahının dokusal ayrıntılarla ve uygun derinlikle tamamlanan, tamamen gerçekleştirilmiş bir 3 boyutlu modeli üretildi.
Bu deneyim, VFusion3D’nin yaratıcı iş akışları üzerindeki potansiyel etkisini vurgulamaktadır. Tasarımcılar ve sanatçılar potansiyel olarak zaman alıcı manuel 3D modelleme sürecini atlayabilir, bunun yerine yapay zeka tarafından oluşturulan 2D konsept sanatını anlık 3D prototipler için bir sıçrama tahtası olarak kullanabilirler. Bu, oyun geliştirme, ürün tasarımı ve görsel efektler gibi alanlarda fikir oluşturma ve yineleme sürecini önemli ölçüde hızlandırabilir.
Dahası, sistemin yapay zeka tarafından oluşturulan 2 boyutlu görüntüleri işleme yeteneği, ilk konseptten nihai 3 boyutlu varlığa kadar 3 boyutlu içerik oluşturma sürecinin tamamının yapay zeka odaklı olabileceği bir geleceğe işaret ediyor. Bu, 3D içerik oluşturmayı demokratikleştirerek bireylerin ve küçük ekiplerin daha önce yalnızca önemli kaynaklara sahip büyük stüdyolar için mümkün olan bir ölçekte yüksek kaliteli 3D varlıklar üretmesine olanak tanıyabilir.
Ancak sonuçların etkileyici olmasına rağmen henüz mükemmel olmadığını unutmamak önemlidir. Bazı ince ayrıntılar kaybolabilir veya yanlış yorumlanabilir ve karmaşık veya olağandışı nesneler yine de zorluk teşkil edebilir. Bununla birlikte, bu teknolojinin yaratıcı endüstrileri dönüştürme potansiyeli açıktır ve önümüzdeki yıllarda bu alanda hızlı ilerlemeler görmemiz muhtemeldir.
Önümüzdeki yol: Zorluklar ve gelecek ufukları
Etkileyici yeteneklerine rağmen teknolojinin sınırlamaları yoktur. Araştırmacılar, sistemin bazen araçlar ve metin gibi belirli nesne türleriyle sorun yaşadığını belirtiyor. Video AI modellerinde gelecekteki gelişmelerin bu eksikliklerin giderilmesine yardımcı olabileceğini öne sürüyorlar.
Yapay zeka yaratıcı endüstrileri yeniden şekillendirmeye devam ederken Meta’nın VFusion3D’si, veri oluşturmaya yönelik akıllı yaklaşımların makine öğreniminde nasıl yeni ufukların kilidini açabileceğini gösteriyor. Daha da geliştirildiğinde, bu teknoloji güçlü 3D oluşturma araçlarını dünya çapındaki tasarımcıların, geliştiricilerin ve sanatçıların eline sunabilir.
VFusion3D’yi detaylandıran araştırma makalesi kabul edildi Avrupa Bilgisayarlı Görme Konferansı (ECCV) 2024 ve kod yapıldı halka açık GitHub’da, diğer araştırmacıların bu çalışmadan yararlanmasına olanak tanıyor. Bu teknoloji gelişmeye devam ettikçe, 3D içerik oluşturmada mümkün olanın sınırlarını yeniden tanımlamayı, endüstrileri potansiyel olarak dönüştürmeyi ve yaratıcı ifade için yeni alanlar açmayı vaat ediyor.
Kaynak: https://venturebeat.com/ai/meta-vfusion3d-a-leap-forward-in-ai-powered-3d-content-creation/