MetaYapay Zeka şefi Yann LeCun, uzun süredir öğrenebilen makine öğrenimi (ML) sistemlerinin savunucusu olmuştur. dünyayı kendi başlarına keşfedip anlayın, insanların çok az rehberliğiyle veya hiç rehberliği olmadan. Meta’nın en son ML modeli, V-JEPAşirketin bu vizyonu gerçekleştirmeye yönelik bir sonraki adımıdır.
Video Joint Embedding Predictive Architecture anlamına gelen V-JEPA’nın amacı, insanların ve hayvanların nesnelerin birbirleriyle nasıl etkileşimde bulunduğunu tahmin etme ve tahmin etme yeteneklerini taklit etmektir. Bunu ham video görüntülerinden soyut temsilleri öğrenerek yapar.
Sektörün büyük bir kısmı rekabet halindeyken üretken yapay zekaV-JEPA, gerçek dünya uygulamalarında yeni nesil üretken olmayan modellerin neler olabileceğinin vaadini gösteriyor.
V-JEPA nasıl çalışır?
Bir duvara doğru uçan bir topun video bölümünü görürseniz, sonraki karelerin topun yörüngesine doğru devam ettiğini göstermesini beklersiniz. Duvara ulaştığında geri sıçramasını ve yönünü değiştirmesini beklersiniz. Bir aynanın önünden geçiyorsa yansımasının pencereye yansıtılmasını beklersiniz. Bu temel kuralları, hayatınızın erken dönemlerinde, hatta ebeveynlerinizden konuşmayı veya talimat almayı öğrenmeden önce, çevrenizdeki dünyayı gözlemleyerek öğrenirsiniz. Aynı zamanda, sahneyle ilgili çok ayrıntılı ayrıntıları tahmin etmenize gerek kalmadan bunu verimli bir şekilde yapmayı öğrenirsiniz.
V-JEPA, gözlem yoluyla öğrenmenin aynı kuralını kullanır; buna “kendi kendini denetleyen öğrenmeBu, V-JEPA’nın insan etiketli verilere ihtiyaç duymadığı anlamına gelir. Eğitim sırasında, bazı kısımları maskelenmiş bir video bölümü sağlanır. Model, her pikseli doldurmadan eksik yamaların içeriğini tahmin etmeye çalışır. Bunun yerine öğrendiği şey, sahnedeki farklı öğelerin birbirleriyle nasıl etkileşime girdiğini tanımlayan daha küçük bir dizi gizli özelliktir. Daha sonra kaybı hesaplamak ve parametrelerini ayarlamak için tahminlerini videonun gerçek içeriğiyle karşılaştırır.
Gizli temsillere odaklanmak, modelleri çok daha kararlı ve örnek açısından verimli hale getirir. V-JEPA, tek bir göreve odaklanmak yerine dünyadaki çeşitliliği temsil eden bir dizi video üzerinde eğitim aldı. Araştırma ekibi, maskeleme stratejisini, gerçek dünyaya pek iyi uyum sağlamayan sahte kısayollar yerine modeli nesnelerin derin ilişkilerini öğrenmeye zorlamak için tasarladı.
Birçok video üzerinde eğitim aldıktan sonra V-JEPA, nesneler arasındaki son derece ayrıntılı etkileşimleri tespit etme ve anlama konusunda üstün olan bir fiziksel dünya modelini öğrenir. JEPA ilk olarak 2022’de LeCun tarafından önerildi. O zamandan bu yana mimaride birçok iyileştirme yapıldı. V-JEPA, aşağıdakilerin halefidir: B-EVETMeta’nın geçen yıl yayınladığı. I-JEPA görüntülere odaklanırken V-JEPA, dünyanın zaman içinde nasıl değiştiğini gösterme avantajına sahip olan ve modelin daha tutarlı temsiller öğrenmesini sağlayan videolardan bilgi alır.
V-JEPA iş başında
V-JEPA bir temel modelidir, yani belirli bir görev için yapılandırılması gereken genel amaçlı bir sistemdir. Ancak ML modellerindeki genel eğilimin aksine, V-JEPA modeline ince ayar yapmanıza ve parametrelerini değiştirmenize gerek yoktur. Bunun yerine, V-JEPA’daki temsilleri aşağı akışlı bir göreve eşlemek için küçük bir etiketli örnek kümesiyle hafif bir derin öğrenme modelini eğitebilirsiniz.
Bu, görüntü sınıflandırması, eylem sınıflandırması ve uzay-zamansal eylem algılama görevleri için aynı V-JEPA modelini diğer birkaç model için girdi olarak kullanmanızı sağlar. Bu tür bir mimari, bilgi işlem ve kaynak açısından verimlidir ve çok daha kolay yönetilebilir.
Bu, özellikle modellerin çevrelerini anlamaları ve mantık yürütmeleri ve eylemlerini gerçekçi bir dünya modeline göre planlamaları gereken robot bilimi ve sürücüsüz arabalar gibi alanlardaki uygulamalar için kullanışlıdır.
LeCun, “V-JEPA, makinelerin daha genelleştirilmiş akıl yürütme ve planlama yapabilmesi için dünyayı daha temellere dayanan bir anlayışa doğru atılmış bir adımdır” diyor.
JEPA mimarisi uzun bir yol kat etmiş olsa da hâlâ geliştirilecek çok yer var. V-JEPA şu anda videolar üzerinde birkaç saniye boyunca akıl yürütmede diğer yöntemlerden daha iyi performans gösteriyor. Meta’nın araştırma ekibi için bir sonraki zorluk, modelin zaman ufkunu genişletmek olacak. Araştırmacılar ayrıca çok modlu temsilleri öğrenen modelleri deneyerek JEPA ile doğal zeka arasındaki boşluğu daraltmayı planlıyor. Meta, modeli Creative Commons Ticari Olmayan lisansı altında yayınladı, böylece diğer araştırmacılar modeli nasıl kullanacaklarını ve geliştireceklerini keşfedebilirler.
İçinde 2020’de konuşalımLeCun, eğer zeka bir pastaysa, büyük kısmının kendi kendini denetleyen öğrenme olduğunu, kremanın denetimli öğrenme olduğunu ve en önemlisi de takviyeli öğrenmenin (RL) olduğunu söyledi.
AI pastasının büyük bir kısmına ulaştık. Ancak pek çok açıdan hâlâ mümkün olanın yüzeyini çiziyor olabiliriz.
VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.
Kaynak: https://venturebeat.com/ai/why-metas-v-jepa-model-can-be-a-big-deal-for-real-world-ai/