Meta, geçen yıl, bir görüntüdeki hemen hemen her şeyi hızlı ve güvenilir bir şekilde tanımlayıp özetleyebilen bir makine öğrenimi modeli olan Segment Any ile gözle görülür bir başarı elde etti. CEO Mark Zuckerberg’in Pazartesi günü SIGGRAPH’ta sahneye çıktığı devam filmi, modeli video alanına taşıyarak alanın ne kadar hızlı ilerlediğini gösteriyor.
Segmentasyon, bir görsel modelin bir resme bakıp parçaları seçmesi için kullanılan teknik terimdir: “Bu bir köpek, bu köpeğin arkasındaki bir ağaç” ve “bu bir köpekten büyüyen bir ağaç” değil. Bu onlarca yıldır oluyor, ancak son zamanlarda çok daha iyi ve daha hızlı hale geldi ve Her Şeyi Segmente Çıkarma ileriye doğru atılmış büyük bir adım oldu.
Her Şeyi Segmente Ayır 2 (SA2), yalnızca durağan görüntülere değil, videoya da yerel olarak uygulandığı için doğal bir devamtır; Elbette ilk modeli bir videonun her karesinde ayrı ayrı çalıştırabilseniz de, bu en verimli iş akışı değildir.
“Bilim adamları bu şeyleri mercan resifleri ve doğal yaşam alanları gibi şeyleri incelemek için kullanıyorlar. Ancak bunu videoda yapabilmek ve sıfır çekimle ne istediğinizi söyleyebilmek oldukça harika,” dedi Zuckerberg, Nvidia CEO’su Jensen Huang ile yaptığı konuşmada.
Video işlemek elbette hesaplama açısından çok daha zorlu bir iştir ve bu, SA2’nin veri merkezini eritmeden çalıştırabileceği verimlilik açısından sektörde kaydedilen ilerlemelerin bir kanıtıdır. Elbette, çalışması hâlâ ciddi donanım gerektiren devasa bir model ama hızlı, esnek bölümlendirme bir yıl önce bile neredeyse imkansızdı.
Model, ilki gibi açık ve ücretsiz olacak ve barındırılan bir versiyona dair herhangi bir kelime olmasa da, bu yapay zeka şirketlerinin bazen sunduğu bir şey. Ancak ücretsiz bir demo var.
Doğal olarak böyle bir modelin eğitilmesi için tonlarca veri gerekiyor ve Meta ayrıca sadece bu amaç için oluşturduğu 50.000 videodan oluşan geniş, açıklamalı bir veritabanını da yayınlıyor. SA2’yi açıklayan makalede, 100.000’den fazla “dahili olarak mevcut” videodan oluşan başka bir veritabanı da eğitim için kullanıldı ve bu halka açıklanmıyor – Meta’dan bunun ne olduğu ve neden yayınlanmadığına dair daha fazla bilgi istedim. . (Tahminimiz bunun herkese açık Instagram ve Facebook profillerinden kaynaklandığı yönündedir.)
Meta, birkaç yıldır “açık” yapay zeka alanında lider konumda, ancak aslında (Zuckerberg’in sohbette belirttiği gibi) bunu PyTorch gibi araçlarla uzun süredir yapıyor. Ancak son zamanlarda LLaMa, Segment Everything ve serbestçe piyasaya sürülen diğer birkaç model, her ne kadar “açıklıkları” tartışma konusu olsa da, bu alanlardaki yapay zeka performansı için nispeten erişilebilir bir çıta haline geldi.
Zuckerberg, Meta’daki açıklığın tamamen kalplerinin iyiliğinden kaynaklanmadığını ancak bunun niyetlerinin saf olmadığı anlamına gelmediğini belirtti:
“Bu sadece oluşturabileceğiniz bir yazılım değil; onun etrafında bir ekosisteme ihtiyacınız var. Açık kaynak yapmasaydık neredeyse bu kadar iyi çalışmazdı, değil mi? Bunu fedakar insanlar olduğumuz için yapmıyoruz, her ne kadar bunun ekosisteme faydalı olacağını düşünsem de bunu yapıyoruz çünkü bunun inşa ettiğimiz şeyi daha iyi hale getireceğini düşünüyoruz. en iyi.”
Her halükarda kesinlikle iyi kullanılacaktır. GitHub’a buradan göz atın.
Kaynak: https://techcrunch.com/2024/07/29/zuckerberg-touts-metas-latest-video-vision-ai-with-nvidia-ceo-jensen-huang/