Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Dünyanın her yerindeki kuruluşlar yapay zeka projelerini iki katına çıkardıkça, yüksek kaliteli eğitim verilerinin mevcudiyeti büyük bir darboğaz haline geldi. iken halka açık web büyük ölçüde tükendi Veri kaynağı olarak OpenAI ve Google gibi büyük oyuncular güvenliği sağlıyor münhasır ortaklıklar kendi özel veri kümelerini genişletmek, başkalarının erişimini daha da sınırlamak.
Artan bu endişeyi gidermek için, Satış gücü görsel eğitim verileri alanında büyük bir adım attı. Şirket, programlı olarak görsel talimat verileri üreten yeni bir çerçeve olan ProVision’ı kısa süre önce tanıttı. Bu veri kümeleri, görüntülerle ilgili soruları yanıtlayabilen yüksek performanslı çok modlu dil modellerinin (MLM’ler) eğitilmesini sağlamak için sistematik olarak sentezlenir.
Şirket, bu yaklaşımla ProVision-10M veri kümesini zaten yayınladı ve bunu çeşitli çok modlu yapay zeka modellerinin performansını ve doğruluğunu artırmak için kullanıyor.
Veri uzmanları için bu çerçeve önemli bir ilerlemeyi temsil ediyor. ProVision, programlı olarak yüksek kaliteli görsel talimat verileri oluşturarak, çok modlu sistemlerin eğitiminde yaygın bir zorluk olan sınırlı veya tutarsız şekilde etiketlenmiş veri kümelerine olan bağımlılığı azaltır.
Dahası, veri kümelerini sistematik olarak sentezleme yeteneği daha iyi kontrol, ölçeklenebilirlik ve tutarlılık sağlayarak daha hızlı yineleme döngülerine olanak tanır ve alana özgü verilerin elde edilmesinin maliyetini azaltır. Bu çalışma, sentetik veri oluşturma alanında devam eden araştırmaları tamamlıyor ve sadece bir gün sonra geliyor. Nvidia’nın Cosmos lansmanıFiziksel yapay zeka eğitimi için metin, görüntü ve video gibi girdilerin birleşiminden fizik tabanlı videolar oluşturmak amacıyla özel olarak oluşturulmuş bir dünya temel modelleri paketi.
Görsel talimat verileri: çok modlu yapay zeka için önemli bir bileşen
Günümüzde talimat veri kümeleri yapay zeka ön eğitiminin veya ince ayarının temelini oluşturmaktadır. Bu özel veri kümeleri, modellerin belirli talimatları veya sorguları takip etmesine ve bunlara etkili bir şekilde yanıt vermesine yardımcı olur. Çok modlu yapay zeka durumunda modeller, farklı veri noktalarından öğrendikten sonra görüntüler gibi içerikleri, bunları açıklayan soru-cevap çiftleri veya görsel talimat verileriyle birlikte analiz etme becerisine sahip oluyor.
Şimdi olay şu: Bu görsel talimat veri setlerini üretmek oldukça zahmetli. Bir kuruluş, her eğitim görüntüsü için verileri manuel olarak oluşturursa, projeyi tamamlamak için çok fazla zaman ve insan kaynağı israfına neden olur. Öte yandan, görev için özel dil modellerini kullanmayı seçerse, soru-cevap çiftlerinin kalitesinin ve doğruluğunun yeterince iyi olmayabileceği yüksek hesaplama maliyetleri ve halüsinasyon riskiyle uğraşmak zorundadır.
Ayrıca, özel modellerin kullanılması aynı zamanda bir kara kutu mekanizmasıdır çünkü veri oluşturma sürecini yorumlamayı ve çıktıları tam olarak kontrol etmeyi veya özelleştirmeyi zorlaştırır.
Salesforce ProVision’a girin
Bu boşlukları gidermek için Salesforce’taki yapay zeka araştırma ekibi, görüntü odaklı talimat verilerini sistematik olarak sentezlemek için sahne grafiklerini insan tarafından yazılan programlarla birlikte kullanan bir çerçeve olan ProVision’ı geliştirdi.
Temelde bir sahne grafiği, içerikteki nesnelerin düğümler olarak temsil edildiği, görüntü semantiğinin yapılandırılmış bir temsili olarak tanımlanabilir. Her nesnenin nitelikleri (renk veya boyut gibi) doğrudan ilgili düğümlere atanırken, bu nesneler arasındaki ilişkiler, karşılık gelen düğümleri birbirine bağlayan yönlendirilmiş kenarlar olarak tasvir edilir. Bu temsiller, Görsel Genom gibi manuel olarak açıklamalı veri kümelerinden elde edilebilir veya nesne ve görüntü semantiğinin çeşitli yönlerini kapsayan son teknolojiye sahip çeşitli görüş modellerini birleştiren bir sahne grafiği oluşturma hattının yardımıyla oluşturulabilir. derinlik tahminine yönelik öznitelik tespiti.
Sahne grafikleri hazır olduğunda, Python ve metin şablonları kullanılarak yazılan programlara, yapay zeka eğitim hatları için soru-cevap çiftleri oluşturabilen tam teşekküllü veri oluşturucular olarak hizmet verirler.
“Her biri [data] jeneratör, çeşitli talimat verileri üretmek için bu açıklamaları sistematik olarak entegre eden yüzlerce önceden tanımlanmış şablondan yararlanır. Bu oluşturucular, her sahne grafiğinde kodlanmış ayrıntılı bilgilere dayanarak nesnelerin, niteliklerin ve ilişkilerin temel görsel kavramlarını karşılaştırmak, geri getirmek ve bunlar hakkında akıl yürütmek için tasarlandı.” kağıt.
Yapay zeka eğitimi için ProVision-10M veri kümesi
Salesforce, çalışmasında, 24 tek görüntülü veri oluşturucuya ve 14 çoklu görüntü oluşturucuya güç veren sahne grafikleri oluşturmak için her iki yaklaşımı (manuel olarak açıklamalı sahne grafiklerinin arttırılması ve sıfırdan oluşturulması) kullandı.
“Bu veri oluşturucularla, bir görüntünün sahne grafiğine göre soruları ve cevapları otomatik olarak sentezleyebiliyoruz. Örneğin, kalabalık bir cadde görüntüsü verildiğinde ProVision, “Yaya ile araba arasındaki ilişki nedir?” gibi sorular üretebilir. veya “Kırmızı binaya hangi nesne daha yakın, [the] araba mı yoksa yaya mı?” baş araştırmacılar Jieyu Zhang ve Le Xue bir blog yazısı.
İlk yaklaşıma sahip veri oluşturucular, Visual Genome’un sahne grafiklerini Depth Everything V2 ve SAM-2’den derinlik ve segmentasyon açıklamalarıyla zenginleştirerek, 1,5 milyon tek görüntülü talimat veri noktası ve 4,2 milyon çoklu görüntü talimat veri noktası oluşturmalarına yardımcı oldu. Bu arada diğeri, DataComp veri kümesinden 120.000 yüksek çözünürlüklü görüntüyü ve Yolo-World, Coca, Llava-1.5 ve Osprey gibi modelleri kullanarak 2,3 milyon tek görüntülü talimat veri noktası ve 4,2 milyon çoklu görüntü talimat veri noktası üretti.
Toplamda, dört bölümün birleşimi, 10 milyondan fazla benzersiz talimat veri noktasına sahip bir veri kümesi olan ProVision-10M’yi oluşturur. Artık şu adreste mevcut: Sarılma Yüz ve halihazırda yapay zeka eğitim hatlarında çok etkili olduğu kanıtlanıyor.
Spesifik olarak, şirket ProVision-10M’yi çok modlu yapay zeka ince ayar tariflerine (tek görüntülü talimat verileri için LLaVA-1.5 ve çoklu görüntü talimat verileri için Mantis-SigLIP-8B) dahil ettiğinde, ortalama performansla birlikte kayda değer gelişmeler gördü. modeller, ProVision verileri olmadan ince ayar yapılan modellerden daha yüksektir.
“Talimat ayarlama aşamasında benimsendiğinde, tek görüntülü talimat verilerimiz CVBench’in 2D bölünmesinde %7’ye ve 3D bölünmesinde %8’e varan bir iyileşmenin yanı sıra QBench2, RealWorldQA ve performansta %3’lük bir artış sağlar. MMMU. Araştırmacılar makalede, çoklu görüntü talimat verilerimizin Mantis-Eval’de %8’lik bir iyileşmeye yol açtığını belirtti.
Sentetik veriler kalıcıdır
Birkaç tane varken aletler Ve platformlarÇok modlu yapay zeka eğitimi için kullanılabilecek farklı veri türlerinin (görüntülerden videolara) üretilmesine yönelik Nvidia’nın yeni Cosmos dünya temel modelleri de dahil olmak üzere, yalnızca bir avuç kişi bu verilerle eşleşen talimat veri kümelerini oluşturma sorununa baktı.
Salesforce, ProVision ile bu darboğazı ele alıyor ve işletmelere manuel etiketleme veya kara kutulu dil modellerinin ötesine geçmenin bir yolunu sunuyor. Talimat verilerinin programlı olarak oluşturulması yaklaşımı, üretim sürecinin yorumlanabilirliğini ve kontrol edilebilirliğini sağlar ve gerçek doğruluğu korurken verimli bir şekilde ölçeklenir.
Uzun vadede şirket, araştırmacıların sahne grafiği oluşturma hatlarını geliştirmek ve videolar gibi yeni talimat verisi türlerini kapsayan daha fazla veri oluşturucu oluşturmak için bu çalışmayı geliştirmelerini umuyor.
Kaynak: https://venturebeat.com/data-infrastructure/breaking-the-data-bottleneck-salesforces-provision-speeds-multimodal-ai-training-with-image-scene-graphs/