Geçen hafta ben Hakkında yazmıştı Mark Zuckerberg’in Meta’nın yapay zeka stratejisi hakkındaki yorumları, bu stratejinin özel bir avantajı var: Lama modellerini eğiten devasa, sürekli büyüyen bir dahili veri seti.
Zuckerbook, Facebook ve Instagram’da “herkese açık olarak paylaşılan yüz milyarlarca görsel ve on milyarlarca herkese açık video bulunduğunu, bunun Common Crawl veri kümesinden daha büyük olduğunu tahmin ettiğimizi ve insanların hizmetlerimiz genelinde yorumlarda çok sayıda herkese açık metin gönderisi paylaştığını” söyleyerek övündü. Peki.”
Ancak Meta, OpenAI veya Antropik AI modelleri için gerekli olan eğitim verilerinin (ki bu benim de ilgilendiğim bir konu) ortaya çıkıyor döndü Geçtiğimiz yıl boyunca pek çok kez bu durum, verilerin günümüzün büyük dil modellerini ayakta tutan beslenme biçimi olarak nasıl işlev gördüğünü anlamanın yalnızca başlangıcıdır.
Yapay zekanın veriye yönelik artan iştahı söz konusu olduğunda, yapay zeka modellerini klasik Hasbro’nun doyumsuz eşdeğerine dönüştüren şey, LLM API’lerini kullanan her büyük şirketin ihtiyaç duyduğu sürekli çıkarımdır – yani aslında LLM’leri çeşitli kullanım durumları için dağıtmak – Aç Aç Suaygırları Devam etmek için çılgınca veri misketlerini yutan bir oyun.
Yapay zeka çıkarımı için sıklıkla son derece spesifik veri kümelerine ihtiyaç duyulur
“[Inference is] Kurucusu ve CEO’su Brad Schneider, “Daha büyük pazarda insanların bunu fark ettiğini sanmıyorum” dedi. Göçebe Verileribunu ‘veri arama motoru’ olarak tanımlıyor.
2020’de kurulan New York City şirketi, 2.500’den fazla veri satıcısını veri alıcılarıyla eşleştirmeye yardımcı olmak için kendi Yüksek Lisans Programlarını kurdu; bunlar arasında, kendi Yüksek Lisans çıkarım kullanımları için çoğunlukla belirsiz, son derece spesifik veri kümelerine ihtiyaç duyan “patlayan” sayıda şirket de bulunuyor vakalar.
Nomad, bir veri komisyoncusu olarak hizmet vermek yerine veri keşfi sunuyor; böylece şirketler doğal dilde belirli veri türlerini arayabiliyor. Örneğin, “Her ay ABD’de inşaatı devam eden her çatının veri akışına ihtiyacım var.”
Schneider yakın zamanda yapılan bir röportajda, veri arayan birinin böyle bir veri setine ne isim verileceği konusunda hiçbir fikrinin olmayabileceğini açıkladı. “LLM’lerimiz ve NLP’miz bunu tüm satıcı veri tabanıyla karşılaştırıyor ve ardından satıcıya soruyoruz, bunu yapıyor musunuz? Satıcı da evet diyebilir, çatı kaplama izinlerimiz var. Aylara göre çatı kaplama sağlayıcılarımız ve malzeme satışlarımız var.”
Pazara daha fazla veri geldikçe, Nomad bunu bu talebe göre eşleştirebilir. Verilerini Nomad platformunda satmaya başlayan bir sigorta şirketini ele alalım: Schneider, listeleme yaptıkları gün şunu hatırladı: “Birisi araba kazaları, hasar türleri ve hasar hacimleri hakkında çok spesifik bilgiler için bir arama yaptı ve bunu yapmadı. hatta buna sigorta verileri denildiğini biliyorum.
Talep ve arzın anında eşleştiğini açıkladı. “Bu bir nevi sihir.”
Doğru AI verisi ‘yiyecek’ini bulma
Elbette, eğitim verileri önemlidir, ancak Schneider, modeli eğitmek için mükemmel verilere sahip olsanız bile, modelin bir kez eğitildiğini veya zaman içinde yeni veriler varsa belki de ara sıra yeniden eğitildiğini belirtti. Ancak çıkarım (yani, bir tahminde bulunmak veya bir görevi çözmek için eğitimli bir yapay zeka modeli aracılığıyla canlı verileri her çalıştırdığınızda) her dakika binlerce kez gerçekleşebilir. Üretken yapay zekadan yararlanmak isteyen büyük şirketler için de kullanım senaryosuna bağlı olarak sürekli veri beslemesi de aynı derecede önemlidir.
“İlginç bir şey yapması için onu bir şeylerle beslemeniz gerekiyor” diye açıkladı.
Ancak sorun her zaman doğru veri olan “yiyecek”i bulmak olmuştur. Schneider, tipik büyük kurumsal şirketler için dahili verilerle başlamanın önemli bir kullanım durumu olacağını söyledi. Ancak geçmişte en “besleyici” harici metin verilerini eklemek neredeyse imkansızdı.
“Ya onunla hiçbir şey yapamadınız ya da onunla bir şeyler yapmak için ordular dolusu insanı işe almak zorunda kaldınız” diye açıkladı. Örneğin veriler milyonlarca, hatta trilyonlarca PDF’de duruyor olabilir ve bunları çıkarıp kullanışlı hale getirmenin uygun maliyetli bir yolu olmayabilir. Ancak artık Yüksek Lisans’lar milyonlarca tüketici kaydına, şirket kaydına veya devlet başvurusuna dayanarak saniyeler içinde sonuç çıkarabiliyor.
“Bu, tüm bu metinsel verilere karşı bir açlık yaratıyor; bunları bir nevi gömülü hazine olarak düşünün” dedi. “Daha önce var olan ve değersiz olduğu düşünülen tüm veriler artık gerçekten çok faydalı” ve değerli.
Verilere yönelik bir diğer önemli kullanım durumunun ise LLM’lerin özelleştirilmiş eğitimi olduğunu ekledi. Schneider, “Örneğin, modelimi Japon makbuzlarını tanıyacak şekilde oluşturuyorsam, Japon makbuzlarından oluşan bir veri seti satın almam gerekiyor” diye açıkladı. “Futbol sahası resmindeki reklamları tanıyan bir model oluşturmaya çalışıyorsam. Bir futbol sahasının videolarına ihtiyacım var; bu yüzden bunun gerçekleştiğini çok görüyoruz.”
Büyük medya şirketlerinin verilerini OpenAI ve diğer LLM şirketlerine lisanslamak için pazarlık yaptığını hepimiz okuyacağız. OpenAI duyuruldu Aralık ayında Politico ve Business Insider’ın sahibi olan Axel Springer ile ortaklık kuruldu ve New York TimesBunu yılbaşından hemen önce dava açmak takip etti.
Ancak Schneider, Nomad Data’nın medya şirketlerini ve diğer şirketleri de veri sağlayıcısı olarak kabul ettiğini söylüyor. “İnsanların LLM’leri eğitmesi için makalelerinin tümünü lisanslayan iki medya kuruluşumuz var” dedi. “Temel olarak her büyük medya şirketini arıyoruz, doğru kişinin kim olduğunu buluyoruz ve ellerindeki veriler hakkında bilgi sahibi olduğumuzdan emin oluyoruz.”
Ve bu sadece medya endüstrisi değil, diye ekledi: “Son birkaç hafta içinde platforma veri koyan beş şirketimiz var; bunların arasında insanların araba kullanma şekliyle ilgili fren, hız, konum, sıcaklık gibi her şeyi satan otomotiv üreticileri de var. , kullanım kalıpları ve çok ilginç talep verileri satan sigortacılarımız var.”
LLM verilerinin açlık oyunları
Sonuç olarak, LLM açlık tedarik zinciri temelde hiç bitmeyen bir döngüdür. Schneider, Nomad Data’nın yeni veri sağlayıcıları bulmak için LLM’leri kullandığını açıkladı. Bu satıcılar devreye girdikten sonra şirket, insanların aradıkları verileri bulmalarına yardımcı olmak için Yüksek Lisans’ları kullanıyor ve onlar da eğitim ve çıkarım için kendi Yüksek Lisans API’leriyle kullanmak üzere verileri satın alıyor.
Schneider, “LLM’lerin işimizin yürümesi açısından ne kadar önemli olduğunu size anlatamam” dedi. “Bütün bu metinsel verilere sahibiz ve insanlar bize her geçen gün daha fazlasını veriyor. Dolayısıyla bu farklı veri kümeleri hakkında bilgi edinmemiz gerekiyor ve bunların nasıl kullanılacağını hepimiz belirliyoruz.”
Yapay zeka eğitim verilerinin “bu pazarın ölçülemeyecek kadar küçük bir parçası” olduğunu yineledi. En heyecan verici kısmın LLM çıkarımının yanı sıra özelleştirilmiş eğitim olduğunu vurguladı.
“Şimdi daha önce hiçbir değeri olmayan verileri satın alacağım; bu, işimi kurmamda etkili olacak” dedi, “çünkü bu yeni teknoloji onu kullanmama izin veriyor.”
VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.
Kaynak: https://venturebeat.com/ai/ais-hunger-games-a-lucrative-data-market-is-exploding-to-feed-insatiable-llms-the-ai-beat/