Devasa eğitim veri kümeleri, güçlü yapay zeka modellerine açılan kapıdır ancak çoğu zaman bu modellerin çöküşü de olur.
Önyargılar, çoğunlukla beyaz olan CEO’ların resim sınıflandırma setindeki resimleri gibi, büyük veri setlerinde gizlenen önyargılı kalıplardan ortaya çıkıyor. Ve büyük veri kümeleri karmaşık olabilir ve bir modelin anlayamayacağı formatlarda gelebilir; çok fazla gürültü ve gereksiz bilgi içeren formatlar.
Deloitte’un yapay zekayı benimseyen şirketlerle ilgili yakın zamanda yaptığı bir ankette, katılımcıların %40’ı, verilerin kapsamlı bir şekilde hazırlanması ve temizlenmesi de dahil olmak üzere veriyle ilgili zorlukların, yapay zeka girişimlerini engelleyen en önemli endişeler arasında olduğunu söyledi. Veri bilimcileri arasında yapılan ayrı bir anket, bilim adamlarının zamanının yaklaşık %45’inin verileri “yükleme” ve temizleme gibi veri hazırlama görevlerine harcandığını ortaya çıkardı.
Neredeyse on yıldır yapay zeka sektöründe çalışan Ari Morcos, yapay zeka modeli eğitimi etrafındaki veri hazırlama süreçlerinin çoğunu soyutlamak istiyor ve tam da bunu yapmak için bir startup kurdu.
Morcos’un şirketi DatologyAI, OpenAI’nin ChatGPT’sini, Google’ın Gemini’sini ve diğer GenAI modellerini eğitmek için kullanılanlara benzer veri kümelerini otomatik olarak iyileştirmek için araçlar geliştiriyor. Morcos, platformun, veri setinin ek verilerle nasıl genişletilebileceği ve nasıl toplu hale getirilmesi veya daha yönetilebilir parçalara bölünmesi gerektiğine ek olarak, modelin uygulamasına (örneğin e-posta yazma) bağlı olarak hangi verinin en önemli olduğunu tanımlayabildiğini iddia ediyor. Model eğitimi sırasında.
Morcos, TechCrunch’a bir e-posta röportajında ”Modeller yedikleri şeydir; modeller eğitildikleri verilerin bir yansımasıdır” dedi. “Ancak tüm veriler eşit şekilde oluşturulmaz ve bazı eğitim verileri diğerlerinden çok daha faydalıdır. Modelleri doğru verilerle doğru şekilde eğitmek, ortaya çıkan model üzerinde çarpıcı bir etkiye sahip olabilir.”
Doktora derecesine sahip Morcos. Harvard’da sinir bilimi alanında doktora yaptı, yapay zeka modellerini anlamak ve geliştirmek için DeepMind’da nörolojiden ilham alan teknikleri uygulayarak iki yıl geçirdi ve Meta’nın yapay zeka laboratuvarında modellerin işlevlerinin altında yatan bazı temel mekanizmaları ortaya çıkarmak için beş yıl geçirdi. Morcos, kurucu ortakları Matthew Leavitt ve Amazon ve ardından Twitter’da eski bir mühendislik lideri olan Bogdan Gaza ile birlikte, her türlü yapay zeka veri seti düzenlemesini kolaylaştırmak amacıyla DatologyAI’yi başlattı.
Morcos’un belirttiği gibi, bir eğitim veri setinin yapısı, modelin görevlerdeki performansından boyutuna ve alan bilgisinin derinliğine kadar, üzerinde eğitilen modelin neredeyse her özelliğini etkiler. Daha verimli veri kümeleri, eğitim süresini kısaltabilir ve daha küçük bir model üreterek bilgi işlem maliyetlerinden tasarruf sağlayabilir; özellikle çeşitli örnek aralığı içeren veri kümeleri, ezoterik istekleri daha ustalıkla (genel olarak konuşursak) karşılayabilir.
Pahalı olduğu bilinen GenAI’ye olan ilginin tüm zamanların en yüksek seviyesinde olmasıyla birlikte, AI uygulama maliyetleri yöneticilerin akıllarında ön sıralarda yer alıyor.
Birçok işletme, mevcut modellere (açık kaynak modelleri dahil) kendi amaçları doğrultusunda ince ayar yapmayı veya API’ler aracılığıyla yönetilen satıcı hizmetlerini tercih etmeyi tercih ediyor. Ancak bazıları – yönetişim ve uyumluluk nedenleriyle veya başka nedenlerle – özel veriler üzerinde sıfırdan modeller oluşturuyor ve bunları eğitmek ve çalıştırmak için on binlerce ila milyonlarca dolar arası bilgi işlem harcıyor.
Morcos, “Şirketler hazine dolusu veri topladı ve işlerine faydayı en üst düzeye çıkarabilecek verimli, performanslı, uzmanlaşmış yapay zeka modelleri yetiştirmek istiyor” dedi. “Bununla birlikte, bu büyük veri kümelerinin etkili bir şekilde kullanılması inanılmaz derecede zordur ve yanlış yapılırsa, eğitilmesi daha uzun süren ve daha kötü performans gösteren modellere yol açar. [are larger] gereğinden fazla.”
DatologyAI, ister metin, resim, video, ses, tablo veya genomik ve jeo-uzamsal gibi daha “egzotik” yöntemler olsun, herhangi bir formatta “petabaytlarca” veriyi ölçeklendirebilir ve şirket içi veya bir müşteri altyapısına dağıtılabilir. sanal özel bulut. Bu, Morcos’un iddiasına göre, işleyebilecekleri veri kapsamı ve türleri açısından daha sınırlı olma eğiliminde olan CleanLab, Lilac, Labelbox, YData ve Galileo gibi diğer veri hazırlama ve iyileştirme araçlarından ayrılıyor.
DatologyAI aynı zamanda bir veri kümesindeki hangi “kavramların” (örneğin eğitim amaçlı bir sohbet robotu eğitim setindeki ABD tarihiyle ilgili kavramlar) daha karmaşık olduğunu ve bu nedenle daha yüksek kalitede örnekler gerektirdiğini ve ayrıca hangi verilerin bir modelin bozulmasına neden olabileceğini de belirleyebilir. istenmeyen şekillerde davranmak.
“Çözme [these problems] Morcos, kavramların, karmaşıklıklarının ve aslında ne kadar fazlalığın gerekli olduğunun otomatik olarak tanımlanmasını gerektiriyor” dedi. “Genellikle diğer modelleri veya sentetik verileri kullanarak veri artırma inanılmaz derecede güçlüdür ancak dikkatli ve hedefe yönelik bir şekilde yapılmalıdır.”
Soru şu: DatologyAI’nin teknolojisi ne kadar etkili? Şüpheci olmak için nedenler var. Tarih, yöntem ne kadar karmaşık olursa olsun veya veriler ne kadar çeşitli olursa olsun, otomatik veri iyileştirmenin her zaman amaçlandığı gibi çalışmadığını gösterdi.
Bir dizi GenAI projesine öncülük eden Alman kar amacı gütmeyen kuruluş LAION, algoritmik olarak seçilmiş bir AI eğitim veri setini, setin çocukların cinsel istismarına ilişkin görüntüler içerdiğini keşfettikten sonra kaldırmak zorunda kaldı. Başka yerlerde, zehirlilik açısından manuel ve otomatik olarak filtrelenen veri kümelerinin bir karışımıyla eğitilen ChatGPT gibi modellerin, belirli yönlendirmeler verildiğinde zehirli içerik ürettiği gösterilmiştir.
Bazı uzmanlar, manuel iyileştirmeden kaçışın olmadığını savunuyor; en azından yapay zeka modeliyle güçlü sonuçlar elde etmek umut ediliyorsa. AWS’den Google’a ve OpenAI’ye kadar günümüzün en büyük sağlayıcıları, eğitim veri kümelerini şekillendirmek ve iyileştirmek için insan uzmanlardan ve (bazen düşük ücret alan) ek açıklamacılardan oluşan ekiplere güveniyor.
Morcos, DatologyAI’nin araçlarının amaçlanmadığı konusunda ısrar ediyor yer değiştirmek tamamen manuel iyileştirme yerine, veri bilimcilerinin aklına gelmeyecek öneriler, özellikle de eğitim veri seti boyutlarının kısaltılması sorununa teğet olan öneriler sunar. Kendisi bir bakıma otoritedir; bir akademik makalenin odak noktası model performansını korurken veri setini kırpmaktı Morcos, 2022’de Stanford ve Tübingen Üniversitesi’nden araştırmacılarla birlikte yazdı ve o yıl NeurIPS makine öğrenimi konferansında en iyi makale ödülünü kazandı.
Morcos, “Doğru verileri geniş ölçekte belirlemek son derece zorlu ve öncü bir araştırma sorunudur” dedi. “[Our approach] önemli ölçüde daha hızlı eğitim veren ve aynı zamanda aşağı yönlü görevlerde performansı artıran modellere yol açıyor.”
DatologyAI’nin teknolojisi, aralarında Google’ın baş bilim adamı Jeff Dean, Meta’nın baş yapay zeka bilimcisi Yann LeCun, Quora’nın kurucusu ve OpenAI yönetim kurulu üyesi Adam D’Angelo ve Geoffrey Hinton’un da bulunduğu teknoloji ve yapay zeka devlerini girişimin tohum turuna yatırım yapmaya ikna edecek kadar umut vericiydi. Modern yapay zekanın kalbindeki en önemli tekniklerden bazılarını geliştirmesiyle tanındı.
Radical Ventures, Conviction Capital, Outset Capital ve Quiet Capital’in katılımıyla Amplify Partners liderliğindeki DatologyAI’nin 11,65 milyon dolarlık tohumundaki diğer melek yatırımcılar, Cohere kurucu ortakları Aidan Gomez ve Contextual AI kurucusu Douwe Kiela, eski Intel’den Ivan Zhang’dı. AI Başkan Yardımcısı Naveen Rao ve Jascha Sohl-Dickstein, üretken yayılma modellerinin mucitlerinden biri. En hafif tabirle bu, AI aydınlatıcılarının etkileyici bir listesidir ve Morcos’un iddialarında bir şeyler olabileceğini düşündürmektedir.
LeCun, TechCrunch’a e-postayla gönderdiği bir açıklamada “Modeller yalnızca üzerinde eğitildikleri veriler kadar iyidir, ancak milyarlarca veya trilyonlarca örnek arasından doğru eğitim verilerini belirlemek inanılmaz derecede zorlu bir sorundur” dedi. “Ari ve DatologyAI’deki ekibi bu sorun konusunda dünyadaki uzmanlardan bazıları ve ben bir modeli eğitmek isteyen herkesin yüksek kaliteli veri iyileştirmesini sağlamak için geliştirdikleri ürünün, yapay zekanın çalışmasına yardımcı olmak açısından hayati önem taşıdığına inanıyorum. herkes için.”
San Francisco merkezli DatologyAI’nin şu anda kurucu ortaklar dahil on çalışanı var, ancak belirli büyüme aşamalarına ulaşması halinde yıl sonuna kadar yaklaşık 25 çalışana ulaşmayı planlıyor.
Morcos’a bu kilometre taşlarının müşteri kazanımıyla ilgili olup olmadığını sordum ancak o bunu söylemeyi reddetti ve gizemli bir şekilde DatologyAI’nin mevcut müşteri tabanının büyüklüğünü açıklamadı.
Kaynak: https://techcrunch.com/2024/02/22/datologyai-is-building-tech-to-automatically-curate-ai-training-data-sets/
Web sitemizde ziyaretçilerimize daha iyi hizmet sağlayabilmek adına bazı çerezler kullanıyoruz. Web sitemizi kullanmaya devam ederseniz çerezleri kabul etmiş sayılırsınız.
Gizlilik Politikası