Bir yapay zekanın yalnızca başka bir yapay zeka tarafından üretilen verilerle eğitilmesi mümkün müdür? Kuş beyinli bir fikir gibi gelebilir. Ancak bu bir süredir ortalıkta olan bir şey ve yeni, gerçek verilere ulaşmak giderek zorlaştıkça ilgi görmeye başladı.
Anthropic, amiral gemisi modellerinden biri olan Claude 3.5 Sonnet’i eğitmek için bazı sentetik verileri kullandı. Meta, yapay zeka tarafından oluşturulan verileri kullanarak Llama 3.1 modellerine ince ayar yaptı. Ve OpenAI’nin gelecek Orion için sentetik eğitim verilerini “akıl yürütme” modeli olan o1’den sağladığı söyleniyor.
Peki yapay zeka neden öncelikle verilere ihtiyaç duyuyor? tür veriye ihtiyacı var mı? Ve bu veriler Gerçekten sentetik verilerle değiştirilecek mi?
Ek açıklamaların önemi
Yapay zeka sistemleri istatistiksel makinelerdir. Pek çok örnek üzerinde eğitim alarak, bir e-postadaki “kime” ifadesinin genellikle “ilgili olabilir” ifadesinden önce gelmesi gibi tahminlerde bulunmak için bu örneklerdeki kalıpları öğrenirler.
Genellikle bu sistemlerin aldığı verilerin anlamını veya bölümlerini etiketleyen metinlerden oluşan ek açıklamalar, bu örneklerde önemli bir parçadır. Nesneleri, yerleri ve fikirleri birbirinden ayırmaya yönelik bir modeli “öğreterek” yol gösterici görevi görürler.
“Mutfak” kelimesiyle etiketlenmiş çok sayıda mutfak resminin gösterildiği bir fotoğraf sınıflandırma modelini düşünün. Model eğitildikçe “mutfak” ile genel mutfak arasında ilişkiler kurmaya başlayacak. özellikler mutfaklar (örneğin, buzdolabı ve tezgah içermesi). Eğitimden sonra, ilk örneklerde yer almayan bir mutfağın fotoğrafı verildiğinde, modelin onu bu şekilde tanımlayabilmesi gerekir. (Elbette mutfak resimlerine “inek” etiketi yapıştırılsaydı, bu onları inek olarak tanımlayacaktı, bu da iyi bir açıklamanın önemini vurguluyordu.)
Yapay zekaya olan ilgi ve geliştirilmesi için etiketli veriler sağlama ihtiyacı, ek açıklama hizmetleri pazarını şişirdi. Dimension Market Research, bugün 838,2 milyon dolar değerinde olduğunu ve önümüzdeki 10 yıl içinde 10,34 milyar dolar değerinde olacağını tahmin ediyor. Etiketleme işine kaç kişinin katıldığına dair kesin tahminler olmasa da, 2022 tarihli bir makale bu sayının “milyonlarca” olduğunu gösteriyor.
Büyük ve küçük şirketler, yapay zeka eğitim setleri için etiketler oluşturmak amacıyla veri açıklaması firmaları tarafından istihdam edilen çalışanlara güveniyor. Bu işlerden bazıları, özellikle de etiketlemenin uzmanlık bilgisi (örneğin matematik uzmanlığı) gerektirmesi durumunda, oldukça iyi ücretler ödemektedir. Diğerleri yıpratıcı olabilir. Gelişmekte olan ülkelerdeki yorumculara saat başına ortalama yalnızca birkaç dolar ödeniyor ve herhangi bir fayda ya da gelecek konser garantisi yok.
Kurutma veri kuyusu
Dolayısıyla insanların yarattığı etiketlere alternatifler aramanın hümanist nedenleri var. Örneğin Uber, yapay zeka açıklamaları ve veri etiketleme üzerinde çalışacak çalışanlardan oluşan filosunu genişletiyor. Ama pratik olanları da var.
İnsanlar ancak bu kadar hızlı etiketleyebilirler. Ek açıklamacıların ayrıca ek açıklamalarında ve daha sonra bunlar üzerinde eğitilen modellerde ortaya çıkabilecek önyargıları vardır. Ek açıklamalar yapanlar hata yapar veya talimatları etiketleyerek takılıp kalırlar. Ve insanlara bir şeyler yapmaları için para ödemek pahalıdır.
Veri genel olarak bu bakımdan pahalıdır. Shutterstock, arşivlerine erişim için AI satıcılarından on milyonlarca dolar ücret alırken Reddit, Google, OpenAI ve diğerlerine lisans verilerinden yüz milyonlarca dolar kazandı.
Son olarak, veri elde etmek de giderek zorlaşıyor.
Modellerin çoğu, kamuya açık çok büyük veri koleksiyonları üzerinde eğitiliyor; bu veriler, sahiplerinin intihal olacağı veya bunun için kredi veya atıf alamayacakları korkusu nedeniyle giderek daha fazla geçiş yapmayı tercih ediyor. Dünyanın en iyi 1000 web sitesinin %35’inden fazlası artık OpenAI’nin web kazıyıcısını engelliyor. Yakın zamanda yapılan bir araştırmaya göre, “yüksek kaliteli” kaynaklardan elde edilen verilerin yaklaşık %25’inin, modelleri eğitmek için kullanılan ana veri kümelerinden kısıtlandığı ortaya çıktı.
Mevcut erişim engelleme eğilimi devam ederse, Epoch AI araştırma grubu, geliştiricilerin 2026 ile 2032 yılları arasında üretken yapay zeka modellerini eğitmek için verilerinin tükeneceğini tahmin ediyor. Bu, telif hakkı davaları ve sakıncalı materyallerin açık veri kümelerine girmesi korkusuyla birleştiğinde, AI satıcıları için bir hesaplaşmayı zorladı.
Sentetik alternatifler
İlk bakışta sentetik veriler tüm bu sorunların çözümü gibi görünüyor. Ek açıklamalara mı ihtiyacınız var? Oluştur onları. Daha fazla örnek veri? Sorun değil. Gökyüzü sınırdır.
Ve bir dereceye kadar bu doğrudur.
Washington Üniversitesi’nde gelişen teknolojilerin etik etkilerini inceleyen doktora adayı Os Keyes, TechCrunch’a şöyle konuştu: “Eğer ‘veri yeni petrolse’, sentetik veriler kendisini biyoyakıt olarak tanıtıyor ve gerçek şeyin olumsuz dışsallıkları olmadan yaratılabilir.” . “Küçük bir başlangıç veri kümesini alıp bundan yeni girişleri simüle edebilir ve tahmin edebilirsiniz.”
Yapay zeka endüstrisi bu konsepti benimsedi ve onunla birlikte çalıştı.
Bu ay, kurumsal odaklı, üretken bir yapay zeka şirketi olan Writer, neredeyse tamamen sentetik veriler üzerine eğitilmiş bir model olan Palmyra X 004’ü piyasaya sürdü. Writer, bunu geliştirmenin maliyetinin sadece 700.000 dolar olduğunu iddia ediyor; bu rakam, benzer büyüklükteki bir OpenAI modeli için 4,6 milyon dolarlık tahminlere karşılık geliyor.
Microsoft’un Phi açık modelleri kısmen sentetik veriler kullanılarak eğitildi. Google’ın Gemma modelleri de öyle. Nvidia bu yaz sentetik eğitim verileri üretmek için tasarlanmış bir model ailesini tanıttı ve yapay zeka girişimi Hugging Face, yakın zamanda sentetik metnin en büyük yapay zeka eğitim veri kümesi olduğunu iddia ettiği şeyi yayınladı.
Sentetik veri üretimi başlı başına bir iş haline geldi; 2030 yılına kadar 2,34 milyar dolar değerinde olabilecek bir iş. Gartner, bu yıl yapay zeka ve analiz projeleri için kullanılan verilerin %60’ının sentetik olarak üretileceğini öngörüyor.
Allen Yapay Zeka Enstitüsü’nde kıdemli bir araştırma bilimcisi olan Luca Soldaini, sentetik veri tekniklerinin, kazıma (veya hatta içerik lisanslama) yoluyla kolayca elde edilemeyecek bir formatta eğitim verileri oluşturmak için kullanılabileceğini belirtti. Örneğin Meta, video oluşturucusu Movie Gen’i eğitirken, eğitim verilerindeki görüntülere altyazılar oluşturmak için Llama 3’ü kullandı; insanlar daha sonra bunları aydınlatma açıklamaları gibi daha fazla ayrıntı eklemek için geliştirdiler.
Aynı doğrultuda OpenAI, ChatGPT için eskiz defteri benzeri Canvas özelliğini oluşturmak amacıyla sentetik verileri kullanarak GPT-4o’ya ince ayar yaptığını söylüyor. Amazon, Alexa için konuşma tanıma modellerini eğitmek amacıyla kullandığı gerçek dünya verilerini desteklemek için sentetik veriler ürettiğini söyledi.
Soldaini, “Sentetik veri modelleri, belirli bir model davranışını elde etmek için hangi verilere ihtiyaç duyulduğuna dair insan sezgisini hızlı bir şekilde genişletmek için kullanılabilir” dedi.
Sentetik riskler
Ancak sentetik veriler her derde deva değil. Tüm yapay zekalarda olduğu gibi o da aynı “çöp girme, çöp çıkarma” probleminden muzdariptir. Modeller yaratmak Sentetik veriler ve bu modelleri eğitmek için kullanılan verilerin önyargıları ve sınırlamaları varsa, bunların çıktıları da benzer şekilde kusurlu olacaktır. Örneğin, temel verilerde zayıf şekilde temsil edilen gruplar sentetik verilerde de aynı şekilde temsil edilecektir.
Keyes, “Sorun şu ki, ancak bu kadarını yapabilirsiniz” dedi. “Bir veri setinde yalnızca 30 Siyah kişinin bulunduğunu varsayalım. Tahmin yapmak işe yarayabilir, ancak eğer bu 30 kişinin tamamı orta sınıfsa veya tamamı açık tenliyse ‘temsili’ veriler böyle görünecektir.”
Bu noktaya kadar, Rice Üniversitesi ve Stanford’daki araştırmacılar tarafından 2023 yılında yapılan bir araştırma, eğitim sırasında sentetik verilere aşırı güvenmenin “kalite veya çeşitliliği giderek azalan” modeller yaratabileceğini buldu. Araştırmacılara göre örnekleme yanlılığı (gerçek dünyanın zayıf temsili), birkaç nesil eğitimden sonra modelin çeşitliliğinin kötüleşmesine neden oluyor (her ne kadar bir miktar gerçek dünya verisini karıştırmanın bunu hafifletmeye yardımcı olduğunu da bulmuşlarsa da).
Keyes, OpenAI’nin o1’i gibi karmaşık modellerde ek riskler görüyor ve bunların sentetik verilerde fark edilmesi daha zor halüsinasyonlar oluşturabileceğini düşünüyor. Bunlar da veriler üzerinde eğitilen modellerin doğruluğunu azaltabilir; özellikle de halüsinasyonların kaynaklarının tanımlanması kolay değilse.
“Karmaşık modeller halüsinasyon görüyor; Karmaşık modellerin ürettiği veriler halüsinasyonlar içeriyor” diye ekledi Keyes. “Ve o1 gibi bir modelle, geliştiricilerin kendisi de eserlerin neden ortaya çıktığını açıklayamıyor.”
Bileşik halüsinasyonlar anlamsız modellere yol açabilir. Nature dergisinde yayınlanan bir çalışma, hatalarla dolu veriler üzerinde eğitilen modellerin nasıl veri ürettiğini ortaya koyuyor daha da fazlası hatayla dolu veriler ve bu geri bildirim döngüsünün gelecek nesil modellerin kalitesini nasıl düşürdüğü. Araştırmacılar, modellerin nesiller geçtikçe daha ezoterik bilgi anlayışını kaybettiğini, daha genel hale geldiğini ve çoğu zaman kendilerine sorulan sorularla alakasız cevaplar ürettiğini buldu.
Bir takip çalışması, görüntü oluşturucular gibi diğer model türlerinin bu tür çökmelere karşı bağışık olmadığını gösteriyor:
Soldaini, en azından amaç unutkan sohbet robotlarının ve homojen görüntü oluşturucuların eğitilmesinden kaçınmaksa “ham” sentetik verilere güvenilmemesi gerektiğini kabul ediyor. Kendisi, bunu “güvenli bir şekilde” kullanmanın, onu kapsamlı bir şekilde incelemeyi, düzenlemeyi ve filtrelemeyi ve tıpkı diğer veri kümelerinde yaptığınız gibi ideal olarak taze, gerçek verilerle eşleştirmeyi gerektirdiğini söylüyor.
Bunu yapmamak, sonuçta modelin çökmesine, modelin çıktılarında daha az “yaratıcı” ve daha önyargılı hale gelmesine ve sonunda işlevselliğinden ciddi şekilde ödün verilmesine yol açabilir. Her ne kadar bu süreç ciddileşmeden tespit edilip durdurulabilse de bu bir risktir.
Soldaini, “Araştırmacıların oluşturulan verileri incelemesi, üretim sürecini yinelemesi ve düşük kaliteli veri noktalarını ortadan kaldıracak önlemleri belirlemesi gerekiyor” dedi. “Sentetik veri hatları kendi kendini geliştiren bir makine değil; çıktıları eğitim için kullanılmadan önce dikkatle incelenmeli ve geliştirilmelidir.”
OpenAI CEO’su Sam Altman bir zamanlar yapay zekanın bir gün kendisini etkili bir şekilde eğitmeye yetecek kadar iyi sentetik veriler üreteceğini savundu. Ancak bunun mümkün olduğunu varsayarak, teknoloji henüz mevcut değil. Hiçbir büyük yapay zeka laboratuvarı eğitilmiş bir model yayınlamadı yalnızca sentetik verilere dayanmaktadır.
En azından öngörülebilir gelecekte döngüde insanlara ihtiyacımız olacak gibi görünüyor bir yerde Bir modelin eğitiminin ters gitmediğinden emin olmak için.
TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Buradan kaydolun Her Çarşamba gelen kutunuza almak için.
Güncelleme: Bu hikaye ilk olarak 23 Ekim’de yayınlandı ve daha fazla bilgi ile 24 Aralık’ta güncellendi.
Kaynak: https://techcrunch.com/2024/12/24/the-promise-and-perils-of-synthetic-data/