Elon Musk, yapay zeka modellerini eğitmek için çok az gerçek dünya verisi kaldığı konusunda diğer yapay zeka uzmanlarıyla aynı fikirde.
“Artık temelde insan bilgisinin kümülatif toplamını tükettik…. Musk, Stagwell başkanı Mark Penn ile Çarşamba günü geç saatlerde X kanalında yayınlanan canlı yayınlanan bir görüşme sırasında yapay zeka eğitiminde “dedi. “Bu aslında geçen yıl oldu.”
Yapay zeka şirketi xAI’nin sahibi olan Musk, eski OpenAI baş bilimcisi Ilya Sutskever’in makine öğrenimi konferansı NeurIPS’de Aralık ayında yaptığı bir konuşmada değindiği temaları yineledi. Yapay zeka endüstrisinin “en yüksek veri” olarak adlandırdığı seviyeye ulaştığını söyleyen Sutskever, eğitim verilerinin eksikliğinin, modellerin bugünkü eğitilme şeklinden uzaklaşmaya zorlanacağını öngördü.
Gerçekten de Musk, sentetik verilerin (yapay zeka modellerinin kendileri tarafından üretilen veriler) ileriye giden yol olduğunu öne sürdü. “Sentetik verilerle… [AI] bir nevi kendi kendine not verecek ve sentetik verilerle bu kendi kendine öğrenme sürecinden geçecek” dedi.
Microsoft, Meta, OpenAI ve Anthropic gibi teknoloji devleri de dahil olmak üzere diğer şirketler, amiral gemisi yapay zeka modellerini eğitmek için halihazırda sentetik verileri kullanıyor. Gartner, 2024’te yapay zeka ve analiz projeleri için kullanılan verilerin %60’ının sentetik olarak oluşturulduğunu tahmin ediyor.
Microsoft’un Çarşamba günü erken saatlerde açık kaynaklı olan Phi-4’ü, gerçek dünya verilerinin yanı sıra sentetik veriler üzerinde de eğitildi. Google’ın Gemma modelleri de öyle. Anthropic, en performanslı sistemlerinden biri olan Claude 3.5 Sonnet’i geliştirmek için bazı sentetik verileri kullandı. Ve Meta, yapay zeka tarafından oluşturulan verileri kullanarak en yeni Llama serisi modellerine ince ayar yaptı.
Sentetik verilerle ilgili eğitimin maliyet tasarrufu gibi başka avantajları da vardır. Yapay zeka girişimi Writer, neredeyse tamamen sentetik kaynaklar kullanılarak geliştirilen Palmyra X 004 modelinin geliştirme maliyetinin yalnızca 700.000 dolar olduğunu iddia ediyor. Bu rakam, benzer büyüklükteki bir OpenAI modeli için 4,6 milyon dolar olarak tahmin ediliyor.
Ancak dezavantajları da var. Bazı araştırmalar, sentetik verilerin modelin çökmesine yol açabileceğini, modelin çıktılarında daha az “yaratıcı” ve daha önyargılı hale geldiğini ve sonunda işlevselliğinden ciddi şekilde ödün verebileceğini öne sürüyor.
Kaynak: https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-the-internet-of-ai-training-data/