TTT modelleri üretken yapay zekada bir sonraki sınır olabilir

Transformatör olarak bilinen yapay zeka formunun yıllar süren hakimiyetinden sonra, yeni mimariler için arayış sürüyor.

Transformatörler, OpenAI’nin video oluşturma modeli Sora’nın temelini oluşturur ve Anthropic’in Claude, Google’ın Gemini ve GPT-4o gibi metin oluşturma modellerinin kalbinde yer alır. Ancak teknik engellerle, özellikle de hesaplamayla ilgili engellerle karşılaşmaya başlıyorlar.

Transformatörler, en azından kullanıma hazır donanımda çalışırken, büyük miktarlarda veriyi işleme ve analiz etme konusunda özellikle verimli değildir. Bu da şirketler transformatörlerin gereksinimlerini karşılamak için altyapı inşa edip genişlettikçe güç talebinde dik ve belki de sürdürülemez artışlara yol açıyor.

Bu ay önerilen umut verici bir mimari, Stanford, UC San Diego, UC Berkeley ve Meta’daki araştırmacılar tarafından bir buçuk yıl boyunca geliştirilen test zamanı eğitimidir (TTT). Araştırma ekibi, TTT modellerinin transformatörlerden çok daha fazla veriyi işlemekle kalmayıp aynı zamanda neredeyse aynı miktarda bilgi işlem gücü tüketmeden bunu yapabildiklerini iddia ediyor.

Transformatörlerde gizli durum

Transformatörlerin temel bir bileşeni, aslında uzun bir veri listesi olan “gizli durum”dur. Transformatör bir şeyi işlerken, az önce işlediği şeyi “hatırlamak” için gizli duruma girişler ekler. Örneğin, model bir kitapta çalışıyorsa gizli durum değerleri, kelimelerin (veya kelimelerin bölümlerinin) temsilleri gibi şeyler olacaktır.

Stanford’da doktora sonrası araştırmacı ve TTT araştırmasına ortak katkıda bulunan Yu Sun, TechCrunch’a şöyle konuştu: “Bir transformatörü akıllı bir varlık olarak düşünürseniz, o zaman arama tablosu (gizli durumu) transformatörün beynidir.” “Bu uzmanlaşmış beyin, dönüştürücülerin bağlam içi öğrenme gibi iyi bilinen yeteneklerini mümkün kılıyor.”

Gizli durum, transformatörleri bu kadar güçlü kılan şeyin bir parçasıdır. Ama aynı zamanda onları da engelliyor. Transformatörün az önce okuduğu bir kitap hakkında tek bir kelimeyi bile “söylemek” için, modelin tüm arama tablosunu taraması gerekir; bu da kitabın tamamını yeniden okumak kadar hesaplama gerektiren bir görevdir.

Bu nedenle Sun ve ekibinin aklına, gizli durumu bir makine öğrenimi modeliyle değiştirme fikri geldi; örneğin iç içe geçmiş yapay zeka bebekleri gibi, model içindeki bir model.

Biraz teknik ama ana fikir, TTT modelinin dahili makine öğrenimi modelinin, transformatörün arama tablosundan farklı olarak, ek verileri işlerken büyüyüp büyümemesidir. Bunun yerine, işlediği verileri ağırlık adı verilen temsili değişkenlere kodlar; bu da TTT modellerini yüksek performanslı kılan şeydir. Bir TTT modeli ne kadar veri işlerse işlesin dahili modelinin boyutu değişmeyecektir.

Sun, gelecekteki TTT modellerinin kelimelerden görüntülere, ses kayıtlarından videolara kadar milyarlarca veri parçasını verimli bir şekilde işleyebileceğine inanıyor. Bu, günümüz modellerinin yeteneklerinin çok ötesinde.

Sun, “Sistemimiz, kitabı X kez yeniden okumanın hesaplama karmaşıklığı olmadan bir kitap hakkında X kelime söyleyebilir” dedi. “Sora gibi transformatörleri temel alan büyük video modelleri yalnızca 10 saniyelik videoyu işleyebilir çünkü yalnızca bir arama tablosu ‘beyni’ne sahiptirler. Nihai hedefimiz, insan yaşamının görsel deneyimine benzeyen uzun bir videoyu işleyebilecek bir sistem geliştirmek.”

TTT modellerine dair şüphecilik

Peki TTT modelleri sonunda transformatörlerin yerini alacak mı? Yapabilirlerdi. Ancak kesin bir şey söylemek için henüz çok erken.

TTT modelleri transformatörlerin hemen yerine geçebilecek bir model değildir. Ve araştırmacılar çalışma için yalnızca iki küçük model geliştirdiler ve bu da TTT’nin şu anda mevcut bazı daha büyük transformatör uygulamalarıyla karşılaştırılmasını zorlaştıran bir yöntem haline getirdi.

Kıdemli Mike Cook, “Bunun son derece ilginç bir yenilik olduğunu düşünüyorum ve eğer veriler, verimlilik artışı sağladığı yönündeki iddiaları destekliyorsa, o zaman bu harika bir haber, ancak bunun mevcut mimarilerden daha iyi olup olmadığını size söyleyemem” dedi. King’s College London’ın bilişim bölümünde TTT araştırmasında yer almayan öğretim görevlisi. “Eski bir profesörüm ben lisans öğrencisiyken bir şaka yapardı: Bilgisayar bilimlerindeki herhangi bir problemi nasıl çözersiniz? Başka bir soyutlama katmanı ekleyin. Bir sinir ağına bir sinir ağı eklemek bana kesinlikle bunu hatırlatıyor.”

Ne olursa olsun, transformatör alternatiflerine yönelik araştırmaların artan hızı, bir atılım ihtiyacının giderek daha fazla kabul edildiğine işaret ediyor.

Bu hafta, AI girişimi Mistral, durum alanı modelleri (SSM’ler) adı verilen transformatöre başka bir alternatifi temel alan Codestral Mamba adlı bir modeli yayınladı. TTT modelleri gibi SSM’ler de transformatörlere göre hesaplama açısından daha verimli görünmektedir ve daha büyük miktarda veriyi ölçeklendirebilmektedir.

AI21 Labs aynı zamanda SSM’leri de araştırıyor. İlk SSM’lerden bazılarına ve Codestral Mamba’nın adaşı Mamba ve Mamba-2’ye öncülük eden Cartesia da öyle.

Bu çabalar başarılı olursa, üretken yapay zekayı şu anda olduğundan daha erişilebilir ve yaygın hale getirebilir; iyisiyle kötüsüyle.

Kaynak: https://techcrunch.com/2024/07/17/ttt-models-might-be-the-next-frontier-in-generative-ai/