Üretken yapay zeka modelleri, metni insanlarla aynı şekilde işlemez. “Belirteç” temelli iç ortamlarını anlamak, bazı tuhaf davranışlarını ve inatçı sınırlamalarını açıklamaya yardımcı olabilir.
Gemma gibi cihazdaki küçük modellerden OpenAI’nin sektör lideri GPT-4o’suna kadar çoğu model, transformatör olarak bilinen bir mimari üzerine inşa edilmiştir. Transformatörlerin metin ve diğer veri türleri arasındaki ilişkileri oluşturma şekli nedeniyle, en azından çok büyük miktarda bilgi işlem olmadan ham metni alıp çıkaramazlar.
Dolayısıyla, hem pragmatik hem de teknik nedenlerden dolayı günümüzün dönüştürücü modelleri, jeton adı verilen daha küçük, küçük parçalara ayrılmış metinlerle çalışır; bu işlem, jetonlaştırma olarak bilinir.
Jetonlar “fantastik” gibi kelimeler olabilir. Veya “fan”, “tas” ve “tic” gibi heceler olabilirler. Belirteçleyiciye (belirteçleştirmeyi yapan model) bağlı olarak, kelimelerdeki ayrı karakterler bile olabilirler (örneğin, “f”, “a”, “n”, “t”, “a”, “s”, “t, ” “ben,” “c”).
Bu yöntemi kullanarak transformatörler, bağlam penceresi olarak bilinen bir üst sınıra ulaşmadan önce (anlamsal anlamda) daha fazla bilgi alabilir. Ancak tokenizasyon önyargılara da yol açabilir.
Bazı jetonların, transformatörü raydan çıkarabilecek tuhaf aralıkları vardır. Bir tokenizer, örneğin “bir varmış bir yokmuş” ifadesini “bir keresinde”, “üzerine”, “a”, “zaman” olarak kodlayabilirken, “bir varmış bir yokmuş” ifadesini (sonunda boşluk bulunan) “bir keresinde” “olarak kodlayabilir. üzerine,” “a,” ”.” Bir modelin nasıl yönlendirildiğine bağlı olarak – “bir zamanlar” veya “bir varmış bir yokmuş” ile – sonuçlar tamamen farklı olabilir çünkü model (bir kişinin anlayacağı gibi) anlamın aynı olduğunu anlamaz.
Tokenizerler de durumu farklı şekilde ele alıyor. Bir model için “Merhaba” mutlaka “Merhaba” ile aynı şey değildir; “Merhaba” genellikle bir jetondur (tokenizer’a bağlı olarak), “HELLO” ise üçe kadar (“HE”, “El” ve “O”) olabilir. Bu nedenle birçok transformatör büyük harf testinde başarısız oluyor.
“Bir dil modeli için bir ‘kelimenin’ tam olarak ne olması gerektiği sorusunun etrafından dolaşmak biraz zor ve uzmanlardan mükemmel bir belirteç kelime dağarcığı üzerinde hemfikir olsak bile, modeller muhtemelen onu ‘parçalamayı’ faydalı bulacaktır. Northeastern Üniversitesi’nde büyük dil modelinin yorumlanabilirliği üzerine çalışan doktora öğrencisi Sheridan Feucht, TechCrunch’a şunları söyledi: “Tahminimce bu tür bulanıklık nedeniyle mükemmel tokenizer diye bir şey yoktur.”
Bu “bulanıklık” İngilizce dışındaki dillerde daha da fazla sorun yaratıyor.
Çoğu simgeleştirme yöntemi, cümledeki bir boşluğun yeni bir kelimeyi ifade ettiğini varsayar. Bunun nedeni İngilizce düşünülerek tasarlanmış olmalarıdır. Ancak tüm diller sözcükleri ayırmak için boşluk kullanmaz. Çinliler ve Japonlar bunu yapmaz; Korece, Tayca veya Khmer’de de yoktur.
2023’te Oxford’da yapılan bir araştırma, İngilizce dışındaki dillerin simgeleştirilmesindeki farklılıklar nedeniyle, bir dönüştürücünün İngilizce olmayan bir dilde ifade edilen bir görevi tamamlamasının, aynı görevin İngilizce olarak ifade edilmesine kıyasla iki kat daha uzun sürebileceğini buldu. Aynı çalışma (ve bir diğeri), birçok yapay zeka sağlayıcısının jeton başına ücretlendirme yaptığı göz önüne alındığında, “belirteç açısından verimli olmayan” dilleri kullanan kullanıcıların muhtemelen daha kötü model performansı göreceğini ancak kullanım için daha fazla ödeyeceğini buldu.
Simgeleştiriciler genellikle logografik yazı sistemlerindeki (Çince gibi basılı sembollerin telaffuzla ilgisi olmayan kelimeleri temsil ettiği sistemler) her karakteri ayrı bir simge olarak ele alır ve bu da yüksek simge sayılarına yol açar. Benzer şekilde, eklemeli dilleri (kelimelerin Türkçe gibi morfem adı verilen küçük anlamlı kelime öğelerinden oluştuğu diller) işleyen simgeleştiriciler, her bir morfemi bir simgeye dönüştürerek genel simge sayısını artırma eğilimindedir. (Tay dilinde “merhaba”nın eşdeğeri olan สวัสดี, altı jetondur.)
2023 yılında, Google DeepMind AI araştırmacısı Yennie Jun, farklı dillerin tokenizasyonunu ve bunun aşağı yöndeki etkilerini karşılaştıran bir analiz gerçekleştirdi. Jun, 52 dile çevrilmiş paralel metinlerden oluşan bir veri kümesini kullanarak, bazı dillerin İngilizce’de aynı anlamı yakalamak için 10 kat daha fazla simgeye ihtiyaç duyduğunu gösterdi.
Dil eşitsizliklerinin ötesinde, tokenizasyon günümüz modellerinin matematikte neden kötü olduğunu açıklayabilir.
Rakamlar nadiren tutarlı bir şekilde belirtilebilir. Sayıların gerçekte ne olduğunu bilmedikleri için tokenlaştırıcılar “380”i tek bir token olarak ele alabilir, ancak “381”i bir çift (“38” ve “1”) olarak temsil edebilir; bu da rakamlar ile denklemlerdeki sonuçlar arasındaki ilişkileri etkili bir şekilde yok eder ve formüller. Sonuç, transformatör karmaşasıdır; Yakın zamanda yayınlanan bir makale, modellerin tekrarlanan sayısal kalıpları ve bağlamı, özellikle de zamansal verileri anlamakta zorluk çektiğini gösterdi. (Bakınız: GPT-4, 7.735’in 7.926’dan büyük olduğunu düşünüyor).
Modellerin anagram problemlerini çözmede veya kelimeleri tersine çevirmede pek başarılı olamamasının nedeni de budur.
Dolayısıyla tokenizasyon, üretken yapay zeka için açıkça zorluklar sunuyor. Bunlar çözülebilir mi?
Belki.
Feucht, tokenizasyonu tamamen ortadan kaldırarak performans kaybı olmadan transformatörlerden çok daha fazla veri alabilen MambaByte gibi “bayt düzeyinde” durum alanı modellerine işaret ediyor. Metin ve diğer verileri temsil eden ham baytlarla doğrudan çalışan MambaByte, dil analiz görevlerinde bazı dönüştürücü modellerle rekabet ederken, karakterleri değiştirilen, boşluk bırakılan ve büyük harfle yazılan karakterler gibi “gürültüyü” daha iyi yönetir.
Ancak MambaByte gibi modeller henüz araştırma aşamasında.
Feucht, “Modellerin tokenizasyon uygulamadan karakterlere doğrudan bakmasına izin vermek muhtemelen en iyisidir, ancak şu anda bu, transformatörler için hesaplama açısından mümkün değil” dedi. “Özellikle transformatör modelleri için hesaplama, dizi uzunluğuna göre ikinci dereceden ölçekleniyor ve bu nedenle gerçekten kısa metin gösterimlerini kullanmak istiyoruz.”
Bir tokenizasyon atılımı dışında, yeni model mimarileri anahtar olacak gibi görünüyor.
Kaynak: https://techcrunch.com/2024/07/06/tokens-are-a-big-reason-todays-generative-ai-falls-short/