Yapay zekayı daha verimli hale getirmeye yönelik popüler bir tekniğin dezavantajları var

Yapay zeka modellerini daha verimli hale getirmek için en yaygın kullanılan tekniklerden biri olan nicelemenin sınırları vardır ve endüstri bu sınırlara hızla yaklaşıyor olabilir.

Yapay zeka bağlamında niceleme, bilgiyi temsil etmek için gereken bitlerin (bir bilgisayarın işleyebileceği en küçük birimler) sayısının azaltılması anlamına gelir. Şu benzetmeyi düşünün: Birisi saati sorduğunda, muhtemelen “on iki yüz, bir saniye ve dört milisaniye” değil, “öğlen” diyeceksiniz. Bu nicelemedir; her iki cevap da doğrudur, ancak biri biraz daha kesindir. Gerçekte ne kadar hassasiyete ihtiyacınız olduğu bağlama bağlıdır.

Yapay zeka modelleri, nicelenebilen çeşitli bileşenlerden oluşur; özellikle de modellerin tahmin veya karar vermek için kullandığı dahili değişkenler. Modellerin çalıştırıldığında milyonlarca hesaplama gerçekleştirdiği göz önüne alındığında bu uygundur. Parametrelerini temsil eden daha az bit içeren nicelenmiş modeller, matematiksel ve dolayısıyla hesaplama açısından daha az talepkardır. (Açık olmak gerekirse, bu, parametrelerin daha kapsamlı ve seçici bir şekilde budandığı “damıtma” işleminden farklı bir işlemdir.)

Ancak kuantizasyon, önceden varsayıldığından daha fazla ödünleşime sahip olabilir.

Sürekli küçülen model

Harvard, Stanford, MIT, Databricks ve Carnegie Mellon’daki araştırmacıların yaptığı bir araştırmaya göre, nicelenmiş modeller, modelin orijinal, nicelenmemiş versiyonu çok sayıda veri üzerinde uzun bir süre boyunca eğitilirse daha kötü performans gösterir. Başka bir deyişle, belli bir noktada, büyük bir modeli küçültmek yerine daha küçük bir modeli eğitmek aslında daha iyi olabilir.

Bu, son derece büyük modelleri eğiten (yanıt kalitesini iyileştirdiği bilinen) ve daha sonra bunları hizmete sokmayı daha ucuz hale getirmek amacıyla sayısallaştıran yapay zeka şirketleri için kötü haber anlamına gelebilir.

Etkileri şimdiden kendini gösteriyor. Birkaç ay önce geliştiriciler ve akademisyenler, Meta’nın Llama 3 modelinin niceliklendirilmesinin, potansiyel olarak eğitilme şekli nedeniyle, diğer modellere kıyasla “daha zararlı” olma eğiliminde olduğunu bildirdi.

Harvard matematik öğrencisi ve araştırmanın ilk yazarı Tanishq Kumar, “Benim görüşüme göre, yapay zekanın herkes için bir numaralı maliyeti çıkarımdır ve olmaya da devam edecektir ve çalışmalarımız bunu azaltmanın önemli bir yolunun sonsuza kadar işe yaramayacağını gösteriyor” dedi. kağıt, TechCrunch’a söyledi.

Popüler inanışın aksine, ChatGPT’nin bir soruyu yanıtlaması gibi bir modelin çalıştırılması anlamına gelen yapay zeka model çıkarımı, genellikle model eğitiminden daha pahalıdır. Örneğin, Google’ın amiral gemisi Gemini modellerinden birini eğitmek için tahminen 191 milyon dolar harcadığını düşünün; bu kesinlikle çok büyük bir meblağ. Ancak şirket, tüm Google Arama sorgularının yarısına yalnızca 50 kelimelik yanıtlar üretecek bir model kullanacak olsaydı, yılda yaklaşık 6 milyar dolar harcardı.

Büyük yapay zeka laboratuvarları, “ölçek büyütmenin” (eğitimde kullanılan veri ve bilgi işlem miktarının artırılması) giderek daha yetenekli yapay zekaya yol açacağı varsayımıyla devasa veri kümeleri üzerindeki eğitim modellerini benimsedi.

Örneğin Meta, Llama 3’ü 15 trilyon jetonluk bir set üzerinde eğitti. (Jetonlar ham veri parçalarını temsil eder; 1 milyon jeton yaklaşık 750.000 kelimeye eşittir.) Önceki nesil Lama 2, “yalnızca” 2 trilyon jeton üzerinde eğitilmişti.

Kanıtlar, ölçeği büyütmenin sonuçta azalan getiriler sağladığını gösteriyor; Anthropic ve Google’ın yakın zamanda dahili kıyaslama beklentilerini karşılayamayan devasa modeller yetiştirdiği bildirildi. Ancak sektörün bu köklü ölçeklendirme yaklaşımlarından anlamlı bir şekilde uzaklaşmaya hazır olduğuna dair çok az işaret var.

Tam olarak ne kadar kesin?

Peki laboratuvarlar modelleri daha küçük veri kümeleri üzerinde eğitme konusunda isteksizse, modellerin bozulmaya daha az duyarlı hale getirilmesinin bir yolu var mı? Muhtemelen. Kumar, kendisinin ve ortak yazarların “düşük hassasiyetli” eğitim modellerinin onları daha sağlam hale getirebileceğini bulduğunu söylüyor. Biraz daha dalarken, bir süre bizimle kalın.

Buradaki “kesinlik”, sayısal bir veri türünün doğru şekilde temsil edebileceği basamak sayısını ifade eder. Veri türleri, genellikle bir dizi olası değer ve izin verilen işlemlerle belirtilen veri değerleri koleksiyonlarıdır; örneğin FP8 veri türü, kayan nokta sayısını temsil etmek için yalnızca 8 bit kullanır.

Günümüzde çoğu model 16 bit veya “yarı hassasiyet” ve “eğitim sonrası kuantizasyon” ile 8 bit hassasiyetle eğitilmektedir. Belirli model bileşenleri (örn. parametreleri), bir miktar doğruluk pahasına daha düşük duyarlıklı bir formata dönüştürülür. Bunu, birkaç ondalık basamağa kadar matematik yapıp sonra en yakın 10’a yuvarlamak gibi düşünün; bu genellikle size her iki dünyanın da en iyisini verir.

Nvidia gibi donanım satıcıları nicelenmiş model çıkarımı için daha düşük hassasiyet için baskı yapıyor. Şirketin yeni Blackwell çipi 4 bitlik hassasiyeti, özellikle de FP4 adı verilen veri türünü destekliyor; Nvidia bunu hafızası ve gücü kısıtlı veri merkezleri için bir nimet olarak öne sürdü.

Ancak son derece düşük niceleme kesinliği istenmeyebilir. Kumar’a göre, orijinal model parametre sayısı açısından inanılmaz derecede büyük olmadığı sürece, 7 veya 8 bitten daha düşük hassasiyetler kalitede gözle görülür bir düşüşe neden olabilir.

Bunların hepsi biraz teknik görünüyorsa endişelenmeyin; öyledir. Ancak buradan çıkarılacak sonuç, yapay zeka modellerinin tam olarak anlaşılmadığı ve birçok hesaplama türünde işe yarayan bilinen kısayolların burada işe yaramadığıdır. Birisi 100 metre koşusuna ne zaman başladıklarını sorsa “öğlen” demezsiniz, değil mi? Elbette bu kadar açık değil ama fikir aynı:

Kumar, “Çalışmamızın kilit noktası, safça üstesinden gelemeyeceğiniz sınırlamaların olmasıdır” dedi. “Çalışmamızın, eğitim ve çıkarım için sıklıkla giderek daha düşük hassasiyetli varsayılanlar arayan tartışmaya nüans katacağını umuyoruz.”

Kumar, kendisinin ve meslektaşlarının çalışmasının nispeten küçük ölçekli olduğunu kabul ediyor; gelecekte daha fazla modelle test etmeyi planlıyorlar. Ancak en azından bir görüşün geçerli olacağına inanıyor: Çıkarım maliyetlerini düşürmeye gelince bedava öğle yemeği yoktur.

“Biraz hassasiyet önemli ve bedava değil” dedi. “Modeller acı çekmeden bunu sonsuza kadar azaltamazsınız. Modellerin kapasitesi sınırlıdır, bu nedenle katrilyon tokenı küçük bir modele sığdırmaya çalışmak yerine, bence titiz veri iyileştirme ve filtrelemeye çok daha fazla çaba harcanacak, böylece yalnızca en yüksek kalitede veriler daha küçük modellere konulacaktır. Düşük hassasiyetli eğitimi istikrarlı hale getirmeyi bilinçli olarak hedefleyen yeni mimarilerin gelecekte önemli olacağı konusunda iyimserim.”

Kaynak: https://techcrunch.com/2024/11/17/a-popular-technique-to-make-ai-more-efficient-has-drawbacks/