Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Yeni bir vaka çalışmasında Hugging Face araştırmacıları bunun nasıl olduğunu gösterdi küçük dil modelleri (SLM’ler) çok daha büyük modellerden daha iyi performans gösterecek şekilde yapılandırılabilir. Bulguları, 3B parametrelerine sahip bir Llama 3 modelinin, karmaşık matematik problemlerinde modelin 70B versiyonundan daha iyi performans gösterebileceğini gösteriyor.
Sarılma Yüzü var tamamen belgelenmiş tüm süreci kapsar ve kendi özelleştirilmiş muhakeme modellerini oluşturmak isteyen işletmelere bir yol haritası sağlar.
Test süresi hesaplamasını ölçeklendirme
Eser ilham alıyor OpenAI o1Karmaşık matematik, kodlama ve akıl yürütme problemlerini çözmek için ekstra “düşünme” kullanan.
o1 gibi modellerin arkasındaki temel fikir, “test süresi hesaplamasını” ölçeklendirmektir; bu, nihai cevabı üretmeden önce farklı yanıtları ve muhakeme yollarını test etmek ve doğrulamak için çıkarım sırasında etkili bir şekilde daha fazla hesaplama döngüsü kullanmak anlamına gelir. Test süresi hesaplamasını ölçeklendirmek, özellikle büyük bir modeli çalıştırmak için yeterli bellek olmadığında kullanışlıdır.
o1 özel bir model olduğundan ve OpenAI iç işleyişi konusunda ağzı sıkı kaldığından, araştırmacılar onun nasıl çalıştığı hakkında spekülasyonlar yapıyor ve süreci tersine mühendislik yapmaya çalışıyor. Zaten birkaç tane var o1’e açık alternatifler.
Sarılma Yüz çalışması bir temele dayanmaktadır: DeepMind çalışması ağustos ayında yayınlandıÇıkarım süresi ile eğitim öncesi hesaplama arasındaki dengeleri araştıran. Çalışma, sabit bir bütçeyle en iyi sonuçları elde etmek için eğitim ve çıkarım hesaplamanın nasıl dengeleneceğine ilişkin kapsamlı yönergeler sağlıyor.
Tekniğin başarısı, ekstra çıkarım süresi hesaplamasının kullanılmasına ek olarak iki temel bileşene bağlıdır: SLM’nin yanıtlarını değerlendiren bir ödül modeli ve yanıtlarını iyileştirmek için izlediği yolu optimize eden bir arama algoritması.
Farklı akıl yürütme algoritmaları
Test zamanı ölçeklendirmesini kullanmanın en basit yolu, aynı istemin modele birden çok kez gönderildiği ve en yüksek oyu alan kişinin seçildiği “çoğunluk oylamasıdır”. Basit problemlerde çoğunluk oyu yararlı olabilir, ancak karmaşık akıl yürütme problemlerinde veya hataların nesiller boyunca tutarlı olduğu görevlerde kazanımları hızla sabitlenir.
Daha gelişmiş bir akıl yürütme yöntemi “N’nin En İyisi”dir. Bu teknikte SLM birden fazla yanıt üretir ancak çoğunluk oylaması yerine yanıtları değerlendirmek ve en iyi olanı seçmek için bir ödül modeli kullanılır. Bu yöntemin daha incelikli bir versiyonu olan “Ağırlıklı N’nin En İyisi”, hem kendinden emin hem de diğerlerinden daha sık ortaya çıkan yanıtların seçilmesinde tutarlılığı hesaba katar.
Araştırmacılar, SLM’nin yanıtını yalnızca nihai yanıta göre değil aynı zamanda bu yanıta ulaşmak için geçtiği birçok aşamaya göre puanlayan bir “süreç ödül modeli” (PRM) kullandılar. Deneyleri, Ağırlıklandırılmış N’nin En İyisi ve PRM’lerin Alev-3.2 1B zorlu MATH-500 kıyaslamasında Llama-3.2 8B seviyesine yakın.
Arama ekleniyor
Modelin performansını daha da artırmak için araştırmacılar, modelin akıl yürütme sürecine arama algoritmaları ekledi. Cevabı tek geçişte oluşturmak yerine, modelin cevap sürecini adım adım yönlendiren bir algoritma olan “ışın arama”yı kullandılar.
Her adımda SLM birden fazla kısmi yanıt üretir. Arama algoritması, yanıtları değerlendirmek için ödül modelini kullanır ve daha fazla araştırmaya değer bir alt küme seçer. Model çıkarım bütçesini tüketene veya doğru cevaba ulaşana kadar süreç tekrarlanır. Bu şekilde, çıkarım bütçesi en umut verici cevaplara odaklanacak şekilde daraltılabilir.
Araştırmacılar, ışın aramanın karmaşık problemler üzerindeki modelin performansını artırırken, basit problemler üzerindeki diğer tekniklerden daha düşük performans gösterme eğiliminde olduğunu buldu. Bu zorluğun üstesinden gelmek için çıkarım stratejilerine iki öğe daha eklediler.
Bunlardan ilki, SLM’nin yanlış muhakeme yollarına takılıp kalmamasını ve yanıt dallarını çeşitlendirmesini sağlayan bir ışın arama çeşidi olan Çeşitli Doğrulayıcı Ağaç Araması (DVTS) idi. İkinci olarak, DeepMind makalesinde önerildiği gibi, girdi probleminin zorluğuna bağlı olarak en iyi test zamanı ölçeklendirme stratejisini dinamik olarak seçen bir “hesaplama açısından optimal ölçeklendirme stratejisi” geliştirdiler.
Bu tekniklerin kombinasyonu, Llama-3.2 1B’nin ağırlığının üzerinde performans göstermesini ve 8B modelinden önemli bir farkla daha iyi performans göstermesini sağladı. Ayrıca stratejinin ölçeklenebilir olduğunu ve Llama-3.2 3B’ye uygulandığında çok daha büyük olan 70B modelinden daha iyi performans gösterebildiklerini de buldular.
Henüz mükemmel bir çözüm değil
Test süresi hesaplamasının ölçeklendirilmesi, model maliyetlerinin dinamiklerini değiştirir. Kuruluşlar artık bilgi işlem kaynaklarını nereye tahsis edeceklerini seçme olanağına sahip. Örneğin, hafızanız yetersizse veya daha yavaş yanıt sürelerine tolerans gösterebiliyorsanız, küçük bir model kullanabilir ve daha doğru yanıtlar üretmek için daha fazla çıkarım süresi döngüsü harcayabilirsiniz.
Ancak test zamanı ölçeklendirmenin de sınırlamaları vardır. Örneğin Hugging Face tarafından gerçekleştirilen deneylerde araştırmacılar, PRM olarak iki modelin paralel çalıştırılmasını gerektiren (70B modelinden çok daha kaynak verimli olsa bile) özel olarak eğitilmiş bir Llama-3.1-8B modelini kullandı. Araştırmacılar, test zamanı ölçeklendirmesinin kutsal kâsesinin, harici bir doğrulayıcıya güvenmek yerine orijinal modelin kendi cevabını doğruladığı “kendi kendini doğrulamaya” sahip olmak olduğunu kabul ediyorlar. Bu açık bir araştırma alanıdır.
Bu çalışmada sunulan test süresi ölçeklendirme tekniği de kodlama ve matematik gibi cevabın net olarak değerlendirilebildiği problemlerle sınırlıdır. Yaratıcı yazarlık ve ürün tasarımı gibi öznel görevler için ödül modelleri ve doğrulayıcılar oluşturmak daha fazla araştırma gerektirir.
Ancak açık olan şu ki, test zamanı ölçeklendirmesi çok fazla ilgi ve aktivite Önümüzdeki aylarda daha fazla araç ve tekniğin ortaya çıkmasını bekleyebiliriz. İşletmelerin, ortamın nasıl geliştiğini takip etmeleri akıllıca olacaktır.
Kaynak: https://venturebeat.com/ai/hugging-face-shows-how-test-time-scaling-helps-small-language-models-punch-above-their-weight/