Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Uzmanların Karması (MoE), hesaplama maliyetlerini artırmadan büyük dil modellerini (LLM’ler) ölçeklendirmek için popüler bir teknik haline geldi. MoE mimarileri, her girdi için model kapasitesinin tamamını kullanmak yerine, verileri küçük ama uzmanlaşmış “uzman” modüllere yönlendirir. MoE, LLM’lerin çıkarım maliyetlerini düşük tutarken parametrelerini artırmalarına olanak tanır. MoE, aşağıdakiler de dahil olmak üzere birçok popüler LLM’de kullanılmaktadır: Karışımtral, DBRX, Grok Ve bildirildiğine göre GPT-4.
Ancak mevcut MEB tekniklerinin, onları nispeten az sayıda uzmanla sınırlayan sınırlamaları vardır. İçinde yeni kağıtGoogle DeepMind, MoE modellerini milyonlarca uzmana ölçeklendirebilen ve büyük dil modellerinin performans-bilgi işlem dengesini daha da iyileştiren yeni bir mimari olan Parametre Verimli Uzman Erişimini (PEER) tanıtıyor.
Yüksek Lisans’ı ölçeklendirmenin zorluğu
Geçtiğimiz birkaç yıl, dil modellerinin parametre sayımını artırarak ölçeklendirmenin performansın artmasına ve yeni yeteneklere yol açtığını gösterdi. Ancak, bir modeli çalıştırmadan önce ne kadar ölçeklendirebileceğinizin bir sınırı vardır. hesaplama ve bellek darboğazları.
Her trafo bloğu LLM’lerde kullanılan dikkat katmanları ve ileri besleme (FFW) katmanları vardır. Dikkat katmanı, transformatör bloğuna beslenen jetonların sırası arasındaki ilişkileri hesaplar. İleri beslemeli ağ, modelin bilgisinin depolanmasından sorumludur. FFW katmanları, modelin parametrelerinin üçte ikisini oluşturur ve ölçeklendirme transformatörlerinin darboğazlarından biridir. Klasik transformatör mimarisinde, FFW’nin tüm parametreleri çıkarımda kullanılır, bu da onların hesaplama ayak izini boyutlarıyla doğru orantılı hale getirir.
MoE, FFW’yi tek bir yoğun FFW katmanı yerine seyrek olarak etkinleştirilen uzman modüllerle değiştirerek bu zorluğu çözmeye çalışmaktadır. Uzmanların her biri tam yoğun katmanın parametrelerinin bir kısmını içerir ve belirli alanlarda uzmanlaşmıştır. MEB’in, her girdiyi en doğru yanıtı vermesi muhtemel birkaç uzmana atayan bir yönlendiricisi vardır.
MoE, uzman sayısını artırarak LLM’nin kapasitesini, onu çalıştırmanın hesaplama maliyetini artırmadan artırabilir.
Doğru MoE ayrıntı düzeyini bulma
Son çalışmalara göre, bir MoE modeli için en uygun uzman sayısı, eğitim jetonlarının sayısı ve bilgi işlem bütçesi dahil olmak üzere çeşitli faktörlerle ilgilidir. Bu değişkenler dengelendiğinde MoE’ler aynı miktarda bilgi işlem kaynağı için yoğun modellerden sürekli olarak daha iyi performans gösterdi.
Ayrıca araştırmacılar, uzman sayısını ifade eden bir MEB modelinin “ayrıntılılığını” artırmanın, özellikle model boyutunda ve eğitim verilerinde bir artışla birlikte kullanıldığında performans kazanımlarına yol açabileceğini bulmuşlardır.
Yüksek ayrıntı düzeyine sahip MoE, modellerin yeni bilgileri daha verimli bir şekilde öğrenmesini de sağlayabilir. Bazı araştırmalar, yeni uzmanların eklenmesi ve bunların uygun şekilde düzenlenmesiyle MoE modellerinin sürekli veri akışlarına uyum sağlayabileceğini ve bunun da dil modellerinin dağıtım ortamlarında sürekli değişen verilerle başa çıkmasına yardımcı olabileceğini öne sürüyor.
MEB’e yönelik mevcut yaklaşımlar sınırlıdır ve ölçeklenemez. Örneğin, genellikle belirli sayıda uzman için tasarlanmış ve yeni uzmanlar eklendiğinde yeniden ayarlanması gereken sabit yönlendiricileri vardır.
Parametre Verimli Uzman Erişimi
DeepMind’ın Parametre Verimli Uzman Erişimi (PEER) mimarisi, MoE’yi milyonlarca uzmana ölçeklendirmenin zorluklarını ele alıyor. PEER, giriş verilerini geniş bir uzman havuzuna verimli bir şekilde yönlendirmek için sabit yönlendiriciyi öğrenilmiş bir dizinle değiştirir. Verilen her girdi için PEER, en iyi uzmanları seçip etkinleştirmeden önce potansiyel adayların kısa listesini oluşturmak için ilk olarak hızlı bir başlangıç hesaplaması kullanıyor. Bu mekanizma MEB’in çok fazla sayıda uzmanı hız kesmeden ele almasına olanak sağlar.
Uzmanların genellikle değiştirdikleri FFW katmanları kadar büyük olduğu önceki MoE mimarilerinden farklı olarak PEER, gizli katmanda tek bir nöron bulunan küçük uzmanları kullanır. Bu tasarım, modelin gizli nöronları uzmanlar arasında paylaşmasına olanak tanıyarak bilgi aktarımını ve parametre verimliliğini artırır. Uzmanların küçük sayısını telafi etmek için PEER, transformatör modellerinde kullanılan çok kafalı dikkat mekanizmasına benzer şekilde çok kafalı erişim yaklaşımını kullanır.
PEER katmanı mevcut bir transformatör modeline eklenebilir veya bir FFW katmanının yerine kullanılabilir. PEER aynı zamanda aşağıdakilerle de ilgilidir: parametre açısından verimli ince ayar (PEFT) teknikleri. PEFT tekniklerinde parametre verimliliği, yeni bir görev için bir modele ince ayar yapmak üzere değiştirilen parametrelerin sayısını ifade eder. PEER’de parametre verimliliği, MoE katmanındaki aktif parametrelerin sayısını azaltır; bu da ön eğitim ve çıkarım sırasında hesaplamayı ve aktivasyon hafızası tüketimini doğrudan etkiler.
Makaleye göre PEER, çalışma zamanında seçilen PEFT adaptörlerine potansiyel olarak uyarlanabilir ve bu da LLM’lere dinamik olarak yeni bilgi ve özellikler eklenmesini mümkün kılar.
PEER, DeepMind’ın Gemini 1.5 modellerinde kullanılabilir. Google blogu “yeni bir Uzmanlar Karması (MEB) mimarisi” kullanıyor.
PEER iş başında
Araştırmacılar, PEER’in performansını, yoğun ileri besleme katmanlarına ve diğer MoE mimarilerine sahip transformatör modelleriyle karşılaştırarak farklı ölçütlerde değerlendirdiler. Deneyleri, PEER modellerinin, benzerleriyle aynı hesaplama bütçesiyle daha düşük karmaşıklık puanlarına ulaşarak daha iyi bir performans-bilgi işlem dengesi sağladığını gösteriyor.
Araştırmacılar ayrıca PEER modelindeki uzman sayısını artırmanın kafa karışıklığının daha da azalmasına yol açtığını da buldu.
Araştırmacılar, “Bu tasarım, deneylerimizde üstün bir bilgi işlem performansı değişimini ortaya koyuyor ve onu temel modellerin ölçeklendirilmesi için yoğun FFW katmanlarına rekabetçi bir alternatif olarak konumlandırıyor” diye yazıyor.
Bulgular ilginçtir çünkü MEB modellerinin sınırlı sayıda uzmanla en yüksek verimliliğe ulaştığı yönündeki uzun süredir devam eden inanca meydan okuyor. PEER, doğru erişim ve yönlendirme mekanizmalarının uygulanmasıyla MoE’nin milyonlarca uzmana ölçeklendirilmesinin mümkün olduğunu göstermektedir. Bu yaklaşım, eğitimin ve çok büyük dil modellerinin sunulmasının maliyetini ve karmaşıklığını daha da azaltmaya yardımcı olabilir.
Kaynak: https://venturebeat.com/ai/deepminds-peer-scales-language-models-with-millions-of-tiny-experts/