Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Bugün Abu Dabi destekli Teknoloji Yenilik Enstitüsü Yapay zeka, kuantum hesaplama ve otonom robot teknolojisi gibi alanlarda yeni çağ teknolojileri üzerinde çalışan bir araştırma kuruluşu olan (TII), Falcon Mamba 7B adında yeni bir açık kaynaklı model yayınladı.
Şu tarihte mevcut: Sarılma YüzYalnızca gündelik kod çözücü teklifi, çeşitli metin oluşturma görevlerini yerine getirmek için yeni Mamba Durum Uzay Dil Modeli (SSLM) mimarisini kullanır ve Meta’nın Llama 3 8B’si de dahil olmak üzere kendi boyut sınıfındaki önde gelen modellerden daha iyi performans gösterir. 3.1 8B’yi arayın Ve Mistral 7Bseçili kıyaslamalarda.
Falcon 180B, Falcon 40B ve Falcon 2’den sonra TII’nin dördüncü açık modeli olarak geliyor ancak AI alanında transformatör tabanlı büyük dil modellerine (LLM’ler) yeni bir alternatif olarak hızla ortaya çıkan SSLM kategorisinde ilk modeldir.
Enstitü, modeli Apache 2.0’ı temel alan izin verilen bir lisans olan ‘Falcon Lisansı 2.0’ kapsamında sunuyor.
Falcon Mamba 7B masaya ne getiriyor?
Transformatör modelleri üretken yapay zeka alanına hakim olmaya devam ederken, araştırmacılar mimarinin daha uzun metin parçalarıyla uğraşırken zorluk yaşayabileceğini belirtti.
Esasen, bağlamı anlamak için metindeki her kelimeyi (veya simgeyi) diğer her kelimeyle karşılaştırarak çalışan dönüştürücülerin dikkat mekanizması, büyüyen bağlam pencerelerini idare etmek için daha fazla bilgi işlem gücü ve bellek gerektirir.
Kaynaklar buna göre ölçeklendirilmezse çıkarım yavaşlar ve belirli bir uzunluğu aşan metinleri işleyemeyecek bir noktaya ulaşır.
Bu engelleri aşmak için durum uzayı dil modeli Kelimeleri işlerken bir “durum”un sürekli güncellenmesiyle çalışan (SSLM) mimarisi umut verici bir alternatif olarak ortaya çıktı. Bazı kuruluşlar tarafından halihazırda uygulamaya konuldu; en son benimseyen ise TSEV oldu.
TSEV’e göre tamamen yeni Falcon modeli, orijinal olarak Mamba SSM mimarisini kullanıyor önerilen Carnegie Mellon ve Princeton Üniversitelerindeki araştırmacılar tarafından Aralık 2023 tarihli bir makalede.
Mimari, modelin parametrelerini girdiye göre dinamik olarak ayarlamasına olanak tanıyan bir seçim mekanizması kullanır. Bu şekilde model, dikkatin transformatörlerde nasıl çalıştığına benzer şekilde belirli girdilere odaklanabilir veya bunları göz ardı edebilir ve aynı zamanda ek bellek veya bilgi işlem kaynakları gerektirmeden uzun metin dizilerini (örneğin bir kitabın tamamı) işleme yeteneği sunar.
TSEV, yaklaşımın, modeli kurumsal ölçekte makine çevirisi, metin özetleme, bilgisayarlı görme ve ses işleme görevlerinin yanı sıra tahmin ve tahmin gibi görevler için de uygun hale getirdiğini belirtti.
Enstitü, Falcon Mamba 7B’nin aynı boyut sınıfındaki önde gelen transformatör modellerine göre ne kadar başarılı olduğunu görmek için, modellerin tek bir 24 GB A10 GPU kullanırken işleyebileceği maksimum bağlam uzunluğunu belirlemek amacıyla bir test gerçekleştirdi.
Sonuçlar, Falcon Mamba’nın “SoTA transformatör tabanlı modellerden daha büyük dizilere uyabildiğini ve eğer biri bağlam belirtecinin tamamını belirteçle veya GPU’ya sığacak boyutta belirteç parçalarıyla işlerse teorik olarak sonsuz bağlam uzunluğuna sığabileceğini” ortaya çıkardı. sıralı paralel olarak.
Ayrı bir verim testinde, tüm belirteçleri sabit bir hızda ve CUDA tepe belleğinde herhangi bir artış olmadan üretmek için Mistral 7B’nin verimli kayan pencere dikkat mimarisinden daha iyi performans gösterdi.
Standart endüstri kıyaslamalarında bile yeni modelin performansı, saf ve hibrit durum uzay modellerinin yanı sıra popüler transformatör modellerinden daha iyi veya neredeyse buna benzerdi.
Örneğin, Arc, TruthfulQA ve GSM8K kıyaslamalarında Falcon Mamba 7B %62,03, %53,42 ve %52,54 puan aldı ve Llama 3 8B, Llama 3.1 8B ve Llama 3.1 8B’yi ikna edici bir şekilde geride bıraktı. Gemma 7B ve Mistral 7B.
Ancak MMLU ve Hellaswag kriterlerinde tüm bu modellerin oldukça gerisinde kaldı.
Bununla birlikte, bu sadece başlangıç. Bir sonraki adım olarak TSEV, performansını artırmak ve daha fazla uygulama senaryosunu kapsayacak şekilde modelin tasarımını daha da optimize etmeyi planlıyor.
“Bu sürüm, yeni bakış açılarına ilham veren ve akıllı sistemler arayışını daha da körükleyen önemli bir ilerlemeyi temsil ediyor. TSEV olarak, üretken yapay zekada daha fazla yeniliği teşvik etmek için hem SSLM hem de transformatör modellerinin sınırlarını zorluyoruz” dedi.
Genel olarak, TSEV’in Falcon dil modelleri ailesi 45 milyondan fazla indirildi; bu, BAE’deki en başarılı LLM sürümlerinden biri olarak hakim durumda.
Kaynak: https://venturebeat.com/ai/falcon-mamba-7bs-powerful-new-ai-architecture-offers-alternative-to-transformer-models/