Endüstri lideri AI kapsamındaki en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Araştırmacılar Samandoğadan ilham alan algoritmalara odaklanan bir AI araştırma laboratuvarı, ince ayarlamaya ihtiyaç duymadan yeni görevleri öğrenebilen kendi kendine uyarlanabilir bir dil modeli geliştirmiştir. İsminde Transformer² (Transformer-kare), model çıkarım sırasında ağırlıklarını kullanıcı istekleriyle hizalamak için matematiksel hileler kullanır.
Bu, bir dizi tekniğin en sonuncusudur. Büyük Dil Modelleri (LLMS) Çıkarım zamanında, farklı alanlardaki günlük uygulamalar için giderek daha yararlı hale getirir.
Ağırlıkları dinamik olarak ayarlamak
Genellikle, LLMS’yi yeni görevler için yapılandırmak pahalı gerektirir ince ayar işlemimodelin yeni örneklere maruz kaldığı ve parametreleri ayarlanır. Daha uygun maliyetli bir yaklaşımdır ”düşük dereceli adaptasyon”(Lora), burada modelin hedef görevle ilgili parametrelerinin küçük bir alt kümesinin ince ayar sırasında tanımlandığı ve değiştirildiği.
Eğitim ve ince ayar yaptıktan sonra, modelin parametreleri donmuş kalır ve onu yeni görevler için yeniden kullanmanın tek yolu, birkaç atış ve çok atış öğrenme gibi tekniklerdir.
Klasik ince ayarlamanın aksine, transformatör-kare, çıkarım sırasında parametrelerini dinamik olarak ayarlamak için iki aşamalı bir yaklaşım kullanır. İlk olarak, görevi ve gereksinimlerini anlamak için gelen talebi analiz eder, daha sonra bu talep için performansını optimize etmek için modelin ağırlıklarına göreve özgü ayarlamalar uygular.
“Model ağırlıklarının kritik bileşenlerini seçici olarak ayarlayarak, çerçevemiz LLM’lerin yeni görevlere gerçek zamanlı olarak dinamik olarak adapte olmasını sağlar”. Blog yazısı şirketin web sitesinde yayınlandı.
Sakana’nın transformatörü karesi nasıl çalışır?
Transformer-kare’nin temel kabiliyeti, ağırlıklarının kritik bileşenlerini çıkarımda dinamik olarak ayarlamaktır.
Bunu yapmak için, önce çıkarım sırasında ayarlanabilecek temel bileşenleri tanımlamalıdır. Transformer-kare bunu yapıyor tekil değer ayrışması (SVD), bir matrisi iç yapısını ve geometrisini ortaya çıkaran diğer üç matris haline getiren doğrusal bir cebir hilesi. SVD genellikle verileri sıkıştırmak veya makine öğrenme modellerini basitleştirmek için kullanılır.
LLM’nin ağırlık matrisine uygulandığında, SVD, modelin matematik, dil anlayışı veya kodlama gibi farklı yeteneklerini kabaca temsil eden bir dizi bileşen elde eder. Araştırmacılar, deneylerinde, modelin belirli görevlerdeki yeteneklerini değiştirmek için bu bileşenlerin ayarlanabileceğini buldular.
Bu bulgulardan sistematik olarak yararlanmak için, tekil değer Finetuning (SVF) adı verilen bir süreç geliştirdiler. Eğitim zamanında SVF, modelin SVD bileşenlerinden bir dizi vektör öğrenir. Z-vektörleri olarak adlandırılan bu vektörler, bireysel becerilerin kompakt temsilleridir ve modelin belirli görevlerdeki yeteneğini yükseltmek veya azaltmak için düğmeler olarak kullanılabilir.
Etkinlik süresinde, Transformer-Squared, LLM’yi görünmeyen görevler için uyarlamak için iki geçişli bir mekanizma kullanır. İlk olarak, sorunu çözmek için gereken becerileri belirleme istemini inceler (araştırmacılar gerekli becerileri belirlemek için üç farklı teknik önermektedir). İkinci aşamada, transformatör-kare, isteğe karşılık gelen z vektörlerini yapılandırır ve istemi model ve güncellenmiş ağırlıklar aracılığıyla çalıştırır. Bu, modelin her istem için özel bir yanıt vermesini sağlar.
Transformer-kare eylemde
Araştırmacılar Transformer-Fared’ı uyguladılar Lama-3 Ve Fatura Llms ve bunları matematik, kodlama, akıl yürütme ve görsel soru cevaplaması gibi çeşitli görevlerde Lora ile karşılaştırdı. Transformer-kare, daha az parametreye sahipken tüm kriterlerde Lora’dan daha iyi performans gösterir. Transformer-kare’nin aksine, Lora modellerinin ağırlıklarını çıkarım süresine uyarlayamayacağı da dikkat çekicidir, bu da onları daha az esnek hale getirir.
Bir başka ilgi çekici bulgu, bir modelden çıkarılan bilginin diğerine aktarılabilmesidir. Örneğin, Lama modellerinden elde edilen Z-vektörleri Mistral modellerine uygulanabilir. Sonuçlar, hedef model için sıfırdan z-vektörler oluşturmakla eşit değildi ve iki model benzer mimarilere sahip olduğu için aktarılabilirlik mümkün oldu. Ancak, çok çeşitli modellere uygulanabilecek genelleştirilmiş Z vektörlerini öğrenme olasılığını önermektedir.
Araştırmacılar, “İleriye giden yol, diğer sistemlerle dinamik olarak adapte olan ve işbirliği yapan, karmaşık, çok alanlı sorunları çözmek için özel yetenekleri birleştiren modeller oluşturmada yatıyor” diyor. “Transformer² gibi kendi kendine uyarlanabilir sistemler, statik yapay zeka ve yaşayan zeka arasındaki boşluğu kapatarak, endüstrilerde ve günlük yaşamlarımızda ilerlemeyi sağlayan verimli, kişiselleştirilmiş ve tam entegre AI araçlarının yolunu açıyor.”
Sakana AI, transformatör-kare bileşenlerini eğitmek için kod yayınladı. Zımpara.
Çıkarım Zamanı Hileleri
İşletmeler farklı LLM uygulamalarını keşfederken, geçen yıl çıkarım süresi teknikleri geliştirmeye yönelik belirgin bir değişim gördü. Transformer-Squared, geliştiricilerin LLM’leri yeni görevler için çıkarma süresi için özelleştirmelerini sağlayan çeşitli yaklaşımlardan biridir.
TitanlarGoogle’da araştırmacılar tarafından geliştirilen bir mimari, sorunu farklı bir açıdan ele alır ve dil modellerine yeni bilgileri çıkarım zamanında öğrenme ve ezberleme yeteneği verir. Diğer teknikler, sınır llm’lerinin onların Giderek uzun süren bağlam pencereleri Yeni görevleri eğitmeden öğrenmek.
Uygulamalarına özgü verilere ve bilgiye sahip işletmelerle, çıkarım zamanı özelleştirme tekniklerindeki ilerlemeler LLMS’yi çok daha kullanışlı hale getirecektir.
Kaynak: https://venturebeat.com/ai/no-retraining-needed-sakanas-new-ai-model-changes-how-machines-learn/