Çeşitli kuruluşlar genelinde önyargı, performans ve etik uyumlulukla ilgili yapay zeka modellerini denetlemek için kapsamlı yöntemleri araştırmak amacıyla yönetici liderlerle işbirliği yapmak üzere 5 Haziran’da New York’a dönerken bize katılın. Nasıl yapabileceğinizi öğrenin buraya katıl.
Araştırmacılar Microsoft Ve Beihang Üniversitesi büyük dil modellerine (LLM’ler) ince ayar yapmak için genellikle maliyetin çok altında bir maliyetle yeni bir teknik tanıttılar.
Yeni teknik adı verildi MoRAdüşük dereceli uyarlama gibi diğer popüler tekniklerin bazı sınırlamalarını ele alan, parametre açısından verimli bir ince ayar (PEFT) tekniğidir (LoRA). MoRA, modelin yeni bilgiler edinmesini gerektiren görevlerde modele ince ayar yapmak istediğinizde özellikle kullanışlıdır. PEFT yöntemlerinin kurumlarda giderek daha popüler hale gelmesiyle birlikte MoRA, LLM uygulama geliştiricilerinin büyüyen araç setine önemli bir katkı haline gelebilir.
LoRA’nın sınırlamaları
Klasik ince ayar Bir LLM’nin tüm parametrelerinin güncellenmesini gerektirir. Model milyarlarca parametre içerdiğinde tam ince ayar yapmak maliyetli ve yavaş olabilir. Parametre açısından verimli ince ayar teknikleri, aşağı yönlü uygulamalar için LLM’lere ince ayar yaparken tüm parametreleri güncellemenize gerek olmadığı fikrine dayanmaktadır. PEFT yöntemleri, modeli hedef göreve göre yapılandırmak için değiştirilmesi gereken optimum parametre alt kümesini bulur.
LoRA, tam sıralı ağırlık matrisini çok küçük bir alt uzaya eşleyen düşük dereceli matrisler yoluyla parametreleri güncelleme yeteneği nedeniyle bir PEFT tekniği olarak popülerlik kazanmıştır. LoRA, bellek gereksinimlerini önemli ölçüde azaltır ve ince ayarlı modellerin depolanmasını ve dağıtımını kolaylaştırır.
Ancak LoRA, metin sınıflandırma ve talimat ayarlama gibi görevlerde iyi performans gösterirken, LLM’lerin bilgi ve becerilerinin geliştirilmesini gerektiren daha karmaşık görevlerle mücadele ediyor: matematiksel sebepler ve sürekli ön eğitim. Çeşitli çalışmalar, LoRA’nın düşük dereceli güncelleme mekanizmasının, büyük dil modellerinin yeni bilgileri etkili bir şekilde öğrenme ve ezberleme yeteneğini sınırlayabildiğini buldu.
Araştırmacılar, LoRA adaptörünün sıralamasının modelin tam sıralamasından önemli ölçüde daha küçük olması nedeniyle, “bu sınırlama, ince ayar yoluyla yeni bilgilerin saklanması kapasitesini kısıtlıyor” diye yazıyor.
MoRA
LoRA’nın sınırlamalarını gidermek için araştırmacılar, düşük dereceli matrisler yerine kare matris kullanan bir PEFT tekniği olan MoRA’yı tanıttı. MoRA’nın arkasındaki ana fikir, modelin orijinal boyutları alanında mümkün olan en yüksek sıralamayı elde edecek şekilde eğitilebilir parametreleri kullanmaktır.
LoRA’dan farklı olarak MoRA adaptörünün giriş ve çıkış boyutları orijinal modelin boyutlarıyla eşleşmez, bu da bunların aynı matris çarpım işleminde birleştirilmesini imkansız hale getirir. Bu boşluğu kapatmak için araştırmacılar, iki alan arasındaki girdileri dönüştüren bir sıkıştırma/açma fonksiyonu geliştirdiler. Bu algoritma, MoRA’nın farklı boyutlardaki LLM’lere kolayca takılmasını sağlar.
Araştırmacılara göre kare ağırlık matrisi, MoRA’ya aynı boyuttaki bir LoRA modelinden daha güçlü bir yeni bilgi öğrenme kapasitesi sağlıyor.
MoRA iş başında
Araştırmacılar eşit boyutlu LoRA ve MoRA modellerini çeşitli görev ve ortamlarda karşılaştırdılar. Ezberleme görevlerinde MoRA, LoRA’dan önemli ölçüde daha iyi performans gösterdi ve daha az parametre ve eğitim adımıyla tamamen ince ayarlı bir modelin performansına çok daha yaklaştı.
Araştırmacılar, “Yöntemimiz, aynı sayıda eğitilebilir parametreyle LoRA’ya göre önemli gelişmeler gösteriyor ve üst düzey güncellemeden yararlanıyor” diye yazıyor.
Talimat ayarlama ve matematiksel akıl yürütme görevlerinde MoRA, neredeyse LoRA ile aynı seviyede performans gösterdi. Ancak biyomedikal ve finansal alanlardaki sürekli ön eğitimde MoRA, yeni bilgileri ezberlemek için üst düzey güncellemeden yararlanarak LoRA’dan daha iyi performans gösterdi.
Araştırmacılar ayrıca, MoRA adaptörünün sıralamasının arttırılmasının, daha yüksek eğitim ve depolama maliyetlerine yol açsa da, PEFT ile matematiksel muhakeme görevlerinde tam ince ayar arasındaki performans farkını ortadan kaldırabileceğini buldu.
İşletmeler için PEFT
İnce ayar, kurumsal LLM uygulamaları için önemli bir kullanım durumudur. İnce ayar, yüksek lisansların özel bilgi konusundaki yeteneklerini ve doğruluğunu arttırmanın yanı sıra, şirketlerin daha önce pahalı sınır modelleri gerektiren görevler için daha küçük modeller kullanmalarına da olanak sağlayabilir.
Şu anda LoRA ve çeşitleri, parametre açısından verimli ince ayar için altın standartlardır. LoRA bağdaştırıcıları oluşturmaya yönelik zengin bir araç ve platform ekosistemi vardır. Örneğin, S-LoRA geliştiricilerin tek bir GPU üzerinde binlerce LoRA bağdaştırıcısını çalıştırmasına olanak tanıyan ve her kullanıcının içeriğine göre özelleştirilmiş modeller gibi çok sayıda ince ayarlı LLM gerektiren uygulamaların kilidini açan bir çerçevedir.
Microsoft ve Beihang’daki araştırmacılar bir rapor yayınladılar. açık kaynak uygulaması LoRA ile uyumlu olan MoRA’nın. Bu, temel modellere yeni bilgiler eklemek isteyen kurumsal uygulamalar için önemli bir araç olabilir.
Kaynak: https://venturebeat.com/ai/microsoft-beihang-release-mora-an-efficient-llm-fine-tuning-technique/