Meta, Llama serisi açık kaynaklı üretken yapay zeka modellerinin en son üyesi olan Llama 3’ü piyasaya sürdü: Daha doğrusu şirket, yeni Llama 3 ailesinde açık kaynaklı iki modele sahip, geri kalanı belirsiz bir gelecekte gelecek.
Meta, 8 milyar parametre içeren Llama 3 8B ve 70 milyar parametre içeren Llama 3 70B adlı yeni modelleri, önceki nesil Llama modelleri Llama 2 8B ve Llama 2 70B ile karşılaştırıldığında “büyük bir sıçrama” olarak tanımlıyor. performans açısından. (Parametreler esasen bir yapay zeka modelinin bir problem üzerindeki becerisini tanımlar; metin analiz etmek ve oluşturmak gibi; yüksek parametre sayılı modeller, genel olarak konuşursak, düşük parametre sayılı modellere göre daha yeteneklidir.) Aslında Meta şunu söylüyor: ilgili parametre sayıları, Llama 3 8B ve Llama 3 70B — özel olarak oluşturulmuş iki 24.000 GPU kümesi üzerinde eğitilmiştir – günümüzün en iyi performans gösteren üretken yapay zeka modelleri arasındadır.
Bu oldukça iddialı bir iddia. Peki Meta bunu nasıl destekliyor? Şirket, Llama 3 modellerinin MMLU (bilgiyi ölçmeye çalışan), ARC (beceri edinimini ölçmeye çalışan) ve DROP (bir modelin metin parçaları üzerinde mantığını test eden) gibi popüler AI kriterlerindeki puanlarına dikkat çekiyor. Daha önce de yazdığımız gibi, bu kriterlerin yararlılığı ve geçerliliği tartışmaya açıktır. Ancak iyi de olsa kötü de olsa, Meta gibi yapay zeka oyuncularının modellerini değerlendirdiği birkaç standart yoldan biri olmaya devam ediyorlar.
Llama 3 8B, her ikisi de 7 milyar parametre içeren Mistral Mistral 7B ve Google Gemma 7B gibi diğer açık kaynak modellerini en az dokuz kıyaslamada geride bırakıyor: MMLU, ARC, DROP, GPQA (bir dizi biyoloji, fizik ve kimya) ilgili sorular), HumanEval (bir kod oluşturma testi), GSM-8K (matematik kelime problemleri), MATH (başka bir matematik kıyaslaması), AGIEval (bir problem çözme test seti) ve BIG-Bench Hard (sağduyulu bir akıl yürütme değerlendirmesi).
Şimdi, Mistral 7B ve Gemma 7B tam olarak son teknolojide değiller (Mistral 7B geçen Eylül ayında piyasaya sürüldü) ve Meta’nın belirttiği birkaç kıyaslamada Llama 3 8B her ikisinden de yalnızca birkaç yüzde puan daha yüksek puan alıyor. Ancak Meta aynı zamanda daha büyük parametre sayısına sahip Llama 3 modeli Llama 3 70B’nin, Google’ın Gemini serisinin en sonuncusu olan Gemini 1.5 Pro da dahil olmak üzere amiral gemisi üretken yapay zeka modelleriyle rekabet edebileceğini de iddia ediyor.
Llama 3 70B, MMLU, HumanEval ve GSM-8K’de Gemini 1.5 Pro’yu yener ve Anthropic’in en performanslı modeli olan Claude 3 Opus’a rakip olmasa da Llama 3 70B, Claude 3 serisinin en zayıf modeli olan Claude 3’ten daha iyi puan alır. Sonnet, beş kritere göre (MMLU, GPQA, HumanEval, GSM-8K ve MATH).
Ne olursa olsun Meta, kodlama ve yazmadan akıl yürütmeye ve özetlemeye kadar çeşitli kullanım durumlarını kapsayan kendi test setini de geliştirdi ve – sürpriz! — Llama 3 70B, Mistral’ın Mistral Medium modeli, OpenAI’nin GPT-3.5’i ve Claude Sonnet’e karşı birinci oldu. Meta, nesnelliği korumak için modelleme ekiplerinin sete erişimini engellediğini söylüyor ancak açıkçası – testi Meta’nın kendisi tasarladığı göz önüne alındığında – sonuçlara biraz ihtiyatlı yaklaşmak gerekiyor.
Daha niteliksel olarak Meta, yeni Lama modellerinin kullanıcılarının daha fazla “yönlendirilebilirlik”, soruları yanıtlamayı reddetme olasılığının daha düşük olması ve önemsiz sorular, tarih ve mühendislik, bilim ve genel kodlama gibi STEM alanlarıyla ilgili sorularda daha yüksek doğruluk beklemeleri gerektiğini söylüyor. tavsiyeler. Bu kısmen çok daha büyük bir veri seti sayesinde: 15 trilyon jetondan oluşan bir koleksiyon veya akıllara durgunluk veren ~750.000.000.000 kelime – Llama 2 eğitim setinin yedi katı büyüklüğünde. (Yapay zeka alanında “jetonlar”, “fantastik” kelimesindeki “fan”, “tas” ve “tic” heceleri gibi ham verilerin alt bölümlere ayrılmış bitlerini ifade eder.)
Bu veriler nereden geldi? İyi soru. Meta bunu söylemedi ve sadece “halka açık kaynaklardan” yararlandığını, Llama 2 eğitim veri setinden dört kat daha fazla kod içerdiğini ve bu setin %5’inin İngilizce olmayan veriler içerdiğini (yaklaşık 30 dilde) açıkladı. İngilizce dışındaki dillerdeki performansı artırmak için. Meta ayrıca, Llama 3 modellerinin üzerinde çalışabileceği daha uzun belgeler oluşturmak için sentetik verileri (yani yapay zeka tarafından oluşturulan verileri) kullandığını da söyledi; bu, potansiyel performans dezavantajları nedeniyle biraz tartışmalı bir yaklaşım.
Meta, TechCrunch ile paylaştığı bir blog yazısında şöyle yazıyor: “Bugün yayınladığımız modeller yalnızca İngilizce çıktılar için ince ayarlı olsa da, artan veri çeşitliliği, modellerin nüansları ve kalıpları daha iyi tanımasına ve çeşitli görevlerde güçlü performans göstermesine yardımcı oluyor.”
Birçok üretken yapay zeka tedarikçisi, eğitim verilerini rekabet avantajı olarak görüyor ve bu nedenle bu verileri ve onunla ilgili bilgileri gizli tutuyor. Ancak eğitim verileri ayrıntıları aynı zamanda fikri mülkiyetle ilgili davaların da potansiyel bir kaynağıdır; bu da pek çok şeyin ortaya çıkmasını engelleyen başka bir engeldir. Son raporlar, Meta’nın yapay zeka rakiplerine ayak uydurma arayışında, şirketin kendi avukatlarının uyarılarına rağmen bir noktada yapay zeka eğitimi için telif hakkıyla korunan e-kitaplar kullandığını ortaya çıkardı; Meta ve OpenAI, satıcıların telif hakkıyla korunan verileri eğitim amacıyla izinsiz kullandığı iddiasıyla aralarında komedyen Sarah Silverman’ın da bulunduğu yazarlar tarafından açılan ve devam eden bir davanın konusu.
Peki, üretken yapay zeka modellerinde (Llama 2 dahil) diğer iki yaygın sorun olan toksisite ve önyargı hakkında ne düşünüyorsunuz? Llama 3 bu alanlarda gelişiyor mu? Evet, Meta’yı iddia ediyor.
Meta, model eğitim verilerinin kalitesini artırmak için yeni veri filtreleme hatları geliştirdiğini ve Llama’dan istenmeyen metin oluşturulmasını ve kötüye kullanılmasını önlemek amacıyla üretken yapay zeka güvenlik paketleri çifti Llama Guard ve CybersecEval’i güncellediğini söylüyor. 3 model ve diğerleri. Şirket ayrıca, güvenlik açıklarına neden olabilecek üretken yapay zeka modellerindeki kodları tespit etmek için tasarlanmış yeni bir araç olan Code Shield’i de piyasaya sürüyor.
Ancak filtreleme kusursuz değildir ve Llama Guard, CybersecEval ve Code Shield gibi araçlar ancak bu kadar ileri gidebilir. (Bakınız: Llama 2’nin sorulara yanıt verme ve özel sağlık ve mali bilgileri sızdırma eğilimi.) Akademisyenlerin alternatif ölçütler üzerinde yaptığı testler de dahil olmak üzere, Llama 3 modellerinin vahşi ortamda nasıl performans gösterdiğini bekleyip görmemiz gerekecek.
Meta, şu anda indirilebilen ve Meta’nın Meta AI asistanını Facebook, Instagram, WhatsApp, Messenger ve web üzerinde güçlendiren Llama 3 modellerinin yakında AWS de dahil olmak üzere çok çeşitli bulut platformlarında yönetilen biçimde barındırılacağını söylüyor. Databricks, Google Cloud, Hugging Face, Kaggle, IBM’den WatsonX, Microsoft Azure, Nvidia’dan NIM ve Snowflake. Gelecekte AMD, AWS, Dell, Intel, Nvidia ve Qualcomm’un donanım için optimize edilmiş modellerinin versiyonları da satışa sunulacak.
Ve ufukta daha yetenekli modeller var.
Meta, şu anda Llama 3 modellerini 400 milyarın üzerinde parametre boyutunda eğittiğini söylüyor – “birden fazla dilde konuşma”, daha fazla veri alma ve metinlerin yanı sıra görüntüleri ve diğer yöntemleri anlama yeteneğine sahip modeller, bu da Llama 3 serisini beraberinde getirecek Hugging Face’s Idefics2 gibi açık sürümlerle uyumlu.
“Yakın gelecekteki hedefimiz, Llama 3’ü çok dilli ve çok modlu hale getirmek, daha uzun bir bağlama sahip olmak ve çekirdek genelinde genel performansı iyileştirmeye devam etmektir. [large language model] akıl yürütme ve kodlama gibi yetenekler,” diye yazıyor Meta bir blog yazısında. “Daha gelecek çok şey var.”
Aslında.
Kaynak: https://techcrunch.com/2024/04/18/meta-releases-llama-3-claims-its-among-the-best-open-models-available/