Endüstri lideri AI kapsamındaki en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Tüm AI manzarası, o zamanlar bilinen bir Çin AI Startup Deepseek’ten (Hong Kong merkezli nicel analiz firması High-Flyer Capital Management’ın bir yan kuruluşu) sonrasında Ocak 2025’te geri döndü. Güçlü Açık Kaynak Dil Akıl Yürütme Modeli Deepseek R1’i başlattı Meta gibi bize devleri en iyi şekilde dünyaya halka açık bir şekilde.
Deepseek kullanımı araştırmacılar ve işletmeler arasında hızla yayıldıkça, Meta’nın panik moduna gönderildiği bildirildi Bu yeni R1 modelinin, diğer birçok önde gelen modelin maliyetinin bir kısmı için eğitildiğini öğrendikten sonra, onları geride bıraktı. Birkaç milyon dolar kadar küçük – Ne kendi AI takım liderlerine öder.
Meta’nın tüm üretken yapay zeka stratejisi, o noktaya kadar marka adı altında sınıfının en iyisi açık kaynak modellerini piyasaya sürmeye devam etti ”Lama”Araştırmacıların ve şirketlerin özgürce inşa etmesi için (en azından aylık 700 milyondan az kullanıcılara sahiplerse, bu noktada özel ücretli lisans şartları için Meta ile iletişime geçmeleri gerekiyorsa).
Yine de Deepseek R1’in çok daha küçük bir bütçedeki şaşırtıcı derecede iyi performansı, şirketin liderliğini sarstı ve Lama’nın son versiyonuyla bir tür hesaplamayı zorladığı iddia edildi. 3.3Aralık 2024’te sadece bir ay önce piyasaya sürüldü, ancak zaten modası geçmiş görünüyor.
Şimdi bu hesaplamanın meyvelerini biliyoruz: bugün, Meta Kurucusu ve CEO’su Mark Zuckerberg Instagram hesabına aldı ilan etmek için Yeni Llama 4 Serisi Modelikisi ile-400 milyar parametre Lama 4 Maverick ve 109 milyar parametre Llama 4 Scout-bugün geliştiricilerin şimdi indirmesi ve kullanmaya başlaması veya ince ayar yapmaya başlaması için mevcut Lama.com ve AI kod paylaşım topluluğu Sarılma Yüzü.
2 trilyon büyük bir parametre Lama 4 Behemoth da bugün önizleniyor, Meta’nın sürümlerdeki blog yazısı olsa da hala eğitildiğini ve ne zaman serbest bırakılabileceğine dair hiçbir belirti vermediğini söyledi. (Geri çağırma parametreleri, modelin davranışını yöneten ve genellikle modelin her yerinde daha güçlü ve karmaşık bir anlam ifade eden ayarlara atıfta bulunur.)
Bu modellerin bir başlık özelliği, hepsinin çok modlu olması ve bu nedenle metin, video ve görüntü alabilmeleri ve üretebilmesidir (Hough Audio’dan bahsedilmemiştir).
Bir diğeri, inanılmaz derecede uzun bağlam pencerelerine sahip olmalarıdır – Lama 4 Maverick için 1 milyon jeton ve Llama 4 İzci için 10 milyon – ve bunların hepsinin tek bir giriş/çıkış etkileşiminde ele alabileceği yaklaşık 1.500 ve 15.000 sayfa metne eşdeğer. Bu, bir kullanıcının teorik olarak 7.500 sayfaya kadar metin yükleyebileceği veya yapıştırabileceği ve tıp, bilim, mühendislik, matematik, literatür vb.
İşte şu ana kadar bu sürüm hakkında başka ne öğrendiklerimiz:
Experts karışımında all-in
Her üç model de “Experpts (MOE)” Mimarlık Yaklaşımını kullanıyor Openai’den önceki model sürümlerinde popüler hale getirildi Ve Faturaesasen farklı görevlerde, konularda ve medya formatlarında uzmanlaşmış çok küçük modelleri (“uzmanlar”) birleşik, daha büyük bir modele dönüştürmektedir. Bu nedenle her Llama 4 salımının 128 farklı uzmandan oluşan bir karışım olduğu ve çalışması daha verimli olduğu söylenir, çünkü sadece belirli bir görev için gerekli olan uzman, artı “paylaşılan” bir uzman, her bir jeton yerine, her bir jetonu işler.
Lama 4 blog yazısı olarak belirtiliyor:
Sonuç olarak, tüm parametreler bellekte saklanırken, bu modelleri sunarken toplam parametrelerin yalnızca bir alt kümesi etkinleştirilir. Bu, model hizmet maliyetlerini ve gecikmeyi azaltarak çıkarım verimliliğini artırır – Llam 4 Maverick tek bir [Nvidia] Kolay dağıtım için veya maksimum verimlilik için dağıtılmış çıkarımla H100 DGX ana bilgisayar.
Hem Scout hem de Maverick, kendi kendine barınma için halka açıktır, ancak resmi meta altyapı için barındırılan API veya fiyatlandırma katmanları açıklanmamıştır. Bunun yerine Meta, açık indirme ve WhatsApp, Messenger, Instagram ve Web’de Meta AI ile entegrasyon yoluyla dağıtıma odaklanır.
Meta, Lama 4 Maverick için çıkarım maliyetini 1 milyon jeton başına 0,19 $ ila 0.49 $ ‘a tahmin ediyor (3: 1 giriş ve çıkış karışımı kullanılarak). Bu, topluluk ölçütlerine dayanarak milyon jeton başına 4,38 dolara mal olduğu tahmin edilen GPT-4O gibi tescilli modellerden önemli ölçüde daha ucuz hale getiriyor.
Her üç Llama 4 modelinin hepsi-özellikle Maverick ve Behemoth-açık bir şekilde akıl yürütme, kodlama ve adım adım problem çözme için tasarlanmıştır-ancak Openai “O” serisi veya Deepseek R1 gibi özel akıl yürütme modellerinin düşünce zincirlerini sergilemiyorlar.
Bunun yerine, “klasik”, mantıklı olmayan LLM’lerle ve Openai’s GPT-4O ve Deepseek’in V3’ü gibi multimodal modellerle daha doğrudan rekabet etmek için tasarlanmış gibi görünüyorlar-Lama 4 Behemoth hariç, yapmak Deepseek R1’i tehdit ediyor gibi görünüyor (daha fazlası aşağıda!)
Buna ek olarak, Lama 4 için meta, akıl yürütmeyi artırmaya odaklanan meta inşa edilmiş özel eğitim sonrası boru hatları şunları gösteriyor:
- Denetimli ince ayar sırasında “kolay” istemlerin% 50’sinden fazlasını kaldırma.
- Giderek daha zor istemleri olan sürekli bir takviye öğrenme döngüsünün benimsenmesi.
- Matematik, mantık ve kodlamadaki performansı güçlendirmek için@k değerlendirme ve müfredat örneklemesi kullanma.
- Metap’in uygulanması, mühendislerin hiperparametreleri (katman başına öğrenme oranları gibi) modellere ayarlamasını ve bunları hedeflenen model davranışını korurken diğer model boyutlarına ve jeton türlerine uygulamalarını sağlayan yeni bir teknik.
Metap, model üzerinde hiperparametreler ayarlamak ve daha sonra başka birçok model türünü elde etmek için kullanılabileceği için kullanılabileceği için özellikle ilgi çekicidir.
VentureBeat meslektaşım ve LLM uzmanı Ben Dickson yeni Metap tekniğini açarken: “Bu çok fazla zaman ve para tasarrufu sağlayabilir. Bu, daha küçük modellerde büyük ölçekli olanlarda yapmak yerine deneyler yaptıkları anlamına geliyor.”
Bu, 32K GPU ve FP8 hassasiyetini kullanan Behemoth kadar büyük eğitim modelleri, 30 trilyon belirteçte 390 TFLOP/GPU elde ederken, Lama 3 eğitim verilerinin iki katından fazla.
Başka bir deyişle: Araştırmacılar, modele genel olarak nasıl hareket etmelerini istediklerini söyleyebilir ve bunu modelin daha büyük ve daha küçük versiyonuna ve farklı medya biçimlerine uygulayabilirler.
Güçlü – ama henüz değil . en Güçlü – Model Ailesi
İçinde Instagram’da duyuru videosu (Bir meta iştiraki, doğal olarak) Meta CEO’su Mark Zuckerberg, şirketin “hedefinin dünyanın önde gelen yapay zekasını inşa etmek, açık kaynak yapmak ve evrensel olarak erişilebilir hale getirmek olduğunu söyledi… Bir süredir açık kaynak AI’nın önde gelen modeller olacağını ve Lama 4 ile başlamış olduğunu söyledim.
Meta’nın Lama 4 Scout adını verdiği gibi, açıkça özenle ifade edilmiş bir ifade, “Dünyanın en iyi multimodal modeli sınıfında ve önceki nesil lama modellerinden daha güçlü ”(vurgu benim tarafımdan eklendi).
Başka bir deyişle, bunlar parametre büyüklüğündeki sınıflarındaki diğerlerine kıyasla yığının tepesine yakın çok güçlü modellerdir, ancak yeni performans kayıtları ayarlamak zorunda değildir. Bununla birlikte, Meta, yeni Lama 4 ailesinin atışlarını, aralarında trompetlemeye hevesliydi:
Lama 4 Behemoth
- GPT-4.5, Gemini 2.0 Pro ve Claude Sonnet 3.7’den daha iyi performans gösterir:
- Math-500 (95.0)
- GPQA Diamond (73.7)
- MMLU (82.2)
4 Maverick’i arayın
- Çoğu multimodal akıl yürütme kriterlerinde GPT-4O ve Gemini 2.0 flaşını yener:
- Chartqa, Docvqa, Mathvista, mmmu
- Aktif parametrelerin yarısından daha azını kullanırken Deepseek v3.1 (45.8b params) ile rekabetçi (17b)
- Benchmark puanları:
- Chartqa: 90.0 (GPT-4O’nun 85.7’ye karşı)
- Docvqa: 94.4 (92.8’e karşı)
- MMLU için: 80.5
- Maliyet etkin: 1m jeton başına 0,19 $-$ 0.49
4 izci arayın
- Mistral 3.1, Gemini 2.0 Flash-Lite ve Gemma 3 gibi modelleri eşleştirir veya daha iyi performans gösterir:
- Docvt: 94.4
- MMLU için: 74.3
- Mathvista: 70.7
- Eşsiz 10m jeton bağlam uzunluğu-Uzun belgeler, kod tabanları veya çok dönüş analizi için ideal
- Tek bir H100 GPU’da verimli dağıtım için tasarlanmıştır
Ama tüm bunlardan sonra, Lama 4 Deepseek’e nasıl yığılır?
Ancak elbette, Deepseek R1, Openai’nin “O” serisi (GPT-4O gibi), Gemini 2.0 ve Claude Sonnet gibi başka bir akıl yürütme ağır model sınıfı var.
Kıyaslanmış en yüksek parametreli modeli kullanarak-Llam 4 Behemoth-ve onu intial ile karşılaştırma Deepseek R1 Sürüm Grafiği R1-32B ve Openai O1 modelleri için, Lama 4 Behemoth’un nasıl yığınları:
Kalite testi | Lama 4 Behemoth | Deepseek R1 | Openai O1-1217 |
---|---|---|---|
Matematik-500 | 95.0 | 97.3 | 96.4 |
Gpqa elmas | 73.7 | 71.5 | 75.7 |
MMLU | 82.2 | 90.8 | 91.8 |
Ne sonuçlandırabiliriz?
- Math-500: Lama 4 Behemoth biraz arka Deepseek R1 ve Openai O1.
- GPQA Diamond: Behemoth Deepseek R’nin önünde1, ama Openai O1’in arkasında.
- MMLU: Behemoth her ikisi de izler, ancak yine de Gemini 2.0 Pro ve GPT-4.5’ten daha iyi performans gösterir.
Paket Servisi: Deepseek R1 ve Openai O1 birkaç metrikte devasa çıkarken, Lama 4 Behemoth oldukça rekabetçi kalır ve sınıfındaki akıl yürütme liderliğinin üstünde veya yakınında performans gösterir.
Güvenlik ve daha az politik ‘önyargı’
Meta ayrıca, geliştiricilerin güvenli olmayan girdi/çıktı veya çekişsel istemleri tespit etmelerine ve otomatik kırmızı ekranlama için üretken saldırı ajan testi (keçi) uygulamalarına yardımcı olmak için lama koruyucusu, hızlı bekçi ve Cyberseceval gibi araçlar getirerek model uyumunu ve güvenliğini vurguladı.
Şirket ayrıca Llama 4’ün “siyasi önyargı” üzerinde önemli bir iyileşme gösterdiğini ve “özellikle, [leading LLMs] Tarihsel olarak tartışılan siyasi ve sosyal konular söz konusu olduğunda sola eğildi ”dedi. Zuckerberg’in Cumhuriyetçi ABD Başkanı Donald J. Trump’ı kucaklaması ve 2024 seçimlerinin ardından partisi.
Lama 4 şimdiye kadar nerede duruyor
Meta’s Llama 4 modelleri, multimodal ve akıl yürütme görevlerinde verimlilik, açıklık ve üst düzey performansı bir araya getirir.
Scout ve Maverick şu anda halka açık bir şekilde mevcut ve son teknoloji ürünü bir öğretmen modeli olarak önizlemesiyle, Lama ekosistemi Openai, Antropic, Deepseek ve Google’dan üst düzey tescilli modellere rekabetçi bir açık alternatif sunacak şekilde konumlandırılmıştır.
İster kurumsal ölçekli asistanlar, AI araştırma boru hatları veya uzun bağlam analitik araçları oluşturuyorsanız, Lama 4, akıl yürütme ilk tasarımına doğru net bir yönlendirme ile esnek, yüksek performanslı seçenekler sunar.
Kaynak: https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way/