Cumartesi günü yayınlanan yeni amiral gemisi AI modellerinden biri olan Maverick, LM Arena’da ikinci sırada yer alıyor, bu da insan derecelendiricilerinin modellerin çıktılarını karşılaştıran ve hangisini tercih ettiklerini seçen bir test. Ancak Meta’nın LM Arena’ya dağıttığı Maverick’in versiyonu, geliştiriciler için yaygın olarak mevcut olan versiyondan farklı.

Birkaç AI araştırmacının X’e işaret ettiği gibi, Meta açıklamasında LM Arena’daki Maverick’in “deneysel sohbet versiyonu” olduğunu belirtti. Bu arada resmi Llama web sitesindeki bir grafik, Meta’nın LM Arena testinin “Lama 4 Maverick Konuşma için Optimize Edilmiş” kullanılarak yapıldığını açıklar.

Daha önce yazdığımız gibi, çeşitli nedenlerle, LM Arena hiçbir zaman bir AI modelinin performansının en güvenilir ölçüsü olmamıştır. Ancak AI şirketleri genellikle LM Arena’da daha iyi puan alacak şekilde modellerini özelleştirmediler veya başka bir şekilde ince ayarlamamışlar-veya en azından bunu kabul etmediler.

Bir modeli bir ölçütle uyarlama, stopaj ve daha sonra aynı modelin “vanilya” varyantını serbest bırakma sorunu, geliştiricilerin modelin belirli bağlamlarda ne kadar iyi performans göstereceğini tahmin etmelerini zorlaştırmasıdır. Ayrıca yanıltıcı. İdeal olarak, kıyaslamalar – oldukları gibi kederli bir şekilde yetersiz – tek bir modelin çeşitli görevlerde güçlü ve zayıf yönlerinin bir anlık görüntüsünü sağlar.

Gerçekten de, X’teki araştırmacılar, LM Arena’da barındırılan modele kıyasla halka açık olarak indirilebilir Maverick’in davranışında keskin farklılıklar gözlemlediler. LM Arena sürümü çok fazla emoji kullanıyor ve inanılmaz derecede uzun soluklu cevaplar veriyor.

Tamam lama 4, littled pişmiş bir lol, bu yap pic.twitter.com/y3gvhbvz65
– Nathan Lambert (@Natolambert) 6 Nisan 2025

Bazı nedenlerden dolayı, Arena’daki Llama 4 modeli çok daha fazla emoji kullanıyor
birlikte. AI, daha iyi görünüyor: pic.twitter.com/f74odx4ztt
– Tech geliştirme notları (@Techdevnotes) 6 Nisan 2025

Yorum için LM Arena’yı koruyan organizasyon Meta ve Chatbot Arena’ya ulaştık.

Kaynak: https://techcrunch.com/2025/04/06/metas-benchmarks-for-its-new-ai-models-are-a-bit-misleading/

Windsurf’a erişimin kesilmesinde antropik kurucu ortağı: ‘Claude’u Openai’ye satmamız garip olurdu’

Dippling, Deel’i ‘bir suç sendikası’ olarak adlandırıyor ve diğer 4 yarışmacının da casus olduğunu iddia ediyor

Amazon, ajan yapay zeka ve robotiklere odaklanan yeni Ar -Ge grubunu başlattı

Menü

Meta’nın yeni AI modelleri için ölçütleri biraz yanıltıcı

İlgili haberler:

Windsurf’a erişimin kesilmesinde antropik kurucu ortağı: ‘Claude’u Openai’ye satmamız garip olurdu’

Dippling, Deel’i ‘bir suç sendikası’ olarak adlandırıyor ve diğer 4 yarışmacının da casus olduğunu iddia ediyor

Amazon, ajan yapay zeka ve robotiklere odaklanan yeni Ar -Ge grubunu başlattı

Menü