Yapay zeka ölçütleri ve AI laboratuvarları tarafından nasıl bildirildikleri konusundaki tartışmalar kamuoyuna dökülüyor.
Bu hafta, bir Openai çalışanı Elon Musk’un AI şirketi Xai’yi en son AI modeli Groch 3. için yanıltıcı kıyaslama sonuçları yayınlamakla suçladı. Xai’nin kurucularından Igor Babushkin, şirketin sağda olduğu konusunda ısrar etti.
Gerçek aralarında bir yerde yatıyor.
Xai’nin blogundaki bir yayında şirket, Grok 3’ün AIME 2025’teki performansını gösteren bir grafik yayınladı, son bir Invitational Matematik Sınavından zorlu matematik soruları koleksiyonu. Bazı uzmanlar AIME’nin geçerliliğini bir AI ölçütü olarak sorguladılar. Bununla birlikte, testin AIME 2025 ve daha eski sürümleri, bir modelin matematik yeteneğini araştırmak için yaygın olarak kullanılır.
Xai’nin grafiği, AIME 2025’te Openai’nin en iyi performans gösteren modeli O3-Mini-High, Openai’nin en iyi performans gösteren modeli O3-Mini-High’yi yenerek Grok 3, GROK 3 muhakeme beta ve GroK 3 Mini Akıl Yürütme’nin iki çeşidi gösterdi. O3-Mini-High’s AIME 2025 skorunu “Cons@64” e dahil etmedi.
Eksileri@64 nedir, sorabilirsiniz? “Consensus@64” için kısadır ve temel olarak bir model 64, her sorunu bir ölçütte cevaplamaya çalışır ve en sık üretilen cevapları son cevaplar olarak alır. Tahmin edebileceğiniz gibi,@64, modellerin kıyaslama puanlarını biraz artırma eğilimindedir ve bir grafikten atlamak, bir model gerçekte bir modelin bir diğerini aşıyormuş gibi görünmesini sağlayabilir, durum böyle değil.
GROK 3 Akıl Yürütme Beta ve GroK 3 Mini Akıl Yürütmesinin AIME 2025 için “@1” de puanları-yani modellerin ölçütte bulunduğu ilk puan-O3-Mini-High’nin puanının altına düşüyor. GROK 3 Akıl Yürütme Beta, Openai’nin O1 modelinin “orta” hesaplamaya ayarlandığı zamanın arkasında da ilerliyor. Yine de Xai, Grok 3’ü “dünyanın en akıllı yapay zekası” olarak reklam yapıyor.
Babushkin, X’te Openai’nin geçmişte benzer şekilde yanıltıcı kıyaslama çizelgeleri yayınladığını savundu – kendi modellerinin performansını karşılaştıran grafikler de olsa. Tartışmada daha tarafsız bir parti, neredeyse her modelin@64’teki performansını gösteren daha “doğru” bir grafik oluşturdu:
Bazı insanların planımı Openai’ye saldırı ve diğerleri Grok’a saldırı olarak nasıl gördüklerinde, gerçekte Deepseek Propaganda
(Aslında GroK’ın orada iyi göründüğüne inanıyorum ve Openai’nin O3-Mini-*yüksek*-pass@”” ”1 ″” ”arkasındaki TTC Chicanery. pic.twitter.com/3wh8fUicfic– TEORTAXES
uğu (Deepseek Twitter
iron Powder 2023 – ∞) (@teortaxestex) 20 Şubat 2025
Ancak yapay zeka araştırmacısı Nathan Lambert bir görevde belirttiği gibi, belki de en önemli metrik bir gizem olmaya devam ediyor: her modelin en iyi puanını elde etmek için aldığı hesaplama (ve parasal) maliyet. Bu sadece en çok AI kriterlerinin modellerin sınırlamaları ve güçlü yönleri hakkında ne kadar iletişim kurduğunu gösteriyor.
Kaynak: https://techcrunch.com/2025/02/22/did-xai-lie-about-grok-3s-benchmarks/