Openai’nin O3 ve O4-mini için önde gelen modellere kıyasla frontiermath doğruluğu. Resim: Epoch AI

Gelişmiş matematik problemleri üzerine üretken AI için bir ölçüt testi olan FrontierMath’ın son sonuçları, Openai’nin O3 modelinin Openai’den daha kötü performans gösterdiğini gösterdi. Yeni Openai modelleri artık O3’ten daha iyi performans gösterirken, tutarsızlık AI ölçütlerini yakından inceleme ihtiyacını vurgulamaktadır.

Testi yaratan ve yöneten araştırma enstitüsü Epoch AI, son bulgularını 18 Nisan’da yayınladı.

Openai, Aralık ayında testin% 25’ini tamamladığını iddia etti

Geçen yıl, Openai O3 için FrontierMath puanı, Openai’nin 12 günlük tatil etkinliğinin bir parçası olarak yayınlanan neredeyse çok sayıda duyuru ve promosyonun bir parçasıydı. Şirket, o zamanki en güçlü akıl yürütme modeli olan Openai O3’ün FrontierMath’daki sorunların% 25’inden fazlasını çözdüğünü iddia etti. Buna karşılık, TechCrunch’a göre, çoğu rakip AI modeli%2 civarında gol attı.

Bakınız: Dünya Günü için, Kuruluşlar, üretken AI’nın sürdürülebilirlik çabalarına gücünü hesaba katabilir.

18 Nisan’da Epoch AI, Openai O3’ün%10’a yaklaştığını gösteren test sonuçlarını yayınladı. Peki neden bu kadar büyük bir fark var? Hem model hem de test Aralık ayında farklı olabilirdi. Geçen yıl kıyaslama için gönderilen Openai O3 sürümü bir ön versiyondu. Frontiermath’ın kendisi Aralık ayından bu yana farklı sayıda matematik problemiyle değişti. Bu, kriterlere güvenmemeyi hatırlatmak zorunda değildir; Bunun yerine, sürüm numaralarını kazmayı unutmayın.

Openai O4 ve O3 mini skoru yeni frontiermath sonuçlarında en yüksek puan

Güncellenen sonuçlar, akıl yürütme ile Openai O4’ü en iyi şekilde gerçekleştirerek% 15 ile% 19 arasında puan veriyor. Bunu openai O3 mini, üçüncü sırada O3 izledi. Diğer sıralamalar şunları içerir:

Openai O1
Grok-3 mini
Claude 3.7 Sonnet (16K)
Grok-3
Claude 3.7 sonnet (64k)

Epoch AI testi bağımsız olarak yönetmesine rağmen, Openai orijinal olarak FrontierMath’i görevlendirdi ve içeriğine sahip.

AI kıyaslama eleştirileri

Kıyaslamalar, üretken AI modellerini karşılaştırmanın yaygın bir yoludur, ancak eleştirmenler sonuçların test tasarımı veya şeffaflık eksikliğinden etkilenebileceğini söylüyor. Temmuz 2024’teki bir çalışma, kriterlerin genellikle dar görev doğruluğunu aşırı vurguladığı ve sağlam olmayan değerlendirme uygulamalarından muzdarip olduğu endişelerini dile getirdi.

Kaynak: https://www.techrepublic.com/article/news-openai-generative-ai-models-frontiermath-score/

Openai, Aralık ayında testin% 25’ini tamamladığını iddia etti

Openai O4 ve O3 mini skoru yeni frontiermath sonuçlarında en yüksek puan

AI kıyaslama eleştirileri

Instagram’da satış yapmaya nasıl başlanır?

WordPress site kurma rehberi: Görsel destekli tam kurulumu

Bilgisayarı hızlandırmak için RAM mi SSD mi?

Laptop bataryasının bozuk olduğunu bu şekilde anlayabilirsiniz

Mühendisliğin geleceği, onsuz değil, yapay zeka ile inşa edenlere aittir.

Meta, ürün riski değerlendirmelerinin çoğunu otomatikleştirmeyi planlıyor

Intel Extreme Masters, Katowice’den Kraków, Polonya’ya eSpor turnuvasını taşıyor

Menü

AI Benchmark tutarsızlık, performans iddialarındaki boşlukları ortaya koyuyor

Openai, Aralık ayında testin% 25’ini tamamladığını iddia etti

Openai O4 ve O3 mini skoru yeni frontiermath sonuçlarında en yüksek puan

AI kıyaslama eleştirileri

İlgili haberler:

Instagram’da satış yapmaya nasıl başlanır?

WordPress site kurma rehberi: Görsel destekli tam kurulumu

Bilgisayarı hızlandırmak için RAM mi SSD mi?

Laptop bataryasının bozuk olduğunu bu şekilde anlayabilirsiniz

Mühendisliğin geleceği, onsuz değil, yapay zeka ile inşa edenlere aittir.

Meta, ürün riski değerlendirmelerinin çoğunu otomatikleştirmeyi planlıyor

Intel Extreme Masters, Katowice’den Kraków, Polonya’ya eSpor turnuvasını taşıyor

Menü