Gelişmiş matematik problemleri üzerine üretken AI için bir ölçüt testi olan FrontierMath’ın son sonuçları, Openai’nin O3 modelinin Openai’den daha kötü performans gösterdiğini gösterdi. Yeni Openai modelleri artık O3’ten daha iyi performans gösterirken, tutarsızlık AI ölçütlerini yakından inceleme ihtiyacını vurgulamaktadır.
Testi yaratan ve yöneten araştırma enstitüsü Epoch AI, son bulgularını 18 Nisan’da yayınladı.
Openai, Aralık ayında testin% 25’ini tamamladığını iddia etti
Geçen yıl, Openai O3 için FrontierMath puanı, Openai’nin 12 günlük tatil etkinliğinin bir parçası olarak yayınlanan neredeyse çok sayıda duyuru ve promosyonun bir parçasıydı. Şirket, o zamanki en güçlü akıl yürütme modeli olan Openai O3’ün FrontierMath’daki sorunların% 25’inden fazlasını çözdüğünü iddia etti. Buna karşılık, TechCrunch’a göre, çoğu rakip AI modeli%2 civarında gol attı.
Bakınız: Dünya Günü için, Kuruluşlar, üretken AI’nın sürdürülebilirlik çabalarına gücünü hesaba katabilir.
18 Nisan’da Epoch AI, Openai O3’ün%10’a yaklaştığını gösteren test sonuçlarını yayınladı. Peki neden bu kadar büyük bir fark var? Hem model hem de test Aralık ayında farklı olabilirdi. Geçen yıl kıyaslama için gönderilen Openai O3 sürümü bir ön versiyondu. Frontiermath’ın kendisi Aralık ayından bu yana farklı sayıda matematik problemiyle değişti. Bu, kriterlere güvenmemeyi hatırlatmak zorunda değildir; Bunun yerine, sürüm numaralarını kazmayı unutmayın.
Openai O4 ve O3 mini skoru yeni frontiermath sonuçlarında en yüksek puan
Güncellenen sonuçlar, akıl yürütme ile Openai O4’ü en iyi şekilde gerçekleştirerek% 15 ile% 19 arasında puan veriyor. Bunu openai O3 mini, üçüncü sırada O3 izledi. Diğer sıralamalar şunları içerir:
- Openai O1
- Grok-3 mini
- Claude 3.7 Sonnet (16K)
- Grok-3
- Claude 3.7 sonnet (64k)
Epoch AI testi bağımsız olarak yönetmesine rağmen, Openai orijinal olarak FrontierMath’i görevlendirdi ve içeriğine sahip.
AI kıyaslama eleştirileri
Kıyaslamalar, üretken AI modellerini karşılaştırmanın yaygın bir yoludur, ancak eleştirmenler sonuçların test tasarımı veya şeffaflık eksikliğinden etkilenebileceğini söylüyor. Temmuz 2024’teki bir çalışma, kriterlerin genellikle dar görev doğruluğunu aşırı vurguladığı ve sağlam olmayan değerlendirme uygulamalarından muzdarip olduğu endişelerini dile getirdi.
Kaynak: https://www.techrepublic.com/article/news-openai-generative-ai-models-frontiermath-score/