Bir dizi veri etiketleme ve yapay zeka geliştirme hizmeti sunan, kâr amacı gütmeyen Yapay Zeka Güvenliği Merkezi (CAIS) ve Scale AI, öncü yapay zeka sistemleri için zorlu yeni bir kıyaslama yayınladı.
İnsanlığın Son Sınavı olarak adlandırılan kıyaslama, matematik, beşeri bilimler ve doğa bilimleri gibi konulara değinen binlerce kitle kaynaklı soruyu içeriyor. Değerlendirmeyi zorlaştırmak için sorular, diyagramlar ve görselleri içeren formatlar da dahil olmak üzere birden fazla formattadır.
Bir ön çalışmada, halka açık tek bir amiral gemisi yapay zeka sistemi, İnsanlığın Son Sınavında %10’dan daha iyi puan almayı başaramadı.
CAIS ve Scale AI, araştırmacıların “varyasyonları daha derinlemesine inceleyebilmesi” ve yeni AI modellerini değerlendirebilmesi için karşılaştırmayı araştırma topluluğuna açmayı planladıklarını söylüyor.
Kaynak: https://techcrunch.com/2025/01/23/even-some-of-the-best-ai-cant-beat-this-new-benchmark/