Hugging Face’in güncellenmiş skor tablosu yapay zeka değerlendirme oyununu sarsıyor

Yalnızca VentureBeat Transform 2024’te OpenAI, Chevron, Nvidia, Kaiser Permanente ve Capital One liderlerini kaçırmayın. Bu üç günlük özel etkinlikte GenAI hakkında önemli bilgiler edinin ve ağınızı genişletin. Daha fazla bilgi edin

Hugging Face, açık kaynaklı yapay zeka geliştirme ortamını yeniden şekillendirebilecek bir hamleyle, Open LLM Liderlik Tablosunda önemli bir yükseltme. Araştırmacılar ve şirketler, büyük dil modelleri (LLM’ler) için performans kazanımlarında belirgin bir durgunlukla boğuşurken, bu yenileme yapay zeka geliştirmede kritik bir dönemeçte geliyor.

LLM Skor Tablosunu AçYapay zeka dil modellerindeki ilerlemeyi ölçmek için mihenk taşı haline gelen bir kıyaslama aracı olan , daha titiz ve incelikli değerlendirmeler sağlayacak şekilde yeniden düzenlendi. Bu güncelleme, yeni modellerin sürekli olarak piyasaya sürülmesine rağmen yapay zeka topluluğunun çığır açan iyileştirmelerde bir yavaşlama gözlemlediği bir dönemde geldi.

Yepyeni açık LLM sıralama tablosunu duyurmak için heyecanlandık. Tüm büyük açık LLM’ler için MMLU-pro gibi yeni değerlendirmeleri yeniden yürütmek amacıyla 300 H100 harcadık!
Bazı öğrenmeler:
– Qwen 72B kraldır ve genel olarak Çin açık modelleri hakimdir
– Önceki değerlendirmeler son zamanlarda çok kolaylaştı…
– clem mi? (@ClementDelangue) 26 Haziran 2024

Platoyu ele almak: Çok yönlü bir yaklaşım

Liderlik tablosunun yenilenmesi, daha karmaşık değerlendirme metriklerini tanıtıyor ve kullanıcıların belirli uygulamalar için hangi testlerin en alakalı olduğunu anlamalarına yardımcı olacak ayrıntılı analizler sağlıyor. Bu hareket, yapay zeka topluluğunda ham performans rakamlarının tek başına önemli olduğuna dair artan farkındalığı yansıtıyor. yetersiz Bir modelin gerçek dünyadaki faydasını değerlendirmek için.

Skor tablosundaki önemli değişiklikler şunları içerir:

VB Transform 2024’e Geri Sayım

Amiral gemisi yapay zeka etkinliğimiz için 9-11 Temmuz tarihleri arasında San Francisco’daki kurumsal liderlere katılın. Meslektaşlarınızla bağlantı kurun, Üretken Yapay Zekanın fırsatlarını ve zorluklarını keşfedin ve Yapay Zeka uygulamalarını sektörünüze nasıl entegre edeceğinizi öğrenin. Şimdi üye Ol

Gelişmiş akıl yürütmeyi ve gerçek dünyadaki bilgi uygulamasını test eden daha zorlu veri kümelerinin tanıtılması.
Modellerin konuşma becerilerini daha kapsamlı bir şekilde değerlendirmek için çok aşamalı diyalog değerlendirmelerinin uygulanması.
Küresel yapay zeka yeteneklerini daha iyi temsil etmek için İngilizce dışındaki dil değerlendirmelerinin genişletilmesi.
Pratik uygulamalar için önemi giderek artan, talimatları takip etme ve birkaç adımlık öğrenme için testlerin dahil edilmesi.

Bu güncellemeler, en iyi performans gösteren modeller arasında daha iyi ayrım yapabilecek ve iyileştirilecek alanları tanımlayabilecek daha kapsamlı ve zorlu bir kıyaslama seti oluşturmayı amaçlıyor.

Yüksek Lisans performansları durağanlaşıyor… bu yüzden Açık Yüksek Lisans Sıralamasını yeniden dikleştirmeye karar verdik ?️ ?
Skor Tablosu ile Tanışın 2️⃣
Beklemek…
– yeni kriterler
– daha adil raporlama
– harika özellikler (oylama ve sohbet şablonunu duydum mu?)
?https://t.co/6uKKuTSFrX
— Clémentine Fourrier mi? (@clefourrier) 26 Haziran 2024

LMSYS Chatbot Arena: Tamamlayıcı bir yaklaşım

Open LLM Leaderboard’un güncellemesi, diğer kuruluşların yapay zeka değerlendirmesindeki benzer zorlukları ele alma çabalarına paralellik gösteriyor. Özellikle, LMSYS Chatbot ArenasıMayıs 2023’te araştırmacılar tarafından başlatıldı. Kaliforniya Üniversitesi, Berkeley Ve Büyük Model Sistemler Organizasyonuyapay zeka modeli değerlendirmesine farklı ama tamamlayıcı bir yaklaşım getiriyor.

Open LLM Leaderboard statik kıyaslamalara ve yapılandırılmış görevlere odaklanırken, Chatbot Arenası Doğrudan kullanıcı etkileşimleri yoluyla gerçek dünyadaki dinamik değerlendirmeyi vurgular. Chatbot Arena’nın temel özellikleri şunları içerir:

Kullanıcıların anonimleştirilmiş yapay zeka modelleriyle görüşmelere katıldığı canlı, topluluk odaklı değerlendirmeler.
Modeller arasında ikili karşılaştırmalar yapılır ve kullanıcılar hangisinin daha iyi performans gösterdiğine oy verir.
Hem ticari hem de açık kaynaklı modeller de dahil olmak üzere 90’dan fazla LLM’yi değerlendiren geniş bir kapsam.
Model performans trendlerine ilişkin düzenli güncellemeler ve bilgiler.

Chatbot Arena’nın yaklaşımı, sürekli, çeşitli ve gerçek dünyaya ait test senaryoları sağlayarak statik kıyaslamaların bazı sınırlamalarının giderilmesine yardımcı olur. Onun tanıtımı “Sert İstemlerBu yılın mayıs ayındaki kategorisi, Open LLM Leaderboard’un daha zorlu değerlendirmeler oluşturma hedefiyle daha da uyumlu.

Yapay zeka ortamına yönelik çıkarımlar

Paralel çabalar LLM Skor Tablosunu Aç ve LMSYS Chatbot Arenası AI gelişimindeki önemli bir eğilimin altını çizin: Modeller giderek daha yetenekli hale geldikçe daha karmaşık, çok yönlü değerlendirme yöntemlerine duyulan ihtiyaç.

Kurumsal karar vericiler için bu gelişmiş değerlendirme araçları, yapay zeka yeteneklerine ilişkin daha ayrıntılı bir görünüm sunar. Yapılandırılmış kıyaslamaların ve gerçek dünya etkileşim verilerinin birleşimi, bir modelin güçlü ve zayıf yönlerine ilişkin daha kapsamlı bir resim sağlar; bu, yapay zekanın benimsenmesi ve entegrasyonu konusunda bilinçli kararlar vermek için çok önemlidir.

Dahası, bu girişimler yapay zeka teknolojisinin geliştirilmesinde açık ve işbirlikçi çabaların öneminin altını çiziyor. Şeffaf, topluluk odaklı değerlendirmeler sağlayarak, açık kaynak yapay zeka topluluğunda sağlıklı bir rekabet ve hızlı inovasyon ortamını teşvik ederler.

İleriye bakmak: Zorluklar ve fırsatlar

Yapay zeka modelleri gelişmeye devam ettikçe değerlendirme yöntemlerinin de buna ayak uydurması gerekiyor. Open LLM Lider Tablosunda yapılan güncellemeler ve LMSYS Chatbot Arena’nın devam eden çalışmaları bu yönde atılan önemli adımları temsil ediyor ancak zorluklar devam ediyor:

Yapay zeka yetenekleri geliştikçe karşılaştırmalı değerlendirmelerin güncel ve zorlu kalmasını sağlamak.
Standart testlere duyulan ihtiyacı gerçek dünya uygulamalarının çeşitliliğiyle dengelemek.
Değerlendirme yöntemleri ve veri kümelerindeki potansiyel önyargıların ele alınması.
Yalnızca performansı değil aynı zamanda güvenlik, güvenilirlik ve etik hususları da değerlendirebilecek ölçümler geliştirmek.

Yapay zeka topluluğunun bu zorluklara tepkisi, yapay zeka gelişiminin gelecekteki yönünü şekillendirmede çok önemli bir rol oynayacak. Modeller birçok görevde insan düzeyindeki performansa ulaşıp onu aştıkça, odak noktası daha özelleştirilmiş değerlendirmelere, çok modlu yeteneklere ve yapay zekanın bilgiyi alanlar arasında genelleştirme becerisine ilişkin değerlendirmelere doğru kayabilir.

Şimdilik, Open LLM Leaderboard’da yapılan güncellemeler ve LMSYS Chatbot Arena’nın tamamlayıcı yaklaşımı, hızla gelişen yapay zeka ortamında yol alan araştırmacılar, geliştiriciler ve karar vericiler için değerli araçlar sağlıyor. Open LLM Leaderboard’a katkıda bulunanlardan birinin belirttiği gibi, “Bir dağa tırmandık. Şimdi bir sonraki zirveyi bulma zamanı.”

VB Günlük

Haberdar kalın! En son haberleri günlük olarak gelen kutunuza alın

Abone olarak VentureBeat’in şartlarını kabul etmiş olursunuz Kullanım Şartları.

Abone olduğun için teşekkürler. Daha fazlasına göz atın VB bültenleri burada.

Bir hata oluştu.

Kaynak: https://venturebeat.com/ai/hugging-faces-updated-leaderboard-shakes-up-the-ai-evaluation-game/

Yorum yap

Hugging Face’in güncellenmiş skor tablosu yapay zeka değerlendirme oyununu sarsıyor

Platoyu ele almak: Çok yönlü bir yaklaşım

LMSYS Chatbot Arena: Tamamlayıcı bir yaklaşım

Yapay zeka ortamına yönelik çıkarımlar

İleriye bakmak: Zorluklar ve fırsatlar

İlgili haberler: