Yapay zeka için matematik kıyaslamaları geliştiren bir kuruluş, nispeten yakın zamana kadar OpenAI’den fon aldığını açıklamadı ve bu da yapay zeka topluluğundaki bazı kişilerin uygunsuzluk iddialarına yol açtı.

Esas olarak bir araştırma ve hibe vakfı olan Open Philanthropy tarafından finanse edilen kar amacı gütmeyen bir kuruluş olan Epoch AI, 20 Aralık’ta OpenAI’nin FrontierMath’in oluşturulmasını desteklediğini açıkladı. Bir yapay zekanın matematiksel becerilerini ölçmek için tasarlanmış, uzman düzeyindeki problemleri içeren bir test olan FrontierMath, OpenAI’nin yakında çıkacak olan amiral gemisi yapay zeka o3’ü tanıtmak için kullandığı ölçütlerden biriydi.

Epoch AI yüklenicisi olan ve “Meemi” kullanıcı adını kullanan LessWrong forumdaki bir gönderide, FrontierMath kıyaslamasına katkıda bulunan birçok kişinin OpenAI’nin katılımı hakkında kamuya açıklanana kadar bilgilendirilmediğini söylüyor.

Meemi, “Bu konudaki iletişim şeffaf değildi” diye yazdı. “Benim görüşüme göre Epoch AI, OpenAI finansmanını açıklamalıydı ve yükleniciler, bir kıyaslama üzerinde çalışıp çalışmamayı seçerken, çalışmalarının yetenekler için kullanılma potansiyeli hakkında şeffaf bilgiye sahip olmalı.”

Sosyal medyada bazı kullanıcılar, gizliliğin FrontierMath’in objektif bir kriter olarak itibarını zedeleyebileceği yönündeki endişelerini dile getirdi. OpenAI, FrontierMath’i desteklemenin yanı sıra, karşılaştırmadaki birçok soruna ve çözüme de erişime sahipti; bu, Epoch AI’nin, o3’ün duyurulduğu 20 Aralık’tan önce açıklamadığı bir gerçekti.

Epoch AI direktör yardımcısı ve kuruluşun kurucu ortaklarından biri olan Tamay Beşiroğlu, Meemi’nin gönderisine yanıt olarak FrontierMath’in bütünlüğünün tehlikeye atılmadığını ileri sürdü ancak Epoch AI’nin daha fazlasını yapmamakla “bir hata yaptığını” kabul etti. şeffaf.

Beşiroğlu, “O3’ün lansmanına kadar ortaklığı açıklamamız yasaktı ve geriye dönüp baktığımızda, kıyaslama katılımcılarına mümkün olan en kısa sürede şeffaf olabilmek için daha sıkı pazarlık yapmamız gerekirdi” diye yazdı. “Matematikçilerimiz çalışmalarına kimin erişebileceğini bilmeyi hak ediyordu. Söyleyebileceklerimiz sözleşme gereği sınırlı olsa da, katılımcılarımıza karşı şeffaflığı OpenAI ile olan anlaşmamızın tartışılamaz bir parçası haline getirmeliydik.”

Beşiroğlu, OpenAI’nin FrontierMath’e erişimi olmasına rağmen, Epoch AI ile FrontierMath’in problem setini yapay zekayı eğitmek için kullanmama konusunda “sözlü bir anlaşmaya” sahip olduğunu ekledi. (Bir yapay zekayı FrontierMath konusunda eğitmek, testi öğretmeye benzer.) Beşiroğlu, Epoch AI’nın ayrıca FrontierMath kıyaslama sonuçlarının bağımsız olarak doğrulanması için ek bir koruma görevi gören “ayrı bir koruma seti”ne sahip olduğunu söyledi.

Beşiroğlu, “OpenAI… ayrı, görünmeyen bir koruma seti sürdürme kararımızı tamamen destekledi” diye yazdı.

Ancak Epoch AI baş matematikçisi Ellot Glazer, Reddit’teki bir gönderide suyu bulandırarak Epoch AI’nin OpenAI’nin FrontierMath o3 sonuçlarını bağımsız olarak doğrulayamadığını belirtti.

“Benim kişisel görüşüm şu [OpenAI’s] Glazer, puanın yasal olduğunu (yani veri seti üzerinde eğitim almadıklarını) ve dahili kıyaslama performansları hakkında yalan söylemeye teşvik edilmediklerini söyledi. “Ancak bağımsız değerlendirmemiz tamamlanana kadar onlara kefil olamayız.”

Efsane, yapay zekayı değerlendirmek için ampirik kıyaslamalar geliştirmenin ve çıkar çatışması algısı yaratmadan kıyaslama geliştirme için gerekli kaynakları güvence altına almanın zorluğunun bir başka örneğidir.

Kaynak: https://techcrunch.com/2025/01/19/ai-benchmarking-organization-criticized-for-waiting-to-disclose-funding-from-openai/

Instagram’da satış yapmaya nasıl başlanır?

WordPress site kurma rehberi: Görsel destekli tam kurulumu

Bilgisayarı hızlandırmak için RAM mi SSD mi?

Laptop bataryasının bozuk olduğunu bu şekilde anlayabilirsiniz

Meta, Edits adında yeni bir CapCut rakibini duyurdu

Yapay zeka canlanıyor: Barmenlerden cerrahi yardımcılara ve köpek yavrularına kadar yarının robotları yolda

Palantir’e eleman almaktan 85. Otoyol’a uçak indirmeye kadar: savunma teknolojisinin en çılgın güç simsarı ile tanışın

Menü