Yapay genel zekaya (AGI) yönelik iyi bilinen bir test çözülmeye daha yakın. Ancak testin yaratıcıları, bunun iyi niyetli bir araştırma atılımından ziyade testin tasarımındaki kusurlara işaret ettiğini söylüyor.
Yapay zeka dünyasının önde gelen isimlerinden Francois Chollet, 2019 yılında “Yapay Genel Zeka için Soyut ve Muhakeme Derlemi”nin kısaltması olan ARC-AGI kriterini tanıttı. Francois, bir yapay zeka sisteminin eğitim aldığı veriler dışında yeni beceriler kazanıp kazanamayacağını değerlendirmek için tasarlanan ARC-AGI’nin, genel zekaya doğru ilerlemeyi ölçen tek yapay zeka testi olmaya devam ettiğini iddia ediyor (her ne kadar başka testler de önerilmiş olsa da).
Bu yıla kadar en iyi performansı gösteren yapay zeka, ARC-AGI’deki görevlerin yalnızca üçte birinden azını çözebiliyordu. Chollet, endüstrinin gerçek anlamda “akıl yürütme” yeteneğine sahip olmadığına inandığı büyük dil modellerine (LLM’ler) odaklanılmasını suçladı.
Şubat ayında X’te yayınlanan bir dizi gönderide, “LLM’ler tamamen ezbere bağlı olduklarından dolayı genelleme yapmakta zorlanıyorlar” dedi. “Eğitim verilerinde bulunmayan her şeyi analiz ediyorlar.”
Chollet’e göre Yüksek Lisans’lar istatistiksel makinelerdir. Pek çok örnek üzerinde eğitim alarak, bir e-postada “kime” ifadesinin genellikle “ilgili olabilir” ifadesinden önce gelmesi gibi tahminlerde bulunmak için bu örneklerdeki kalıpları öğrenirler.
Chollet, yüksek lisans öğrencilerinin “muhakeme kalıplarını” ezberleme yeteneğine sahip olabilmelerine rağmen, yeni durumlara dayalı “yeni muhakeme” üretmelerinin pek mümkün olmadığını ileri sürüyor. Chollet başka bir gönderisinde şöyle savundu: “Bir modelin, örtülü olsa bile, yeniden kullanılabilir bir temsilini öğrenmek için birçok örneği üzerinde eğitim almanız gerekiyorsa, ezberliyorsunuz demektir.”
Haziran ayında Chollet ve Zapier kurucu ortağı Mike Knoop, yüksek lisans öğrenimlerinin ötesindeki araştırmaları teşvik etmek amacıyla, ARC-AGI’yi yenebilecek açık kaynaklı yapay zeka oluşturmak için 1 milyon dolarlık bir yarışma başlattı. 17.789 başvurudan en iyileri %55,5 puan aldı; 2023’ün en skorer oyuncusundan ~%20 daha yüksek, ancak kazanmak için gereken %85 “insan seviyesi” eşiğinin altında.
Knoop, bunun AGI’ye ~%20 daha yakın olduğumuz anlamına gelmediğini söylüyor.
Bugün ARC Ödülü 2024’ün kazananlarını açıklıyoruz. Ayrıca yarışmadan öğrendiklerimiz hakkında kapsamlı bir teknik rapor yayınlıyoruz (bağlantı bir sonraki tweet’te).
Son teknoloji ürünü oran %33’ten %55,5’e çıktı; bu, 2020’den bu yana gördüğümüz en büyük tek yıllık artış.
— François Chollet (@fchollet) 6 Aralık 2024
Bir blog yazısında Knoop, ARC-AGI’ye yapılan başvuruların çoğunun “kaba kuvvet” kullanarak çözüme ulaşabildiğini söyleyerek, ARC-AGI görevlerinin “büyük bir kısmının” “[don’t] genel zekaya yönelik çok yararlı sinyaller taşıyor.”
ARC-AGI, farklı renkli karelerden oluşan bir ızgara verildiğinde yapay zekanın doğru “cevap” ızgarasını oluşturması gereken bulmaca benzeri sorunlardan oluşur. Sorunlar, yapay zekayı daha önce görmediği yeni sorunlara uyum sağlamaya zorlamak için tasarlandı. Ancak bunu başardıkları belli değil.
“[ARC-AGI] Knoop, 2019’dan bu yana değişmediğini ve mükemmel olmadığını belirtti.
Francois ve Knoop, AGI tanımının hararetle tartışıldığı bir dönemde, AGI’ye kıyasla ARC-AGI’yi aşırı sattıkları için de eleştirilere maruz kaldılar. Bir OpenAI personeli yakın zamanda, eğer YGZ’yi “çoğu görevde çoğu insandan daha iyi” olarak tanımlarsak YGZ’nin “zaten” başarıldığını iddia etti.
Knoop ve Chollet, 2025 yarışmasının yanı sıra bu sorunları çözmek için ikinci nesil bir ARC-AGI kıyaslamasını yayınlamayı planladıklarını söylüyor. Chollet, bir X gönderisinde şöyle yazdı: “Araştırma topluluğunun çabalarını yapay zekadaki en önemli çözülmemiş sorunlar olarak gördüğümüz şeylere yönlendirmeye ve AGI’ye yönelik zaman çizelgesini hızlandırmaya devam edeceğiz.”
Düzeltmeler muhtemelen kolay olmayacak. İlk ARC-AGI testinin eksiklikleri herhangi bir gösterge ise, yapay zeka için zekanın tanımlanması, insanlar için olduğu kadar zorlu ve kışkırtıcı olacaktır.
Kaynak: https://techcrunch.com/2024/12/09/a-test-for-agi-is-closer-to-being-solved-but-it-may-be-flawed/