Bir şirket yeni bir yapay zeka video oluşturucusunu piyasaya sürdüğünde, birisinin onu aktör Will Smith’in spagetti yerken videosunu çekmek için kullanması çok uzun sürmez.
Bu hem bir meme hem de bir referans noktası haline geldi: Yeni bir video oluşturucunun Smith’in bir kase erişteyi höpürdeterek yutmasını gerçekçi bir şekilde oluşturup oluşturamayacağını görmek. Smith, Şubat ayında bir Instagram gönderisinde bu trendin parodisini yapmıştı.
Google Veo 2 bunu başardı.
Artık sonunda spagetti yiyoruz. pic.twitter.com/AZO81w8JC0
— Jerrod Lew (@jerrod_lew) 17 Aralık 2024
Will Smith ve makarna, 2024’te yapay zeka topluluğunu kasıp kavuracak birkaç tuhaf “gayri resmi” kriterden yalnızca biri. 16 yaşındaki bir geliştirici, yapay zekanın Minecraft üzerinde kontrol sahibi olmasını sağlayan ve yapılar tasarlama yeteneğini test eden bir uygulama geliştirdi. Başka bir yerde İngiliz bir programcı, yapay zekanın Pictionary ve Connect 4 gibi oyunları birbirine karşı oynadığı bir platform yarattı.
Yapay zekanın performansına ilişkin daha fazla akademik test yok gibi değil. Peki neden daha tuhaf olanlar havaya uçtu?
Birincisi, endüstri standardı yapay zeka kriterlerinin çoğu, ortalama bir insana pek bir şey anlatmıyor. Şirketler sıklıkla yapay zekalarının Matematik Olimpiyatı sınavlarındaki soruları yanıtlama veya doktora düzeyindeki sorunlara makul çözümler bulma becerisinden bahsediyor. Ancak çoğu insan (sizinki de dahil) e-postalara yanıt vermek ve temel araştırmalar yapmak gibi şeyler için sohbet robotlarını kullanıyor.
Kitle kaynaklı sektör önlemlerinin mutlaka daha iyi veya daha bilgilendirici olması gerekmez.
Örneğin, birçok yapay zeka meraklısının ve geliştiricinin takıntılı bir şekilde takip ettiği halka açık bir kıyaslama olan Chatbot Arena’yı ele alalım. Chatbot Arena, web üzerindeki herkesin yapay zekanın bir web uygulaması oluşturmak veya bir görüntü oluşturmak gibi belirli görevlerde ne kadar iyi performans gösterdiğini değerlendirmesine olanak tanır. Ancak değerlendiriciler temsili olma eğiliminde değiller (çoğu yapay zeka ve teknoloji sektörü çevrelerinden geliyor) ve oylarını kişisel, belirlenmesi zor tercihlere göre veriyorlar.
Wharton’da yönetim profesörü olan Ethan Mollick, yakın zamanda X’teki bir gönderisinde, birçok yapay zeka endüstrisi kıyaslamasındaki başka bir soruna dikkat çekti: bir sistemin performansını ortalama bir insanınkiyle karşılaştırmıyorlar.
Mollick, “Tıpta, hukukta, tavsiye kalitesinde vb. farklı kuruluşlardan 30 farklı kriterin bulunmaması gerçekten utanç verici, çünkü insanlar bu şeyler için sistemleri kullanıyor” diye yazdı.
Connect 4, Minecraft ve Will Smith’in spagetti yemesi gibi tuhaf yapay zeka testleri kesinlikle Olumsuz ampirik – hatta bunların hepsi genelleştirilebilir. Bir yapay zekanın Will Smith testini başarması onun örneğin iyi bir burger üreteceği anlamına gelmez.
Yapay zeka kıyaslamaları hakkında konuştuğum bir uzman, yapay zeka topluluğunun, yapay zekanın dar alanlardaki yeteneği yerine aşağı yöndeki etkilerine odaklanmasını önerdi. Bu mantıklı. Ancak tuhaf kriterlerin yakın zamanda ortadan kalkmayacağına dair bir his var içimde. Sadece eğlenceli değiller; yapay zekanın Minecraft kaleleri inşa etmesini izlemeyi kim sevmez ki? – ama anlaşılması kolaydır. Meslektaşım Max Zeff’in yakın zamanda yazdığı gibi, endüstri yapay zeka gibi karmaşık bir teknolojiyi sindirilebilir pazarlamaya dönüştürmekle boğuşmaya devam ediyor.
Aklımdaki tek soru şu: 2025’te hangi yeni kriterler viral olacak?
Kaynak: https://techcrunch.com/2024/12/31/will-smith-eating-spaghetti-and-other-weird-ai-benchmarks-that-took-off-in-2024/