GPT-4o ve Gemini 1.5 Pro gibi en yeni dil modelleri, metinlerin yanı sıra görüntüleri ve sesleri de anlayabilen “çok modlu” olarak lanse ediliyor – ancak yeni bir çalışma, bunların gerçekten anlamadığını açıkça ortaya koyuyor Görmek beklediğiniz şekilde. Aslında hiç göremeyebilirler.
Açıkça söylemek gerekirse, hiç kimse “Bu yapay zeka, insanlar gibi görebiliyor!” gibi bir iddiada bulunmadı. (Eh… belki bazıları öyledir.) Ancak bu modelleri tanıtmak için kullanılan pazarlama ve kıyaslamalarda “görme yetenekleri”, “görsel anlayış” vb. ifadeler kullanılıyor. Modelin görüntüleri ve videoları nasıl gördüğü ve analiz ettiği hakkında konuşuyorlar, böylece ev ödevi sorunlarından oyunu izlemeye kadar her şeyi sizin için yapabiliyor.
Yani bu şirketlerin iddiaları ustaca ifade edilmiş olsa da, modelin kelimenin tam anlamıyla gördüğünü ifade etmek istedikleri açık. Ve öyle de yapıyor – ama aynı şekilde matematik yaptığı veya hikaye yazdığı gibi: girdi verilerindeki kalıpları eğitim verilerindeki kalıplarla eşleştiriyor. Bu, modellerin rastgele bir sayı seçmek gibi önemsiz görünen diğer bazı görevlerde olduğu gibi başarısız olmasına yol açar.
Auburn Üniversitesi ve Alberta Üniversitesi’ndeki araştırmacılar tarafından mevcut yapay zeka modellerinin görsel anlayışına ilişkin bazı yönlerden gayri resmi ancak sistematik bir çalışma gerçekleştirildi. En büyük multimodal modelleri, iki şeklin üst üste gelip gelmediğini veya bir resimde kaç tane beşgen bulunduğunu veya bir kelimedeki hangi harfin daire içine alındığını sormak gibi bir dizi çok basit görsel görev oluşturdular. (Burada özet bir mikro sayfa incelenebilir.)
Bunlar birinci sınıf öğrencisinin bile doğru anlayabileceği türden şeyler, ancak bu da yapay zeka modellerine büyük zorluk yaşattı.
“İnsanların %100 doğrulukla yerine getireceği 7 görevimiz son derece basit. Yapay zekaların da aynısını yapmasını bekliyoruz, ancak şu anda DEĞİLDİR,” diye yazdı ortak yazar Anh Nguyen TechCrunch’a gönderdiği bir e-postada. “Mesajımız şu: ‘Bakın, bu en iyi modeller HALA başarısız oluyor.’ “
Örtüşen şekiller testini yapın: Akla gelebilecek en basit görsel muhakeme görevlerinden biri. Hafifçe üst üste binen, sadece birbirine dokunan veya aralarında biraz mesafe bulunan iki daireyle sunulan modeller, her zaman doğru sonuca ulaşamadı. Elbette GPT-4o, birbirlerinden çok uzakta olduklarında %95’ten fazla doğru sonuç verdi, ancak sıfır veya küçük mesafelerde yalnızca %18 oranında doğru sonuç verdi! Gemini Pro 1.5 en iyisini yapıyor ancak yine de yakın mesafelerde yalnızca 7/10 alıyor.
(Çizimler modellerin tam performansını göstermemektedir ancak modellerin koşullar arasındaki tutarsızlığını göstermeyi amaçlamaktadır. Her modelin istatistikleri makalede yer almaktadır.)
Veya bir görüntüdeki birbirine kenetlenen dairelerin sayısını saymaya ne dersiniz? Ortalamanın üzerinde bir atın bunu yapabileceğine bahse girerim.
5 zil sesi olduğunda hepsi %100 doğru anlıyor; görsel yapay zeka harika iş! Ancak daha sonra bir halka eklemek sonuçları tamamen mahveder. İkizler kaybolmuştur, bir kere bile doğruyu yapamamaktadır. Sonnet-3.5, 6’ya yanıt veriyor… üçte bir oranında, GPT-4o ise yarıdan biraz daha az bir sürede. Başka bir yüzük eklemek işi daha da zorlaştırır, ancak başka bir yüzük eklemek bazıları için işi kolaylaştırır.
Bu deneyin amacı basitçe, bu modeller ne yapıyorsa yapsın, bizim gördüğümüzle aslında örtüşmediğini göstermektir. Sonuçta, kötü görseler bile 6, 7, 8 ve 9 halkalı görüntülerin başarı açısından bu kadar geniş çeşitlilik göstermesini beklemezdik.
Test edilen diğer görevler de benzer modeller gösterdi: Sorun, iyi ya da kötü görmeleri ya da akıl yürütmeleri değildi, ancak bir durumda sayma becerisine sahip olup diğerinde olamamasının başka bir nedeni var gibi görünüyordu.
Elbette potansiyel bir cevap doğrudan gözümüzün içine bakıyor: Neden 5 daireli bir görüntüyü düzeltmede bu kadar iyi oluyorlar da geri kalanında ya da 5 beşgen olduğunda bu kadar başarısız oluyorlar? (Adil olmak gerekirse, Sonnet-3.5 bu konuda oldukça başarılıydı.) Çünkü hepsinin antrenman verilerinde belirgin bir şekilde öne çıkan 5 dairelik bir resmi var: Olimpiyat Halkaları.
Bu logo yalnızca eğitim verilerinde defalarca tekrarlanmaz, aynı zamanda alternatif metinde, kullanım yönergelerinde ve onunla ilgili makalelerde muhtemelen ayrıntılı olarak açıklanır. Peki onların eğitim verilerinin neresinde birbirine kenetlenen 6 halkayı, yoksa 7’yi mi bulacaksınız? Eğer yanıtları bir gösterge ise… hiçbir yerde! Neye “baktıkları” hakkında hiçbir fikirleri yok ve halkaların, örtüşmelerin veya bu kavramlardan herhangi birinin ne olduğuna dair gerçek bir görsel anlayışları yok.
Araştırmacıların, modelleri sahip olmakla suçladıkları bu “körlük” hakkında ne düşündüklerini sordum. Kullandığımız diğer terimler gibi, tam olarak doğru olmasa da onsuz yapılması zor olan antropomorfik bir niteliğe sahiptir.
Nguyen, “Kabul ediyorum, ‘kör’ün insanlar için bile birçok tanımı var ve yapay zekaların gösterdiğimiz görüntülere karşı bu tür körlüğünü/duyarsızlığını ifade edecek bir kelime henüz yok” diye yazdı. “Şu anda bir modelin tam olarak ne gördüğünü görselleştirecek bir teknoloji yok. Ve davranışları, giriş metni isteminin, giriş görselinin ve milyarlarca ağırlığın karmaşık bir fonksiyonudur.”
Modellerin tamamen kör olmadığını ancak bir görüntüden elde ettikleri görsel bilginin yaklaşık ve soyut olduğunu, “sol tarafta bir daire var” gibi bir şey olduğunu öne sürdü. Ancak modellerin görsel yargılarda bulunma, bir görüntü hakkında bilgi sahibi olan ancak onu gerçekten göremeyen birinin tepkileri gibi tepki verme araçları yoktur.
Son bir örnek olarak Nguyen yukarıdaki hipotezi destekleyen şunu gönderdi:
Mavi bir daire ve yeşil bir daire üst üste bindiğinde (soru modeli gerçekmiş gibi kabul etmeye sevk ettiğinden), Venn diyagramında olduğu gibi genellikle camgöbeği gölgeli bir alan ortaya çıkar. Birisi size bu soruyu sorsa, siz veya herhangi bir akıllı kişi aynı cevabı verebilir, çünkü bu tamamen makuldür… eğer gözleriniz kapalıysa! Ama onların gözleri olan kimse yok açık bu şekilde cevap verirdi.
Bütün bunlar, bu “görsel” yapay zeka modellerinin işe yaramaz olduğu anlamına mı geliyor? Ne münasebet. Belirli görüntüler hakkında temel akıl yürütme yapamamak, onların temel yeteneklerinden söz eder, ancak spesifik yeteneklerinden söz etmez. Bu modellerin her biri muhtemelen insan eylemleri ve ifadeleri, günlük nesnelerin ve durumların fotoğrafları ve benzeri şeyler üzerinde oldukça doğru sonuçlar verecektir. Ve aslında onların yorumlamak istedikleri de budur.
Bu modellerin yapabileceği her şeyi bize anlatmak için yapay zeka şirketlerinin pazarlama faaliyetlerine güvenseydik, onların 20/20 vizyonuna sahip olduklarını düşünürdük. Model, bir kişinin oturuyor mu, yürüyor mu yoksa koşuyor mu olduğunu söylerken ne kadar doğru olursa olsun, bunu bizim kast ettiğimiz anlamda (eğer isterseniz) “görmeden” yaptıklarını göstermek için buna benzer araştırmalara ihtiyaç vardır.
Kaynak: https://techcrunch.com/2024/07/11/are-visual-ai-models-actually-blind/
Web sitemizde ziyaretçilerimize daha iyi hizmet sağlayabilmek adına bazı çerezler kullanıyoruz. Web sitemizi kullanmaya devam ederseniz çerezleri kabul etmiş sayılırsınız.
Gizlilik Politikası