Google’ın amiral gemisi üretken yapay zeka modelleri Gemini 1.5 Pro ve 1.5 Flash’ın öne çıkan noktalarından biri, işleyebilecekleri ve analiz edebilecekleri varsayılan veri miktarıdır. Basın brifinglerinde ve demolarda Google, modellerin yüzlerce sayfalık belgeleri özetlemek veya film çekimindeki sahneler arasında arama yapmak gibi “uzun bağlamları” sayesinde daha önce imkansız olan görevleri yerine getirebileceğini defalarca iddia etti.
Ancak yeni araştırmalar, modellerin aslında bu konularda pek iyi olmadığını gösteriyor.
İki ayrı çalışma, Google’ın Gemini modellerinin ve diğerlerinin muazzam miktarda veriden ne kadar iyi anlam çıkardığını araştırdı – “Savaş ve Barış” uzunluktaki çalışmaları düşünün. Her ikisi de Gemini 1.5 Pro ve 1.5 Flash’ın büyük veri kümeleriyle ilgili soruları doğru yanıtlamakta zorlandığını tespit etti; Belgeye dayalı bir dizi testte modeller yalnızca %40 ila %50 oranında doğru yanıtı verdi.
UMass Amherst’te doktora sonrası araştırmacısı ve bunlardan birinin ortak yazarı Marzena Karpinska, “Gemini 1.5 Pro gibi modeller teknik olarak uzun bağlamları işleyebilirken, modellerin aslında içeriği ‘anlamadığını’ gösteren birçok durum gördük” dedi. TechCrunch’a konuşan çalışmalar.
Gemini’nin bağlam penceresi eksik
Bir modelin bağlamı veya bağlam penceresi, modelin çıktı (örneğin ek metin) oluşturmadan önce dikkate aldığı girdi verilerini (örneğin metin) ifade eder. Basit bir soru: “2020 ABD başkanlık seçimini kim kazandı?” — bir film senaryosu, şov veya ses klibi gibi bağlam görevi görebilir. Bağlam pencereleri büyüdükçe bunlara sığan belgelerin boyutu da artar.
Gemini’nin en yeni sürümleri bağlam olarak 2 milyondan fazla jetonu alabiliyor. (“Jetonlar”, “fantastic” sözcüğündeki “fan”, “tas” ve “tic” heceleri gibi alt bölümlere ayrılmış ham veri parçalarıdır.) Bu yaklaşık 1,4 milyon kelimeye, iki saatlik videoya veya 22 saatlik sese eşdeğerdir. — piyasada bulunan herhangi bir modelin en geniş bağlamı.
Bu yılın başlarında yapılan bir brifingde Google, Gemini’nin uzun bağlam yeteneklerinin potansiyelini göstermeyi amaçlayan önceden kaydedilmiş birkaç demo gösterdi. Bunlardan biri Gemini 1.5 Pro’nun, Apollo 11’in aya iniş yayınının transkriptini (yaklaşık 402 sayfa) şakalar içeren alıntılar için aramasını ve ardından yayında karakalem taslağına benzeyen bir sahne bulmasını sağladı.
Brifingi yöneten Google DeepMind Oriol Vinyals’ın araştırma başkan yardımcısı, modeli “büyülü” olarak nitelendirdi.
“[1.5 Pro] bu tür muhakeme görevlerini her sayfada, her kelimede gerçekleştiriyor” dedi.
Bu bir abartı olabilir.
Bu yetenekleri karşılaştıran yukarıda bahsedilen çalışmalardan birinde Karpinska, Allen Yapay Zeka Enstitüsü ve Princeton’dan araştırmacılarla birlikte, modellerden İngilizce yazılmış kurgu kitaplar hakkındaki doğru/yanlış ifadeleri değerlendirmelerini istedi. Araştırmacılar, modellerin önceden bilgiye dayanarak “hile yapmaması” için son çalışmaları seçtiler ve ifadeleri, kitapları bütünüyle okumadan anlaşılması imkansız olan belirli ayrıntılara ve olay örgüsüne göndermelerle süslediler.
Gemini 1.5 Pro ve 1.5 Flash, “Nsis, Apoth olarak becerilerini kullanarak, Rona’nın tahta sandığında bulunan reaktif anahtarıyla açılan portal tipini tersine çevirebiliyor” gibi bir ifade verildiğinde, ilgili kitabı almış olan Gemini 1.5 Pro ve 1.5 Flash, ilgili kitabı almak zorunda kaldı. ifadenin doğru mu yanlış mı olduğunu söyleyin ve gerekçelerini açıklayın.
Yaklaşık 260.000 kelime (~520 sayfa) uzunluğundaki bir kitapta test edilen araştırmacılar, 1.5 Pro’nun doğru/yanlış ifadelerine %46,7 oranında doğru yanıt verdiğini, Flash’ın ise yalnızca %20 oranında doğru yanıt verdiğini buldu. Bu, bir coinin kitapla ilgili soruları yanıtlamada Google’ın en son makine öğrenimi modelinden çok daha iyi olduğu anlamına geliyor. Tüm kıyaslama sonuçlarının ortalaması alındığında, her iki model de soru cevap doğruluğu açısından rastgele şansın üzerinde bir başarı elde edemedi.
Karpinska, “Modellerin, kitabın daha büyük bölümlerinin, hatta kitabın tamamının dikkate alınmasını gerektiren iddiaları doğrulamada, cümle düzeyinde kanıt alınarak çözülebilecek iddialara kıyasla daha fazla zorluk yaşadığını fark ettik” dedi. “Niteliksel olarak, modellerin, insan okuyucu için açık olan ancak metinde açıkça belirtilmeyen örtülü bilgilere ilişkin iddiaları doğrulamakta zorlandığını da gözlemledik.”
UC Santa Barbara’daki araştırmacıların ortak yazdığı iki çalışmadan ikincisi, Gemini 1.5 Flash’ın (ancak 1.5 Pro değil) videolar üzerinde “akıl yürütme” (yani, içindeki içerikle ilgili soruları arama ve yanıtlama) yeteneğini test etti. .
Ortak yazarlar, modelin resimlerde tasvir edilen nesneler hakkında yanıt vermesi için sorularla (örneğin, “Bu pastanın üzerinde hangi çizgi film karakteri var?”) eşleştirilen resimlerden (örneğin, bir doğum günü pastasının fotoğrafı) oluşan bir veri seti oluşturdular. Modelleri değerlendirmek için görüntülerden birini rastgele seçtiler ve slayt gösterisi benzeri görüntüler oluşturmak için önüne ve arkasına “dikkat dağıtıcı” görüntüler eklediler.
Flash o kadar da iyi performans göstermedi. Modelin 25 görüntüden oluşan bir “slayt gösterisinden” el yazısıyla yazılmış altı rakamı yazıya döktüğü bir testte Flash, çevirilerin yaklaşık %50’sini doğru yaptı. Doğruluk sekiz haneli olarak %30 civarına düştü.
UC Santa Barbara’da doktora öğrencisi ve çalışmanın ortak yazarlarından biri olan Michael Saxon, TechCrunch’a şöyle konuştu: “Resimler üzerinden gerçek soru cevaplama görevlerinde, test ettiğimiz tüm modeller için özellikle zor görünüyor.” “Bir sayının bir çerçeve içinde olduğunu fark etmek ve onu okumak gibi küçük bir mantık yürütme, modeli bozan şey olabilir.”
Google, Gemini konusunda aşırı vaatlerde bulunuyor
Çalışmaların hiçbiri hakem incelemesinden geçmedi ve Gemini 1.5 Pro ve 1.5 Flash’ın 2 milyon token içerikli sürümlerini araştırmıyor. (Her ikisi de 1 milyon jetonlu bağlam sürümlerini test etti.) Ve Flash’ın performans açısından Pro kadar yetenekli olması amaçlanmamıştır; Google bunu düşük maliyetli bir alternatif olarak tanıtıyor.
Bununla birlikte, her ikisi de Google’ın Gemini ile başından beri aşırı vaat ettiği ve yetersiz teslim ettiği yangını körüklüyor. OpenAI’nin GPT-4o ve Anthropic’in Claude 3.5 Sonnet’i de dahil olmak üzere araştırmacıların test ettiği modellerden hiçbiri iyi performans göstermedi. Ancak Google, reklamlarında bağlam penceresinin en üst düzeyde faturalandırılmasını sağlayan tek model sağlayıcıdır.
Saxon, “Nesnel teknik ayrıntılara dayanarak ‘Modelimiz X sayıda token alabilir’ şeklindeki basit iddiada yanlış bir şey yok” dedi. “Ama soru şu ki, onunla ne gibi yararlı şeyler yapabilirsiniz?”
İşletmeler (ve yatırımcılar) teknolojinin sınırlamalarından dolayı hayal kırıklığına uğradıkça, genel olarak üretken yapay zeka giderek daha fazla inceleme altına alınıyor.
Boston Consulting Group tarafından yakın zamanda yapılan bir çift ankette, yanıt verenlerin yaklaşık yarısı (tümü üst düzey yöneticiler) üretken yapay zekanın önemli üretkenlik kazanımları getirmesini beklemediklerini ve hata potansiyelinden endişe duyduklarını söyledi. üretken yapay zeka destekli araçlardan kaynaklanan veri uzlaşmaları. PitchBook kısa bir süre önce, üretken yapay zeka anlaşmalarının en erken aşamalarda üst üste iki çeyrek boyunca azaldığını ve 2023’ün üçüncü çeyreğindeki zirve noktasına göre %76 düşüş yaşadığını bildirdi.
İnsanlar hakkında kurgusal ayrıntılar ortaya çıkaran toplantı özetleyici sohbet robotları ve temelde intihal üreten yapay zeka arama platformlarıyla karşı karşıya kalan müşteriler, gelecek vaat eden farklılaştırıcıların peşinde. Üretken yapay zeka rakiplerine yetişmek için zaman zaman beceriksizce yarışan Google, Gemini’nin bağlamını bu farklılaştırıcı unsurlardan biri haline getirmek konusunda çaresizdi.
Ama görünen o ki bu bahis erkendi.
Karpinska, “Uzun belgeler üzerinde ‘akıl yürütmenin’ veya ‘anlamanın’ gerçekleştiğini gerçekten gösterecek bir yola karar vermedik ve temelde bu modelleri yayınlayan her grup, bu iddiaları öne sürmek için kendi özel değerlendirmelerini bir araya getiriyor,” dedi. . “Bağlam işlemenin ne kadar süreyle uygulandığına dair bilgi olmadan ve şirketler bu ayrıntıları paylaşmadan bu iddiaların ne kadar gerçekçi olduğunu söylemek zor.”
Google, yorum talebine yanıt vermedi.
Hem Saxon hem de Karpinska, üretken yapay zekayla ilgili abartılı iddialara karşı panzehirlerin daha iyi kriterler olduğuna ve aynı şekilde üçüncü tarafların eleştirisine daha fazla vurgu yapıldığına inanıyor. Saxon, uzun bağlam için en yaygın testlerden biri olan (Google’ın pazarlama materyallerinde bolca alıntı yaptığı) “samanlıktaki iğne” testinin yalnızca bir modelin veri kümelerinden adlar ve sayılar gibi belirli bilgileri alma yeteneğini ölçtüğünü belirtiyor – cevap değil Bu bilgiyle ilgili karmaşık sorular.
Saxon, “Bu modelleri kullanan tüm bilim insanları ve mühendislerin çoğu, mevcut kıyaslama kültürümüzün bozulduğu konusunda hemfikir” dedi ve şöyle devam etti: “Bu nedenle, halkın, ‘karşılaştırmalar arası genel zeka’ gibi rakamlar içeren bu dev raporları büyük bir dikkatle ele almayı anlaması önemlidir.” tuz tanesi.”
Kaynak: https://techcrunch.com/2024/06/29/geminis-data-analyzing-abilities-arent-as-good-as-google-claims/