Google’ın Gemini’sinden Anthropic’in Claude’una ve OpenAI’nin GPT-4o’nun en son gizli sürümüne kadar tüm üretken yapay zeka modelleri halüsinasyon görüyor. Başka bir deyişle, modeller güvenilmez anlatıcılardır; bazen komik, bazen de problemli bir etki yaratacak şekilde.
Ancak tüm modeller aynı oranda bir şeyler oluşturmuyor. Ve dile getirdikleri yalanların türü, hangi bilgi kaynaklarına maruz kaldıklarına bağlı.
Cornell’deki araştırmacılar, Washington ve Waterloo üniversiteleri ve kar amacı gütmeyen araştırma enstitüsü AI2 tarafından yakın zamanda yapılan bir araştırma, GPT-4o gibi gerçekleri kontrol eden modellerle hukuk ve sağlıktan tarih ve coğrafyaya kadar çeşitli konularda yetkili kaynaklara karşı halüsinasyonları karşılaştırmayı amaçladı. Hiçbir modelin tüm konularda olağanüstü derecede iyi performans göstermediğini ve en az halüsinasyon gören modellerin bunu kısmen, aksi halde yanlış anlayacakları soruları yanıtlamayı reddettikleri için yaptıklarını buldular.
Cornell’de doktora öğrencisi ve araştırmanın ortak yazarlarından biri olan Wenting Zhao, TechCrunch’a şunları söyledi: “Çalışmamızdan elde edilen en önemli sonuç, model nesillerinin çıktılarına henüz tam olarak güvenemediğimizdir.” “Şu anda en iyi modeller bile halüsinasyon içermeyen metinleri yalnızca %35 oranında üretebiliyor.”
AI2’ye bağlı ayrı bir ekip tarafından yapılanlar da dahil olmak üzere, modellerin “gerçekliğini” araştırmaya yönelik başka akademik girişimler de oldu. Ancak Zhao, bu önceki testlerin modellere Wikipedia’da kolayca bulunabilecek yanıtlara sahip sorular sorduğunu belirtiyor; çoğu modelin Wikipedia verileriyle eğitildiği göz önüne alındığında, tam olarak en zor soru değil.
Karşılaştırma ölçütlerini daha zorlu hale getirmek ve insanların modellere sorduğu soru türlerini daha doğru bir şekilde yansıtmak için araştırmacılar, web’de şu konuları belirlediler: yapma Wikipedia referansı var. Testlerindeki soruların yarısından biraz fazlası Vikipedi kullanılarak yanıtlanamıyor (iyi bir önlem olarak Wikipedia kaynaklı bazı soruları da içeriyordu) ve kültür, coğrafya, astronomi, popüler kültür, finans, tıp, bilgisayar bilimi ve ünlüler gibi konulara değiniyor .
Araştırmacılar, çalışmaları için çoğu geçen yıl piyasaya sürülen bir düzineden fazla farklı popüler modeli değerlendirdi. GPT-4o’ya ek olarak, Meta’nın Llama 3 70B, Mistral’ın Mixtral 8x22B ve Cohere’s Command R+ gibi “açık” modellerinin yanı sıra Google’ın Perplexity’nin Sonar-Large (Llama’yı temel alan) gibi kapılı arka API modellerini de test ettiler. Gemini 1.5 Pro ve Anthropic’in Claude 3 Opus’u.
Sonuçlar, OpenAI, Anthropic ve diğer büyük üretken yapay zeka oyuncularının aksini iddia etmesine rağmen, modellerin bugünlerde daha az halüsinasyon görmediğini gösteriyor.
GPT-4o ve OpenAI’nin çok daha eski amiral gemisi GPT-3.5, kıyaslamada gerçeklere dayalı olarak doğru yanıtladıkları soruların yüzdesi bakımından hemen hemen aynı performansı gösterdi. (GPT-4o marjinal olarak daha iyiydi.) OpenAI’nin modelleri genel olarak en az halüsinasyona neden olan modellerdi, bunu Mixtral 8x22B, Command R ve Perplexity’nin Sonar modelleri izledi.
Ünlüler ve finansla ilgili sorular modellere en zor anları yaşattı, ancak coğrafya ve bilgisayar bilimleriyle ilgili soruları yanıtlamak modeller için en kolay sorulardı (belki de eğitim verileri bunlara daha fazla referans içerdiğinden). Yanıtın kaynağının Vikipedi olmadığı durumlarda, her model ortalama olarak daha az gerçeğe dayalı yanıtlar verdi (özellikle GPT-3.5 ve GPT-4o), bu da hepsinin ağırlıklı olarak Wikipedia içeriğinden yararlandığını gösteriyor.
Command R ve Perplexity’nin Sonar modelleri gibi bilgi için internette arama yapabilen modeller bile kıyaslamada “Wiki dışı” sorularla mücadele etti. Model boyutu pek önemli değildi; daha küçük modeller (örneğin Anthropic’in Claude 3 Haiku’su), kabaca daha büyük, görünüşte daha yetenekli modeller (örneğin Claude 3 Opus) kadar sıklıkta halüsinasyon görüyordu.
Peki tüm bunlar ne anlama geliyor ve satıcıların vaat ettiği iyileştirmeler nerede?
Satıcıların iddialarını abartmalarına izin vermeyeceğiz. Ancak daha hayırsever bir bakış açısı, kullandıkları kriterlerin bu amaca uygun olmamasıdır. Daha önce de yazdığımız gibi, yapay zeka değerlendirmelerinin çoğu olmasa da çoğu geçicidir ve önemli bağlamdan yoksundur ve Goodhart yasasının kurbanı olmaya mahkumdur.
Ne olursa olsun Zhao, halüsinasyon sorununun “uzun süre devam etmesini” beklediğini söylüyor.
“Makalemizdeki ampirik sonuçlar, halüsinasyonları azaltmak veya ortadan kaldırmak için bazı yöntemlerin vaat edilmesine rağmen, bu yöntemlerle elde edilebilecek gerçek iyileşmenin sınırlı olduğunu gösteriyor” dedi. “Ayrıca, analizimiz, kısmen insanlar tarafından yazılan eğitim verilerinin de halüsinasyonlar içerebilmesi nedeniyle internette bulunan bilgilerin bile çoğu zaman çelişkili olabileceğini ortaya koyuyor.”
Geçici bir çözüm, modelleri daha sık yanıt vermeyi reddedecek şekilde programlamak olabilir; bu, her şeyi bilen bir kişiye bu işi sonlandırmasını söylemenin teknik eşdeğeridir.
Araştırmacıların testinde Claude 3 Haiku, kendisine sorulan soruların yalnızca %72’sini yanıtladı ve geri kalanından kaçınmayı seçti. Çekimserlikleri hesaba kattığımızda, Claude 3 Haiku aslında bunların arasında en gerçekçi modeldi; en azından en az yalan söylediği anlamında.
Peki insanlar pek çok soruya cevap vermeyen bir model mi kullanacak? Zhao böyle düşünmüyor ve satıcıların zamanlarının ve çabalarının daha fazlasını halüsinasyon azaltıcı araştırmalara odaklamaları gerektiğini söylüyor. Halüsinasyonları tamamen ortadan kaldırmak mümkün olmayabilir, ancak bir modelin geliştirilmesi sırasında döngüdeki insan doğrulaması ve alıntılar yoluyla bunların hafifletilebileceğini ileri sürüyor.
Zhao, “Üretken yapay zeka modellerinin ürettiği bilgileri doğrulamak ve doğrulamak için insan uzmanların her zaman sürece dahil olmasını sağlamak için politikalar ve düzenlemelerin geliştirilmesi gerekiyor” diye ekledi. “Herhangi bir serbest metin için gelişmiş doğrulama araçları geliştirmek, gerçek içerik için alıntılar sağlamak ve halüsinasyonlu metinler için düzeltmeler sunmak gibi bu alanda önemli etkiler yaratacak çok sayıda fırsat hala mevcut.”
Kaynak: https://techcrunch.com/2024/08/14/study-suggests-that-even-the-best-ai-models-hallucinate-a-bunch/