Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Büyük dil modellerinin (LLM’ler) iyi bilinen bir sorunu, genellikle “” olarak adlandırılan, yanlış veya anlamsız çıktılar üretme eğilimleridir.halüsinasyonlar.” Pek çok araştırma bu hataları kullanıcının bakış açısından analiz etmeye odaklanmış olsa da, yeni çalışma araştırmacılar tarafından Teknik, Google Araştırması Ve Elma Yüksek Lisans’ların iç işleyişini araştırıyor ve bu modellerin daha önce düşünülenden çok daha derin bir doğruluk anlayışına sahip olduğunu ortaya koyuyor.
Halüsinasyon teriminin evrensel olarak kabul edilmiş bir tanımı yoktur ve çok çeşitli LLM hatalarını kapsar. Araştırmacılar, araştırmaları için, halüsinasyonların, olgusal yanlışlıklar, önyargılar, sağduyuya dayalı akıl yürütme başarısızlıkları ve diğer gerçek dünya hataları da dahil olmak üzere bir Yüksek Lisans tarafından üretilen tüm hataları kapsadığını dikkate alarak geniş bir yorumu benimsediler.
Halüsinasyonlar üzerine yapılan önceki araştırmaların çoğu, LLM’lerin dış davranışlarını analiz etmeye ve kullanıcıların bu hataları nasıl algıladıklarını incelemeye odaklanmıştı. Ancak bu yöntemler, hataların modellerin içinde nasıl kodlandığına ve işlendiğine ilişkin sınırlı bilgi sunar.
Bazı araştırmacılar LLM’lerin iç temsillerini araştırdı ve onların doğruluk sinyallerini kodladıklarını öne sürdü. Ancak önceki çabalar çoğunlukla model tarafından oluşturulan son jetonu veya bilgi istemindeki son jetonu incelemeye odaklanmıştı. Yüksek Lisans’lar genellikle uzun biçimli yanıtlar ürettiğinden, bu uygulama önemli ayrıntıları gözden kaçırabilir.
Yeni çalışma farklı bir yaklaşım benimsiyor. Araştırmacılar sadece nihai çıktıya bakmak yerine, değiştirildiği takdirde cevabın doğruluğunu değiştirecek olan “kesin cevap jetonlarını”, yani yanıt jetonlarını analiz ediyor.
Araştırmacılar deneylerini dört çeşit üzerinde gerçekleştirdiler. Mistral 7B Ve Lama 2 Soru yanıtlama, doğal dil çıkarımı, matematik problem çözme ve duygu analizi dahil olmak üzere çeşitli görevleri kapsayan 10 veri kümesindeki modeller. Modellerin gerçek dünyadaki kullanımı simüle etmek için sınırsız yanıtlar üretmesine izin verdiler. Bulguları, doğruluk bilgisinin kesin yanıt belirteçlerinde yoğunlaştığını gösteriyor.
Araştırmacılar, “Bu modeller neredeyse tüm veri kümeleri ve modellerde tutarlıdır ve bu durum, yüksek lisans eğitimlerinin metin oluşturma sırasında doğruluğu kodladığı ve işlediği genel bir mekanizmayı akla getiriyor” diye yazıyor.
Halüsinasyonları tahmin etmek için, LLM’lerin dahili aktivasyonlarına dayalı olarak üretilen çıktıların doğruluğuyla ilgili özellikleri tahmin etmek için “araştırma sınıflandırıcıları” adını verdikleri sınıflandırıcı modelleri eğittiler. Araştırmacılar, sınıflandırıcıların kesin yanıt belirteçleri üzerinde eğitilmesinin hata tespitini önemli ölçüde artırdığını buldu.
Araştırmacılar, “Eğitimli bir araştırma sınıflandırıcısının hataları tahmin edebildiğine dair kanıtımız, LLM’lerin kendi doğruluklarıyla ilgili bilgileri kodladığını gösteriyor” diye yazıyor.
Genellenebilirlik ve beceriye özgü doğruluk
Araştırmacılar ayrıca bir veri kümesi üzerinde eğitilmiş bir araştırma sınıflandırıcısının diğerlerindeki hataları tespit edip edemeyeceğini de araştırdı. Araştırma sınıflandırıcılarının farklı görevler arasında genelleme yapmadığını buldular. Bunun yerine, “beceriye özgü” doğruluk sergiliyorlar; bu, gerçeklere ulaşma veya sağduyulu muhakeme gibi benzer beceriler gerektiren görevler içinde genelleme yapabilecekleri, ancak duygu analizi gibi farklı beceriler gerektiren görevler arasında genelleme yapamayacakları anlamına geliyor.
Araştırmacılar, “Genel olarak, bulgularımız modellerin doğruluğun çok yönlü bir temsiline sahip olduğunu gösteriyor” diye yazıyor. “Doğruluğu tek bir birleşik mekanizma aracılığıyla kodlamıyorlar, bunun yerine her biri farklı doğruluk kavramlarına karşılık gelen birden fazla mekanizma aracılığıyla kodluyorlar.”
Daha ileri deneyler, bu araştırıcı sınıflandırıcıların yalnızca hataların varlığını değil aynı zamanda modelin yapması muhtemel hata türlerini de tahmin edebildiğini gösterdi. Bu, LLM temsillerinin, hedeflenen hafifletme stratejilerinin geliştirilmesinde yararlı olabilecek, başarısız olabilecekleri belirli yollar hakkında bilgi içerdiğini göstermektedir.
Son olarak araştırmacılar, LLM aktivasyonlarında kodlanan iç doğruluk sinyallerinin dış davranışlarıyla nasıl uyum sağladığını araştırdılar. Bazı durumlarda şaşırtıcı bir tutarsızlık buldular: Modelin dahili aktivasyonları doğru cevabı doğru bir şekilde tanımlayabiliyor, ancak sürekli olarak yanlış bir cevap üretiyor.
Bu bulgu, yalnızca Yüksek Lisans’ın nihai çıktısına dayanan mevcut değerlendirme yöntemlerinin, onların gerçek yeteneklerini doğru şekilde yansıtmayabileceğini göstermektedir. Yüksek Lisans’ların içsel bilgilerini daha iyi anlayıp bunlardan yararlanarak, gizli potansiyelin kilidini açabilmemiz ve hataları önemli ölçüde azaltabilmemiz olasılığını artırıyor.
Gelecekteki çıkarımlar
Çalışmanın bulguları, daha iyi halüsinasyon azaltma sistemlerinin tasarlanmasına yardımcı olabilir. Fakat, kullandığı teknikler, esas olarak aşağıdakilerle mümkün olan dahili LLM temsillerine erişim gerektirir: açık kaynaklı modeller.
Ancak bulguların alan için daha geniş etkileri var. Dahili etkinleştirmelerin analizinden elde edilen bilgiler, daha etkili hata tespit ve azaltma tekniklerinin geliştirilmesine yardımcı olabilir. Bu çalışma, LLM’lerde neler olup bittiğini ve her çıkarım adımında meydana gelen milyarlarca aktivasyonu daha iyi anlamayı amaçlayan daha geniş bir çalışma alanının bir parçasıdır. OpenAI, Anthropic ve Google DeepMind gibi önde gelen yapay zeka laboratuvarları, çeşitli teknikler üzerinde çalışıyor. Dil modellerinin iç işleyişini yorumlamak. Bu çalışmalar birlikte daha fazla robot ve güvenilir sistem oluşturmaya yardımcı olabilir.
Araştırmacılar, “Bulgularımız, Yüksek Lisans’ların dahili temsillerinin hatalarına ilişkin faydalı bilgiler sağladığını, modellerin dahili süreçleri ile harici çıktıları arasındaki karmaşık bağlantıyı vurguladığını ve umarım hata tespiti ve hafifletmede daha fazla iyileştirmenin önünü açtığını göstermektedir” diye yazıyor.
Kaynak: https://venturebeat.com/ai/study-finds-llms-can-identify-their-own-mistakes/