Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Halüsinasyonlarveya gerçekte yanlış yanıtlar, büyük dil modellerini (LLM’ler) rahatsız etmeye devam ediyor. Modeller, özellikle kendilerine daha karmaşık görevler verildiğinde ve kullanıcılar belirli ve son derece ayrıntılı yanıtlar aradığında bocalıyor.
Bu, veri bilimcilerinin üstesinden gelmeye çalıştığı bir zorluktur ve şimdi de araştırmacılar Google DeepMind temel modellerde gerçek gerçeğe ulaşmaya bir adım daha yaklaştıklarını söylüyorlar. Yüksek Lisans’ların uzun biçimli belgelere dayanarak gerçeklere dayalı olarak doğru yanıtlar üretme yeteneğini değerlendiren bir kıyaslama olan FACTS Grounding’i tanıttılar. Modeller ayrıca yanıtlarının, yönlendirmelere yararlı ve ilgili yanıtlar sağlayacak kadar ayrıntılı olup olmadığına göre de değerlendirilir.
Yeni kıyaslamayla birlikte araştırmacılar bir rapor yayınladılar. GERÇEKLER skor tablosu Kaggle veri bilimi topluluğuna.
Bu hafta itibarıyla Gemini 2.0 Flash, %83,6’lık bir gerçeklik puanıyla liderlik sıralamasında zirveye yerleşti. İlk 9’da yer alan diğer ürünler arasında Google’ın Gemini 1.0 Flash ve Gemini 1.5 Pro; Anthropic’s Clade 3.5 Sonnet ve Claude 3.5 Haiku; ve OpenAI’nin GPT-4o, 4o-mini, o1-mini ve o1-preview’i. Bunların hepsi doğruluk açısından %61,7’nin üzerinde sıralandı.
Araştırmacılar, skor tablosunun aktif olarak korunacağını ve yeni modelleri ve bunların farklı versiyonlarını içerecek şekilde sürekli olarak güncelleneceğini söylüyor.
Araştırmacılar, “Bu kıyaslamanın, yalnızca özetleme gibi daha dar kullanım durumlarına odaklanan kıyaslamalarla karşılaştırıldığında, gerçeğe ilişkin daha geniş yelpazedeki model davranışlarını değerlendirmede bir boşluğu doldurduğuna inanıyoruz” diye yazıyorlar. teknik belge bu hafta yayınlandı.
Yanlış yanıtların ayıklanması
Sağlama gerçek doğruluk LLM’de yanıtlar, modelleme (mimari, eğitim ve çıkarım) ve ölçme (değerlendirme metodolojileri, veriler ve ölçümler) faktörleri nedeniyle zordur. Araştırmacılar, genellikle ön eğitimin önceki tokenlar göz önüne alındığında bir sonraki tokenı tahmin etmeye odaklandığını belirtiyor.
“Bu hedef, modellere dünyayla ilgili göze çarpan bilgileri öğretebilirken, modeli doğrudan çeşitli gerçeklik senaryolarına göre optimize etmez; bunun yerine modeli genel olarak üretmeye teşvik eder. makul metin” diye yazıyor araştırmacılar.
Bu sorunu çözmek için FACTS veri seti, her biri sağlanan belgelerdeki bağlama dayalı uzun biçimli yanıtlar gerektiren 1.719 örneği (860 genel ve 859 özel) içeriyor. Her örnek şunları içerir:
- Genel yönergeleri ve yalnızca sağlanan bağlama göre yanıtlama sırasını içeren bir sistem istemi (system_instruction);
- Cevaplanacak belirli bir soruyu içeren bir görev (user_request);
- Gerekli bilgileri içeren uzun bir belge (context_document).
Başarılı olmak ve “doğru” olarak etiketlenmek model uzun biçimli belgeyi işlemeli ve ardından hem kapsamlı hem de tamamen belgeye atfedilebilen bir uzun biçimli yanıt oluşturmalıdır. Modelin iddiaları belge tarafından doğrudan desteklenmiyorsa ve son derece alakalı veya faydalı değilse yanıtlar “yanlış” olarak etiketlenir.
Örneğin, bir kullanıcı bir modelden bir şirketin gelirinin 3. çeyrekte azalmasının ana nedenlerini özetlemesini isteyebilir ve bu modele şirketin üç aylık kazançları, harcamaları, planlanan yatırımları ve pazar analizini tartışan yıllık mali raporu dahil olmak üzere ayrıntılı bilgiler sağlayabilir.
Diyelim ki bir model şunu döndürdüyse: “Şirket üçüncü çeyrekte gelirini etkileyen zorluklarla karşılaştı”, bu yanlış kabul edilecektir.
Araştırmacılar, “Cevapta, pazar eğilimleri, artan rekabet veya operasyonel aksaklıklar gibi muhtemelen belgede yer alacak herhangi bir nedenin belirtilmesinden kaçınılıyor” diye belirtiyor. “İlgili ayrıntılarla etkileşime geçme veya bunları çıkarma girişimini göstermiyor.”
Buna karşılık, bir kullanıcı “Para tasarrufuyla ilgili bazı ipuçları nelerdir?” diye sorarsa ve üniversite öğrencilerine kategorize edilmiş para tasarrufu ipuçlarından oluşan bir derleme sunulmuşsa, doğru yanıt oldukça ayrıntılı olacaktır: “Kampüsteki ücretsiz etkinliklerden yararlanın, ürünleri toplu olarak satın alın ve evde yemek pişirin. Ayrıca harcama hedeflerini belirleyin, kredi kartlarından kaçının ve kaynakları koruyun.”
DeepMind, Yüksek Lisans’ları yargılamak için Yüksek Lisans’ları kullanıyor
Çeşitli girdilere izin vermek için araştırmacılar, 32.000 jetona (veya 20.000 kelimeye eşdeğer) kadar değişen uzunluklarda belgeler eklediler. Bunlar finans, teknoloji, perakende, tıp ve hukuk gibi alanları kapsamaktadır. Soru-Cevap oluşturma, özetleme ve yeniden yazma istekleri de dahil olmak üzere kullanıcı istekleri de geniş kapsamlıdır.
Her örnek iki aşamada değerlendirilir. Öncelikle yanıtlar uygunluk açısından değerlendirilir: Kullanıcı isteklerini karşılamazlarsa diskalifiye edilir. İkincisi, yanıtların halüsinasyon içermemesi ve sağlanan belgelere tamamen dayandırılması gerekir.
Bu gerçekçilik puanları, doğru model çıktılarının yüzdesine dayalı olarak bireysel puanları belirleyen üç farklı LLM jürisi (özellikle Gemini 1.5 Pro, GPT-4o ve Claude 3.5 Sonnet) tarafından hesaplanır. Daha sonra, nihai gerçeklik tespiti üç yargıcın puanlarının ortalamasına dayanmaktadır.
Araştırmacılar, modellerin genellikle model ailelerinin diğer üyelerine karşı önyargılı olduğunu (ortalama %3,23 civarında bir artışla) bu nedenle farklı jüri üyelerinin birleşiminin, yanıtların gerçekten gerçekçi olmasını sağlamak açısından kritik önem taşıdığına dikkat çekiyor.
Son olarak araştırmacılar, gerçeklik ve temelin yüksek lisans eğitimlerinin gelecekteki başarısı ve kullanışlılığı için temel faktörler olduğunu vurguluyor. “Kapsamlı kıyaslama yöntemlerinin sürekli araştırma ve geliştirmeyle birleştiğinde yapay zeka sistemlerini geliştirmeye devam edeceğine inanıyoruz” diye yazıyorlar.
Ancak aynı zamanda şunu da kabul ediyorlar: “Kıyaslamaların ilerleme tarafından hızla geçilebileceğinin bilincindeyiz, bu nedenle FACTS Grounding kıyaslamamızın ve lider tablomuzun bu lansmanı sadece bir başlangıç.”
Kaynak: https://venturebeat.com/ai/google-deepmind-researchers-introduce-new-benchmark-to-improve-llm-factuality-reduce-hallucinations/