Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Büyük dil modelleri (LLM’ler) çeşitli akıl yürütme ve problem çözme görevlerinde etkileyici performans göstermiştir. Ancak bu muhakeme yeteneklerinin nasıl çalıştığına ve sınırlamalarına ilişkin sorular bulunmaktadır.
Yeni bir çalışmada, araştırmacılar Kaliforniya Üniversitesi, Los AngelesVe Amazon Yüksek Lisans’ın tümdengelimli ve tümevarımsal akıl yürütme yetenekleri üzerine kapsamlı bir çalışma yaptık. Bulgular, Yüksek Lisans’ların çözülmüş örneklerden bir görevin kurallarını bulma konusunda çok iyi olabilmelerine rağmen, belirli talimatları takip etme konusunda sınırlı olduklarını göstermektedir. Bulgular, yüksek lisans eğitimlerini nasıl kullandığımız konusunda önemli çıkarımlara sahip olabilir. muhakeme gerektiren uygulamalar.
Tümevarım ve tümdengelimsel akıl yürütme
Akıl yürütme genel olarak iki farklı türe ayrılabilir: tümdengelimli ve tümevarımlı. Genellikle “yukarıdan aşağıya” mantık olarak tanımlanan tümdengelimli akıl yürütme, genel bir ilke veya kuralla başlar ve bunu belirli sonuçlara varmak için uygular. Örneğin, Celsius sıcaklığını Fahrenheit’e dönüştürme formülü verildiğinde, bunu yeni ölçümler hesaplamak için kullanabilirsiniz.
Tümevarımsal akıl yürütme ise “aşağıdan yukarıya” bir yaklaşım benimser. Belirli örnekleri veya örnekleri gözlemlemeyi ve bunlardan genel sonuçlar veya modeller çıkarmayı içerir. Örneğin, bir termometre üzerinde birkaç Santigrat ve Fahrenhayt ölçümünü gözlemleyebilir ve bunları birbirine dönüştüren formülü çıkarmaya çalışabilirsiniz.
Her iki akıl yürütme türü de zeka için gereklidir ancak farklı bilişsel süreçleri içerir. Ve Yüksek Lisanslar sıklıkla kendi durumlarına göre değerlendirilirken muhakeme yetenekleriÇoğu araştırma onların tümevarımsal ve tümdengelimsel yetenekleri arasında net bir ayrım yapmıyor.
LLM muhakemesini test etmek için yeni bir çerçeve
Amazon ve UCLA’daki araştırmacılar, yüksek lisans öğrencilerinin tümevarımsal ve tümdengelimli akıl yürütme yeteneklerini değerlendirmek için bir dizi deney tasarladılar. Adil ve tutarlı bir karşılaştırma sağlamak için deneyler, farklı bağlamlarda benzer bir görev yapısı kullandı; her bağlam, özellikle tümdengelimli veya tümevarımsal akıl yürütmeyi vurguladı.
Örneğin, bir aritmetik görevinde, araştırmacılar yüksek lisans öğrencilerinin problemleri çözmek için belirli bir matematiksel fonksiyonu uygulama yeteneğini (tümdengelimli akıl yürütme) ve bir dizi girdi-çıktı örneğinden temel matematiksel fonksiyonu çıkarabilme yeteneklerini (tümevarımlı akıl yürütme) test ettiler.
Tümevarımsal akıl yürütmeyi tümdengelimli akıl yürütmeden daha da ayırmak için araştırmacılar, Yüksek Lisans’taki tümevarımsal akıl yürütme sürecini izole eden ve değerlendiren iki adımlı bir çerçeve olan SolverLearner’ı geliştirdiler.
SolverLearner ilk önce LLM’den, yalnızca bir dizi girdi-çıktı örneğini temel alarak girdi veri noktalarını karşılık gelen çıktı değerleriyle eşleştiren bir işlev üretmesini ister. Bu adım, LLM’nin verilerden temel modeli veya kuralı öğrenme becerisine odaklanır.
İkinci adımda SolverLearner, önerilen işlevi yeni test verileri üzerinde yürütmek için harici bir kod yorumlayıcısı kullanır. Bu ayırma, LLM’nin fonksiyonun uygulanmasına dahil olmamasını sağlar ve tümdengelimli akıl yürütme yeteneklerinin tümevarımsal akıl yürütmenin değerlendirmesini etkilemesini önler.
Araştırmacılar, “Tümevarımsal akıl yürütmeye odaklanarak ve Yüksek Lisans temelli tümdengelimli akıl yürütmeyi bir kenara bırakarak, Yüksek Lisans’ların tümevarımsal akıl yürütmesini SolverLearner aracılığıyla saf haliyle izole edebilir ve araştırabiliriz” diye yazıyor.
Yüksek Lisanslar tümevarımsal ve tümdengelimli akıl yürütmede zıt güçler gösterir
Araştırmacılar, GPT-3.5’in tümevarımsal ve tümdengelimli akıl yürütme yeteneklerini değerlendirmek için SolverLearner’ı kullandılar ve GPT-4 Sözdizimsel akıl yürütme, aritmetik işlemler ve mekansal akıl yürütme dahil olmak üzere çeşitli görevlerde.
Sonuçlar, her iki LLM’nin de sürekli olarak dikkat çekici tümevarımsal akıl yürütme yetenekleri sergilediğini, örneklerden öğrenmelerini ve temeldeki haritalama işlevini çıkarımlarını gerektiren görevlerde mükemmele yakın doğruluk elde ettiklerini gösterdi.
Ancak LLM’ler, belirli kuralları veya talimatları uygulama görevi verildiğinde, özellikle de bu talimatlar eğitimleri sırasında yaygın olarak karşılaşılmayan senaryoları içerdiğinde zorluk çekiyordu. Bu özellikle geleneksel durumlardan farklı olan “karşı-olgusal” akıl yürütme görevleri için geçerlidir. Örneğin, Yüksek Lisans’lar 10 tabanlı aritmetik içeren tümdengelimli akıl yürütmede iyi performans gösterir ancak 11 ve 9 gibi geleneksel olmayan sayısal temellerde çok zayıf performans gösterir.
Bulgular, yüksek lisans öğrencilerinin örneklerle öğrenmede ve verilerdeki kalıpları keşfetmede açık talimatları takip etmekten daha iyi olabileceğini gösteriyor. Bunun, LLM’lerin gerçek dünya senaryolarında kullanımı açısından önemli sonuçları vardır. Yüksek Lisans’lar yüzeydeyken mantıksal talimatları takip etme konusunda etkileyici yetenekler gösterebilirler, yalnızca eğitimleri sırasında gözlemledikleri kalıpları takip ediyor olmaları büyük bir şanstır; bu da gördükleri örnekler eğitim dağılımlarından saptığında performanslarının düşeceği anlamına gelir .
Öte yandan SolverLearner, modelin girdileri çıktılarla eşleştiren doğru kuralları öğrenmesini sağlayan bir çerçeve sağlar. Ancak SolverLearner yalnızca kod yorumlayıcı gibi bir doğrulama mekanizmasının mevcut olduğu ortamlarda uygulanabilir.
Bu çalışma, giderek artan sayıda uygulamanın parçası haline gelen bu kara kutuların yetenekleri hakkında öğrenecek daha çok şeyimiz olduğunu hatırlatan bir hatırlatmadır.
Kaynak: https://venturebeat.com/ai/llms-excel-at-inductive-reasoning-but-struggle-with-deductive-tasks-new-research-shows/