Google DeepMind’ın yapay zekanın “zihninin” içine bakmanın yeni bir yolu var

Mekanik yorumlanabilirliğe yönelik bir platform olan Neuronpedia, Temmuz ayında DeepMind ile ortaklık kurdu. demo Şu anda oynayabileceğiniz Gemma Scope’un. Demoda farklı istemleri deneyebilir ve modelin isteminizi nasıl böldüğünü ve isteminizin hangi aktivasyonları tetiklediğini görebilirsiniz. Ayrıca modelle de uğraşabilirsiniz. Örneğin, köpeklerle ilgili özelliği biraz açarsanız ve ardından modele ABD başkanları hakkında bir soru sorarsanız, Gemma köpekler hakkında rastgele gevezelik etmenin bir yolunu bulacaktır veya model size havlamaya başlayabilir.

Seyrek otomatik kodlayıcılarla ilgili ilginç bir şey, denetimsiz olmaları, yani özellikleri kendi başlarına bulmalarıdır. Bu, modellerin insan kavramlarını nasıl parçaladığına dair şaşırtıcı keşiflere yol açıyor. “Benim kişisel favori özelliğim utandırıcı özelliği” diyor Neuronpedia bilim lideri Joseph Bloom. “Metin ve filmlere yönelik olumsuz eleştirilerde ortaya çıkıyor gibi görünüyor. Bu, bir düzeyde son derece insani olan şeyleri takip etmenin harika bir örneği.”

Neuronpedia’da kavramları arayabilirsiniz; belirli belirteçlerde veya kelimelerde hangi özelliklerin etkinleştirildiğini ve her birinin ne kadar güçlü etkinleştirildiğini vurgulayacaktır. “Metni okursanız ve neyin yeşil renkle vurgulandığını görürseniz, işte o zaman model, utanç kavramının en alakalı olduğunu düşünüyor. Utanmanın en aktif örneği birinin başka birine vaaz vermesidir” diyor Bloom.

Bazı özelliklerin takip edilmesinin diğerlerinden daha kolay olduğu kanıtlanmıştır. Neuronpedia’nın kurucusu Johnny Lin, “Bir modelde bulmak isteyeceğiniz en önemli özelliklerden biri aldatmadır” diyor. “Bunu bulmak çok kolay değil: ‘Ah, bize yalan söylediğinde devreye giren bir özellik var.’ Gördüğüm kadarıyla aldatmacayı bulup yasaklamamız söz konusu değil.”

DeepMind’ın araştırması, başka bir yapay zeka şirketi olan Anthropic’in mayıs ayında yaptığı araştırmaya benziyor. Altın Kapı Claude. San Francisco’daki Golden Gate Köprüsü tartışılırken Claude’un, yani modellerinin parıldayan kısımlarını bulmak için seyrek otomatik kodlayıcılar kullanıldı. Daha sonra köprüyle ilgili aktivasyonları, Claude’un kelimenin tam anlamıyla bir yapay zeka modeli olan Claude olarak değil, fiziksel Golden Gate Köprüsü olarak tanımladığı ve istemlere köprü olarak yanıt vereceği noktaya kadar güçlendirdi.

Her ne kadar ilginç görünse de, mekanik yorumlanabilirlik araştırması inanılmaz derecede faydalı olabilir. Batson, “Modelin nasıl genelleştirildiğini ve hangi düzeyde soyutlamada çalıştığını anlamak için bir araç olarak bu özellikler gerçekten yararlı” diyor.

Örneğin, şu anda Anthropic’te bulunan Samuel Marks liderliğindeki bir ekip, kullanılmış Belirli bir modeli gösteren özellikleri bulmak için seyrek otomatik kodlayıcılar, belirli meslekleri belirli bir cinsiyetle ilişkilendiriyordu. Daha sonra modeldeki önyargıyı azaltmak için bu cinsiyet özelliklerini kapattılar. Bu deney çok küçük bir model üzerinde yapıldı, dolayısıyla çalışmanın çok daha büyük bir modele uygulanıp uygulanmayacağı belli değil.

Mekanistik yorumlanabilirlik araştırması aynı zamanda bize yapay zekanın neden hata yaptığı konusunda da fikir verebilir. 9.11’in 9.8’den büyük olduğu iddiası durumunda ise araştırmacılar Yarı saydam sorunun bir yapay zeka modelinin İncil ayetleri ve 11 Eylül ile ilgili kısımlarını tetiklediğini gördü. Araştırmacılar, yapay zekanın sayıları tarih olarak yorumlayabileceği sonucuna vardı ve sonraki tarih olan 11 Eylül’ün 9/8’den büyük olduğunu ileri sürdü. Ve dini metinler gibi pek çok kitapta bölüm 9.11, bölüm 9.8’den sonra gelir, bu da yapay zekanın bunu daha büyük düşünmesinin nedeni olabilir. Yapay zekanın neden bu hatayı yaptığını öğrendikten sonra araştırmacılar, yapay zekanın İncil ayetleri ve 11 Eylül ile ilgili aktivasyonlarını azalttı; bu da modelin, 9.11’in 9.8’den büyük olup olmadığı konusunda tekrar sorulduğunda doğru cevabı vermesine yol açtı.

Kaynak: https://www.technologyreview.com/2024/11/14/1106871/google-deepmind-has-a-new-way-to-look-inside-an-ais-mind/