Sektör lideri yapay zeka kapsamına ilişkin en son güncellemeler ve özel içerik için günlük ve haftalık bültenlerimize katılın. Daha fazla bilgi edin
Büyük dil modelleri (LLM’ler) metin ve kod oluşturmada, dilleri çevirmede ve farklı türde yaratıcı içerik yazmada çok başarılı hale geldi. Ancak bu modellerin iç işleyişini, onları eğiten araştırmacılar için bile anlamak zordur.
Bu yorumlanabilirlik eksikliği, yüksek lisansların hatalara karşı toleransı düşük ve şeffaflık gerektiren kritik uygulamalarda kullanılmasında zorluklar yaratmaktadır. Bu zorluğun üstesinden gelmek için Google DeepMind şunları yayınladı: Gemma Kapsamıkarar verme sürecine ışık tutan yeni bir araç seti Gemma 2 modelleri.
Gemma Scope, DeepMind’ın yakın zamanda önerdiği bir derin öğrenme mimarisi olan JumpReLU seyrek otomatik kodlayıcıların (SAE’ler) üzerine inşa edilmiştir.
Seyrek otomatik kodlayıcılarla LLM etkinleştirmelerini anlama
Bir Yüksek Lisans bir girdi aldığında, onu karmaşık bir yapay nöron ağı aracılığıyla işler. “Aktivasyonlar” olarak bilinen bu nöronlar tarafından yayılan değerler, modelin girdiyi anlamasını temsil eder ve tepkisini yönlendirir.
Araştırmacılar bu aktivasyonları inceleyerek LLM’lerin bilgiyi nasıl işlediğine ve karar verdiğine dair fikir edinebilirler. İdeal durumda hangi nöronların hangi kavramlara karşılık geldiğini anlayabilmeliyiz.
Bununla birlikte, bu aktivasyonların yorumlanması büyük bir zorluktur çünkü LLM’lerde milyarlarca nöron bulunur ve her çıkarım, modelin her katmanında çok büyük bir aktivasyon değerleri karmaşası üretir. Her konsept, farklı LLM katmanlarında milyonlarca aktivasyonu tetikleyebilir ve her nöron, çeşitli konseptlerde aktifleşebilir.
LLM aktivasyonlarını yorumlamanın önde gelen yöntemlerinden biri, seyrek otomatik kodlayıcıların (SAE’ler) kullanılmasıdır. SAE’ler, bazen “mekanistik yorumlanabilirlik” olarak da adlandırılan, farklı katmanlarındaki aktivasyonları inceleyerek LLM’lerin yorumlanmasına yardımcı olabilecek modellerdir. SAE’ler genellikle derin öğrenme modelindeki bir katmanın etkinleştirilmesi konusunda eğitilir.
SAE, giriş aktivasyonlarını daha küçük bir özellik seti ile temsil etmeye ve ardından bu özelliklerden orijinal aktivasyonları yeniden oluşturmaya çalışır. Bunu tekrar tekrar yaparak SAE, yoğun aktivasyonları daha yorumlanabilir bir forma sıkıştırmayı öğrenir ve girdideki hangi özelliklerin LLM’nin farklı kısımlarını etkinleştirdiğini anlamayı kolaylaştırır.
Gemma Kapsamı
SAE’ler üzerine yapılan önceki araştırmalar çoğunlukla küçük dil modellerini veya daha büyük modellerdeki tek katmanı incelemeye odaklanmıştı. Ancak DeepMind’ın Gemma Scope’u, Gemma 2 2B ve 9B modellerinin her katmanı ve alt katmanı için SAE’ler sağlayarak daha kapsamlı bir yaklaşım benimsiyor.
Gemma Scope, Gemma 2 modellerinden öğrenilen 30 milyondan fazla özelliği toplu olarak temsil eden 400’den fazla SAE’den oluşur. Bu, araştırmacıların farklı özelliklerin LLM’nin farklı katmanları arasında nasıl geliştiğini ve etkileşime girdiğini incelemesine olanak tanıyacak ve modelin karar verme sürecine ilişkin çok daha zengin bir anlayış sağlayacaktır.
DeepMind, “Bu araç, araştırmacıların özelliklerin model boyunca nasıl geliştiğini incelemelerine ve daha karmaşık özellikler oluşturmak için etkileşime girip oluşturmalarına olanak tanıyacak” dedi. Blog yazısı.
Gemma Scope, DeepMind’ın yeni mimarisini kullanıyor JumpReLU SAE. Önceki SAE mimarileri, seyrekliği sağlamak için düzeltilmiş doğrusal birim (ReLU) işlevini kullanıyordu. ReLU, belirli bir eşiğin altındaki tüm aktivasyon değerlerini sıfırlayarak en önemli özelliklerin belirlenmesine yardımcı olur. Ancak ReLU, eşiğin altındaki herhangi bir değer sıfıra ayarlandığından bu özelliklerin gücünü tahmin etmeyi de zorlaştırır.
JumpReLU, SAE’nin her özellik için farklı bir etkinleştirme eşiği öğrenmesini sağlayarak bu sınırlamayı giderir. Bu küçük değişiklik, SAE’nin hangi özelliklerin mevcut olduğunu tespit etmek ile bunların gücünü tahmin etmek arasında bir denge kurmasını kolaylaştırır. JumpReLU ayrıca SAE’lerin endemik zorluklarından biri olan yeniden yapılanma doğruluğunu arttırırken seyrekliğin düşük tutulmasına da yardımcı olur.
Daha sağlam ve şeffaf LLM’lere doğru
DeepMind, Gemma Scope’u yayınladı Sarılma Yüzaraştırmacıların kullanımına açık hale getiriyoruz.
DeepMind, “Bugünkü sürümün daha iddialı yorumlanabilirlik araştırmalarına olanak sağlayacağını umuyoruz” diyor. “Daha fazla araştırma, alanın daha sağlam sistemler oluşturmasına, model halüsinasyonlara karşı daha iyi koruma önlemleri geliştirmesine ve aldatma veya manipülasyon gibi otonom yapay zeka ajanlarından kaynaklanan risklere karşı koruma sağlamasına yardımcı olma potansiyeline sahip.”
Yüksek Lisans’lar ilerlemeye devam ettikçe ve kurumsal uygulamalarda daha yaygın olarak benimsendikçe, yapay zeka laboratuvarları bu modellerin davranışlarını daha iyi anlamalarına ve kontrol etmelerine yardımcı olabilecek araçlar sağlamak için yarışıyor.
Gemma Scope’ta sağlanan model paketi gibi SAE’ler, araştırmaların en umut verici yönlerinden biri olarak ortaya çıkmıştır. Yüksek Lisans’larda zararlı veya önyargılı içerik oluşturmak gibi istenmeyen davranışları keşfetmeye ve engellemeye yönelik tekniklerin geliştirilmesine yardımcı olabilirler. Gemma Scope’un piyasaya sürülmesi, tespit etme ve düzeltme gibi çeşitli alanlarda yardımcı olabilir Yüksek Lisans jailbreak’lerimodel davranışını yönlendirme, SAE’leri kırmızı ekip oluşturma ve belirli görevleri nasıl öğrendikleri gibi dil modellerinin ilginç özelliklerini keşfetme.
Antropik ve OpenAI de üzerinde çalışıyor kendi SAE araştırmaları ve geçtiğimiz aylarda çok sayıda makale yayınladık. Bilim insanları aynı zamanda yüksek lisans eğitimlerinin iç işleyişini daha iyi anlamaya yardımcı olabilecek mekanik olmayan teknikleri de araştırıyorlar. Bir örnek bir OpenAI tarafından geliştirilen son teknik, birbirlerinin yanıtlarını doğrulamak için iki modeli eşleştirir. Bu teknik, modeli doğrulanabilir ve okunabilir yanıtlar sağlamaya teşvik eden oyunlaştırılmış bir süreç kullanır.
Kaynak: https://venturebeat.com/ai/deepminds-gemma-scope-peers-under-the-hood-of-large-language-models/