Yapay zeka modellerine yönelik birçok güvenlik değerlendirmesinin önemli sınırlamaları vardır

Yeni bir rapora göre, yapay zeka güvenliği ve hesap verebilirliğine yönelik artan talebe rağmen, günümüzün testleri ve kıyaslamaları yetersiz kalabilir.

Üretken yapay zeka modelleri (metin, resim, müzik, video vb.’yi analiz edip çıktısını alabilen modeller), hata yapma ve genel olarak öngörülemez davranma eğilimleri nedeniyle giderek daha fazla inceleniyor. Artık kamu sektörü kurumlarından büyük teknoloji firmalarına kadar birçok kuruluş, bu modellerin güvenliğini test etmek için yeni kriterler öneriyor.

Geçtiğimiz yılın sonuna doğru Scale AI adlı startup, modellerin güvenlik yönergelerine ne kadar iyi uyduğunu değerlendirmeye adanmış bir laboratuvar kurdu. Bu ay NIST ve Birleşik Krallık Yapay Zeka Güvenliği Enstitüsü, model riskini değerlendirmek için tasarlanmış araçları yayınladı.

Ancak bu model araştırma testleri ve yöntemleri yetersiz olabilir.

Birleşik Krallık merkezli kar amacı gütmeyen bir yapay zeka araştırma kuruluşu olan Ada Lovelace Enstitüsü (ALI), akademik laboratuvarlardan, sivil toplumdan ve satıcı modelleri üreten uzmanlarla röportaj yapan ve ayrıca yapay zeka güvenlik değerlendirmelerine ilişkin son araştırmaları denetleyen bir çalışma gerçekleştirdi. Ortak yazarlar, mevcut değerlendirmelerin faydalı olabileceğini, ancak ayrıntılı olmadıklarını, kolayca oynanabileceğini ve modellerin gerçek dünya senaryolarında nasıl davranacağına dair mutlaka bir gösterge vermediğini buldu.

“İster akıllı telefon, ister reçeteli ilaç, ister araba olsun, kullandığımız ürünlerin güvenli ve güvenilir olmasını bekliyoruz; ALI’nin kıdemli araştırmacısı ve raporun ortak yazarı Elliot Jones, TechCrunch’a şöyle konuştu: “Bu sektörlerde ürünler, kullanılmadan önce güvenli olduklarından emin olmak için sıkı bir şekilde test ediliyor.” “Araştırmamız, yapay zeka güvenlik değerlendirmesine yönelik mevcut yaklaşımların sınırlamalarını incelemeyi, değerlendirmelerin şu anda nasıl kullanıldığını değerlendirmeyi ve bunların politika yapıcılar ve düzenleyiciler için bir araç olarak kullanımını araştırmayı amaçlıyordu.”

Karşılaştırmalar ve kırmızı ekip oluşturma

Çalışmanın ortak yazarları, modellerin günümüzde ortaya çıkardığı zarar ve risklere ve mevcut yapay zeka modeli değerlendirmelerinin durumuna ilişkin bir genel bakış oluşturmak için ilk olarak akademik literatürü araştırdı. Daha sonra, üretken yapay zeka sistemleri geliştiren isimsiz teknoloji şirketlerindeki dört çalışanın da aralarında bulunduğu 16 uzmanla röportaj yaptılar.

Çalışma, yapay zeka endüstrisinde modelleri değerlendirmeye yönelik en iyi yöntem ve sınıflandırma konusunda keskin anlaşmazlıklar olduğunu ortaya çıkardı.

Bazı değerlendirmeler, modellerin gerçek dünyadaki kullanıcıları nasıl etkileyebileceğini değil, yalnızca modellerin laboratuvardaki kıyaslamalarla nasıl uyumlu olduğunu test etti. Diğerleri, üretim modellerini değerlendirmek yerine araştırma amacıyla geliştirilen testlerden yararlandı; ancak satıcılar bunları üretimde kullanmakta ısrar etti.

Yapay zeka kıyaslamalarıyla ilgili sorunlar hakkında daha önce yazmıştık ve çalışma tüm bu sorunları ve daha fazlasını vurguluyor.

Çalışmada adı geçen uzmanlar, bir modelin performansını kıyaslama sonuçlarından tahmin etmenin zor olduğunu ve kıyaslamaların bir modelin belirli bir yeteneğe sahip olup olmadığını gösterip gösteremeyeceğinin belirsiz olduğunu belirtti. Örneğin, bir model eyalet baro sınavında iyi performans gösterse de bu, onun daha açık uçlu hukuki zorlukları çözebileceği anlamına gelmez.

Uzmanlar ayrıca, modelin test edildiği veriler üzerinde eğitilmesi durumunda kıyaslama sonuçlarının modelin performansını olduğundan fazla tahmin edebileceği veri kirliliği sorununa da dikkat çekti. Uzmanlar, birçok durumda kıyaslamaların kuruluşlar tarafından değerlendirme için en iyi araç oldukları için değil, kolaylık ve kullanım kolaylığı açısından seçildiğini söyledi.

Mahi Hardalupas, araştırmacı Mahi Hardalupas, “Kıyaslamalar, modeli değerlendirmek için kullanılacak olan aynı veri seti üzerinde modelleri eğitebilecek geliştiriciler tarafından manipüle edilme riskiyle karşı karşıyadır; bu, sınavdan önce sınav kağıdını görmeye eşdeğerdir.” ALI ve bir çalışmanın ortak yazarı TechCrunch’a söyledi. “Bir modelin hangi versiyonunun değerlendirildiği de önemlidir. Küçük değişiklikler davranışta öngörülemeyen değişikliklere neden olabilir ve yerleşik güvenlik özelliklerini geçersiz kılabilir.”

ALI çalışması aynı zamanda bireylere veya gruplara, güvenlik açıklarını ve kusurları belirlemek için bir modele “saldırmak” görevi verme uygulaması olan “kırmızı takım oluşturma” ile ilgili sorunlar da buldu. AI startup’ları OpenAI ve Anthropic de dahil olmak üzere birçok şirket, modelleri değerlendirmek için kırmızı ekip oluşturmayı kullanıyor, ancak kırmızı ekip için üzerinde anlaşmaya varılan çok az standart var ve bu da belirli bir çabanın etkinliğini değerlendirmeyi zorlaştırıyor.

Uzmanlar, çalışmanın ortak yazarlarına, kırmızı ekip için gerekli beceri ve uzmanlığa sahip kişileri bulmanın zor olabileceğini ve kırmızı ekip oluşturmanın manuel doğasının, bunu maliyetli ve zahmetli hale getirdiğini, bunun da gerekli kaynaklara sahip olmayan küçük kuruluşlar için engeller oluşturduğunu söyledi.

Muhtemel çözümler

Modelleri daha hızlı yayınlama baskısı ve piyasaya sürülmeden önce sorunları ortaya çıkarabilecek testleri yürütme konusundaki isteksizlik, yapay zeka değerlendirmelerinin iyileşmemesinin ana nedenleridir.

Jones, “Temel modeller geliştiren bir şirkette çalışan ve konuştuğumuz bir kişi, şirketlerin modelleri hızlı bir şekilde piyasaya sürmesi konusunda daha fazla baskı olduğunu hissetti, bu da değerlendirmelerin ciddiye alınmasını ve geri adım atılmasını zorlaştırdı” dedi. “Önemli yapay zeka laboratuvarları, kendilerinin veya toplumun güvenli ve güvenilir olmalarını sağlama becerisini geride bırakan bir hızda modeller yayınlıyor.”

ALI çalışmasında görüşülen kişilerden biri, güvenlik modellerini değerlendirmenin “tedavi edilemez” bir sorun olduğunu söyledi. Peki endüstrinin ve onu düzenleyenlerin çözüm konusunda ne gibi umutları var?

ALI’de araştırmacı olan Mahi Hardalupas, ileriye yönelik bir yol olduğuna ancak bunun için kamu sektörü kurumlarının daha fazla katılımının gerekli olduğuna inanıyor.

“Düzenleyiciler ve politika yapıcılar, değerlendirmelerden ne istediklerini açıkça ifade etmelidir” dedi. “Aynı zamanda değerlendirme topluluğu, değerlendirmelerin mevcut sınırlamaları ve potansiyeli konusunda şeffaf olmalıdır.”

Hardalupas, hükümetlerin değerlendirmelerin geliştirilmesine daha fazla halkın katılımını zorunlu kıldığını ve üçüncü taraf testlerden oluşan bir “ekosistem”i desteklemek için gerekli modellere ve veri setlerine düzenli erişimi sağlayacak programlar da dahil olmak üzere önlemler uygulamasını öneriyor.

Jones, bir modelin bir yönlendirmeye nasıl tepki verdiğini basitçe test etmenin ötesine geçen ve bunun yerine bir modelin etkileyebileceği kullanıcı türlerine (örneğin, belirli bir geçmişe, cinsiyete veya cinsiyete sahip kişiler) bakan “bağlama özgü” değerlendirmeler geliştirmenin gerekli olabileceğini düşünüyor. etnik köken) ve modellere yönelik saldırıların güvenlik önlemlerini nasıl bozabileceği.

“Bu, bir yapay zeka modelinin nasıl çalıştığının anlaşılmasına dayanan daha sağlam ve tekrarlanabilir değerlendirmeler geliştirmek için temel değerlendirme bilimine yatırım yapılmasını gerektirecektir” diye ekledi.

Ancak bir modelin güvenli olduğunun garantisi hiçbir zaman olmayabilir.

Hardalupas, “Diğerlerinin de belirttiği gibi, ‘güvenlik’ modellere ait bir özellik değildir” dedi. “Bir modelin ‘güvenli’ olup olmadığını belirlemek, onun kullanıldığı bağlamları, kimlere satıldığını veya kimlere erişilebilir hale getirildiğini ve yürürlükteki önlemlerin bu riskleri azaltmak için yeterli ve sağlam olup olmadığını anlamayı gerektirir. Bir temel modelinin değerlendirilmesi, potansiyel risklerin belirlenmesine yönelik bir araştırma amacına hizmet edebilir, ancak bir modelin bırakın ‘tamamen güvenli’ olmasını, hatta güvenli olduğunu bile garanti edemez. Görüştüğümüz kişilerin çoğu, değerlendirmelerin bir modelin güvenli olduğunu kanıtlayamayacağı ve yalnızca bir modelin güvensiz olduğunu gösterebileceği konusunda hemfikirdir.”

Kaynak: https://techcrunch.com/2024/08/04/many-safety-evaluations-for-ai-models-have-significant-limitations/

Yorum yap

Yapay zeka modellerine yönelik birçok güvenlik değerlendirmesinin önemli sınırlamaları vardır

Karşılaştırmalar ve kırmızı ekip oluşturma

Muhtemel çözümler

İlgili haberler: