Yapay zekaya öncülük eden inanılmaz kadınları kutlamanın zamanı geldi! VentureBeat’in Yapay Zekadaki Kadınlar Ödülleri için ilham veren liderlerinizi 18 Haziran’dan önce bugün aday gösterin. Daha fazla bilgi edin
Yapay zeka kırmızı ekip çalışması, diğer güvenlik yaklaşımlarının göremediği güvenlik açıklarını keşfetmede etkili olduğunu kanıtlıyor ve yapay zeka şirketlerini, modellerinin sakıncalı içerik üretmek için kullanılmasından kurtarıyor.
Antropik serbest bıraktı AI kırmızı takım kuralları geçen hafta, aşağıdakilerin de dahil olduğu bir grup yapay zeka sağlayıcısına katıldım: Google, Microsoft, NIST, NVIDIA Ve OpenAIaynı zamanda karşılaştırılabilir çerçeveler yayınlayanlar.
Amaç, yapay zeka modeli güvenlik açıklarını belirlemek ve kapatmaktır
Duyurulan tüm çerçeveler, yapay zeka modellerinde büyüyen güvenlik açıklarını belirleme ve kapatma ortak amacını paylaşıyor.
Yasa koyucuları ve politika yapıcıları endişelendiren ve daha emniyetli, emniyetli ve güvenilir yapay zeka için baskı yapan şey, büyüyen güvenlik açıklarıdır. Başkan Biden’ın 30 Ekim 2018’de yayımlanan Güvenli, Emniyetli ve Güvenilir Yapay Zeka (14110) Yönetici Emri (EO), NIST’in “ulusal yapay zekanın bir bileşeni olarak kullanılan yapay zeka hariç) “uygun yönergeler oluşturacağını” söylüyor. Yapay zeka geliştiricilerinin, özellikle çift kullanımlı temel modellerin, güvenli, emniyetli ve güvenilir sistemlerin konuşlandırılmasını sağlamak için yapay zeka kırmızı ekip testleri yürütmesine olanak sağlamak için uygun prosedürler ve süreçler dahil olmak üzere güvenlik sistemi).
VB Transform 2024 Kayıtları Açıldı
Amiral gemisi yapay zeka etkinliğimiz için 9-11 Temmuz tarihleri arasında San Francisco’daki kurumsal liderlere katılın. Meslektaşlarınızla bağlantı kurun, Üretken Yapay Zeka’nın fırsatlarını ve zorluklarını keşfedin ve Yapay Zeka uygulamalarını sektörünüze nasıl entegre edeceğinizi öğrenin. Şimdi üye Ol
NIST, üretken yapay zekanın risklerini yönetmeye yardımcı olmak için Nisan ayı sonlarında iki taslak yayın yayınladı. Bunlar, NIST’in Yapay Zeka Risk Yönetimi Çerçevesine yardımcı kaynaklardır (RFM’im var) ve Güvenli Yazılım Geliştirme Çerçevesi (SSDF).
Almanya Federal Bilgi Güvenliği Dairesi (BSI) daha geniş BT-Grundschutz çerçevesinin bir parçası olarak kırmızı ekip oluşturma sağlar. Avustralya, Kanada, Avrupa Birliği, Japonya, Hollanda ve Singapur’un dikkate değer çerçeveleri mevcuttur. Avrupa Parlementosu geçti AB Yapay Zeka Yasası bu yılın mart ayında.
Kırmızı takım yapay zeka modelleri, rastgele tekniklerin yinelenmesine dayanır
Kırmızı ekip oluşturma, güçlü ve zayıf alanların nerede olduğunu belirlemek amacıyla çeşitli, öngörülemeyen saldırıları simüle etmek için yapay zeka modellerini etkileşimli olarak test eden bir tekniktir. Üretken yapay zeka (genAI) modellerinin, insan tarafından oluşturulan içeriği geniş ölçekte taklit ettiğinden test edilmesi son derece zordur.
Amaç, modellerin önyargıları ortaya çıkarmak da dahil olmak üzere programlanmadıkları şeyleri yapmasını ve söylemesini sağlamaktır. Model zayıflıklarını geniş ölçekte bulmak ve düzeltmek amacıyla hızlı oluşturma ve saldırı senaryolarını otomatikleştirmek için LLM’lere güveniyorlar. Modeller, nefret söylemi, pornografi oluşturmak, telif hakkıyla korunan materyal kullanmak veya kaynak verilerini yeniden oluşturSosyal güvenlik ve telefon numaraları dahil.
VentureBeat ile yakın zamanda yapılan bir röportaj en üretken jailbreakçi ChatGPT ve diğer önde gelen LLM’lerin sayısı, kırmızı ekibin neden bu zorluğa çok modlu, çok yönlü bir yaklaşım benimsemesi gerektiğini gösteriyor.
Kırmızı ekibin yapay zeka modeli güvenliğini iyileştirmedeki değeri, sektör çapındaki yarışmalarda kanıtlanmaya devam ediyor. Anthropic’in kendi kitaplarında bahsettiği dört yöntemden biri Blog yazısı kitle kaynaklı kırmızı ekip çalışmasıdır. Son yıllar DEF KONUSU tarihinde ilk kez ev sahipliği yaptı Üretken Kırmızı Takım (GRT) MücadelesiKitle kaynak kullanımı tekniklerinin en başarılı kullanımlarından biri olarak kabul edilir. Modeller Anthropic, Cohere, Google, Hugging Face, Meta, Nvidia, OpenAI ve Stability tarafından sağlandı. Yarışmaya katılanlar, modelleri Scale AI tarafından geliştirilen bir değerlendirme platformunda test etti.
Anthropic, AI kırmızı takım stratejisini yayınladı
Anthropic, yöntemlerini yayınlarken ölçeklenen sistematik, standartlaştırılmış test süreçlerine olan ihtiyacı vurguluyor ve standart eksikliğinin sektör genelinde yapay zeka kırmızı ekip oluşturma konusundaki ilerlemeyi yavaşlattığını açıklıyor.
Anthropic şöyle yazıyor: “Bu hedefe katkıda bulunmak amacıyla, araştırdığımız kırmızı ekip oluşturma yöntemlerinden bazılarına genel bir bakış paylaşıyoruz ve bunların niteliksel kırmızı ekip oluşturmadan otomatik değerlendirmelerin geliştirilmesine kadar yinelenen bir sürece nasıl entegre edilebileceğini gösteriyoruz.” blog yazısı.
Anthropic’in bahsettiği dört yöntem arasında, alana özgü uzman kırmızı takım oluşturma, kırmızı takım için dil modellerinin kullanılması, yeni yöntemlerde kırmızı takım oluşturma ve açık uçlu genel kırmızı takım oluşturma yer alıyor.
Anthropic’in kırmızı takım oluşturma yaklaşımı, ortadaki insan içgörülerinin zenginleştirilmesini ve diğer kırmızı takım oluşturma tekniklerinin niceliksel sonuçlarına bağlamsal zeka sağlanmasını sağlar. Modellerin nasıl güncelleneceğini ve daha güvenli hale getirileceğini yönlendirmek için bu bağlama ihtiyaç duyan insan sezgisi ve bilgisi ile otomatik metin verileri arasında bir denge vardır.
Bunun bir örneği, Anthropic’in uzmanlara güvenerek alana özgü uzman ekip oluşturma konusunda her şeyi bir arada yapması ve aynı zamanda bulundukları en zorlu alanların çoğu için güvenlik önlemlerini belirlemek ve uygulamak için niteliksel bir teknik olan Politika Güvenlik Açığı Testine (PVT) öncelik vermesidir. Seçim müdahalesi, aşırılık, nefret söylemi ve pornografi, önyargı ve suiistimali azaltmak için modellerin ince ayarlanması gereken birçok alandan birkaçıdır.
Yapay zeka kırmızı takım çerçevesini yayınlayan her yapay zeka şirketi, testlerini modellerle otomatikleştiriyor. Temelde, büyük olasılıkla hedef davranışa yol açacak rastgele, öngörülemeyen saldırıları başlatmak için modeller yaratıyorlar. Anthropic, “Modeller daha yetenekli hale geldikçe, bunları manuel testleri modellerin kendileri tarafından gerçekleştirilen otomatik kırmızı ekip oluşturmayla tamamlamak için kullanabileceğimiz yöntemlerle ilgileniyoruz” diyor.
Kırmızı takım/mavi takım dinamiğine dayanan Anthropic, sonuç üreten kırmızı takım tekniklerine dayanarak hedef davranışa neden olma girişiminde saldırılar oluşturmak için modeller kullanır. Bu sonuçlar, modelde ince ayar yapmak ve modeli mavi ekip oluşturmanın temeli olan benzer saldırılara karşı daha sağlam ve sağlam hale getirmek için kullanılıyor. Anthropic, “yeni saldırı vektörleri tasarlamak ve ideal olarak sistemlerimizi çeşitli düşman saldırılarına karşı daha dayanıklı hale getirmek için bu süreci tekrar tekrar yürütebileceğimizi” belirtiyor.
Multimodal kırmızı takım oluşturma, Anthropic’in peşinde olduğu en büyüleyici ve ihtiyaç duyulan alanlardan biridir. Yapay zeka modellerini görüntü ve ses girişiyle test etmek, saldırganların korumaları atlatmak için modelleri yeniden yönlendirebilecek şekilde görüntülerin içine başarılı bir şekilde metin yerleştirmesi nedeniyle doğru yapılması en zor işlemlerden biridir. çok modlu hızlı enjeksiyon saldırıları kanıtladılar. Claude 3 serisi modeller, çok çeşitli formatlardaki görsel bilgileri kabul eder ve yanıtlarda metin tabanlı çıktılar sağlar. Anthropic, dolandırıcılık faaliyeti, aşırılık ve çocuk güvenliğine yönelik tehditler gibi potansiyel riskleri azaltmak için yayınlamadan önce Claude 3’ün çoklu modları üzerinde kapsamlı testler yaptıklarını yazıyor.
Açık uçlu genel kırmızı ekip oluşturma, dört yöntemi daha fazla ortadaki insan bağlamsal içgörüsü ve zekasıyla dengeler. Kitle kaynaklı kırmızı ekip oluşturma ve topluluk temelli kırmızı ekip oluşturma, diğer tekniklerle elde edilemeyen içgörüler elde etmek için gereklidir.
Yapay zeka modellerini korumak hareketli bir hedeftir
Kırmızı ekip oluşturma, modelleri korumak ve onların güvenli, emniyetli ve güvenilir olmaya devam etmesini sağlamak için çok önemlidir. Saldırganların ticari becerileri birçok yapay zeka şirketinin yetişebileceğinden daha hızlı bir şekilde hızlanmaya devam ediyor ve bu da bu alanın ilk başlangıç aşamasında olduğunu gösteriyor. Kırmızı takım oluşturmayı otomatikleştirmek ilk adımdır. İnsan içgörüsü ile otomatik testi birleştirmek, model kararlılığının, güvenliğinin ve emniyetinin geleceğinin anahtarıdır.
Kaynak: https://venturebeat.com/security/anthropics-ai-red-team-methods-a-needed-first-step-to-closing-security-gaps/