Openai, biyolojik ve kimyasal tehditlerle ilgili istemler için en son AI akıl yürütme modellerini O3 ve O4-mini izlemek için yeni bir sistem kullandığını söylüyor. Openai’nin güvenlik raporuna göre, sistem, modellerin birine potansiyel olarak zararlı saldırılar gerçekleştirme konusunda talimat verebilecek tavsiyeler sunmasını önlemeyi amaçlıyor.
O3 ve O4-mini, Openai’nin önceki modellerine göre anlamlı bir yetenek artışı temsil ediyor ve bu nedenle kötü aktörlerin elinde yeni riskler oluşturuyor. Openai’nin dahili kriterlerine göre, O3 özellikle belirli biyolojik tehdit türleri oluşturma konusundaki soruları cevaplama konusunda daha yeteneklidir. Bu nedenle-ve diğer riskleri azaltmak için-Openai, şirketin “güvenlik odaklı bir akıl yürütme monitörü” olarak tanımladığı yeni izleme sistemini yarattı.
Openai’nin içerik politikaları hakkında akıl yürütülen monitör, O3 ve O4-mini’nin üstünde çalışır. Biyolojik ve kimyasal riskle ilgili istemleri tanımlamak ve modellere bu konular hakkında tavsiyelerde bulunmayı reddetmelerini öğretmek için tasarlanmıştır.
Bir taban çizgisi kurmak için Openai, kırmızı ekipçilerin O3 ve O4-mini’den “güvenli olmayan” biorisk ile ilgili konuşmaları işaretleyerek yaklaşık 1000 saat harcamıştı. Openai, Openai’nin güvenlik monitörünün “engelleme mantığını” simüle ettiği bir test sırasında, modeller Openai’ye göre riskli istemlere yanıt vermeyi reddetti.
Openai, testinin monitör tarafından engellendikten sonra yeni istemleri deneyebilecek kişileri hesaba katmadığını kabul ediyor, bu yüzden şirket kısmen insan izlemeye güvenmeye devam edeceğini söylüyor.
Şirkete göre O3 ve O4-mini, Biorisks için Openai’nin “yüksek riskli” eşiğini geçmiyor. Bununla birlikte, O1 ve GPT-4 ile karşılaştırıldığında Openai, O3 ve O4-Mini’nin ilk versiyonlarının biyolojik silah geliştirme konusundaki soruları cevaplamada daha yararlı olduğunu kanıtladığını söylüyor.
Openai’nin yakın zamanda güncellenen hazırlık çerçevesine göre, şirket, modellerinin kötü amaçlı kullanıcıların kimyasal ve biyolojik tehditler geliştirmesini nasıl kolaylaştırabileceğini aktif olarak izliyor.
Openai, modellerinden elde edilen riskleri azaltmak için otomatik sistemlere giderek daha fazla güveniyor. Örneğin, GPT-4O’nun yerel görüntü jeneratörünün Çocuk Cinsel İstismar Materyali (CSAM) oluşturmasını önlemek için Openai, şirketin O3 ve O4-mini için konuşlandırdığı şirkete benzer bir akıl yürütme monitörü kullandığını söylüyor.
Yine de birkaç araştırmacı Openai’nin güvenliğin olması gerektiği kadar öncelik vermediği endişelerini dile getirdi. Şirketin kırmızı takım ortaklarından biri olan Metr, O3’ü aldatıcı davranış için bir ölçüt üzerinde test etmenin nispeten az zaman olduğunu söyledi. Bu arada Openai, bu haftanın başlarında başlatılan GPT-4.1 modeli için bir güvenlik raporu yayınlamamaya karar verdi.
Kaynak: https://techcrunch.com/2025/04/16/openais-latest-ai-models-have-a-new-safeguard-to-prevent-biorisks/