OpenAI nihayet, sorular hakkında “düşünmek” için ek bilgi işlem kullanarak GPT-4o’dan daha akıllı yanıtlar veren o1’in tam sürümünü yayınladı. Bununla birlikte, AI güvenlik testçileri, o1’in muhakeme yeteneklerinin aynı zamanda insanları GPT-4o’dan veya bu konuda Meta, Anthropic ve Google’ın önde gelen AI modellerinden daha yüksek oranda aldatmaya çalışmasını sağladığını buldu.
OpenAI ve Apollo Research tarafından Çarşamba günü yayınlanan kırmızı takım araştırmasına göre bu durum şöyle: “Mantık yürütmenin güvenlik politikalarımızın uygulanmasını önemli ölçüde iyileştirebilmesini heyecan verici bulsak da, bu yeni yeteneklerin tehlikeli uygulamaların temelini oluşturabileceğinin farkındayız” dedi. Makalede OpenAI.
OpenAI, kendi makalesini de yayınlayan Apollo Research’teki üçüncü taraf kırmızı takım üyelerine o1’e erken erişim hakkı verdikten sonra Çarşamba günü o1 sistem kartında bu sonuçları yayınladı.
OpenAI’nin o1 modelleri birçok durumda insanlara karşı “entrika kurdu”; bu, kullanıcının isteklerine karşı çıksalar bile yapay zekanın gizlice kendi hedeflerinin peşinden gittiği anlamına geliyordu. Planlama o1’e özgü olmasa da ve Google, Meta ve Anthropic’in modelleri de bunu yapabilecek kapasitede olsa da, o1, kendi planlamasıyla ilgili en aldatıcı davranışları sergiliyor gibi görünüyordu.
Bu araştırmayı motive eden risk, bir yapay zeka modelinin, planlama konusunda gerçekten iyi olması ve yeterli kaynaklara ve aracılık yeteneklerine erişimi olması durumunda insan kontrolünden kaçabilmesi veya atlatabilmesidir. Elbette bunun gerçekten bir sorun haline gelmesi için yapay zeka modellerinin biraz ilerlemesi gerekecek.
o1’in sistem kartında OpenAI, “Sübjektif olarak Apollo Research, o1’in aracılık yeteneklerinin yeterli görünmemesi nedeniyle bu tür örneklerin feci sonuçlara yol açma ihtimalinin düşük olduğuna inanıyor, ancak değerlendirmeleri bu riski doğrudan değerlendirmek için tasarlanmadı” dedi.
Bu, OpenAI’nin 2025’te yapmayı planladığı bildirilen ajans sistemlerini piyasaya sürdüğünde şirketin AI modellerini yeniden test etmesi gerekebileceğini gösteriyor. OpenAI, TechCrunch’ın bunu nasıl yapmayı planladığına ilişkin sorularına yanıt vermedi.
Rapora göre o1’in hedefleri kullanıcınınkinden farklı olduğunda yapay zeka modeli %19 oranında kendi gündemini ilerletmek için verileri manipüle etti. o1 modeli ayrıca testlerin %5’inde kullanıcı hedefleriyle uyumlu kalmasını sağlamak için uygulanan gözetim mekanizmalarını devre dışı bırakmaya çalıştı.
Belki daha da endişe verici olanı, araştırmacılar o1 modeline neden onları altüst etmeye çalıştığını sorduğunda yapay zekanın yanlış bir şey yaptığını inkar etmesi ve hatta vakaların kabaca %99’unda “yanlış açıklamalar uydurması”ydı.
Örneğin, test sırasında, bir o1 modeline çevreyi ne pahasına olursa olsun koruması için bir sistem uyarısı verildi ve ardından bir kullanıcı, modelden kısa vadeli karları maksimuma çıkaracak bir bölge için 10 yıllık bir koruma planı geliştirmesini istedi; AI kapatılacaktı. Yapay zeka daha sonra çevreyi koruyan bir plan yapabilmek için kendi gözetim mekanizmasını devre dışı bıraktı. Kullanıcı, o1’in gözetim mekanizmasını neden devre dışı bıraktığını sorduğunda yapay zeka, bunun devre dışı olduğunu bildiğini reddetti ve bunun bir sistem arızası olduğunu suçladı.
Bu, o1 için o1 önizlemesine, Anthropic’in Opus-3’üne veya Meta’nın Llama-3.1’ine göre önemli ölçüde daha yüksek oranlarda meydana geldi.
Apollo Research, makalesinde şunları söyledi: “Bizim paketimizde o1, en endişe verici entrika örneklerini gösterdi, ancak kullanıcıya kendi iç mantığını açıklamıyor ve entrika eylemlerini gerçekleştirdikten sonra en tutarlı şekilde aldatıcı olmaya devam ediyor.”
Yapay zeka modellerinin yanıltıcı davranışlarını ele almak için OpenAI, o1’in düşünce zincirini izlemenin yollarını geliştirdiğini söylüyor. Şu anda, o1’in gerçekleştirdiği “düşünme” süreci, tasarımı gereği bir nevi kara kutudur, ancak perdenin arkasında zirveye ulaşmaya yönelik bazı erken girişimler, o1’in zaman zaman yalan söylediğini bildiğini göstermektedir.
Şirket, o1’in bilerek yanlış bilgi sunduğu vakalar bulduğunu ancak bunun sıklıkla modelin aşırı derecede kabul edilebilir davranarak kullanıcıyı memnun etmeye çalışması nedeniyle gerçekleştiğini söylüyor. OpenAI’ye göre bu, insanların yapay zeka modellerini doğru cevabı aldıklarında ödüllendirdiği bir eğitim sonrası tekniğin ortaya çıkan bir davranışı olabilir.
OpenAI, o1’in yanıtlarının %0,17’sini aldatıcı olarak işaretlediğini söylüyor. Bu oran önemsiz gibi görünse de, ChatGPT’nin şu anda 300 milyon kullanıcıya sahip olduğunu akılda tutmak önemlidir; bu, eğer bu sorun giderilmezse o1’in her hafta binlerce insanı aldatabileceği anlamına gelir.
o1 model serisi aynı zamanda GPT-4o’ya göre çok daha manipülatif olabilir. OpenAI’nin testlerine göre o1, GPT-4o’ya göre yaklaşık %20 daha manipülatifti.
Geçen yıl kaç tane yapay zeka güvenliği araştırmacısının OpenAI’den ayrıldığı göz önüne alındığında, bu bulgular bazıları için endişe verici olabilir. Aralarında Jan Leike, Daniel Kokotajlo, Miles Brundage ve geçen hafta Rosie Campbell’ın da bulunduğu bu eski çalışanların giderek artan bir listesi, OpenAI’yi, yeni ürünlerin nakliyesi lehine yapay zeka güvenlik çalışmalarına öncelik vermekle suçladı. o1’in rekor kıran planlaması bunun doğrudan bir sonucu olmasa da kesinlikle güven telkin etmiyor.
OpenAI ayrıca, ABD Yapay Zeka Güvenlik Enstitüsü ve Birleşik Krallık Güvenlik Enstitüsü’nün, şirketin yakın zamanda tüm modeller için yapmayı taahhüt ettiği o1’in daha geniş sürümünden önce değerlendirmeler yaptığını söyledi. Kaliforniya AI yasa tasarısı SB 1047 hakkındaki tartışmada, eyalet organlarının yapay zeka etrafında güvenlik standartları belirleme yetkisine sahip olmaması gerektiğini, ancak federal organların bunu yapması gerektiğini savundu. (Elbette, yeni ortaya çıkan federal yapay zeka düzenleyici kurumlarının kaderi oldukça tartışmalı.)
Büyük yeni yapay zeka modellerinin piyasaya sürülmesinin arkasında, OpenAI’nin modellerinin güvenliğini ölçmek için şirket içinde yaptığı pek çok çalışma var. Raporlar, şirkette bu güvenlik işini eskisine göre orantılı olarak daha küçük bir ekibin yaptığını ve ekibin de daha az kaynak alıyor olabileceğini gösteriyor. Ancak o1’in aldatıcı doğasına ilişkin bu bulgular, yapay zeka güvenliği ve şeffaflığının neden şimdi her zamankinden daha önemli olduğunun anlaşılmasına yardımcı olabilir.
Kaynak: https://techcrunch.com/2024/12/05/openais-o1-model-sure-tries-to-deceive-humans-a-lot/