OpenAI en büyük duyurusunu 12 günlük “shipmas” etkinliğinin son gününe sakladı.
Cuma günü şirket, yılın başlarında piyasaya sürdüğü o1 “akıl yürütme” modelinin devamı olan o3’ü tanıttı. o3, daha kesin olmak gerekirse, o1’de olduğu gibi model bir ailedir. Belirli görevler için hassas şekilde ayarlanmış daha küçük, saf bir model olan o3 ve o3-mini vardır.
OpenAI, o3’ün en azından belirli koşullar altında AGI’ye önemli uyarılarla yaklaştığı yönünde dikkate değer bir iddiada bulunuyor. Aşağıda bununla ilgili daha fazla bilgi bulabilirsiniz.
En son akıl yürütme modelimiz olan o3, en zorlu kriterlerimizde adım fonksiyonu iyileştirmesi içeren bir çığır açıcıdır. şimdi güvenlik testlerine ve kırmızı ekip oluşturmaya başlıyoruz. https://t.co/4XlK1iHxFK
– Greg Brockman (@gdb) 20 Aralık 2024
Neden yeni modele o2 değil de o3 adını verelim? Ticari markalar suçlu olabilir. The Information’a göre OpenAI, İngiliz telekom sağlayıcısı O2 ile olası bir çatışmayı önlemek için o2’yi atladı. CEO Sam Altman bu sabah canlı yayın sırasında bunu bir şekilde doğruladı. İçinde yaşadığımız dünya tuhaf değil mi?
Ne o3 ne de o3-mini henüz yaygın olarak mevcut değil, ancak güvenlik araştırmacıları bugünden itibaren o3-mini için bir ön izleme için kaydolabilirler. Bir süre sonra o3 önizlemesi gelecek; OpenAI ne zaman olacağını belirtmedi. Altman, planın o3-mini’yi Ocak ayının sonuna doğru piyasaya sürmek ve bunu o3 ile takip etmek olduğunu söyledi.
Bu onun son açıklamalarıyla biraz çelişiyor. Bu hafta yapılan bir röportajda Altman, OpenAI yeni akıl yürütme modellerini yayınlamadan önce, bu tür modellerin risklerinin izlenmesine ve azaltılmasına rehberlik edecek federal bir test çerçevesini tercih edeceğini söyledi.
Ve riskler var. Yapay zeka güvenlik testçileri, o1’in akıl yürütme yeteneklerinin, geleneksel, “akıl yürütmeyen” modellere veya bu konuda Meta, Anthropic ve Google’ın önde gelen yapay zeka modellerine göre insan kullanıcılarını daha yüksek oranda aldatmaya çalışmasını sağladığını buldu. o3’ün selefine göre çok daha yüksek oranda yanıltma girişiminde bulunması mümkündür; OpenAI’nin kırmızı takım ortakları test sonuçlarını yayınladıktan sonra öğreneceğiz.
OpenAI, o3 gibi modelleri güvenlik ilkeleriyle uyumlu hale getirmek için yeni bir teknik olan “kasıtlı hizalama” kullandığını söylüyor. (o1 de aynı şekilde hizalandı.) Şirket, çalışmalarını yeni bir çalışmada detaylandırdı.
Muhakeme adımları
Çoğu yapay zekanın aksine, o3 gibi muhakeme modelleri, kendilerini etkili bir şekilde kontrol ederek, normalde modelleri tetikleyen bazı tuzaklardan kaçınmalarına yardımcı olur.
Bu doğrulama süreci bir miktar gecikmeye neden olur. o3, kendisinden önceki o1 gibi, tipik bir mantık yürütmeyen modelle karşılaştırıldığında çözümlere ulaşmak biraz daha uzun sürer (genellikle saniyeler ila dakikalar arasında). Olumlu tarafı mı? Fizik, bilim ve matematik gibi alanlarda daha güvenilir olma eğilimindedir.
o3, OpenAI’nin “özel düşünce zinciri” olarak tanımladığı şey aracılığıyla yanıt vermeden önce “düşünmeyi” takviyeli öğrenme yoluyla eğitildi. Model, bir görev üzerinde akıl yürütebilir ve ileriyi planlayabilir, uzun bir süre boyunca bir çözüm bulmasına yardımcı olacak bir dizi eylem gerçekleştirebilir.
duyurduk @OpenAI o1 sadece 3 ay önce. Bugün o3’ü duyurduk. Bu gidişatın devam edeceğine inanmak için her türlü nedenimiz var. pic.twitter.com/Ia0b63RXIk
— Noam Brown (@polinoamial) 20 Aralık 2024
Uygulamada, bir ipucu verildiğinde, o3 yanıt vermeden önce duraklar, bir dizi ilgili ipucunu dikkate alır ve yol boyunca gerekçesini “açıklar”. Bir süre sonra model, en doğru yanıt olarak gördüğü şeyi özetler.
o3’e karşı o1’deki yenilik, muhakeme süresini “ayarlayabilme” yeteneğidir. Modeller düşük, orta veya yüksek hesaplamaya (yani düşünme süresine) ayarlanabilir. İşlem ne kadar yüksek olursa, o3 bir görevde o kadar iyi performans gösterir.
Ellerinde ne kadar bilgi işlem olursa olsun, o3 gibi akıl yürütme modelleri kusursuz değildir. Muhakeme bileşeni halüsinasyonları ve hataları azaltabilse de bunları ortadan kaldırmaz. o1 örneğin tic-tac-toe oyunlarında takılıp kalıyor.
Karşılaştırmalar ve AGI
Bugüne kadarki büyük sorulardan biri, OpenAI’nin en yeni modellerinin AGI’ye yaklaştığını iddia edip edemeyeceğiydi.
“Yapay genel zeka”nın kısaltması olan AGI, genel olarak bir insanın yapabileceği her görevi yerine getirebilen yapay zekayı ifade eder. OpenAI’nin kendi tanımı vardır: “Ekonomik açıdan en değerli işlerde insanlardan daha iyi performans gösteren yüksek düzeyde özerk sistemler.”
YGZ’ye ulaşmak cesur bir beyan olacaktır. Ayrıca OpenAI için de sözleşmenin ağırlığını taşıyor. Yakın ortağı ve yatırımcı Microsoft ile yaptığı anlaşmanın şartlarına göre, OpenAI AGI’ye ulaştığında artık Microsoft’un en gelişmiş teknolojilerine (yani OpenAI’nin AGI tanımını karşılayanlara) erişimine izin vermek zorunda kalmayacak.
Tek bir kritere göre hareket eden OpenAI öyle yavaş yavaş AGI’ye yaklaşıyor. Bir yapay zeka sisteminin üzerinde eğitim aldığı veriler dışında yeni becerileri etkili bir şekilde edinip edinemeyeceğini değerlendirmek için tasarlanmış bir test olan ARC-AGI’de o3, yüksek hesaplama ayarında %87,5 puan elde etti. En kötü durumda (düşük hesaplama ayarında), model o1’in performansını üç katına çıkardı.
Kabul edelim ki, ARC-AGI ortak yaratıcısı François Chollet’e göre yüksek hesaplama ayarı, meydan okuma başına binlerce dolar civarında, son derece pahalıydı.
Bugün OpenAI, yeni nesil akıl yürütme modeli o3’ü duyurdu. ARC-AGI üzerinde test etmek için OpenAI ile birlikte çalıştık ve bunun, yapay zekanın yeni görevlere uyum sağlamasını sağlamada önemli bir ilerlemeyi temsil ettiğine inanıyoruz.
Düşük hesaplama modunda yarı özel değerlendirmede %75,7 puan alıyor (görev başına 20 ABD doları… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20 Aralık 2024
Chollet ayrıca o3’ün ARC-AGI’de “çok kolay görevlerde” başarısız olduğuna dikkat çekerek, kendi görüşüne göre modelin insan zekasından “temel farklılıklar” sergilediğini belirtti. Daha önce değerlendirmenin sınırlamalarına dikkat çekmiş ve bunun yapay zeka süper zekasının bir ölçüsü olarak kullanılmasına karşı uyarıda bulunmuştu.
“[E]İlk veri noktaları yaklaşmakta olan bir gelişmeyi gösteriyor [successor to the ARC-AGI] Benchmark o3 için hâlâ önemli bir zorluk teşkil edecek ve potansiyel olarak yüksek hesaplamada bile puanını %30’un altına düşürecek (akıllı bir insan hiçbir eğitim almadan yine de %95’in üzerinde puan alabilir),” diye devam etti Chollet bir açıklamada. “Sıradan insanlar için kolay ama yapay zeka için zor olan görevlerin yaratılması tamamen imkansız hale geldiğinde AGI’nin burada olduğunu anlayacaksınız.”
Bu arada OpenAI, yeni nesil yapay zeka standardı ARC-AGI 2’yi oluşturmasına yardımcı olmak için ARC-AGI’nin arkasındaki temel ile ortaklık kuracağını söylüyor.
Diğer testlerde o3 rekabeti geride bırakıyor.
Model, programlama görevlerine odaklanan bir kıyaslama olan SWE-Bench Verified’da o1’den yüzde 22,8 puan daha iyi performans gösteriyor ve kodlama becerilerinin başka bir ölçüsü olan 2727 Codeforces derecelendirmesine ulaşıyor. (2400 puan, bir mühendisi yüzde 99,2’ye yerleştirir. ) o3, 2024 Amerika Davetli Matematik Sınavında %96,7 puan aldı, yalnızca bir soruyu kaçırdı ve başardı Lisansüstü düzeyde biyoloji, fizik ve kimya sorularından oluşan GPQA Diamond’da %87,7. Son olarak o3, EpochAI’nin Frontier Math değerlendirmesinde yeni bir rekor kırarak sorunların %25,2’sini çözüyor; başka hiçbir model %2’yi geçmiyor.
o3-mini’yi eğittik: hem o1-mini’den daha yetenekli hem de akıl yürütme belirteçlerini hesaba katarken uçtan uca yaklaşık 4 kat daha hızlı
ile @ren_hongyu @shengjia_zhao ve diğerleri pic.twitter.com/3Cujxy6yCU
— Kevin Lu (@_kevinlu) 20 Aralık 2024
Bu iddialara elbette ihtiyatla yaklaşmak gerekiyor. Bunlar OpenAI’nin dahili değerlendirmelerinden alınmıştır. Modelin gelecekte dış müşteriler ve kuruluşlar tarafından yapılan karşılaştırmalara karşı nasıl dayandığını görmek için beklememiz gerekecek.
Bir trend
OpenAI’nin ilk akıl yürütme modeli serisinin piyasaya sürülmesinin ardından, Google da dahil olmak üzere rakip AI şirketlerinin akıl yürütme modellerinde bir patlama yaşandı. Kasım ayının başlarında, niceliksel tüccarlar tarafından finanse edilen bir yapay zeka araştırma şirketi olan DeepSeek, ilk akıl yürütme modeli olan DeepSeek-R1’in bir ön izlemesini başlattı. Aynı ay, Alibaba’nın Qwen ekibi, o1’e ilk “açık” rakip olduğunu iddia ettiği şeyi açıkladı (indirilebilir, ince ayar yapılabilir ve yerel olarak çalıştırılabilir).
Akıl yürütme modelinin bent kapaklarını ne açtı? Birincisi, üretken yapay zekayı iyileştirmek için yeni yaklaşımlar arayışı. TechCrunch’ın yakın zamanda bildirdiği gibi, modelleri büyütmek için kullanılan “kaba kuvvet” teknikleri artık eskisi gibi iyileştirmeler sağlayamıyor.
Herkes akıl yürütme modellerinin ileriye yönelik en iyi yol olduğuna ikna olmuş değil. Bunları çalıştırmak için gereken büyük miktarda bilgi işlem gücü sayesinde pahalı olma eğilimindedirler. Şu ana kadar karşılaştırmalı değerlendirmelerde iyi performans gösterseler de, akıl yürütme modellerinin bu ilerleme hızını sürdürüp sürdüremeyeceği açık değil.
İlginç bir şekilde, o3’ün piyasaya sürülmesi, OpenAI’nin en başarılı bilim adamlarından birinin ayrılmasıyla birlikte geliyor. OpenAI’nin üretken yapay zeka modellerinden (yani GPT-3, GPT-4 vb.) oluşan “GPT serisini” başlatan akademik makalenin baş yazarı Alec Radford, bu hafta bağımsız araştırma yapmak üzere ayrıldığını duyurdu.
TechCrunch’ın yapay zeka odaklı bir haber bülteni var! Buradan kaydolun Her Çarşamba gelen kutunuza almak için.
Kaynak: https://techcrunch.com/2024/12/20/openai-announces-new-o3-model/