Openai Cuma günü, şirketin O Akıl Yürütme Modelleri ailesindeki en yeni olan yeni bir AI “akıl yürütme” modeli O3-Mini başlattı.
Openai ilk olarak modeli Aralık ayında O3 adlı daha yetenekli bir sistemin yanında önizledi, ancak lansman, tutkusu – ve zorlukları – görünüşte gün geçtikçe büyüyen şirket için çok önemli bir anda geliyor.
Openai, AI yarışında Deepseek gibi Çinli şirketlere AI yarışında zeminde olduğu algısıyla mücadele ediyor. Aynı anda iddialı bir veri merkezi projesini sürdürdüğü ve tarihin en büyük finansman turlarından biri için zemin hazırladığı için Washington ile olan ilişkisini artırmaya çalışıyor.
Bu da bizi O3-mini’ye getiriyor. Openai yeni modelini hem “güçlü” hem de “uygun fiyatlı” olarak sunuyor.
“Bugünün lansman işaretleri […] Bir Openai sözcüsü TechCrunch’a verdiği demeçte.
Daha verimli akıl yürütme
Çoğu büyük dil modelinden farklı olarak, O3-Mini gibi akıl yürütme modelleri sonuç vermeden önce kendilerini iyice kontrol edin. Bu, normalde modelleri gezen bazı tuzaklardan kaçınmalarına yardımcı olur. Bu akıl yürütme modellerinin çözümlere ulaşması biraz daha uzun sürer, ancak değiş tokuş, fizik gibi alanlarda-mükemmel olmasa da-daha güvenilir olma eğiliminde olmalarıdır.
O3-mini, özellikle programlama, matematik ve bilim için STEM problemleri için ince ayarlanmıştır. Openai, modelin yetenekler açısından O1 ailesi O1 ve O1-mini ile büyük ölçüde eşit olduğunu iddia ediyor, ancak daha hızlı çalışıyor ve daha az maliyet.
Şirket, harici testçilerin O3-Mini’nin O1-Mini’den yarısından fazla olan cevaplarını tercih ettiğini iddia etti. O3-mini, A/B testlerinde O1-mini’ye karşı “zorlu gerçek dünya soruları” üzerinde% 39 daha az “büyük hata” yaptı ve cevaplar yaklaşık% 24 daha hızlı cevap verirken “daha net” yanıtlar üretti.
O3-mini Cuma gününden itibaren tüm kullanıcılar için chatgpt aracılığıyla kullanılabilir, ancak Openai’nin ChatGPT Plus ve takım planları için ödeme yapan kullanıcılar günde 150 sorgu daha yüksek bir fiyat sınırı alacaklar. ChatGpt Pro aboneleri sınırsız erişim alacak ve O3-Mini bir hafta içinde ChatGPT Enterprise ve ChatGPT EDU müşterilerine gelecek. (Chatgpt Gov hakkında henüz bir kelime yok).
Premium planları olan kullanıcılar, ChatGPT açılır menüsünü kullanarak O3-Mini’yi seçebilir. Ücretsiz kullanıcılar sohbet çubuğundaki yeni “Sebep” düğmesine tıklayabilir veya dokunabilir veya chatgpt bir cevabı “yeniden yazdırabilir”.
Cuma gününden itibaren O3-Mini, geliştiricileri seçmek için Openai’nin API’sı aracılığıyla da satışa sunulacak, ancak başlangıçta görüntüleri analiz etmek için desteğe sahip olmayacak. Devler, O3-Mini’nin kullanım durumlarına ve gecikme ihtiyaçlarına göre “daha fazla düşünmesini” sağlamak için “akıl yürütme çabası” (düşük, orta veya yüksek) seviyesini seçebilirler.
O3-mini, milyonlarca jetonun yaklaşık 750.000 kelimeye eşit olduğu milyon önbelleğe alınan girdi jetonları başına 0,55 $ ve milyon çıktı jetonları başına 4.40 $ fiyatla fiyatlandırılıyor. Bu O1-Mini’den% 63 daha ucuz ve Deepseek’in R1 akıl yürütme modeli fiyatlandırmasıyla rekabet ediyor. Deepseek, milyonlarca önbelleğe alınan girdi jetonları başına 0,14 $ ve API’si aracılığıyla R1 erişimi için milyon çıktı jetonları başına 2.19 $ ücret alıyor.
Chatgpt’te O3-mini, Openai’nin “hız ve doğruluk arasında dengeli bir değiş tokuş” sağladığını söylediği orta akıl yürütme çabasına ayarlandı. Ücretli kullanıcılar, model seçicisinde “O3-Mini-High” seçme seçeneğine sahip olacak ve bu da Openai’nin daha yavaş yanıtlar karşılığında “daha yüksek zeka” olarak adlandırdığı şeyi sunacak.
O3-mini ChatGPT kullanıcılarının hangi sürümünü seçtiğinden bağımsız olarak, model, ilgili web kaynaklarına bağlantılarla güncel cevaplar bulmak için arama ile çalışacaktır. Openai, işlevselliğin, akıl yürütme modellerine entegre etmek için çalıştığı için bir “prototip” olduğunu uyarıyor.
Openai, Cuma günü bir blog yazısında, “O1 daha geniş genel bilgi akıl yürütme modelimiz olmaya devam ederken, O3-Mini, hassasiyet ve hız gerektiren teknik alanlar için özel bir alternatif sunuyor. “O3-Mini’nin piyasaya sürülmesi, Openai’nin maliyet etkin zekanın sınırlarını zorlama misyonunda bir adım daha işaret ediyor.”
Dikkatler bol
O3-mini, Openai’nin bugüne kadarki en güçlü modeli değil, Deepseek’in R1 akıl yürütme modelini her ölçütte de atlamıyor.
O3-mini, modellerin karmaşık talimatları ne kadar iyi anladığını ve yanıtlamayı ölçen bir test olan AIME 2024’te R1’i yener-ancak sadece yüksek akıl yürütme çabasıyla. Ayrıca, programlama odaklı test SWE-Bench’i doğrulanmış (.1 puanla) yener, ancak yine, sadece yüksek akıl yürütme çabasıyla. Düşük akıl yürütme çabası üzerine, O3-mini, modeli doktora derecesi fizik, biyoloji ve kimya soruları ile test eden GPQA Diamond’da R1’i geciktirir.
Adil olmak gerekirse, O3-mini birçok sorguyu rekabetçi bir şekilde düşük maliyet ve gecikme ile cevaplar. Yazıda Openai performansını O1 ailesiyle karşılaştırıyor:
Openai, “Düşük akıl yürütme çabasıyla O3-Mini O1-Mini ile karşılaştırılabilir performans elde ederken, orta çaba ile O3-mini O1 ile karşılaştırılabilir performans elde ediyor” diyor. “Orta akıl yürütme çabasıyla O3-Mini, O1’in matematik, kodlama ve bilimdeki performansıyla eşleşirken daha hızlı yanıtlar verir. Bu arada, yüksek akıl yürütme çabasıyla O3-mini hem O1-Mini hem de O1’den daha iyi performans gösteriyor. ”
O3-Mini’nin O1 üzerindeki performans avantajının bazı alanlarda ince olduğunu belirtmek gerekir. AIME 2024’te O3-Mini, yüksek akıl yürütme çabasına ayarlandığında O1’i sadece yüzde 0,3 puanla yener. Ve GPQA Diamond’ta O3-Mini, yüksek akıl yürütme çabalarında bile O1’in puanını aşmıyor.
Openai, O3-MINI’nin O1 ailesinden “güvenli” veya daha güvenli olduğunu ileri sürer, ancak kırmızı takımlama çabaları ve “kasıtlı hizalama” metodolojisi sayesinde modelleri, modelleri Openai’nin güvenlik politikası hakkında “düşünür”. sorgular. Şirkete göre, O3-mini Openai’nin amiral gemisi modellerinden GPT-4O’dan “Zorlu Güvenlik ve Jailbreak Değerlendirmeleri” konusunda “önemli ölçüde aşıyor”.
TechCrunch AI odaklı bir bülten var! Her Çarşamba günü gelen kutunuza almak için buraya kaydolun.
Kaynak: https://techcrunch.com/2025/01/31/openai-launches-o3-mini-its-latest-reasoning-model/