Openai’nin yakın zamanda piyasaya sürülen O3 ve O4-mini AI modelleri birçok açıdan en son teknoloji. Ancak, yeni modeller hala halüsinasyon yapar veya işleri telafi eder – aslında halüsinasyon yaparlar Daha Openai’nin eski modellerinden birkaçı.
Halüsinasyonların, AI’da çözülmesi gereken en büyük ve en zor problemlerden biri olduğu ve günümüzün en iyi performans gösteren sistemlerini bile etkilediği kanıtlanmıştır. Tarihsel olarak, her yeni model halüsinasyon departmanında biraz gelişti ve selefinden daha az halüsinasyon yaptı. Ancak bu O3 ve O4-mini için böyle görünmüyor.
Openai’nin iç testlerine göre, akıl yürütme modelleri olan O3 ve O4-mini, halüsinat daha sık Şirketin önceki akıl yürütme modellerinden-O1, O1-Mini ve O3-Mini-ve Openai’nin GPT-4O gibi geleneksel, “mantıklı olmayan” modellerinden.
Belki de daha çok, ChatGPT üreticisi neden olduğunu gerçekten bilmiyor.
Openai O3 ve O4-mini için teknik raporunda, Halüsinasyonların akıl yürütme modellerini ölçeklendirdikçe neden kötüleştiğini anlamak için “daha fazla araştırmaya ihtiyaç olduğunu” yazıyor. O3 ve O4-mini, kodlama ve matematik ile ilgili görevler de dahil olmak üzere bazı alanlarda daha iyi performans gösterir. Ancak rapora göre “genel olarak daha fazla iddiada bulundukları” için genellikle “daha doğru iddialar ve daha yanlış/halüsinasyonlu iddialar” yapmalarına yol açıyorlar.
Openai, şirketin bir modelin insanlar hakkındaki bilgilerinin doğruluğunu ölçmek için şirket içi ölçütü olan Personqa’daki soruların% 33’üne yanıt olarak O3’ün halüsinasyonunu buldu. Bu, sırasıyla% 16 ve% 14.8 puan alan Openai’nin önceki akıl yürütme modelleri O1 ve O3-Mini’nin halüsinasyon oranının kabaca iki katı. O4-mini Personqa’da daha da kötüleşti-zamanın% 48’ini halüsinasyon.
Kâr amacı gütmeyen bir AI araştırma laboratuvarı olan Transleus tarafından üçüncü taraf testi, O3’ün cevaplara varma sürecinde aldığı eylemleri oluşturma eğiliminde olduğuna dair kanıt buldu. Bir örnekte, çevirisi O3’ü gözlemledi ve 2021 MacBook Pro’da “ChatGPT dışında” kod çalıştırdığını iddia etti, ardından sayıları cevabına kopyaladı. O3’ün bazı araçlara erişimi olsa da, bunu yapamaz.
Techsuce araştırmacısı ve eski Openai çalışanı Neil Chowdhury, “Hipotezimiz, O serisi modeller için kullanılan türden bir tür takviye öğreniminin, genellikle eğitim sonrası boru hatları tarafından genellikle hafifletilen (ancak tam olarak silinmeyen) sorunları artırabileceğidir” dedi.
Transleus’un kurucu ortağı Sarah Schwettmann, O3’ün halüsinasyon oranının aksi takdirde olduğundan daha az kullanışlı hale getirebileceğini de sözlerine ekledi.
Upskilling Startup Workera’nın Stanford yardımcı profesörü ve CEO’su Kian Katanforoosh, TechCrunch’a ekibinin kodlama iş akışlarında zaten O3’ü test ettiğini ve rekabetin bir adım üzerinde olduğunu bulduklarını söyledi. Ancak Katanforoosh, O3’ün kırık web sitesi bağlantılarını halüsinasyon eğiliminde olduğunu söylüyor. Model, tıklandığında çalışmayan bir bağlantı sağlayacaktır.
Halüsinasyonlar, modellerin ilginç fikirlere ulaşmasına ve “düşünmelerinde” yaratıcı olmalarına yardımcı olabilir, ancak bazı modelleri doğruluğun en önemli olduğu pazarlardaki işletmeler için zor bir satış haline getirir. Örneğin, bir hukuk firması muhtemelen müşteri sözleşmelerine çok sayıda olgusal hata ekleyen bir modelden memnun olmaz.
Modellerin doğruluğunu artırmak için umut verici bir yaklaşım, onlara web arama özellikleri vermektir. Openai’nin Web aramasıyla GPT-4O’su, Openai’nin doğruluk ölçütlerinden biri olan Simpleqa’da% 90 doğruluk elde ediyor. Potansiyel olarak, arama, en azından kullanıcıların üçüncü taraf bir arama sağlayıcısına yönelik istemleri ortaya çıkarmak istedikleri durumlarda, akıl yürütme modellerinin halüsinasyon oranlarını da iyileştirebilir.
Akıl yürütme modellerini ölçeklendirmek gerçekten halüsinasyonları kötüleştirmeye devam ederse, bir çözümün avını daha da acil hale getirecektir.
Openai sözcüsü Niko Felix, TechCrunch’a bir e -postayla “Tüm modellerimizdeki halüsinasyonları ele almak devam eden bir araştırma alanıdır ve sürekli olarak doğruluklarını ve güvenilirliklerini artırmak için çalışıyoruz” dedi.
Geçen yıl, daha geniş AI endüstrisi, geleneksel AI modellerini iyileştirmek için tekniklerin azalan getirileri göstermeye başladıktan sonra akıl yürütme modellerine odaklanmaya yöneldi. Akıl yürütme, eğitim sırasında büyük miktarda bilgi işlem ve veri gerektirmeden çeşitli görevlerde model performansını geliştirir. Yine de akıl yürütme, daha fazla halüsinasyona yol açabilir – bir meydan okuma sunar.
Kaynak: https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/