OpenAI'ın Yeni YZ Modelleri Daha Çok Yanılıyor
OpenAI'ın yakın zamanda tanıttığı o3 ve o4-mini yapay zeka modelleri, birçok açıdan son teknolojiyi temsil ediyor. Ancak bu yeni modellerin, OpenAI'ın eski modellerinden bazılarına kıyasla daha fazla "halüsinasyon" gördüğü, yani yanlış veya uydurma bilgiler ürettiği ortaya çıktı.
Yapay zeka alanındaki en büyük ve çözülmesi en zor sorunlardan biri olan halüsinasyonlar, günümüzün en iyi performans gösteren sistemlerini bile etkiliyor. Genellikle her yeni model, bir öncekinden daha az halüsinasyon görme eğilimindeydi. Fakat o3 ve o4-mini için durum pek de öyle görünmüyor.
Artan Halüsinasyon Oranları
OpenAI'ın kendi iç testlerine göre, "mantık yürütme" (reasoning) modelleri olarak adlandırılan o3 ve o4-mini, şirketin önceki mantık yürütme modelleri (o1, o1-mini, o3-mini) ve GPT-4o gibi geleneksel modellere göre daha sık halüsinasyon görüyor.
Daha da endişe verici olanı, ChatGPT'nin geliştiricisi OpenAI'ın bunun neden olduğuna dair net bir açıklamasının olmaması. Yayınladıkları teknik raporda, mantık yürütme modellerini ölçeklendirdikçe halüsinasyonların neden arttığını anlamak için "daha fazla araştırmaya ihtiyaç olduğu" belirtiliyor. Rapora göre, o3 ve o4-mini kodlama ve matematik gibi bazı alanlarda daha iyi performans gösterse de, "genel olarak daha fazla iddiada bulundukları" için hem "daha doğru iddialar" hem de "daha fazla yanlış/halüsinasyon içeren iddialar" üretiyorlar.
OpenAI, kendi bünyesinde geliştirdiği ve modellerin kişiler hakkındaki bilgisinin doğruluğunu ölçen PersonQA test setinde, o3'ün soruların %33'üne halüsinasyonla yanıt verdiğini tespit etti. Bu oran, sırasıyla %16 ve %14.8 oranında halüsinasyon gören önceki modeller o1 ve o3-mini'nin neredeyse iki katı. O4-mini ise PersonQA'da %48'lik halüsinasyon oranıyla daha da kötü bir performans sergiledi.
Üçüncü Parti Bulguları ve Uzman Görüşleri
Kâr amacı gütmeyen yapay zeka araştırma laboratuvarı Transluce tarafından yapılan bağımsız testler de, o3'ün cevaplara ulaşma sürecinde gerçekleştirdiğini iddia ettiği eylemleri uydurma eğiliminde olduğuna dair kanıtlar buldu. Bir örnekte Transluce, o3'ün "ChatGPT dışında" 2021 model bir MacBook Pro'da kod çalıştırdığını ve ardından sayıları cevabına kopyaladığını iddia ettiğini gözlemledi. O3'ün bazı araçlara erişimi olsa da, bunu yapma yeteneği bulunmuyor.
Transluce araştırmacısı ve eski bir OpenAI çalışanı olan Neil Chowdhury, TechCrunch'a gönderdiği e-postada, "Hipotezimiz, o-serisi modeller için kullanılan türdeki pekiştirmeli öğrenmenin, normalde standart eğitim sonrası süreçlerle azaltılan (ancak tamamen ortadan kaldırılmayan) sorunları büyütebileceği yönünde," dedi.
Stanford'da öğretim görevlisi ve Workera'nın CEO'su Kian Katanforoosh ise ekibinin o3'ü kodlama iş akışlarında test ettiğini ve rekabette bir adım önde bulduklarını belirtti. Ancak Katanforoosh, o3'ün çalışmayan web sitesi bağlantıları uydurma eğiliminde olduğunu da ekliyor.
Etkileri ve Çözüm Arayışları
Halüsinasyonlar, modellerin ilginç fikirler üretmesine ve "düşüncelerinde" yaratıcı olmasına yardımcı olsa da, doğruluğun kritik olduğu pazarlardaki işletmeler için bazı modelleri riskli hale getiriyor. Örneğin, bir hukuk bürosu, müvekkil sözleşmelerine çok sayıda hatalı bilgi ekleyen bir modelden memnun kalmayacaktır.
Modellerin doğruluğunu artırmaya yönelik umut verici yaklaşımlardan biri, onlara web'de arama yapma yeteneği kazandırmak. OpenAI'ın web araması yapabilen GPT-4o modeli, SimpleQA test setinde %90 doğruluk oranına ulaşıyor. Potansiyel olarak web araması, mantık yürütme modellerinin halüsinasyon oranlarını da iyileştirebilir.
Eğer mantık yürütme modellerini ölçeklendirmek halüsinasyonları artırmaya devam ederse, bu durum çözüm arayışını daha da acil hale getirecektir. OpenAI sözcüsü Niko Felix, "Tüm modellerimizdeki halüsinasyonları ele almak devam eden bir araştırma alanıdır ve doğruluklarını ve güvenilirliklerini iyileştirmek için sürekli çalışıyoruz," dedi.
Son bir yılda yapay zeka endüstrisi, geleneksel yapay zeka modellerini iyileştirme tekniklerinin azalan getiriler göstermeye başlamasıyla mantık yürütme modellerine odaklanmaya yöneldi. Mantık yürütme, eğitim sırasında büyük miktarda bilgi işlem gücü ve veri gerektirmeden çeşitli görevlerde model performansını artırıyor. Ancak görünüşe göre bu yaklaşım, daha fazla halüsinasyona yol açarak yeni bir zorluk ortaya çıkarıyor.
Kaynaklar
- OpenAI’s new reasoning AI models hallucinate more | TechCrunch
- OpenAI launches a pair of AI reasoning models, o3 and o4-mini | TechCrunch
- Study suggests that even the best AI models hallucinate a bunch | TechCrunch
- o3 and o4-mini System Card (PDF) | OpenAI
- Investigating o3 Truthfulness | Transluce
- New Tools for Building Agents | OpenAI
- AI scaling laws are showing diminishing returns, forcing AI labs to change course | TechCrunch