OpenAI'ın Yeni YZ Modelleri Daha Çok Yanılıyor

OpenAI'ın Yeni YZ Modelleri Daha Çok Yanılıyor
Photo by Francisco De Legarreta C. / Unsplash

OpenAI'ın yakın zamanda tanıttığı o3 ve o4-mini yapay zeka modelleri, birçok açıdan son teknolojiyi temsil ediyor. Ancak bu yeni modellerin, OpenAI'ın eski modellerinden bazılarına kıyasla daha fazla "halüsinasyon" gördüğü, yani yanlış veya uydurma bilgiler ürettiği ortaya çıktı.

Yapay zeka alanındaki en büyük ve çözülmesi en zor sorunlardan biri olan halüsinasyonlar, günümüzün en iyi performans gösteren sistemlerini bile etkiliyor. Genellikle her yeni model, bir öncekinden daha az halüsinasyon görme eğilimindeydi. Fakat o3 ve o4-mini için durum pek de öyle görünmüyor.

Artan Halüsinasyon Oranları

OpenAI'ın kendi iç testlerine göre, "mantık yürütme" (reasoning) modelleri olarak adlandırılan o3 ve o4-mini, şirketin önceki mantık yürütme modelleri (o1, o1-mini, o3-mini) ve GPT-4o gibi geleneksel modellere göre daha sık halüsinasyon görüyor.

Daha da endişe verici olanı, ChatGPT'nin geliştiricisi OpenAI'ın bunun neden olduğuna dair net bir açıklamasının olmaması. Yayınladıkları teknik raporda, mantık yürütme modellerini ölçeklendirdikçe halüsinasyonların neden arttığını anlamak için "daha fazla araştırmaya ihtiyaç olduğu" belirtiliyor. Rapora göre, o3 ve o4-mini kodlama ve matematik gibi bazı alanlarda daha iyi performans gösterse de, "genel olarak daha fazla iddiada bulundukları" için hem "daha doğru iddialar" hem de "daha fazla yanlış/halüsinasyon içeren iddialar" üretiyorlar.

OpenAI, kendi bünyesinde geliştirdiği ve modellerin kişiler hakkındaki bilgisinin doğruluğunu ölçen PersonQA test setinde, o3'ün soruların %33'üne halüsinasyonla yanıt verdiğini tespit etti. Bu oran, sırasıyla %16 ve %14.8 oranında halüsinasyon gören önceki modeller o1 ve o3-mini'nin neredeyse iki katı. O4-mini ise PersonQA'da %48'lik halüsinasyon oranıyla daha da kötü bir performans sergiledi.

Üçüncü Parti Bulguları ve Uzman Görüşleri

Kâr amacı gütmeyen yapay zeka araştırma laboratuvarı Transluce tarafından yapılan bağımsız testler de, o3'ün cevaplara ulaşma sürecinde gerçekleştirdiğini iddia ettiği eylemleri uydurma eğiliminde olduğuna dair kanıtlar buldu. Bir örnekte Transluce, o3'ün "ChatGPT dışında" 2021 model bir MacBook Pro'da kod çalıştırdığını ve ardından sayıları cevabına kopyaladığını iddia ettiğini gözlemledi. O3'ün bazı araçlara erişimi olsa da, bunu yapma yeteneği bulunmuyor.

Transluce araştırmacısı ve eski bir OpenAI çalışanı olan Neil Chowdhury, TechCrunch'a gönderdiği e-postada, "Hipotezimiz, o-serisi modeller için kullanılan türdeki pekiştirmeli öğrenmenin, normalde standart eğitim sonrası süreçlerle azaltılan (ancak tamamen ortadan kaldırılmayan) sorunları büyütebileceği yönünde," dedi.

Stanford'da öğretim görevlisi ve Workera'nın CEO'su Kian Katanforoosh ise ekibinin o3'ü kodlama iş akışlarında test ettiğini ve rekabette bir adım önde bulduklarını belirtti. Ancak Katanforoosh, o3'ün çalışmayan web sitesi bağlantıları uydurma eğiliminde olduğunu da ekliyor.

Etkileri ve Çözüm Arayışları

Halüsinasyonlar, modellerin ilginç fikirler üretmesine ve "düşüncelerinde" yaratıcı olmasına yardımcı olsa da, doğruluğun kritik olduğu pazarlardaki işletmeler için bazı modelleri riskli hale getiriyor. Örneğin, bir hukuk bürosu, müvekkil sözleşmelerine çok sayıda hatalı bilgi ekleyen bir modelden memnun kalmayacaktır.

Modellerin doğruluğunu artırmaya yönelik umut verici yaklaşımlardan biri, onlara web'de arama yapma yeteneği kazandırmak. OpenAI'ın web araması yapabilen GPT-4o modeli, SimpleQA test setinde %90 doğruluk oranına ulaşıyor. Potansiyel olarak web araması, mantık yürütme modellerinin halüsinasyon oranlarını da iyileştirebilir.

Eğer mantık yürütme modellerini ölçeklendirmek halüsinasyonları artırmaya devam ederse, bu durum çözüm arayışını daha da acil hale getirecektir. OpenAI sözcüsü Niko Felix, "Tüm modellerimizdeki halüsinasyonları ele almak devam eden bir araştırma alanıdır ve doğruluklarını ve güvenilirliklerini iyileştirmek için sürekli çalışıyoruz," dedi.

Son bir yılda yapay zeka endüstrisi, geleneksel yapay zeka modellerini iyileştirme tekniklerinin azalan getiriler göstermeye başlamasıyla mantık yürütme modellerine odaklanmaya yöneldi. Mantık yürütme, eğitim sırasında büyük miktarda bilgi işlem gücü ve veri gerektirmeden çeşitli görevlerde model performansını artırıyor. Ancak görünüşe göre bu yaklaşım, daha fazla halüsinasyona yol açarak yeni bir zorluk ortaya çıkarıyor.

Kaynaklar

Read more

Duolingo CEO’su: Yapay Zeka Açıklamamız Yanlış Anlaşıldı

Duolingo CEO’su: Yapay Zeka Açıklamamız Yanlış Anlaşıldı

Duolingo’nun Yapay Zeka Stratejisine Dair Yanlış Anlaşılma Duolingo CEO’su Luis von Ahn, şirketin “AI-öncelikli bir şirket” olacağını açıkladığı tartışmalı memonun yanlış anlaşıldığını belirtti. Özellikle iş gücü ve kâr odaklılık konularında oluşan eleştiriler sonrasında von Ahn, The New York Times’a verdiği röportajda, asıl sorunun yeterli bağlam verilmemesi olduğunu

By Cansın Cengiz
Yapay Zekâ Destekli Peluş Oyuncaklar: Çocuklar İçin Ekran Alternatifi mi?

Yapay Zekâ Destekli Peluş Oyuncaklar: Çocuklar İçin Ekran Alternatifi mi?

Yapay Zekâ Destekli Peluş Oyuncaklar: Ekran Süresine Alternatif mi? Son dönemde piyasaya çıkan yapay zekâ destekli peluş oyuncaklar, çocuklar için ekran süresini azaltmada yeni bir çözüm olarak tanıtılıyor. Tatlı görünümleriyle dikkat çeken bu sohbetçi peluşlar, birçok aile tarafından merakla inceleniyor. Ancak konuya eleştirel yaklaşan uzmanlar ve bazı ebeveynler, bu teknolojik

By Cansın Cengiz
Anthropic Claude Modelleri Zararlı Sohbetleri Artık Sonlandırabiliyor

Anthropic Claude Modelleri Zararlı Sohbetleri Artık Sonlandırabiliyor

Anthropic Claude Modelleri Zararlı ve Kötüye Kullanılan Sohbetleri Sonlandırma Özelliğine Kavuştu Yapay zekâ dünyasında önemli bir gelişme yaşandı: Anthropic, Claude modellerinin bazı yeni sürümlerinin, "nadir ve aşırı uç vakalarda" zararlı veya istismar edici kullanıcı etkileşimlerinde sohbeti sonlandırabileceğini duyurdu. Bu özellik, özellikle Claude Opus 4 ve 4.1 modellerinde

By Cansın Cengiz
Lex Proxima Studios LTD