OpenAI o3 Benchmark Skoru Beklentiyi Karşılamadı

OpenAI o3 Benchmark Skoru Beklentiyi Karşılamadı
Photo by Solen Feyissa / Unsplash

OpenAI o3 Yapay Zeka Modelinin Benchmark Performansı Tartışma Yarattı

Yapay zeka dünyasının önde gelen şirketlerinden OpenAI'ın Aralık ayında büyük umutlarla tanıttığı yeni o3 modeli, bağımsız benchmark testlerinde beklenenin altında bir performans sergileyerek şeffaflık ve test uygulamaları konusunda soru işaretleri doğurdu.

Beklentiler ve Gerçekleşen Skorlar

OpenAI, o3 modelini duyurduğunda, zorlu bir matematik problemleri seti olan FrontierMath üzerindeki soruların dörtte birinden fazlasını doğru yanıtlayabildiğini iddia etmişti. Bu %25'lik başarı oranı, o dönemdeki en yakın rakibin sadece %2 civarında olan başarısıyla karşılaştırıldığında büyük bir sıçrama anlamına geliyordu. OpenAI Araştırma Direktörü Mark Chen, canlı yayında "Şu anda piyasadaki tüm modellerin [FrontierMath üzerindeki başarı oranı] %2'nin altında," demiş ve eklemişti: "o3 ile agresif test-zamanı hesaplama ayarlarında %25'in üzerine çıkabildiğimizi görüyoruz."

Ancak, FrontierMath benchmark testini geliştiren araştırma enstitüsü Epoch AI'ın Cuma günü yayınladığı bağımsız test sonuçları farklı bir tablo ortaya koydu. Epoch AI'ın testlerine göre o3 modeli, FrontierMath üzerinde yaklaşık %10'luk bir başarı oranı elde etti. Bu skor, OpenAI'ın başlangıçta ima ettiği en yüksek skordan oldukça düşüktü.

Epoch AI'ın X (Twitter) üzerindeki duyurusu:

Skor Farklılığının Olası Nedenleri

Bu durum OpenAI'ın doğrudan yanlış bilgi verdiği anlamına gelmeyebilir. Şirketin Aralık ayında yayınladığı benchmark sonuçlarında belirttiği alt sınır skoru, Epoch AI'ın gözlemlediği skorla örtüşüyor. Epoch AI da kendi test düzeneklerinin OpenAI'ınkinden farklı olabileceğini ve değerlendirmelerinde FrontierMath'in güncellenmiş bir sürümünü kullandıklarını belirtti.

Epoch AI'dan yapılan açıklamada, "Sonuçlarımız ile OpenAI'ın sonuçları arasındaki fark, OpenAI'ın daha güçlü bir iç yapı iskelesi ile değerlendirme yapmasından, daha fazla test-zamanı hesaplama kullanmasından veya bu sonuçların FrontierMath'in farklı bir alt kümesinde çalıştırılmış olmasından kaynaklanıyor olabilir," denildi.

Ayrıca, o3'ün ön sürümünü test eden ARC Prize Foundation'ın X'teki bir gönderisine göre, halka sunulan o3 modeli "sohbet/ürün kullanımı için ayarlanmış farklı bir model". Bu da Epoch'un raporunu destekler nitelikte. ARC Prize, "Yayınlanan tüm o3 hesaplama katmanları, bizim [benchmarkladığımız] sürümden daha küçüktür," diye yazdı. Genel olarak, daha büyük hesaplama katmanlarının daha iyi benchmark skorları elde etmesi beklenir.

Yapay Zeka Benchmarklarına Eleştirel Yaklaşım

Halka sunulan o3 modelinin, OpenAI'ın ilk testlerde ima ettiği kadar yüksek skorlara ulaşamamış olması, şirketin o3-mini-high ve o4-mini gibi modellerinin FrontierMath'te o3'ü geride bıraktığı ve yakın zamanda daha güçlü bir o3 varyantı olan o3-pro'nun piyasaya sürüleceği düşünüldüğünde kısmen önemini yitiriyor.

Ancak bu durum, yapay zeka benchmarklarının, özellikle de satacak hizmetleri olan bir şirketten geldiğinde, olduğu gibi kabul edilmemesi gerektiğini bir kez daha hatırlatıyor. Yapay zeka endüstrisinde, satıcılar yeni modellerle manşetleri ve pazar payını kapma yarışına girdikçe, benchmark "tartışmaları" yaygınlaşıyor. Daha önce Epoch AI'ın OpenAI'dan aldığı fonu geç açıklaması, Elon Musk'ın xAI şirketinin Grok 3 için yanıltıcı grafikler yayınladığı iddiaları ve Meta'nın farklı model sürümleri için benchmark skorları öne sürdüğünü kabul etmesi gibi olaylar yaşanmıştı.

Sonuç olarak, işletmelerin ve kullanıcıların yapay zeka modellerinin yeteneklerini değerlendirirken, özellikle üretici firmalar tarafından sunulan benchmark verilerine ihtiyatla yaklaşması ve bağımsız değerlendirmeleri dikkate alması büyük önem taşıyor.

Kaynaklar

Read more

OpenAI'nin Matematik Başarısı Tartışma Yarattı: Gerçekten Çığır Açıcı mı?

OpenAI'nin Matematik Başarısı Tartışma Yarattı: Gerçekten Çığır Açıcı mı?

OpenAI'nin GPT-5 Matematik Başarısı: Gerçekten Çığır Açıcı mı? Son günlerde OpenAI'nin GPT-5 modeliyle ilgili matematikteki "devrim" iddiaları teknoloji dünyasında büyük yankı uyandırdı. Ancak bu iddiaların arkasındaki gerçek, sosyal medyada ve akademik çevrelerde tartışmalara yol açtı. Olay Nasıl Başladı? OpenAI Başkan Yardımcısı Kevin Weil, kısa

By Cansın Cengiz
Wikipedia Trafiğinde Düşüş: Yapay Zeka ve Sosyal Video Etkisi

Wikipedia Trafiğinde Düşüş: Yapay Zeka ve Sosyal Video Etkisi

Wikipedia'da Trafik Neden Düşüyor? İnternetin en güvenilir bilgi kaynaklarından biri olarak gösterilen Wikipedia, son dönemde ziyaretçi sayısında önemli bir düşüş yaşıyor. Wikimedia Foundation tarafından yapılan açıklamaya göre, insan kaynaklı sayfa görüntülemeleri yıldan yıla %8 oranında azaldı. Bu durumun arkasında ise dijital ekosistemdeki iki büyük trend öne çıkıyor: Yapay

By Cansın Cengiz
Yapay Zeka ile Tatil Fotoğrafları: Endless Summer Uygulamasıyla Kendi Dijital Kaçamağınızı Yaratın

Yapay Zeka ile Tatil Fotoğrafları: Endless Summer Uygulamasıyla Kendi Dijital Kaçamağınızı Yaratın

Yapay Zeka ile Dijital Tatil: Endless Summer Uygulaması Yoğun iş temposu ve tükenmişlik hissiyle gerçek bir tatile vakit bulamıyor musunuz? Yeni bir iPhone uygulaması olan Endless Summer, bu sorunu ilginç bir şekilde çözüyor: AI destekli sahte tatil fotoğraflarıyla! Endless Summer Nedir? Meta'nın Superintelligence Lab ekibine yeni katılan ürün

By Cansın Cengiz
Lex Proxima Studios LTD