Haberler

OpenAI o3 Benchmark Skoru Beklentiyi Karşılamadı

Cansın Cengiz

21 Nis 2025 — 3 min read

OpenAI o3 Yapay Zeka Modelinin Benchmark Performansı Tartışma Yarattı

Yapay zeka dünyasının önde gelen şirketlerinden OpenAI'ın Aralık ayında büyük umutlarla tanıttığı yeni o3 modeli, bağımsız benchmark testlerinde beklenenin altında bir performans sergileyerek şeffaflık ve test uygulamaları konusunda soru işaretleri doğurdu.

Beklentiler ve Gerçekleşen Skorlar

OpenAI, o3 modelini duyurduğunda, zorlu bir matematik problemleri seti olan FrontierMath üzerindeki soruların dörtte birinden fazlasını doğru yanıtlayabildiğini iddia etmişti. Bu %25'lik başarı oranı, o dönemdeki en yakın rakibin sadece %2 civarında olan başarısıyla karşılaştırıldığında büyük bir sıçrama anlamına geliyordu. OpenAI Araştırma Direktörü Mark Chen, canlı yayında "Şu anda piyasadaki tüm modellerin [FrontierMath üzerindeki başarı oranı] %2'nin altında," demiş ve eklemişti: "o3 ile agresif test-zamanı hesaplama ayarlarında %25'in üzerine çıkabildiğimizi görüyoruz."

Ancak, FrontierMath benchmark testini geliştiren araştırma enstitüsü Epoch AI'ın Cuma günü yayınladığı bağımsız test sonuçları farklı bir tablo ortaya koydu. Epoch AI'ın testlerine göre o3 modeli, FrontierMath üzerinde yaklaşık %10'luk bir başarı oranı elde etti. Bu skor, OpenAI'ın başlangıçta ima ettiği en yüksek skordan oldukça düşüktü.

Epoch AI'ın X (Twitter) üzerindeki duyurusu:

OpenAI has released o3, their highly anticipated reasoning model, along with o4-mini, a smaller and cheaper model that succeeds o3-mini.

We evaluated the new models on our suite of math and science benchmarks. Results in thread! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) April 18, 2025

Skor Farklılığının Olası Nedenleri

Bu durum OpenAI'ın doğrudan yanlış bilgi verdiği anlamına gelmeyebilir. Şirketin Aralık ayında yayınladığı benchmark sonuçlarında belirttiği alt sınır skoru, Epoch AI'ın gözlemlediği skorla örtüşüyor. Epoch AI da kendi test düzeneklerinin OpenAI'ınkinden farklı olabileceğini ve değerlendirmelerinde FrontierMath'in güncellenmiş bir sürümünü kullandıklarını belirtti.

Epoch AI'dan yapılan açıklamada, "Sonuçlarımız ile OpenAI'ın sonuçları arasındaki fark, OpenAI'ın daha güçlü bir iç yapı iskelesi ile değerlendirme yapmasından, daha fazla test-zamanı hesaplama kullanmasından veya bu sonuçların FrontierMath'in farklı bir alt kümesinde çalıştırılmış olmasından kaynaklanıyor olabilir," denildi.

Ayrıca, o3'ün ön sürümünü test eden ARC Prize Foundation'ın X'teki bir gönderisine göre, halka sunulan o3 modeli "sohbet/ürün kullanımı için ayarlanmış farklı bir model". Bu da Epoch'un raporunu destekler nitelikte. ARC Prize, "Yayınlanan tüm o3 hesaplama katmanları, bizim [benchmarkladığımız] sürümden daha küçüktür," diye yazdı. Genel olarak, daha büyük hesaplama katmanlarının daha iyi benchmark skorları elde etmesi beklenir.

Yapay Zeka Benchmarklarına Eleştirel Yaklaşım

Halka sunulan o3 modelinin, OpenAI'ın ilk testlerde ima ettiği kadar yüksek skorlara ulaşamamış olması, şirketin o3-mini-high ve o4-mini gibi modellerinin FrontierMath'te o3'ü geride bıraktığı ve yakın zamanda daha güçlü bir o3 varyantı olan o3-pro'nun piyasaya sürüleceği düşünüldüğünde kısmen önemini yitiriyor.

Ancak bu durum, yapay zeka benchmarklarının, özellikle de satacak hizmetleri olan bir şirketten geldiğinde, olduğu gibi kabul edilmemesi gerektiğini bir kez daha hatırlatıyor. Yapay zeka endüstrisinde, satıcılar yeni modellerle manşetleri ve pazar payını kapma yarışına girdikçe, benchmark "tartışmaları" yaygınlaşıyor. Daha önce Epoch AI'ın OpenAI'dan aldığı fonu geç açıklaması, Elon Musk'ın xAI şirketinin Grok 3 için yanıltıcı grafikler yayınladığı iddiaları ve Meta'nın farklı model sürümleri için benchmark skorları öne sürdüğünü kabul etmesi gibi olaylar yaşanmıştı.

Sonuç olarak, işletmelerin ve kullanıcıların yapay zeka modellerinin yeteneklerini değerlendirirken, özellikle üretici firmalar tarafından sunulan benchmark verilerine ihtiyatla yaklaşması ve bağımsız değerlendirmeleri dikkate alması büyük önem taşıyor.