OpenAI o3 Benchmark Skoru Beklentiyi Karşılamadı

OpenAI o3 Benchmark Skoru Beklentiyi Karşılamadı
Photo by Solen Feyissa / Unsplash

OpenAI o3 Yapay Zeka Modelinin Benchmark Performansı Tartışma Yarattı

Yapay zeka dünyasının önde gelen şirketlerinden OpenAI'ın Aralık ayında büyük umutlarla tanıttığı yeni o3 modeli, bağımsız benchmark testlerinde beklenenin altında bir performans sergileyerek şeffaflık ve test uygulamaları konusunda soru işaretleri doğurdu.

Beklentiler ve Gerçekleşen Skorlar

OpenAI, o3 modelini duyurduğunda, zorlu bir matematik problemleri seti olan FrontierMath üzerindeki soruların dörtte birinden fazlasını doğru yanıtlayabildiğini iddia etmişti. Bu %25'lik başarı oranı, o dönemdeki en yakın rakibin sadece %2 civarında olan başarısıyla karşılaştırıldığında büyük bir sıçrama anlamına geliyordu. OpenAI Araştırma Direktörü Mark Chen, canlı yayında "Şu anda piyasadaki tüm modellerin [FrontierMath üzerindeki başarı oranı] %2'nin altında," demiş ve eklemişti: "o3 ile agresif test-zamanı hesaplama ayarlarında %25'in üzerine çıkabildiğimizi görüyoruz."

Ancak, FrontierMath benchmark testini geliştiren araştırma enstitüsü Epoch AI'ın Cuma günü yayınladığı bağımsız test sonuçları farklı bir tablo ortaya koydu. Epoch AI'ın testlerine göre o3 modeli, FrontierMath üzerinde yaklaşık %10'luk bir başarı oranı elde etti. Bu skor, OpenAI'ın başlangıçta ima ettiği en yüksek skordan oldukça düşüktü.

Epoch AI'ın X (Twitter) üzerindeki duyurusu:

Skor Farklılığının Olası Nedenleri

Bu durum OpenAI'ın doğrudan yanlış bilgi verdiği anlamına gelmeyebilir. Şirketin Aralık ayında yayınladığı benchmark sonuçlarında belirttiği alt sınır skoru, Epoch AI'ın gözlemlediği skorla örtüşüyor. Epoch AI da kendi test düzeneklerinin OpenAI'ınkinden farklı olabileceğini ve değerlendirmelerinde FrontierMath'in güncellenmiş bir sürümünü kullandıklarını belirtti.

Epoch AI'dan yapılan açıklamada, "Sonuçlarımız ile OpenAI'ın sonuçları arasındaki fark, OpenAI'ın daha güçlü bir iç yapı iskelesi ile değerlendirme yapmasından, daha fazla test-zamanı hesaplama kullanmasından veya bu sonuçların FrontierMath'in farklı bir alt kümesinde çalıştırılmış olmasından kaynaklanıyor olabilir," denildi.

Ayrıca, o3'ün ön sürümünü test eden ARC Prize Foundation'ın X'teki bir gönderisine göre, halka sunulan o3 modeli "sohbet/ürün kullanımı için ayarlanmış farklı bir model". Bu da Epoch'un raporunu destekler nitelikte. ARC Prize, "Yayınlanan tüm o3 hesaplama katmanları, bizim [benchmarkladığımız] sürümden daha küçüktür," diye yazdı. Genel olarak, daha büyük hesaplama katmanlarının daha iyi benchmark skorları elde etmesi beklenir.

Yapay Zeka Benchmarklarına Eleştirel Yaklaşım

Halka sunulan o3 modelinin, OpenAI'ın ilk testlerde ima ettiği kadar yüksek skorlara ulaşamamış olması, şirketin o3-mini-high ve o4-mini gibi modellerinin FrontierMath'te o3'ü geride bıraktığı ve yakın zamanda daha güçlü bir o3 varyantı olan o3-pro'nun piyasaya sürüleceği düşünüldüğünde kısmen önemini yitiriyor.

Ancak bu durum, yapay zeka benchmarklarının, özellikle de satacak hizmetleri olan bir şirketten geldiğinde, olduğu gibi kabul edilmemesi gerektiğini bir kez daha hatırlatıyor. Yapay zeka endüstrisinde, satıcılar yeni modellerle manşetleri ve pazar payını kapma yarışına girdikçe, benchmark "tartışmaları" yaygınlaşıyor. Daha önce Epoch AI'ın OpenAI'dan aldığı fonu geç açıklaması, Elon Musk'ın xAI şirketinin Grok 3 için yanıltıcı grafikler yayınladığı iddiaları ve Meta'nın farklı model sürümleri için benchmark skorları öne sürdüğünü kabul etmesi gibi olaylar yaşanmıştı.

Sonuç olarak, işletmelerin ve kullanıcıların yapay zeka modellerinin yeteneklerini değerlendirirken, özellikle üretici firmalar tarafından sunulan benchmark verilerine ihtiyatla yaklaşması ve bağımsız değerlendirmeleri dikkate alması büyük önem taşıyor.

Kaynaklar

Read more

Near Space Labs: Stratosferik Görüntüleme İçin 20 Milyon Dolar Yatırım

Near Space Labs: Stratosferik Görüntüleme İçin 20 Milyon Dolar Yatırım

Near Space Labs: Stratosferik Görüntüleme İçin 20 Milyon Dolar Yatırım Dünya'nın yukarıdan görüntülenmesi denince akla genellikle uydular, dronlar ve uçaklar gelir. Ancak Near Space Labs adlı bir girişim, yüksek çözünürlüklü fotoğraflar çekmek için çok farklı bir yöntem kullanıyor: stratosfere yükselen helyum balonları! Stratosferde Gezinen Robotlar: Swift Teknolojisi Near

By Cansın Cengiz
Lex Proxima Studios LTD