OpenAI'nin Yeni Testi: GPT-5, Birçok Meslekte İnsanlarla Yarışıyor

OpenAI'nin Yeni Testi: GPT-5, Birçok Meslekte İnsanlarla Yarışıyor

GPT-5 ve Claude Opus 4.1: İnsan Profesyonelleriyle Kafa Kafaya

OpenAI, yapay zekâ modellerinin insan profesyonellerle çeşitli sektörlerdeki başarısını ölçen yeni bir değerlendirme testi GDPval'i duyurdu. Bu test, AI'nın ekonomik değeri yüksek işlerde insanlarla ne kadar rekabet edebildiğini anlamak için kritik bir adım olarak görülüyor.

GDPval Nedir ve Neden Önemli?

GDPval, ABD'nin gayri safi yurtiçi hasılasına en çok katkı sağlayan 9 sektörü kapsıyor. Sağlıktan finansa, üretimden kamuya kadar uzanan bu sektörlerdeki 44 meslek grubunda hem insan hem de yapay zekâ tarafından üretilen raporlar karşılaştırılıyor. Örneğin; bir yatırım bankacısına, son kilometre teslimat sektöründe rakip analiz raporu hazırlanması istenip, AI'nın ürettiği raporla kıyaslanıyor.

  • GPT-5-high: İnsan profesyonellerle eşit veya daha iyi performans gösterme oranı %40.6
  • Claude Opus 4.1: Bu oran %49’a kadar çıkıyor
  • GPT-4o: 15 ay önce yayımlanan bu modelin oranı sadece %13.7'ydi
OpenAI GDPval benchmark görseli

AI Meslekleri Tamamen Ele Geçiriyor mu?

OpenAI, bu sonuçların yapay zekânın anında iş gücünü devralacağı anlamına gelmediğini vurguluyor. Testler hâlâ gerçek hayattaki iş yükünün küçük bir kısmını kapsıyor. Ancak, bu gelişme AI'nın iş süreçlerinde verimliliği artırma potansiyelini gösteriyor.

OpenAI Baş Ekonomisti Dr. Aaron Chatterji, "Model bazı görevlerde iyileştikçe, insanlar da kendi işlerinde daha anlamlı işlere odaklanabilecek" diyor.

Gelecek: Daha Geniş ve Kapsamlı Testler

OpenAI, GDPval’in şimdilik sadece araştırma raporlarını değerlendirdiğini, ancak ilerleyen dönemde daha fazla meslek grubunu ve gerçekçi iş akışlarını kapsayan testler geliştireceklerini belirtiyor. Bu tür değerlendirmeler, yapay zekâ modellerinin gerçek dünya görevlerindeki başarısını daha iyi ölçmek için kritik öneme sahip olacak.

AI Değerlendirme Alanında Yeni Standartlar

AI gelişimini ölçmek için hali hazırda AIME 2025 (matematik) ve GPQA Diamond (PhD seviyesi bilim soruları) gibi birçok kıyaslama testi mevcut. Ancak, bu testlerde AI modelleri sınırlarına yaklaşırken, gerçek iş dünyasına daha yakın testlere ihtiyaç artıyor. GDPval gibi yeni testler, AI’nın ekonomik değeri yüksek mesleklerdeki yetkinliğini ölçmekte önemli bir rol oynayacak.

Kaynaklar

Read more

OpenAI'nin Matematik Başarısı Tartışma Yarattı: Gerçekten Çığır Açıcı mı?

OpenAI'nin Matematik Başarısı Tartışma Yarattı: Gerçekten Çığır Açıcı mı?

OpenAI'nin GPT-5 Matematik Başarısı: Gerçekten Çığır Açıcı mı? Son günlerde OpenAI'nin GPT-5 modeliyle ilgili matematikteki "devrim" iddiaları teknoloji dünyasında büyük yankı uyandırdı. Ancak bu iddiaların arkasındaki gerçek, sosyal medyada ve akademik çevrelerde tartışmalara yol açtı. Olay Nasıl Başladı? OpenAI Başkan Yardımcısı Kevin Weil, kısa

By Cansın Cengiz
Wikipedia Trafiğinde Düşüş: Yapay Zeka ve Sosyal Video Etkisi

Wikipedia Trafiğinde Düşüş: Yapay Zeka ve Sosyal Video Etkisi

Wikipedia'da Trafik Neden Düşüyor? İnternetin en güvenilir bilgi kaynaklarından biri olarak gösterilen Wikipedia, son dönemde ziyaretçi sayısında önemli bir düşüş yaşıyor. Wikimedia Foundation tarafından yapılan açıklamaya göre, insan kaynaklı sayfa görüntülemeleri yıldan yıla %8 oranında azaldı. Bu durumun arkasında ise dijital ekosistemdeki iki büyük trend öne çıkıyor: Yapay

By Cansın Cengiz
Yapay Zeka ile Tatil Fotoğrafları: Endless Summer Uygulamasıyla Kendi Dijital Kaçamağınızı Yaratın

Yapay Zeka ile Tatil Fotoğrafları: Endless Summer Uygulamasıyla Kendi Dijital Kaçamağınızı Yaratın

Yapay Zeka ile Dijital Tatil: Endless Summer Uygulaması Yoğun iş temposu ve tükenmişlik hissiyle gerçek bir tatile vakit bulamıyor musunuz? Yeni bir iPhone uygulaması olan Endless Summer, bu sorunu ilginç bir şekilde çözüyor: AI destekli sahte tatil fotoğraflarıyla! Endless Summer Nedir? Meta'nın Superintelligence Lab ekibine yeni katılan ürün

By Cansın Cengiz
Lex Proxima Studios LTD