Yeni AGI Testi Çoğu Yapay Zeka Modelini Zorluyor: ARC-AGI-2 Neler Getiriyor?

Yeni AGI Testi Çoğu Yapay Zeka Modelini Zorluyor: ARC-AGI-2 Neler Getiriyor?
Photo by Solen Feyissa / Unsplash

Arc Prize Vakfı'ndan Yapay Zeka İçin Yeni ve Zorlu Bir Test: ARC-AGI-2

Tanınmış yapay zeka araştırmacısı François Chollet'nin ortak kurucu olduğu Arc Prize Vakfı, Salı günü yayınladığı bir blog yazısında önde gelen yapay zeka modellerinin genel zekasını ölçmek için yeni ve zorlu bir test geliştirdiklerini duyurdu.

ARC-AGI-2 olarak adlandırılan bu yeni test, şu ana kadar çoğu yapay zeka modelini zorlamayı başardı. Arc Prize Vakfı'nın liderlik tablosuna göre, OpenAI'ın o1-pro ve DeepSeek'in R1 gibi "akıl yürütme" odaklı yapay zeka modelleri, ARC-AGI-2 testinde sadece %1 ile %1,3 arasında başarı gösterebildi. GPT-4.5, Claude 3.7 Sonnet ve Gemini 2.0 Flash gibi güçlü modeller ise yaklaşık %1 civarında bir performans sergiledi.

ARC-AGI Testleri Nasıl Çalışıyor?

ARC-AGI testleri, bir yapay zekanın farklı renkteki karelerden oluşan görsel desenleri tanımlayarak doğru "cevap" ızgarasını oluşturmasını gerektiren bulmaca benzeri problemlerden oluşuyor. Bu problemler, yapay zekaların daha önce karşılaşmadıkları yeni durumlara adapte olma yeteneklerini test etmek için tasarlandı.

Arc Prize Vakfı, insan performansını değerlendirmek için ARC-AGI-2 testini 400'den fazla kişiye uyguladı. Ortalamada, insan "panelleri" testteki soruların %60'ını doğru yanıtlayabildi - bu, tüm yapay zeka modellerinin skorlarından çok daha iyi bir sonuç.

ARC-AGI-2'den örnek bir soru (Kaynak: Arc Prize)
ARC-AGI-2'den örnek bir soru (Kaynak: Arc Prize)

ARC-AGI-2 Neden Daha İyi Bir Ölçüm Aracı?

François Chollet, X platformunda yaptığı bir paylaşımda, ARC-AGI-2'nin yapay zeka modellerinin gerçek zekasını ölçmek için testin ilk versiyonu olan ARC-AGI-1'den daha iyi bir araç olduğunu belirtti. Arc Prize Vakfı'nın testleri, bir yapay zeka sisteminin eğitildiği verilerin dışında yeni beceriler edinip edinemeyeceğini değerlendirmeyi amaçlıyor.

Chollet, ARC-AGI-1'in aksine, yeni testin yapay zeka modellerinin "kaba kuvvet" - yani yoğun hesaplama gücü - kullanarak çözüm bulmalarını engellediğini söyledi. Chollet daha önce bunun ARC-AGI-1'in büyük bir kusuru olduğunu kabul etmişti.

İlk testin kusurlarını gidermek için ARC-AGI-2, yeni bir metrik sunuyor: verimlilik. Ayrıca, modellerin ezberlemeye dayanmak yerine anında desen yorumlamasını gerektiriyor.

"Zeka, yalnızca sorunları çözme veya yüksek puanlar elde etme yeteneğiyle tanımlanmaz," diye yazdı Arc Prize Vakfı'nın ortak kurucusu Greg Kamradt bir blog yazısında. "Bu yeteneklerin edinildiği ve kullanıldığı verimlilik, kritik ve tanımlayıcı bir bileşendir. Sorulan temel soru sadece 'Yapay zeka bir görevi çözmek için beceri edinebilir mi?' değil, aynı zamanda 'Hangi verimlilikle veya maliyetle?'"

ARC-AGI-1 ve ARC-AGI-2 Karşılaştırması

ARC-AGI-1, yaklaşık beş yıl boyunca hiçbir model tarafından geçilemedi. Ta ki Aralık 2024'te OpenAI, gelişmiş akıl yürütme modeli o3'ü piyasaya sürene kadar. Bu model, diğer tüm yapay zeka modellerinden daha iyi performans gösterdi ve değerlendirmede insan performansına eşit sonuçlar elde etti. Ancak, o zamanlar da belirtildiği gibi, o3'ün ARC-AGI-1'deki performans kazanımları oldukça yüksek bir maliyetle geldi.

ARC-AGI-1'de %75,7 skorla yeni yüksekliklere ilk ulaşan OpenAI'ın o3 modelinin düşük versiyonu - o3 (low) - ARC-AGI-2'de görev başına 200 dolar değerinde hesaplama gücü kullanarak sadece %4 başarı elde edebildi.

Öncü yapay zeka modellerinin ARC-AGI-1 ve ARC-AGI-2'deki performans karşılaştırması (Kaynak: Arc Prize)
Öncü yapay zeka modellerinin ARC-AGI-1 ve ARC-AGI-2'deki performans karşılaştırması (Kaynak: Arc Prize)

Yapay Zeka Sektöründe Yeni Ölçüm İhtiyacı

ARC-AGI-2'nin ortaya çıkışı, teknoloji sektöründeki birçok kişinin yapay zeka ilerlemesini ölçmek için yeni, doyuma ulaşmamış kriterlere ihtiyaç olduğunu dile getirdiği bir döneme denk geliyor. Hugging Face'in kurucu ortağı Thomas Wolf, yakın zamanda TechCrunch'a verdiği demeçte, yapay zeka sektörünün sözde yapay genel zekanın yaratıcılık gibi temel özelliklerini ölçmek için yeterli teste sahip olmadığını söyledi.

Yeni kıyaslama testi ile birlikte, Arc Prize Vakfı ayrıca yeni bir Arc Prize 2025 yarışması duyurdu. Bu yarışma, geliştiricileri görev başına sadece 0,42 dolar harcarken ARC-AGI-2 testinde %85 doğruluk oranına ulaşmaya davet ediyor.

Bu yeni test, yapay zeka sistemlerinin gerçek zekasını ve verimliliğini ölçmek için daha sağlam bir çerçeve sunarak, sektördeki ilerlemelerin sadece ham hesaplama gücüne değil, aynı zamanda algoritmik yeniliklere de dayalı olmasını teşvik ediyor.

Read more

Lex Proxima Studios LTD