Minecraft Benchmark: Liseli Öğrenciden AI Modelleri Kıyaslama Platformu
Minecraft Oyunu, Yapay Zeka Modellerini Kıyaslamak İçin Yeni Bir Standart Oluyor
Geleneksel yapay zeka değerlendirme teknikleri yetersiz kaldıkça, AI geliştiricileri jeneratif AI modellerinin yeteneklerini ölçmek için daha yaratıcı yöntemlere yöneliyor. Bir grup geliştirici için bu yöntem, Microsoft'a ait sandbox-yapı oyunu Minecraft oldu.
Minecraft Benchmark (veya MC-Bench) sitesi, AI modellerini Minecraft'ta yaratımlar oluşturma konusunda birbiriyle karşılaştırmak için ortak bir çalışma olarak geliştirildi. Kullanıcılar hangi modelin daha iyi iş çıkardığına oy verebiliyor ve ancak oy verdikten sonra hangi AI'ın hangi Minecraft yapısını oluşturduğunu görebiliyorlar.

Bir Lise Öğrencisinin Vizyonu
MC-Bench'i başlatan 12. sınıf öğrencisi Adi Singh için Minecraft'ın değeri, oyunun kendisinden ziyade insanların oyuna olan aşinalığında yatıyor. Sonuçta Minecraft, tüm zamanların en çok satan video oyunu. Oyunu hiç oynamamış kişiler için bile, bloklu bir ananas temsilinin ne kadar iyi gerçekleştirildiğini değerlendirmek mümkün.
"Minecraft, insanların [AI gelişimindeki] ilerlemeyi çok daha kolay görmelerini sağlıyor," dedi Singh TechCrunch'a. "İnsanlar Minecraft'a, görünüşüne ve atmosferine alışkın."
MC-Bench şu anda sekiz kişiyi gönüllü katkıda bulunan olarak listeliyor. Anthropic, Google, OpenAI ve Alibaba, MC-Bench'in web sitesine göre, karşılaştırma komutlarını çalıştırmak için projenin ürünlerini kullanmasına destek sağladı, ancak şirketler başka türlü bağlantılı değil.
"Şu anda GPT-3 döneminden bu yana ne kadar ilerlediğimizi göstermek için sadece basit yapılar oluşturuyoruz, ancak daha uzun vadeli planlamalara ve hedef odaklı görevlere geçebiliriz," dedi Singh. "Oyunlar, gerçek hayatta olduğundan daha güvenli ve test amaçları için daha kontrol edilebilir olan ajantik muhakemeyi test etmek için sadece bir ortam olabilir, bu da benim gözümde daha ideal."
Oyunlar ve AI Değerlendirmeleri
Pokemon Red, StreetFighter ve Pictionary gibi diğer oyunlar da AI için deneysel kıyaslama araçları olarak kullanıldı. Bunun kısmen nedeni, AI değerlendirmenin notoriously tricky bir sanat olması.
Araştırmacılar genellikle AI modellerini standart değerlendirmeler üzerinde test eder, ancak bu testlerin çoğu AI'a bir ev sahası avantajı verir. Eğitilme şekilleri nedeniyle modeller, özellikle ezberci öğrenme veya temel ekstrapolasyon gerektiren belirli, dar problem çözme türlerinde doğal olarak yeteneklidir.
Basitçe söylemek gerekirse, OpenAI'nin GPT-4'ünün LSAT'ta 88. yüzdelikte puan alabildiği, ancak "çilek" kelimesinde kaç R harfi olduğunu ayırt edemediği gerçeğinin ne anlama geldiğini anlamak zor.
Anthropic'in Claude 3.7 Sonnet modeli, standart bir yazılım mühendisliği kıyaslamasında %62,3 doğruluk elde etti, ancak Pokémon oynamakta çoğu beş yaşındakiden daha kötü.

Programlama Yeteneklerini Değerlendirme
MC-Bench teknik olarak bir programlama kıyaslamasıdır, çünkü modellerden "Kardan Adam" veya "bakir kumlu sahilde büyüleyici bir tropik plaj kulübesi" gibi istenilen yapıları oluşturmak için kod yazmaları istenir.
Ancak çoğu MC-Bench kullanıcısı için, bir kardan adamın daha iyi görünüp görünmediğini değerlendirmek, koda dalmaktan daha kolaydır. Bu da projeye daha geniş bir çekicilik kazandırır ve hangi modellerin sürekli olarak daha iyi puan aldığı hakkında daha fazla veri toplama potansiyeli sunar.
Elbette, bu puanların AI kullanışlılığı açısından ne kadar anlam ifade ettiği tartışmaya açık. Yine de Singh, bunların güçlü bir sinyal olduğunu iddia ediyor.
"Mevcut lider tablosu, saf metin kıyaslamalarının çoğundan farklı olarak, bu modelleri kullanma konusundaki kendi deneyimimi oldukça yakından yansıtıyor," dedi Singh. "Belki [MC-Bench], şirketlerin doğru yönde ilerleyip ilerlemediklerini bilmeleri için yararlı olabilir."
Kaynak: TechCrunch