Minecraft Benchmark: Liseli Öğrenciden AI Modelleri Kıyaslama Platformu

Minecraft Benchmark: Liseli Öğrenciden AI Modelleri Kıyaslama Platformu
Photo by Sebastian Svenson / Unsplash

Minecraft Oyunu, Yapay Zeka Modellerini Kıyaslamak İçin Yeni Bir Standart Oluyor

Geleneksel yapay zeka değerlendirme teknikleri yetersiz kaldıkça, AI geliştiricileri jeneratif AI modellerinin yeteneklerini ölçmek için daha yaratıcı yöntemlere yöneliyor. Bir grup geliştirici için bu yöntem, Microsoft'a ait sandbox-yapı oyunu Minecraft oldu.

Minecraft Benchmark (veya MC-Bench) sitesi, AI modellerini Minecraft'ta yaratımlar oluşturma konusunda birbiriyle karşılaştırmak için ortak bir çalışma olarak geliştirildi. Kullanıcılar hangi modelin daha iyi iş çıkardığına oy verebiliyor ve ancak oy verdikten sonra hangi AI'ın hangi Minecraft yapısını oluşturduğunu görebiliyorlar.

Minecraft Benchmark ekran görüntüsü
Kaynak: Minecraft Benchmark

Bir Lise Öğrencisinin Vizyonu

MC-Bench'i başlatan 12. sınıf öğrencisi Adi Singh için Minecraft'ın değeri, oyunun kendisinden ziyade insanların oyuna olan aşinalığında yatıyor. Sonuçta Minecraft, tüm zamanların en çok satan video oyunu. Oyunu hiç oynamamış kişiler için bile, bloklu bir ananas temsilinin ne kadar iyi gerçekleştirildiğini değerlendirmek mümkün.

"Minecraft, insanların [AI gelişimindeki] ilerlemeyi çok daha kolay görmelerini sağlıyor," dedi Singh TechCrunch'a. "İnsanlar Minecraft'a, görünüşüne ve atmosferine alışkın."

MC-Bench şu anda sekiz kişiyi gönüllü katkıda bulunan olarak listeliyor. Anthropic, Google, OpenAI ve Alibaba, MC-Bench'in web sitesine göre, karşılaştırma komutlarını çalıştırmak için projenin ürünlerini kullanmasına destek sağladı, ancak şirketler başka türlü bağlantılı değil.

"Şu anda GPT-3 döneminden bu yana ne kadar ilerlediğimizi göstermek için sadece basit yapılar oluşturuyoruz, ancak daha uzun vadeli planlamalara ve hedef odaklı görevlere geçebiliriz," dedi Singh. "Oyunlar, gerçek hayatta olduğundan daha güvenli ve test amaçları için daha kontrol edilebilir olan ajantik muhakemeyi test etmek için sadece bir ortam olabilir, bu da benim gözümde daha ideal."

Oyunlar ve AI Değerlendirmeleri

Pokemon Red, StreetFighter ve Pictionary gibi diğer oyunlar da AI için deneysel kıyaslama araçları olarak kullanıldı. Bunun kısmen nedeni, AI değerlendirmenin notoriously tricky bir sanat olması.

Araştırmacılar genellikle AI modellerini standart değerlendirmeler üzerinde test eder, ancak bu testlerin çoğu AI'a bir ev sahası avantajı verir. Eğitilme şekilleri nedeniyle modeller, özellikle ezberci öğrenme veya temel ekstrapolasyon gerektiren belirli, dar problem çözme türlerinde doğal olarak yeteneklidir.

Basitçe söylemek gerekirse, OpenAI'nin GPT-4'ünün LSAT'ta 88. yüzdelikte puan alabildiği, ancak "çilek" kelimesinde kaç R harfi olduğunu ayırt edemediği gerçeğinin ne anlama geldiğini anlamak zor.

Anthropic'in Claude 3.7 Sonnet modeli, standart bir yazılım mühendisliği kıyaslamasında %62,3 doğruluk elde etti, ancak Pokémon oynamakta çoğu beş yaşındakiden daha kötü.

Minecraft Benchmark karşılaştırma ekranı

Programlama Yeteneklerini Değerlendirme

MC-Bench teknik olarak bir programlama kıyaslamasıdır, çünkü modellerden "Kardan Adam" veya "bakir kumlu sahilde büyüleyici bir tropik plaj kulübesi" gibi istenilen yapıları oluşturmak için kod yazmaları istenir.

Ancak çoğu MC-Bench kullanıcısı için, bir kardan adamın daha iyi görünüp görünmediğini değerlendirmek, koda dalmaktan daha kolaydır. Bu da projeye daha geniş bir çekicilik kazandırır ve hangi modellerin sürekli olarak daha iyi puan aldığı hakkında daha fazla veri toplama potansiyeli sunar.

Elbette, bu puanların AI kullanışlılığı açısından ne kadar anlam ifade ettiği tartışmaya açık. Yine de Singh, bunların güçlü bir sinyal olduğunu iddia ediyor.

"Mevcut lider tablosu, saf metin kıyaslamalarının çoğundan farklı olarak, bu modelleri kullanma konusundaki kendi deneyimimi oldukça yakından yansıtıyor," dedi Singh. "Belki [MC-Bench], şirketlerin doğru yönde ilerleyip ilerlemediklerini bilmeleri için yararlı olabilir."

Kaynak: TechCrunch

Read more

Microsoft Lens Kapanıyor: Yerini Yapay Zekâ Destekli Copilot Alıyor

Microsoft Lens Kapanıyor: Yerini Yapay Zekâ Destekli Copilot Alıyor

Microsoft Lens Kapanıyor: Yerini Copilot Alıyor Microsoft’un popüler belge tarama uygulaması Microsoft Lens (eski adıyla Office Lens), sade yapısı ve ücretsiz sunduğu çözümlerle pek çok kullanıcının vazgeçilmezi olmuştu. Ancak Microsoft, bu uygulamanın yolun sonuna geldiğini duyurdu. Artık kullanıcılar, belge tarama işlemleri için şirketin yapay zekâ destekli Copilot uygulamasına yönlendirilecek.

By Cansın Cengiz
OpenArt ile Tek Tıkla AI Video: Kafa Karıştırıcı Viral İçerik Dönemi

OpenArt ile Tek Tıkla AI Video: Kafa Karıştırıcı Viral İçerik Dönemi

OpenArt: Tek Tıkla AI Video Üretimi Dönemi Başladı Yapay zekâ ile oluşturulan "brainrot" (kafa karıştırıcı, absürt) videolar, özellikle gençler arasında sosyal medyada viral olmaya devam ediyor. Köpekbalığına spor ayakkabı giydirilen çılgın karakterler veya kafası cappuccino olan bale dansçıları gibi ilginç örnekler, internetin yeni trendlerinden biri haline geldi. Bu

By Cansın Cengiz
TechCrunch Disrupt 2025: Rakiplerin Önüne Geçmek İçin Sergi Masanızı Şimdi Ayırtın

TechCrunch Disrupt 2025: Rakiplerin Önüne Geçmek İçin Sergi Masanızı Şimdi Ayırtın

TechCrunch Disrupt 2025: Rakiplerinizi Geride Bırakma Fırsatını Kaçırmayın TechCrunch Disrupt, teknoloji dünyasının en prestijli etkinliklerinden biri olarak 20 yıldır global girişimcilere ev sahipliği yapıyor. 2025 yılında San Francisco’daki Moscone West’te düzenlenecek bu etkinlikte, markanızı binlerce yatırımcı, girişimci ve teknoloji liderine doğrudan tanıtma fırsatı sizi bekliyor. Neden Disrupt 2025&

By Cansın Cengiz
Lex Proxima Studios LTD