Haberler

Meta Maverick AI: Benchmark Tartışması ve Sıralama Düşüşü

Cansın Cengiz

12 Nis 2025 — 2 min read

Meta'nın Yeni Yapay Zeka Modeli Maverick, Benchmark Testlerinde Rakiplerinin Gerisinde Kaldı

Teknoloji devi Meta, geçtiğimiz haftalarda Llama 4 Maverick adını verdiği yeni yapay zeka modeliyle gündeme geldi. Ancak modelin popüler bir sohbet botu değerlendirme platformu olan LM Arena'daki performansı, beklenenden farklı bir tablo çizdi ve bazı tartışmaları beraberinde getirdi.

Benchmark Tartışması ve Sonuçları

Başlangıçta Meta, Llama 4 Maverick modelinin henüz yayınlanmamış, deneysel ve optimize edilmiş bir versiyonunu kullanarak LM Arena'da yüksek bir skor elde etmişti. Bu durum, platformun güvenilirliği ve şeffaflığı konusunda soru işaretleri doğurdu. LM Arena yöneticileri, yaşananların ardından özür dileyerek politikalarını güncelledi ve modelin herkesin erişebileceği standart, yani "vanilla" versiyonunu teste tabi tuttu.

Ne yazık ki, Meta'nın Llama 4 Maverick modelinin bu standart versiyonu ("Llama-4-Maverick-17B-128E-Instruct"), LM Arena sıralamasında OpenAI'ın GPT-4o, Anthropic'in Claude 3.5 Sonnet ve Google'ın Gemini 1.5 Pro gibi güçlü rakiplerinin oldukça gerisinde kaldı. Hatta bazıları aylar önce piyasaya sürülmüş olan bu modellerin, Meta'nın yeni modelinden daha iyi performans gösterdiği görüldü.

Sosyal medyada da yankı bulan bu durum, modelin sıralamadaki yerine dikkat çekti:

The release version of Llama 4 has been added to LMArena after it was found out they cheated, but you probably didn't see it because you have to scroll down to 32nd place which is where is ranks pic.twitter.com/A0Bxkdx4LX
— ρ:ɡeσn (@pigeon__s) April 11, 2025

The release version of Llama 4 has been added to LMArena after it was found out they cheated, but you probably didn't see it because you have to scroll down to 32nd place which is where is ranks pic.twitter.com/A0Bxkdx4LX— ρ:ɡeσn (@pigeon__s) April 11, 2025

Neden Düşük Performans?

Meta, başlangıçta yüksek skor alan deneysel versiyonun ("Llama-4-Maverick-03-26-Experimental") özellikle "sohbet yetenekleri için optimize edildiğini" açıkladı. Bu optimizasyonların, insan değerlendiricilerin modellerin çıktılarını karşılaştırıp tercih ettiklerini seçtiği LM Arena formatına daha uygun olduğu anlaşılıyor.

Ancak uzmanlar, bir modeli belirli bir benchmark testine göre özel olarak optimize etmenin, modelin farklı kullanım senaryolarındaki gerçek performansını tahmin etmeyi zorlaştırdığını ve yanıltıcı olabileceğini belirtiyor. LM Arena'nın kendisi de yapay zeka modellerinin performansını ölçmek için tek başına en güvenilir yöntem olmayabilir.

Meta'nın Açıklaması ve Gelecek

Meta sözcüsü, şirketin "her tür özel varyantla" deneyler yaptığını belirtti. Sözcü, "Llama-4-Maverick-03-26-Experimental, denediğimiz ve LM Arena'da iyi performans gösteren, sohbet için optimize edilmiş bir versiyondu. Şimdi açık kaynak kodlu versiyonumuzu yayınladık ve geliştiricilerin Llama 4'ü kendi kullanım durumları için nasıl özelleştireceklerini göreceğiz. Neler inşa edeceklerini görmek için heyecanlıyız ve devam eden geri bildirimlerini dört gözle bekliyoruz" dedi.

Sonuç olarak, Meta'nın Llama 4 Maverick modelinin standart versiyonu, ilk beklentilerin aksine, mevcut güçlü rakipleriyle kıyaslandığında benchmark testlerinde geride kalmış görünüyor. Modelin açık kaynak olarak yayınlanmasıyla birlikte, geliştirici topluluğunun yapacağı özelleştirmeler ve geri bildirimler, Llama 4'ün gelecekteki potansiyelini belirlemede önemli rol oynayacaktır.

Meta Maverick AI: Benchmark Tartışması ve Sıralama Düşüşü

Cansın Cengiz

Meta'nın Yeni Yapay Zeka Modeli Maverick, Benchmark Testlerinde Rakiplerinin Gerisinde Kaldı

Benchmark Tartışması ve Sonuçları

Neden Düşük Performans?

Meta'nın Açıklaması ve Gelecek

Referanslar

Read more

Anthropic, Claude Code'u Kurumsal Paketlerine Entegre Ediyor

Google Pixel 10 Serisi: Yapay Zekâlı Telefonlarda Yeni Dönem

Dex: Çocuklar İçin Yapay Zekâ Destekli Dil Öğrenme Kamerası

Grok Sohbetleri Google'da Aranabilir Hale Geldi: Gizlilik Endişeleri Artıyor