Yapay Zeka Testleri: Kitle Kaynaklı Yöntemler Sorgulanıyor
Yapay Zeka Kıyaslamaları: Kitle Kaynaklı Testler Ne Kadar Güvenilir?
Yapay zeka laboratuvarları, geliştirdikleri en son modellerin güçlü ve zayıf yönlerini anlamak için giderek daha fazla Chatbot Arena gibi kitle kaynaklı kıyaslama platformlarına yöneliyor. OpenAI, Google ve Meta gibi devler, kullanıcıları modelleri değerlendirmeye yardımcı olmaları için teşvik eden bu platformlara sıkça başvuruyor ve elde edilen olumlu skorları önemli bir gelişmenin kanıtı olarak sunuyorlar.
Ancak bazı uzmanlar, bu yaklaşımın etik ve akademik açıdan ciddi sorunlar barındırdığını savunuyor.
Eleştiriler ve Endişeler
Washington Üniversitesi dilbilim profesörü ve "The AI Con" kitabının yazarlarından Emily Bender, özellikle Chatbot Arena'ya şüpheyle yaklaşıyor. Bu platformda gönüllüler, iki anonim modelden gelen yanıtları karşılaştırıp tercih ettiklerini seçiyorlar. Bender'a göre, "Bir kıyaslamanın geçerli olabilmesi için belirli bir şeyi ölçmesi ve yapı geçerliliğine sahip olması gerekir. Yani, ölçülen kavramın iyi tanımlandığına ve ölçümlerin bu kavramla gerçekten ilişkili olduğuna dair kanıt olmalıdır. Chatbot Arena, bir çıktıyı diğerine tercih etmenin, tanımlanmış tercihlerle gerçekten ilişkili olduğunu henüz göstermedi."
Yapay zeka firması Lesan'ın kurucu ortağı ve Distributed AI Research Institute üyesi Asmelash Teka Hadgu ise Chatbot Arena gibi kıyaslamaların, yapay zeka laboratuvarları tarafından "abartılı iddiaları teşvik etmek" amacıyla kullanıldığını düşünüyor. Hadgu, Meta'nın Llama 4 Maverick modeliyle ilgili yakın zamanda yaşanan bir tartışmaya işaret ediyor: Meta, modelin bir versiyonunu Chatbot Arena'da iyi puan alacak şekilde özel olarak eğitmiş, ancak daha sonra bu modeli geri çekerek daha düşük performanslı bir versiyonu yayınlamıştı.
Hadgu, "Kıyaslamalar statik veri setleri yerine dinamik olmalı, birden fazla bağımsız kuruluşa (örneğin üniversiteler) dağıtılmalı ve eğitim, sağlık gibi belirli kullanım alanlarına özel olarak, bu modelleri işleri için kullanan profesyoneller tarafından uyarlanmalıdır" diyor.
Hem Hadgu hem de Aspen Enstitüsü'nün Gelişen ve Akıllı Teknolojiler Girişimi'ni yönetmiş olan Kristine Gloria, model değerlendiricilerinin emeklerinin karşılığını alması gerektiğini savunuyor. Gloria, yapay zeka laboratuvarlarının, sömürücü uygulamalarıyla bilinen veri etiketleme endüstrisinin hatalarından ders çıkarması gerektiğini belirtiyor. Gloria, "Genel olarak, kitle kaynaklı kıyaslama süreci değerlidir ve bana vatandaş bilimi girişimlerini hatırlatıyor. İdeal olarak, hem değerlendirme hem de ince ayar süreçlerine ek perspektifler katmaya yardımcı olur. Ancak kıyaslamalar asla tek değerlendirme ölçütü olmamalıdır. Sektör ve inovasyon hızla ilerlerken, kıyaslamalar hızla güvenilmez hale gelebilir" diye ekliyor.
Değer, Sınırlamalar ve Şeffaflık
Modeller için kitle kaynaklı "red teaming" (zayıflık testi) kampanyaları yürüten Gray Swan AI'ın CEO'su Matt Frederikson, gönüllülerin platformlarına "yeni beceriler öğrenmek ve pratik yapmak" gibi çeşitli nedenlerle katıldığını belirtiyor. Yine de kamuya açık kıyaslamaların, "ücretli özel" değerlendirmelerin yerini tutmadığını kabul ediyor. Frederikson, "Geliştiricilerin ayrıca iç kıyaslamalara, algoritmik red team'lere ve daha açık uçlu bir yaklaşım benimseyebilen veya belirli alan uzmanlığı getirebilen sözleşmeli red team'lere güvenmeleri gerekiyor" diyor.
Model pazaryeri OpenRouter'ın CEO'su Alex Atallah ve Chatbot Arena'yı yöneten LMArena'nın kurucularından, UC Berkeley yapay zeka doktora öğrencisi Wei-Lin Chiang da modellerin yalnızca açık test ve kıyaslamasının yeterli olmadığını belirtiyor. Chiang, "Diğer testlerin kullanımını kesinlikle destekliyoruz. Amacımız, topluluğumuzun farklı yapay zeka modelleri hakkındaki tercihlerini ölçen güvenilir, açık bir alan yaratmaktır" diyor.
Chiang, Meta Maverick örneği gibi olayların Chatbot Arena'nın tasarımındaki bir kusurdan değil, laboratuvarların politikalarını yanlış yorumlamasından kaynaklandığını savunuyor. LMArena'nın gelecekteki tutarsızlıkları önlemek için adımlar attığını ve politikalarını "adil, tekrarlanabilir değerlendirmelere olan bağlılıklarını pekiştirmek" üzere güncellediğini ekliyor.
Sonuç
Kitle kaynaklı yapay zeka kıyaslamaları, topluluk katılımı ve hızlı geri bildirim sağlama potansiyeli taşısa da, uzmanlar bu yöntemlerin geçerliliği, potansiyel manipülasyon riski ve etik boyutları konusunda önemli endişelere dikkat çekiyor. Bu tür platformlar değerli bir araç olabilir, ancak yapay zeka modellerinin yeteneklerini ve güvenliğini kapsamlı bir şekilde değerlendirmek için tek başına yeterli değillerdir. Daha titiz, çeşitli ve bağlama özel değerlendirme yöntemleriyle birlikte kullanılmaları kritik önem taşımaktadır.