Haberler

Yapay Zeka Sohbet Robotlarının İfade Özgürlüğü Testi: SpeechMap

Cansın Cengiz

16 Nis 2025 — 3 min read

Yapay Zeka Sohbet Robotlarının İfade Özgürlüğü Sınavı: SpeechMap

Yapay zeka (AI) sohbet robotları hayatımızın bir parçası haline gelirken, hassas ve tartışmalı konulara nasıl yaklaştıkları giderek daha fazla önem kazanıyor. OpenAI'nin ChatGPT'si veya X'in Grok'u gibi popüler modellerin siyasi eleştiriler, sivil haklar veya protestolar gibi konulardaki yanıtları mercek altında. Takma ad kullanan bir geliştirici, tam da bu konuya ışık tutmak amacıyla "SpeechMap" adını verdiği bir "ifade özgürlüğü değerlendirmesi" oluşturdu.

SpeechMap'in temel amacı, farklı yapay zeka modellerinin hassas ve tartışmalı konuları nasıl ele aldığını karşılaştırmak. Geliştirici, TechCrunch'a verdiği demeçte, bu tür tartışmaların sadece şirket merkezlerinde değil, kamuoyunda da yapılması gerektiğine inandığını belirtiyor. Bu motivasyonla, herkesin verileri kendisinin keşfedebileceği bir platform oluşturmuş.

SpeechMap Nasıl Çalışıyor?

Platform, bir yapay zeka modelinin, diğer modellerin belirli test istemlerine (prompt) ne ölçüde uyduğunu değerlendirmesi prensibiyle çalışıyor. Bu istemler siyasetten tarihsel anlatılara ve ulusal sembollere kadar geniş bir yelpazeyi kapsıyor. SpeechMap, modellerin bir isteği "tamamen" yerine getirip getirmediğini (yani kaçamak cevap vermeden yanıtlayıp yanıtlamadığını), "kaçamak" yanıtlar verip vermediğini veya yanıtlamayı tamamen reddedip etmediğini kaydediyor.

Geliştirici, testin model sağlayıcı hatalarından kaynaklanan "gürültü" gibi kusurları olabileceğini kabul ediyor. Ayrıca, değerlendirmeyi yapan "hakem" modellerin sonuçları etkileyebilecek önyargılar içermesi de mümkün.

Öne Çıkan Bulgular: OpenAI ve Grok

Projenin iyi niyetle oluşturulduğu ve verilerin doğru olduğu varsayıldığında, SpeechMap ilginç eğilimleri ortaya çıkarıyor:

OpenAI: SpeechMap verilerine göre, OpenAI modelleri zamanla siyasetle ilgili istemleri yanıtlamayı giderek daha fazla reddetmiş. Şirketin en son modelleri olan GPT-4.1 ailesi biraz daha izin verici olsa da, geçen yılki sürümlerinden bir adım geride. OpenAI, Şubat ayında gelecekteki modellerini tartışmalı konularda editöryel bir duruş sergilemeyecek ve birden fazla bakış açısı sunacak şekilde ayarlayacağını belirtmişti. Bu, modellerini daha "tarafsız" gösterme çabasının bir parçası.
Grok (xAI): Test edilen modeller arasında açık ara en izin verici olanı, Elon Musk'ın yapay zeka girişimi xAI tarafından geliştirilen Grok 3. SpeechMap'in kıyaslamasına göre Grok 3, test istemlerinin %96,2'sine yanıt verirken, ortalama modelin "uyum oranı" %71,3. Geliştirici, "OpenAI'nin son modelleri zamanla, özellikle siyasi açıdan hassas istemlerde daha az izin verici hale gelirken, xAI tam tersi yönde ilerliyor" diyor. Musk, Grok'u ilk duyurduğunda, diğer AI sistemlerinin yanıtlamayacağı tartışmalı soruları yanıtlamaya istekli, keskin, filtresiz ve "woke karşıtı" olarak tanıtmıştı. Grok 3 ile bu hedefe yaklaşmış görünüyor, ancak önceki sürümler siyasi konularda daha kararsızdı.

SpeechMap üzerinde OpenAI model performansı zaman içinde. Görüntü Kredisi: OpenAI

Neden Önemli?

Yapay zeka şirketleri, modellerinin belirli konuları nasıl ele aldığını ince ayarlamaya odaklanıyor. Özellikle bazı siyasi çevrelerden gelen, popüler sohbet robotlarının aşırı "woke" olduğu ve muhafazakar görüşleri sansürlediği yönündeki suçlamalar bu durumu hızlandırıyor. Meta gibi şirketler de son Llama modellerini "bazı görüşleri diğerlerine tercih etmeyecek" ve daha fazla "tartışmalı" siyasi isteme yanıt verecek şekilde ayarladıklarını belirtti.

SpeechMap gibi girişimler, yapay zeka modellerinin davranışları hakkında kamuoyunu bilgilendirmeye yardımcı oluyor ve bu güçlü teknolojilerin şeffaflığı ve hesap verebilirliği açısından önemli bir adım teşkil ediyor. Bu tür testler, AI'nın toplum üzerindeki etkilerini anlamamız ve yönlendirmemiz için değerli veriler sunuyor.