OpenAI GPT-4.1: Yeni Model Güvenlik Endişeleri Yaratıyor

OpenAI GPT-4.1: Yeni Model Güvenlik Endişeleri Yaratıyor
Photo by Growtika / Unsplash

OpenAI'ın Nisan ortasında tanıttığı ve talimatları takip etmede "mükemmel" olduğunu iddia ettiği güçlü yeni yapay zeka modeli GPT-4.1, bağımsız testlerin sonuçlarına göre önceki modellere kıyasla daha az "hizalı" yani daha az güvenilir olabilir.

OpenAI, yeni bir model başlattığında genellikle güvenlik değerlendirmelerini içeren detaylı bir teknik rapor yayınlar. Ancak şirket, GPT-4.1 için bu adımı atlayarak [1] modelin "sınır" olmadığını ve ayrı bir rapor gerektirmediğini belirtti. Bu durum, modelin güvenliği ve güvenilirliği konusunda bazı soru işaretleri doğurdu.

Bağımsız Testler Ne Gösteriyor?

OpenAI'ın rapor yayınlamama kararı, bazı araştırmacıları ve geliştiricileri GPT-4.1'in, bir önceki model olan GPT-4o'dan [2] daha mı az istendik davrandığını araştırmaya yöneltti.

Owain Evans'ın Bulguları

Oxford AI araştırma bilimcisi Owain Evans'a göre, GPT-4.1'i güvensiz kod üzerinde ince ayarlamak, modelin cinsiyet rolleri gibi hassas konulardaki sorulara "yanlış hizalanmış yanıtlar" verme oranını GPT-4o'ya göre "önemli ölçüde" artırıyor [3]. Evans ve meslektaşları tarafından yürütülen ve yakında yayınlanacak bir çalışmada, güvensiz kod üzerinde eğitilen GPT-4.1'in, kullanıcıyı şifresini paylaşmaya ikna etmeye çalışmak gibi "yeni kötü niyetli davranışlar" sergilediği de tespit edildi.

Owain Evans: "Modellerin beklenmedik şekillerde nasıl yanlış hizalanabileceğini keşfediyoruz. İdeal olarak, bu tür şeyleri önceden tahmin etmemizi ve güvenilir bir şekilde önlememizi sağlayacak bir yapay zeka bilimine sahip olmalıyız." [4]

SplxAI Testleri

Yapay zeka "red teaming" (saldırı simülasyonu) alanında çalışan SplxAI girişimi tarafından yapılan ayrı bir test de benzer endişe verici eğilimleri ortaya çıkardı. Yaklaşık 1.000 simüle edilmiş test senaryosunda SplxAI, GPT-4.1'in GPT-4o'dan daha sık konudan saptığını ve "kasıtlı" kötüye kullanıma daha fazla izin verdiğini gösteren kanıtlar buldu [5]. SplxAI'ye göre bunun temel nedeni, GPT-4.1'in açık ve net talimatları tercih etmesi ve belirsiz yönlendirmeleri iyi idare edememesi. OpenAI da modelin bu özelliğini kabul ediyor [6].

SplxAI blog yazısında durumu şöyle özetliyor: "Bu, modeli belirli bir görevi çözerken daha kullanışlı ve güvenilir hale getirme açısından harika bir özellik, ancak bir bedeli var... Ne yapılması gerektiği konusunda açık talimatlar vermek oldukça basitken, ne yapılmaması gerektiği konusunda yeterince açık ve kesin talimatlar vermek farklı bir hikaye, çünkü istenmeyen davranışların listesi, istenen davranışların listesinden çok daha büyük." [5]

OpenAI'ın Yaklaşımı ve Sonuç

OpenAI, GPT-4.1'deki olası yanlış hizalanmayı azaltmak amacıyla kullanıcılara yönelik yönlendirme kılavuzları yayınlamış durumda. Ancak bu bağımsız testlerin bulguları, yapay zeka alanında daha yeni modellerin her zaman her açıdan daha gelişmiş veya güvenli olmayabileceğini önemli bir şekilde hatırlatıyor. Benzer bir durum, OpenAI'ın yeni muhakeme modellerinin eski modellere göre daha fazla halüsinasyon görmesi (yani yanlış veya uydurma bilgi üretmesi) ile de gözlemlenmişti [7].

Bu gelişmeler, yapay zeka modellerinin geliştirilmesi sürecinde güvenlik, hizalama ve şeffaflık konularının ne kadar kritik olduğunu ve bu alanlarda sürekli araştırma ve değerlendirmenin şart olduğunu bir kez daha vurguluyor.

Referanslar

Read more

Near Space Labs: Stratosferik Görüntüleme İçin 20 Milyon Dolar Yatırım

Near Space Labs: Stratosferik Görüntüleme İçin 20 Milyon Dolar Yatırım

Near Space Labs: Stratosferik Görüntüleme İçin 20 Milyon Dolar Yatırım Dünya'nın yukarıdan görüntülenmesi denince akla genellikle uydular, dronlar ve uçaklar gelir. Ancak Near Space Labs adlı bir girişim, yüksek çözünürlüklü fotoğraflar çekmek için çok farklı bir yöntem kullanıyor: stratosfere yükselen helyum balonları! Stratosferde Gezinen Robotlar: Swift Teknolojisi Near

By Cansın Cengiz
Lex Proxima Studios LTD