Microsoft: Yapay Zeka Hata Ayıklamada Henüz Yetersiz

Microsoft: Yapay Zeka Hata Ayıklamada Henüz Yetersiz
Photo by Matthew Manuel / Unsplash

Microsoft Araştırması: Yapay Zeka Kodlamada İyi Ama Hata Ayıklamada Zorlanıyor

Yapay zeka (AI), kodlama görevlerinde geliştiricilere yardımcı olmak için OpenAI, Anthropic gibi önde gelen laboratuvarlar tarafından giderek daha fazla kullanılıyor. Google CEO'su Sundar Pichai, şirketlerindeki yeni kodların %25'inin yapay zeka tarafından üretildiğini belirtirken, Meta CEO'su Mark Zuckerberg de sosyal medya devinde AI kodlama modellerini yaygınlaştırma hedefini dile getirmişti. Ancak en iyi AI modelleri bile, deneyimli yazılımcıların kolayca çözebileceği yazılım hatalarını ayıklamakta zorlanıyor.

Microsoft Araştırması Ne Diyor?

Microsoft'un araştırma ve geliştirme bölümü olan Microsoft Research tarafından yapılan yeni bir çalışma, Anthropic'in Claude 3.7 Sonnet ve OpenAI'ın o3-mini gibi modellerin bile SWE-bench Lite adlı yazılım geliştirme ölçütündeki birçok hatayı ayıklayamadığını ortaya koyuyor. Bu sonuçlar, OpenAI gibi şirketlerin iddialı açıklamalarına rağmen, yapay zekanın kodlama gibi alanlarda hala insan uzmanların yerini tutamadığını gösteren önemli bir hatırlatma niteliğinde.

Çalışmanın yazarları, Python hata ayıklayıcısı da dahil olmak üzere çeşitli hata ayıklama araçlarına erişimi olan "tek istemli bir AI agent" için dokuz farklı modeli test etti. Bu AI agent'a SWE-bench Lite'dan seçilmiş 300 yazılım hata ayıklama görevini çözme görevi verildi.

Sonuçlara göre, daha güçlü ve yeni modellerle donatıldığında bile, AI agent'ın hata ayıklama görevlerinin yarısından fazlasını başarıyla tamamlaması nadiren görüldü. En yüksek ortalama başarı oranını %48.4 ile Claude 3.7 Sonnet elde ederken, onu %30.2 ile OpenAI'ın o1 ve %22.1 ile o3-mini modelleri takip etti.

Microsoft AI Hata Ayıklama Karşılaştırması Grafiği

Görsel: Çalışmadan bir grafik. "Göreceli artış", modellerin hata ayıklama araçlarıyla donatılmasından elde ettiği performansı ifade eder. Kaynak: Microsoft

Neden Başarısız Oluyorlar?

Çalışmaya göre, bazı modeller kendilerine sunulan hata ayıklama araçlarını kullanmakta ve farklı araçların farklı sorunlara nasıl yardımcı olabileceğini anlamakta zorlandı. Ancak asıl büyük sorun veri kıtlığıydı. Araştırmacılar, mevcut modellerin eğitim verilerinde "sıralı karar verme süreçlerini" yani insanların hata ayıklama adımlarını temsil eden yeterli veri bulunmadığını düşünüyor.

Çalışmanın yazarları, "Modellerin eğitilmesi veya ince ayarlanmasıyla daha iyi etkileşimli hata ayıklayıcılar haline gelebileceklerine inanıyoruz. Ancak bu tür bir model eğitimi için, bir hata düzeltmesi önermeden önce gerekli bilgileri toplamak üzere bir hata ayıklayıcıyla etkileşime giren AI agent'ların kaydedildiği yörünge verileri gibi özel verilere ihtiyaç duyulacaktır," diye belirtiyor.

Gelecek Ne Gösteriyor?

Bu bulgular aslında şaşırtıcı değil. Birçok çalışma, kod üreten yapay zekanın programlama mantığını anlama gibi alanlardaki zayıflıkları nedeniyle güvenlik açıkları ve hatalar getirme eğiliminde olduğunu göstermişti. Popüler bir AI kodlama aracı olan Devin'in yakın zamanda yapılan bir değerlendirmesi, 20 programlama testinden yalnızca üçünü tamamlayabildiğini ortaya koymuştu.

Ancak Microsoft'un çalışması, modeller için kalıcı bir sorun alanına yönelik en ayrıntılı incelemelerden biri. Bu durum, muhtemelen yatırımcıların yapay zeka destekli kodlama araçlarına olan ilgisini azaltmayacak, ancak umarız geliştiricilerin ve yöneticilerinin yapay zekanın kodlama sürecini tamamen devralmasına izin vermeden önce iki kez düşünmelerini sağlayacaktır.

Öte yandan, giderek artan sayıda teknoloji lideri, yapay zekanın kodlama işlerini otomatikleştireceği fikrine karşı çıkıyor. Microsoft kurucu ortağı Bill Gates, Replit CEO'su Amjad Masad, Okta CEO'su Todd McKinnon ve IBM CEO'su Arvind Krishna gibi isimler, programcılık mesleğinin kalıcı olacağını düşündüklerini belirtiyorlar.

Kaynakça

Read more

Lex Proxima Studios LTD