EleutherAI: Lisanslı ve Açık Alan Veri Setiyle Yapay Zeka Eğitimi
EleutherAI: Yapay Zeka Eğitiminde Yeni Bir Dönem
Yapay zeka araştırma kuruluşu EleutherAI, yapay zeka modellerini eğitmek için lisanslı ve açık alan metinlerden oluşan devasa bir koleksiyonu yayınladığını duyurdu. "The Common Pile v0.1" adı verilen bu veri seti, Poolside, Hugging Face gibi yapay zeka startup'ları ve çeşitli akademik kurumlarla iki yıl süren bir iş birliği sonucunda tamamlandı.
The Common Pile v0.1: Kapsam ve Etki
8 terabayt büyüklüğündeki The Common Pile v0.1, EleutherAI'nin yeni yapay zeka modelleri olan Comma v0.1-1T ve Comma v0.1-2T'yi eğitmek için kullanıldı. EleutherAI, bu modellerin lisanssız, telif hakkıyla korunan verilerle geliştirilen modellerle benzer performans gösterdiğini iddia ediyor.
Günümüzde OpenAI gibi birçok yapay zeka şirketi, modellerini eğitmek için web'den veri kazıma (telif hakkıyla korunan materyaller dahil) uygulamaları nedeniyle telif hakkı davalarıyla karşı karşıya. Bazı şirketlerin içerik sağlayıcılarla lisans anlaşmaları olsa da, çoğu, ABD'deki "adil kullanım" doktrininin kendilerini telif hakkıyla korunan eserleri izinsiz kullanmaktan doğacak sorumluluktan koruduğunu savunuyor.
Şeffaflık ve Araştırma Üzerindeki Etki
EleutherAI, bu davaların yapay zeka şirketlerinin şeffaflığını "dramatik bir şekilde azalttığını" belirtiyor. Kuruluş, bu durumun modellerin nasıl çalıştığını ve kusurlarının neler olabileceğini anlamayı zorlaştırarak daha geniş yapay zeka araştırma alanına zarar verdiğini ifade ediyor.
"[Telif hakkı] davaları, [model] eğitimindeki veri kaynaklandırma uygulamalarını anlamlı bir şekilde değiştirmedi, ancak şirketlerin şeffaflıklarını büyük ölçüde azalttı."
— Stella Biderman, EleutherAI İcra Direktörü
The Common Pile v0.1, Hugging Face'in yapay zeka geliştirme platformundan ve GitHub'dan indirilebilir. Veri seti, hukuk uzmanlarıyla yapılan istişareler sonucunda oluşturuldu ve Kongre Kütüphanesi ile İnternet Arşivi tarafından dijitalleştirilen 300.000 kamu malı kitap gibi kaynaklardan yararlanıldı. EleutherAI, ses içeriğini yazıya dökmek için OpenAI'nin açık kaynaklı konuşmadan metne modeli Whisper'ı da kullandı.
Rekabetçi Performans ve Gelecek Vizyonu
EleutherAI, Comma v0.1-1T ve Comma v0.1-2T'nin, The Common Pile v0.1'in geliştiricilerin tescilli alternatiflerle rekabet edebilecek modeller oluşturmasını sağlayacak kadar dikkatli bir şekilde derlendiğinin kanıtı olduğunu iddia ediyor. Her ikisi de 7 milyar parametreye sahip olan bu modeller, The Common Pile v0.1'in sadece bir kısmıyla eğitilmiş olmalarına rağmen, kodlama, görüntü anlama ve matematik gibi alanlardaki kıyaslamalarda Meta'nın ilk Llama yapay zeka modeliyle rekabet ediyor.
EleutherAI İcra Direktörü Stella Biderman, "Genel olarak, lisanssız metnin performansı artırdığı yönündeki yaygın fikrin haksız olduğunu düşünüyoruz" diye yazdı ve ekledi: "Erişilebilir açık lisanslı ve kamu malı veri miktarı arttıkça, açık lisanslı içerikle eğitilen modellerin kalitesinin artmasını bekleyebiliriz."
The Common Pile v0.1, EleutherAI'nin geçmişteki hatalarını düzeltme çabasının bir parçası olarak görülüyor. Şirket, yıllar önce telif hakkıyla korunan materyaller içeren The Pile adlı açık bir eğitim metin koleksiyonu yayınlamıştı ve bu nedenle eleştirilere maruz kalmıştı.
EleutherAI, araştırma ve altyapı ortaklarıyla iş birliği içinde gelecekte daha sık açık veri setleri yayınlama taahhüdünde bulunuyor.