Wikidata Embedding Projesi: Wikipedia Bilgisi Artık Yapay Zekâ İçin Daha Erişilebilir
Wikidata Embedding Projesi ile Wikipedia Verileri Yapay Zekâya Açılıyor
Wikimedia Deutschland, Wikipedia'nın devasa bilgi kaynağını yapay zekâ (YZ) modellerine daha erişilebilir kılacak yeni bir veritabanı geliştirdiğini duyurdu. Wikidata Embedding Project adı verilen bu sistem, yaklaşık 120 milyon veriden oluşan Wikipedia ve kardeş platformların içeriğine vektör tabanlı semantik arama teknolojisi ekliyor. Bu teknoloji, makinelerin kelimeler arasındaki anlam ve ilişkileri daha iyi kavramasını sağlıyor.
Yapay Zekâ Modelleri için Doğal Dil ile Sorgulama Kolaylığı
Proje, Model Context Protocol (MCP) desteğiyle YZ sistemlerinin veri kaynaklarıyla daha etkin iletişim kurmasını mümkün kılıyor. Bu sayede, büyük dil modelleri (LLM) Wikipedia gibi doğrulanmış kaynaklara doğal dilde daha kolay erişebiliyor.
Kimler Katkı Sağladı?
- Wikimedia Deutschland (Almanya kolu)
- Yapay zekâ arama şirketi Jina.AI
- Gerçek zamanlı eğitim verisi şirketi DataStax (IBM bünyesinde)
Yenilikçi Özellikler ve Gelişmiş Sorgulama
Wikidata zaten yıllardır makine tarafından okunabilir veriler sunuyordu, ancak önceki araçlar yalnızca anahtar kelime aramaları ve SPARQL ile sınırlıydı. Yeni sistem ise, veritabanını Retrieval-Augmented Generation (RAG) sistemleriyle uyumlu hale getirerek, YZ modellerinin dış bilgiye ulaşmasını kolaylaştırıyor.
Örneğin "bilim insanı" ("scientist") kelimesiyle sorgulama yapıldığında, öne çıkan nükleer fizikçilerden Bell Labs çalışanlarına kadar çok yönlü sonuçlar alınabiliyor. Ayrıca, kelimenin farklı dillere çevirileri, bilim insanlarının Wikimedia onaylı görselleri ve "araştırmacı", "akademisyen" gibi bağlantılı kavramlar da sunuluyor.
Veritabanı Geliştiricilere Açık
Veritabanı, Toolforge üzerinden herkese açık olarak erişilebiliyor. Ayrıca, 9 Ekim'de ilgilenen geliştiriciler için bir webinar düzenlenecek.
Kaliteli Verinin Önemi Artıyor
YZ geliştiricileri, modellerini daha doğru eğitmek için güvenilir veri kaynaklarına ihtiyaç duyuyor. Wikipedia'nın doğrulanmış ve düzenlenmiş yapısı, internetten rastgele toplanan veri kümelerine kıyasla daha güvenilir bir alternatif sunuyor. Özellikle yüksek hassasiyet gereken uygulamalarda, kaliteli ve güvenilir veri büyük önem taşıyor.
Açıklama: Güçlü YZ Herkesin Erişimine Açık Olmalı
Wikidata YZ proje yöneticisi Philippe Saadé, "Bu Embedding Project lansmanı, güçlü YZ'nin sadece birkaç büyük şirketin kontrolünde olması gerekmediğini gösteriyor. Açık, işbirliğine dayalı ve herkesin faydasına olacak şekilde de inşa edilebilir," dedi.