DeepSeek, Yapay Zeka Modelini Gemini ile mi Eğitti?
DeepSeek, Yapay Zeka Modelini Gemini ile mi Eğitti?
Geçtiğimiz hafta, Çin merkezli DeepSeek laboratuvarı, matematik ve kodlama kıyaslamalarında iyi performans gösteren R1 muhakeme yapay zeka modelinin güncellenmiş bir sürümünü yayınladı. Şirket, modeli eğitmek için kullandığı verinin kaynağını açıklamamış olsa da, bazı yapay zeka araştırmacıları, verinin en azından bir kısmının Google'ın Gemini yapay zeka ailesinden geldiğini düşünüyor.
Kanıtlar ve İddialar
Melbourne merkezli bir geliştirici olan Sam Paeach, DeepSeek'in en son modelinin Gemini çıktılarından eğitildiğine dair kanıt olduğunu iddia ettiği bilgileri paylaştı. Paeach, bir X gönderisinde, DeepSeek'in R1-0528 adlı modelinin Google'ın Gemini 2.5 Pro'sunun tercih ettiği kelime ve ifadelere benzerlik gösterdiğini belirtti. Bu durum, modelin sentetik OpenAI çıktıları yerine sentetik Gemini çıktıları üzerinde eğitilmiş olabileceği spekülasyonlarına yol açtı.
If you're wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv— Sam Paech (@sam_paech) May 29, 2025
Bu tek başına kesin bir kanıt olmasa da, "SpeechMap" adlı yapay zeka için bir "ifade özgürlüğü değerlendirmesi"nin takma adlı yaratıcısı olan başka bir geliştirici, DeepSeek modelinin sonuçlara ulaşırken ürettiği "düşüncelerin" veya izlerin "Gemini izleri gibi okunduğunu" kaydetti.
Geçmişteki Benzer İddialar ve Veri Sızıntısı Endişeleri
DeepSeek, daha önce de rakip yapay zeka modellerinden veri kullanarak eğitim yapmakla suçlanmıştı. Aralık ayında, geliştiriciler DeepSeek'in V3 modelinin sık sık kendini OpenAI'nin yapay zeka destekli sohbet robotu platformu ChatGPT olarak tanımladığını gözlemlemişlerdi. Bu durum, modelin ChatGPT sohbet günlükleri üzerinde eğitilmiş olabileceğini düşündürmüştü.
Bu yılın başlarında OpenAI, Financial Times'a yaptığı açıklamada, DeepSeek'i daha büyük ve daha yetenekli modellerden veri çıkararak yapay zeka modellerini eğitme tekniği olan distilasyon kullanımıyla ilişkilendiren kanıtlar bulduğunu belirtmişti. Bloomberg'e göre, OpenAI ile yakın iş birliği içinde olan ve yatırımcısı olan Microsoft, 2024'ün sonlarında OpenAI geliştirici hesapları aracılığıyla büyük miktarda verinin sızdırıldığını tespit etti; OpenAI bu hesapların DeepSeek ile bağlantılı olduğuna inanıyor.
Distilasyon yaygın bir uygulama olsa da, OpenAI'nin hizmet şartları, müşterilerin şirketin model çıktılarını rakip yapay zeka geliştirmek için kullanmasını yasaklamaktadır. Ancak, birçok modelin kendini yanlış tanımladığını ve aynı kelimeler ile ifadelerde birleştiğini belirtmek gerekir. Bunun nedeni, yapay zeka şirketlerinin eğitim verilerinin büyük bir kısmını aldığı açık web'in, yapay zeka tarafından üretilmiş "yapay zeka posası" (AI slop) ile dolmasıdır.
Uzman Görüşleri ve Önleyici Tedbirler
Yine de, kar amacı gütmeyen yapay zeka araştırma enstitüsü AI2'de araştırmacı olan Nathan Lambert gibi yapay zeka uzmanları, DeepSeek'in Google'ın Gemini'sinden veri üzerinde eğitim yapmasının ihtimal dışı olmadığını düşünüyor. Lambert, bir X gönderisinde, "DeepSeek olsaydım, kesinlikle en iyi API modelinden tonlarca sentetik veri oluştururdum. GPU sıkıntısı çekiyorlar ve nakitleri bol. Bu onlar için kelimenin tam anlamıyla daha fazla hesaplama gücü anlamına geliyor," diye yazdı.
If I was DeepSeek I would definitely create a ton of synthetic data from the best API model out there. Theyre short on GPUs and flush with cash. It’s literally effectively more compute for them. yes on the Gemini distill question.— Nathan Lambert (@natolambert) June 3, 2025
Kısmen distilasyonu önlemek amacıyla yapay zeka şirketleri güvenlik önlemlerini artırıyor. Nisan ayında OpenAI, belirli gelişmiş modellere erişim için kuruluşlardan kimlik doğrulama sürecini tamamlamalarını istemeye başladı. Bu süreç, OpenAI'nin API'sinin desteklediği ülkelerden birinden resmi kimlik belgesi gerektiriyor; Çin bu listede yer almıyor. Google da yakın zamanda AI Studio geliştirici platformu aracılığıyla sunulan modellerin ürettiği izleri "özetlemeye" başladı. Bu adım, Gemini izleri üzerinde performanslı rakip modelleri eğitmeyi daha zor hale getiriyor. Anthropic ise Mayıs ayında, "rekabet avantajlarını" koruma ihtiyacını gerekçe göstererek kendi modelinin izlerini özetlemeye başlayacağını duyurdu.
Google'dan henüz bir yorum alınamadı. Gelişmeler oldukça bu yazı güncellenecektir.
Referanslar
- DeepSeek R1 modeli hakkında: https://techcrunch.com/2025/05/28/deepseek-updates-its-r1-reasoning-ai-model-releases-it-on-hugging-face/
- Sam Paeach'in X gönderisi: https://twitter.com/sam_paech/status/1928187246689112197?ref_src=twsrc%5Etfw
- SpeechMap hakkında: https://techcrunch.com/2025/04/16/theres-now-a-benchmark-for-how-free-an-ai-chatbot-is-to-talk-about-controversial-topics/
- DeepSeek'in ChatGPT olarak kendini tanıtması: https://techcrunch.com/2024/12/27/why-deepseeks-new-ai-model-thinks-its-chatgpt/
- OpenAI ve distilasyon iddiaları (Financial Times): https://www.ft.com/content/a0dfedd1-5255-4fa9-8ccc-1fe01de87ea6
- Microsoft ve veri sızıntısı iddiaları (Bloomberg): https://www.bloomberg.com/news/articles/2025-01-29/microsoft-probing-if-deepseek-linked-group-improperly-obtained-openai-data
- Modellerin kendini yanlış tanımlaması (CNBC): https://www.cnbc.com/2023/12/29/baidu-says-its-chatgpt-rival-ernie-bot-has-more-than-100-million-users.html
- Modellerin kendini yanlış tanımlaması (Reddit): https://www.reddit.com/r/ChatGPT/comments/1gslm0t/gemini_models_answer_claude_when_asked_about_its/
- AI slop ve internet kirliliği (Forbes): https://www.forbes.com.au/news/innovation/is-ai-quietly-killing-itself-and-the-internet/
- AI slop ve internet kirliliği (Nieman Lab): https://www.niemanlab.org/2022/12/im-sorry-but-im-a-large-language-model/
- AI tarafından üretilen içerik (NYT): https://www.nytimes.com/2023/05/19/technology/ai-generated-content-discovered-on-news-sites-content-farms-and-product-reviews.html
- Reddit'te AI içeriği artışı: https://originality.ai/blog/reddit-shows-spikes-in-ai-content
- X'te bot artışı: https://www.theguardian.com/technology/2023/sep/09/x-twitter-bots-republican-primary-debate-tweets-increase
- AI çıktılarını filtreleme zorluğu (TheXeophon X post): https://x.com/TheXeophon/status/1872582201919021516
- Nathan Lambert'ın X gönderisi: https://twitter.com/natolambert/status/1929895008435306823?ref_src=twsrc%5Etfw
- Anthropic'in izleri özetleme kararı: https://techcrunch.com/2025/05/22/anthropics-new-claude-4-ai-models-can-reason-over-many-steps/
- Orijinal Kaynak: https://techcrunch.com/2025/06/03/deepseek-may-have-used-googles-gemini-to-train-its-latest-model/