ChatGPT'nin ortaya çıkışıyla gündeme gelen büyük dil modelleri; Gemini, DeepSeek, Llama ve Grok gibi örneklerle birlikte günlük hayatın ayrılmaz bir parçası haline geldi. Ancak bu modellerin hangi kaynaklardan beslendiği uzun süredir tartışma konusu.
Reddit yüzde 40 ile zirvede
Online istatistik portalı Statista'nın haziran ayında yayımladığı araştırmaya göre, 2025'in ilk çeyreğinde büyük dil modelleri tarafından en çok alıntılanan web sitesi reddit.com (%40,11) oldu.
Uzmanlara göre yapay zekanın, gerçek kişilerin doğal konuşmalarının yer aldığı Reddit verilerini sıkça kullanması, model geliştiricilerinin resmi bilgilerden çok doğal insan etkileşimlerini tercih ettiğini gösteriyor.
Reddit'i sırasıyla Wikipedia (%26,3), YouTube (%23,5), Google (%23,2), Yelp (%21), Facebook (%19,9), Amazon (%18,7), Tripadvisor (%12,4), Mapbox (%11,2) ve OpenStreetMap (%11,2) takip ediyor.
Wikipedia'nın düzenlenmiş içeriklerine karşın Reddit'teki özgün ve süzgeçten geçmemiş tartışmaların dil modellerinin öğrenme süreçlerinde daha etkili olduğu değerlendiriliyor.
Reddit, Google ve OpenAI ile veri paylaşımı yapıyor
Yapay zekanın eğitimiyle ilgili olarak sosyal medya platformlarıyla teknoloji şirketleri arasında da veri paylaşım anlaşmaları yapılıyor.
2024 yılında yapılan anlaşmaya göre, Google, yapay zekalarını eğitmek amacıyla Reddit verilerini kullanabiliyor ve bunun karşılığında yıllık 60 milyon dolar ödeme yapıyor.
Reuters'a göre, Reddit ayrıca OpenAI ile de ChatGPT için veri paylaşımı anlaşması yaptı. Böylece büyük dil modellerinin yanıtlarında görülen Reddit etkisi, yapılan iş birlikleriyle daha da güçlenmiş oldu.


