CCBot Nedir? - Yapay Zeka Veri Kazıyıcı (User Agents)

CCBot

CCBot, Common Crawl tarafından herkesin kullanabileceği açık kaynaklı bir web tarama verisi deposunu korumak için kullanılan bir web tarayıcısıdır. Bu depo, OpenAI'nin GPT'leri de dahil olmak üzere birçok LLM'yi (Büyük Dil Modelleri) eğitmek için kullanılmıştır.

Yapay zeka veri kazıyıcılarının hangi web sitelerini tarayacaklarını ve ne sıklıkla tarayacaklarını nasıl seçtikleri genellikle belirsizdir. Eğittikleri Yapay zeka modellerinin türüne bağlı olarak, daha yüksek bilgi yoğunluğuna sahip web sitelerini daha sık ziyaret etmeyi seçebilirler. Örneğin, bir LLM (Büyük Dil Modeli) eğiten bir ajanın düzenli olarak güncellenen çok sayıda metin içeriğine sahip siteleri tercih etmesi mantıklı olacaktır.

Detaylar

Kullanıcı aracısı (user agents), operatör hakkında detaylı bilgilere ve döküman dosylarına ulaşabilirsiniz.

Operatör Common Crawl
Dokümantasyon https://commoncrawl.org/faq

robots.txt ile Engelleme

Web sitenizin robots.txt dosyasında kullanıcı aracısı belirteci kuralları belirleyerek CCBot botunu engelleyebilir veya erişimini sınırlayabilirsiniz.

# robots.txt Kopyala
# robots.txt
# Bu CCBot botunu engelleyecektir

User-agent: CCBot
Disallow: /

Ayrıca Bakınız

Sunucu Server

What is CCBot?

Browser Crawler

User Agents List

CCBot Nedir

Block CCBot?

Tarama Botlar

Cloudflare

Tarama Botları

Scrapy Scraper

Yayınlanma: Güncellenme:

Bu site genel internet kaynaklarından alınan bilgiler içerir. Kullanım sorumluluğu size aittir. Materyal sahiplerine ait olan içeriklerin, logoların ve telif ihlaliyle ilgili sorumluluğu ilgililere aittir. Bilgilerin doğruluğu ve güncelliği garanti edilmez. Hatalı veya eksik bilgiler için bize iletişim yoluyla bildirin.