ChatGPT Web Sitesi İçeriğinizi Kullanmasın; ChatGPT gibi büyük dil modellerini (LLM’ler) eğitmek için içeriğin kullanılmasından vazgeçmenin kolay bir yolunun olmamasıyla ilgili endişeler var . Bunu yapmanın bir yolu var, ancak ne basit ne de çalışması garanti.
AI’lar İçeriğinizden Nasıl Öğrenir?
Büyük Dil Modelleri (LLM’ler), birden çok kaynaktan gelen veriler üzerinde eğitilir. Bu veri kümelerinin çoğu açık kaynaklıdır ve AI’ları eğitmek için serbestçe kullanılır. Genel olarak, Büyük Dil Modelleri eğitim için çok çeşitli kaynaklar kullanır. Kullanılan kaynak türlerinin örnekleri:
- Vikipedi
- Devlet mahkemesi kayıtları
- Kitabın
- E-postalar
- Taranan web siteleri
Aslında, büyük miktarda bilgi veren veri kümeleri sunan portallar ve web siteleri var. Portallardan biri Amazon tarafından barındırılıyor ve AWS’deki Açık Veri Kaydı’nda binlerce veri kümesi sunuyor.
Binlerce veri kümesine sahip Amazon portalı, daha fazla veri kümesi içeren diğer pek çok portaldan yalnızca biridir. Wikipedia, veri kümelerini indirmek için Google Veri Kümesi ve binlerce veri kümesini bulmak için Hugging Face portalları dahil olmak üzere 28 portal listeler.
ChatGPT’yi Eğitmek İçin Kullanılan Veri Kümeleri – ChatGPT Web Sitesi İçeriğinizi Kullanmasın
ChatGPT, InstructGPT olarak da bilinen GPT-3.5’i temel alır. GPT-3.5’i eğitmek için kullanılan veri kümeleri, GPT-3 için kullanılanlarla aynıdır. İkisi arasındaki en büyük fark, GPT-3.5’in insan geri bildiriminden (RLHF) pekiştirmeli öğrenme olarak bilinen bir teknik kullanmasıdır.
GPT-3’ü (ve GPT-3.5’i) eğitmek için kullanılan beş veri seti, Language Models are Few-Shot Learners ( PDF ) başlıklı araştırma makalesinin 9. sayfasında açıklanmıştır. Veri kümeleri şunlardır:
- Common Crawl (filtered)
- WebText2
- Books1
- Books2
- Wikipedia
Beş veri kümesinden, İnternet taramasına dayanan ikisi şunlardır:
- Common Crawl
- WebText2
WebText2 Veri Kümesi Hakkında
WebText2, Reddit’ten teknoloji hakkında üç olumlu oyu olan tarama bağlantıları tarafından oluşturulan özel bir OpenAI veri kümesidir. Buradaki fikir, bu URL’lerin güvenilir olması ve kaliteli içerik içermesidir. WebText2, OpenAI tarafından geliştirilen orijinal WebText veri setinin genişletilmiş bir versiyonudur. Orijinal WebText veri setinde yaklaşık 15 milyar jeton vardı. GPT-2’yi eğitmek için WebText kullanıldı. WebText2, 19 milyar jetonla biraz daha büyük. WebText2, GPT-3 ve GPT-3.5’i eğitmek için kullanılan metindir.
OpenWebText2
WebText2 (OpenAI tarafından oluşturulmuştur) herkese açık değildir. Ancak, OpenWebText2 adlı halka açık bir açık kaynak sürümü vardır. OpenWebText2, muhtemelen OpenAI WebText2 ile aynı olmasa da benzer URL veri kümesi sunan aynı tarama kalıpları kullanılarak oluşturulan genel bir veri kümesidir.
Bunu yalnızca birisinin WebText2’de ne olduğunu bilmek istemesi durumunda söylüyorum. İçinde bulunan URL’ler hakkında bir fikir edinmek için OpenWebText2 indirilebilir.
OpenWebText2’nin temizlenmiş bir versiyonu buradan indirilebilir . OpenWebText2’nin ham sürümü burada mevcuttur. Her iki tarayıcı için de kullanılan kullanıcı aracısı hakkında bilgi bulamadım, belki de sadece Python olarak tanımlanmıştır, emin değilim.
Bildiğim kadarıyla, %100 emin olmasam da engellenecek bir kullanıcı aracısı yok. Yine de, siteniz Reddit’ten en az üç olumlu oyla bağlantılıysa, sitenizin hem kapalı kaynak OpenAI WebText2 veri kümesinde hem de bunun açık kaynak sürümü olan OpenWebText2’de olma ihtimalinin yüksek olduğunu biliyoruz. OpenWebText2 hakkında daha fazla bilgi burada.
Ortak Tarama
İnternet içeriğinden oluşan en yaygın kullanılan veri kümelerinden biri, Common Crawl adlı kar amacı gütmeyen bir kuruluş tarafından oluşturulan Common Crawl veri kümesidir . Ortak Tarama verileri, tüm İnternet’i tarayan bir bottan gelir.
Veriler, verileri kullanmak isteyen kuruluşlar tarafından indirilir ve ardından spam içerikli sitelerden vb. temizlenir. Common Crawl botunun adı CCBot’tur.
CCBot, robots.txt protokolüne uyar, bu nedenle Robots.txt ile Ortak Taramayı engellemek ve web sitesi verilerinizin onu başka bir veri kümesine dönüştürmesini engellemek mümkündür. Ancak, siteniz zaten tarandıysa, büyük olasılıkla zaten birden çok veri kümesine dahil edilmiştir.
Bununla birlikte, Common Crawl’ı engelleyerek, web sitenizin içeriğinin daha yeni Common Crawl veri kümelerinden alınan yeni veri kümelerine dahil edilmesini devre dışı bırakmak mümkündür. Makalenin en başında sürecin “ne basit ne de yürümesi garantili” olduğunu yazarken kastettiğim buydu.
CCBot User-Agent dizisi şu şekildedir:
CCBot/2.0
Common Crawl bot’unu engellemek için aşağıdakileri robots.txt dosyanıza ekleyin:
User-agent: CCBot
Disallow: /
Bir CCBot kullanıcı aracısının yasal olup olmadığını doğrulamanın ek bir yolu, Amazon AWS IP adreslerinden tarama yapmasıdır. CCBot ayrıca nofollow robots meta etiket direktiflerine de uyar. Bunu robots meta etiketinizde kullanın:
<meta name="robots" content="nofollow">
Botları Engellemeden Önce Dikkate Alınması Gerekenler – ChatGPT Web Sitesi İçeriğinizi Kullanmasın
Common Crawl da dahil olmak üzere birçok veri kümesi, URL’leri filtreleyen ve kategorilere ayıran şirketler tarafından reklamla hedeflenecek web sitelerinin listelerini oluşturmak için kullanılabilir.
Örneğin, Alpha Quantum adlı bir şirket, Etkileşimli Reklamcılık Bürosu Taksonomisi kullanılarak kategorilere ayrılmış bir URL veri kümesi sunar . Veri kümesi, AdTech pazarlaması ve içeriğe dayalı reklamcılık için kullanışlıdır. Böyle bir veritabanından dışlanmak, bir yayıncının potansiyel reklamverenleri kaybetmesine neden olabilir.
AI’nın İçeriğinizi Kullanmasını Engelleme – ChatGPT Web Sitesi İçeriğinizi Kullanmasın
Arama motorları, web sitelerinin taranmayı devre dışı bırakmasına izin verir. Common Crawl, devre dışı bırakmaya da izin verir. Ancak şu anda birinin web sitesi içeriğini mevcut veri kümelerinden kaldırmanın bir yolu yoktur.
Ayrıca, araştırmacı bilim adamları, web sitesi yayıncılarına taranmaktan vazgeçmeleri için bir yol sunmuyor gibi görünüyor.