ChatGPT Web İçeriğinin Kullanımı Etik mi?; ChatGPT gibi Büyük Dil Modelleri (LLM’ler) , web içeriği de dahil olmak üzere birden fazla bilgi kaynağı kullanarak eğitim verir. Bu veriler, ChatGPT eğitimi için kullanılan orijinal içeriği yayınlayanlara herhangi bir atıf veya menfaat sağlamadan üretilen makaleler şeklindeki o içeriğin özetlerinin temelini oluşturur.
Arama motorları, web sitelerine bağlantılar şeklinde yanıtlar sağlamak için web sitesi içeriğini (tarama ve indeksleme olarak adlandırılır) indirir.
Web sitesi yayıncıları, genellikle Robots.txt olarak adlandırılan Robotlar Hariç Tutma Protokolü aracılığıyla içeriklerinin arama motorları tarafından taranmasını ve dizine eklenmesini devre dışı bırakma olanağına sahiptir.
Robotlar Hariç Tutma Protokolü, resmi bir İnternet standardı değildir, ancak meşru web tarayıcılarının uyduğu bir standarttır.
Web yayıncıları, büyük dil modellerinin web sitesi içeriğini kullanmasını önlemek için Robots.txt protokolünü kullanabilmeli midir?
Büyük Dil Modelleri Web Sitesi İçeriğini Atıf Yapmadan Kullanıyor
Arama pazarlamacılığına dahil olan bazı kişiler, web sitesi verilerinin, bir onay veya trafik gibi hiçbir şey geri vermeden makineleri eğitmek için nasıl kullanıldığından rahatsızdır.
Curamando’da Kıdemli Uzman olan Hans Petter Blindheim ( LinkedIn profili ) benimle görüşlerini paylaştı. Hans Peter yorumladı:
“Bir yazar, sitenizdeki bir makaleden bir şeyler öğrendikten sonra bir şeyler yazdığında, çoğu zaman orijinal çalışmanıza bağlantı verir çünkü güvenilirlik ve profesyonel bir nezaket sunar. Ancak ChatGPT’nin içeriği özümseme ve hiçbir şey vermeme ölçeği, onu hem Google’dan hem de insanlardan ayırır. Bir web sitesi genellikle bir iş direktifi göz önünde bulundurularak oluşturulur. Google, karşılıklı yararı olan trafiği sağlayarak insanların içeriği bulmasına yardımcı olur. Ancak bu, içeriğinizi kullanmak için izninizi isteyen büyük dil modelleri gibi değil, içeriğiniz yayınlandığında beklenenden daha geniş bir anlamda kullanıyorlar. Ve AI dil modelleri karşılığında değer sunmuyorsa, yayıncılar içeriği taramalarına ve kullanmalarına neden izin versin? İçeriğinizi kullanımları adil kullanım standartlarını karşılıyor mu? ChatGPT ve Google’ın kendi Makine Öğrenimi/Yapay Zeka modelleri, içeriğinizi izinsiz olarak eğittiğinde, orada öğrendiklerini döndürdüğünde ve bunu kullanarak insanları web sitelerinizden uzak tuttuğunda, sektör ve ayrıca yasa koyucular zorlayarak İnternet üzerindeki kontrolü geri almaya çalışmamalı mı? bir “katılma” modeline geçmeleri için mi?
Hans Peter
Hans Petter’in ifade ettiği endişeler makul. Teknoloji ne kadar hızlı geliştiği göz önüne alındığında, adil kullanıma ilişkin yasalar yeniden gözden geçirilmeli ve güncellenmeli mi?
Fikri Mülkiyet Yasasında yönetim kurulu sertifikasına sahip Kayıtlı Patent Vekili ( LinkedIn profili ) John Rizvi’ye İnternet telif hakkı yasalarının güncel olup olmadığını sordum. John cevap verdi:
Evet, şüphesiz. Bu gibi durumlardaki en önemli tartışma noktalarından biri, kanunun kaçınılmaz olarak teknolojiden çok daha yavaş gelişmesidir. 1800’lerde, bu belki de o kadar önemli değildi çünkü ilerlemeler nispeten yavaştı ve bu nedenle yasal mekanizma aşağı yukarı buna uyacak şekilde alet edilmişti. Ancak bugün, kontrolden çıkmış teknolojik gelişmeler, kanunun ayak uydurma kabiliyetini çok geride bıraktı. Yasanın yetişmesi için çok fazla ilerleme ve çok fazla hareketli parça var. Şu anda, büyük ölçüde burada tartıştığımız teknoloji alanlarında neredeyse hiç uzman olmayan kişiler tarafından oluşturulduğundan ve yönetildiğinden, yasa, teknolojiye ayak uyduracak şekilde yetersiz donanımlı veya yapılandırılmıştır… ve bunun tamamen bir yasa olmadığını düşünmeliyiz. Kötü bir şey. Dolayısıyla, bir açıdan, evet, Fikri Mülkiyet yasası teknolojik gelişmelere ayak uydurmayı ummak şöyle dursun, iddia ediyorsa bile gelişmeye ihtiyaç duyar. Birincil sorun, çeşitli teknoloji biçimlerinin kullanılabileceği yollara ayak uydurmak ve bariz aşırı erişimden veya hayırsever niyetlerle gizlenmiş siyasi kazanç için düpedüz sansürden geri durmak arasında bir denge kurmaktır. Kanun ayrıca, teknolojinin olası kullanımlarına karşı, onlardan kaynaklanabilecek herhangi bir potansiyel faydayı boğacak kadar geniş bir yasa çıkarmamaya özen göstermelidir. İlk Değişikliğe ve fikri mülkiyetin kim tarafından nasıl, neden ve ne dereceye kadar kullanılabileceğini sınırlayan herhangi bir sayıda çözülmüş davaya kolayca ters düşebilirsiniz. Ve teknolojinin akla gelebilecek her kullanımını, onu uygulanabilir ve hatta mümkün kılmak için çerçeve var olmadan yıllar veya on yıllar önce tasavvur etmeye çalışmak, son derece tehlikeli bir aptalın işi olacaktır. Bu gibi durumlarda, yasa gerçekten yardımcı olamaz, ancak teknolojinin nasıl kullanıldığına tepki gösterir… nasıl amaçlandığına değil. Yasanın güncel olayları yakalamasına izin veren devasa ve beklenmedik bir teknoloji platosuna çarpmadığımız sürece, bu durumun yakın zamanda değişmesi pek olası değil.”
John
Dolayısıyla, AI’nın nasıl eğitildiğine gelince, telif hakkı yasaları konusunun dengelenmesi gereken birçok hususu olduğu görülüyor, basit bir cevap yok.
OpenAI ve Microsoft’a Dava Açıldı – ChatGPT Web İçeriğinin Kullanımı Etik mi?
Yakın zamanda açılan ilginç bir dava, OpenAI ve Microsoft’un CoPilot ürünlerini oluşturmak için açık kaynak kodunu kullandıkları bir davadır.
Açık kaynak kodu kullanmanın sorunu, Creative Commons lisansının atıf gerektirmesidir. Bilimsel bir dergide yayınlanan bir makaleye göre:
“Davacılar, OpenAI ve GitHub’ın, orijinal olarak çeşitli “açık kaynak” tarzı lisanslar altında sunulan ve çoğu bir atıf gereksinimi içeren, genel olarak erişilebilir kodu kullanarak üretken kod oluşturmak için Copilot adlı ticari bir ürünü bir araya getirip dağıttığını iddia ediyor. GitHub’ın belirttiği gibi, “…[t]milyarlarca kod satırı üzerine yağan GitHub Copilot, doğal dil istemlerini düzinelerce dilde kodlama önerilerine dönüştürür.” Ortaya çıkan ürünün, orijinal yaratıcılara herhangi bir kredi vermediği iddia ediliyor.
Bilimsel bir dergide yayınlanan bir makale
Telif hakları konusunda hukuk uzmanı olan bu makalenin yazarı, birçok kişinin açık kaynaklı Creative Commons lisanslarını “herkes için ücretsiz” olarak gördüğünü yazdı.
Bazıları, herkes için ücretsiz ifadesini , İnternet içeriğinden oluşan veri kümelerinin kazınmış ve ChatGPT gibi AI ürünleri oluşturmak için kullanıldığının adil bir açıklaması olarak görebilir.
LLM’ler ve Veri Kümeleri Hakkında Arka Plan – ChatGPT Web İçeriğinin Kullanımı Etik mi?
Büyük dil modelleri, içeriğin birden çok veri kümesi üzerinde eğitilir. Veri kümeleri, e-postalardan, kitaplardan, hükümet verilerinden, Wikipedia makalelerinden ve hatta Reddit’teki en az üç olumlu oyu olan gönderilerden bağlantı verilen web sitelerinden oluşturulan veri kümelerinden oluşabilir.
İnternet içeriğiyle ilgili veri setlerinin birçoğunun kökeni, Common Crawl adlı kar amacı gütmeyen bir kuruluş tarafından oluşturulan taramaya dayanmaktadır. Veri kümeleri olan Common Crawl veri kümesi ücretsiz olarak indirilebilir ve kullanılabilir.
Ortak Tarama veri kümesi, ondan oluşturulan diğer birçok veri kümesi için başlangıç noktasıdır. Örneğin, GPT-3, Common Crawl’ın filtrelenmiş bir sürümünü kullandı ( Language Models are Few-Shot Learners PDF ). GPT-3 araştırmacıları, Common Crawl veri kümesinde yer alan web sitesi verilerini şu şekilde kullandı:
“Dil modelleri için veri kümeleri hızla genişledi ve Common Crawl veri kümesiyle sonuçlandı… neredeyse bir trilyon kelimeyi oluşturdu. Bu veri kümesi boyutu, aynı sırayı iki kez güncellemeden en büyük modellerimizi eğitmek için yeterlidir. Ancak, Common Crawl’ın filtrelenmemiş veya hafifçe filtrelenmiş sürümlerinin, daha düzenli veri kümelerinden daha düşük kaliteye sahip olduğunu bulduk. Bu nedenle, veri kümelerimizin ortalama kalitesini iyileştirmek için 3 adım attık: (1) CommonCrawl’ın bir sürümünü indirdik ve bir dizi yüksek kaliteli referans derlemine benzerliğine göre filtreledik, (2) tekrarlamayı önlemek ve fazla uydurmanın doğru bir ölçüsü olarak uzatılan doğrulama setimizin bütünlüğünü korumak için veri kümeleri içinde ve genelinde belge düzeyinde bulanık veri tekilleştirme gerçekleştirdik ve (3) ayrıca CommonCrawl’ı ve çeşitliliğini artırmak için eğitim karışımına bilinen yüksek kaliteli referans derlemlerini ekledik.”
Common Crawl veri kümesi
Metinden Metne Aktarım Dönüştürücüsünü (T5) oluşturmak için kullanılan Google’ın C4 veri kümesinin (Colossal, Cleaned Crawl Corpus) da kökleri Common Crawl veri kümesindedir.
Araştırma makaleleri ( Unified Text-to-Text Transformer PDF ile Transfer Learning’in Sınırlarını Keşfetmek ) şunları açıklıyor:
“Geniş ölçekli ampirik çalışmamızın sonuçlarını sunmadan önce, Transformer model mimarisi ve değerlendirdiğimiz sonraki görevler dahil olmak üzere sonuçlarımızı anlamak için gereken gerekli arka plan konularını gözden geçiriyoruz. Ayrıca her sorunu metinden metne bir görev olarak ele alma yaklaşımımızı tanıtıyoruz ve etiketlenmemiş metin verilerinin kaynağı olarak oluşturduğumuz Ortak Tarama tabanlı veri seti olan “Colossal Clean Crawled Corpus” (C4) açıklıyoruz. Modelimize ve çerçevemize ‘Metinden Metne Aktarım Transformatörü’ (T5) adını veriyoruz.”
Unified Text-to-Text Transformer
Google , AI bloglarında C4’ü oluşturmak için Common Crawl verilerinin (İnternet’ten kazınmış içeriği içeren) nasıl kullanıldığını açıklayan bir makale yayınladı.
“Transfer öğrenimi için önemli bir bileşen, ön eğitim için kullanılan etiketlenmemiş veri kümesidir. Ön eğitim miktarını artırmanın etkisini doğru bir şekilde ölçmek için, yalnızca yüksek kaliteli ve çeşitli değil, aynı zamanda çok büyük bir veri kümesine ihtiyaç vardır. Mevcut eğitim öncesi veri kümeleri, bu kriterlerin üçünü de karşılamıyor – örneğin, Wikipedia’dan alınan metin yüksek kaliteli, ancak stil olarak aynı ve amaçlarımız için nispeten küçükken, Common Crawl web sıyrıkları çok büyük ve çok çeşitli, ancak oldukça Düşük kalite. Bu gereksinimleri karşılamak için, Common Crawl’ın Wikipedia’dan iki kat daha büyük temizlenmiş bir sürümü olan Colossal Clean Crawled Corpus’u (C4) geliştirdik. Temizleme sürecimiz tekilleştirme, tamamlanmamış cümlelerin atılması ve rahatsız edici veya gürültülü içeriğin kaldırılmasını içeriyordu. Bu filtreleme, aşağı akış görevlerinde daha iyi sonuçlara yol açarken, ek boyut, model boyutunun ön eğitim sırasında aşırı uyum olmadan artmasına izin verdi.”
Google , AI bloglarında
Google, OpenAI ve hatta Oracle’ın Açık Verileri , daha sonra ChatGPT gibi AI uygulamaları oluşturmak için kullanılan veri kümeleri oluşturmak için İnternet içeriğini, sizin içeriğinizi kullanıyor.
Ortak Tarama Engellenebilir – ChatGPT Web İçeriğinin Kullanımı Etik mi?
Common Crawl’ı engellemek ve ardından Common Crawl’a dayalı tüm veri kümelerini devre dışı bırakmak mümkündür.
Ancak site zaten taranmışsa, web sitesi verileri zaten veri kümelerindedir. İçeriğinizi Common Crawl veri kümesinden ve C4 ve Açık Veri gibi diğer türev veri kümelerinden kaldırmanın bir yolu yoktur.
Robots.txt protokolünün kullanılması, yalnızca Common Crawl tarafından gelecekteki taramaları engeller, araştırmacıların halihazırda veri kümesinde bulunan içeriği kullanmasını engellemez.
Verilerinizden Ortak Tarama Nasıl Engellenir?
Ortak Taramayı Engellemek, yukarıda açıklanan sınırlamalar dahilinde Robots.txt protokolünün kullanılmasıyla mümkündür.
Common Crawl botunun adı CCBot’tur. En güncel CCBot User-Agent dizesi kullanılarak tanımlanır: CCBot/2.0
CCBot’u Robots.txt ile engelleme, diğer tüm botlarla aynı şekilde gerçekleştirilir. İşte CCBot’u Robots.txt ile engelleme kodu.
User-agent: CCBot
Disallow: /
CCBot, Amazon AWS IP adreslerinden tarama yapar. CCBot ayrıca nofollow Robots meta etiketini de takip eder:
<meta name="robots" content="nofollow">
Ya Ortak Taramayı Engellemiyorsanız?
Web içeriği izinsiz indirilebilir, tarayıcılar böyle çalışır, içeriği indirirler. Google veya başka herhangi birinin, herkese açık olarak yayınlanan içeriği indirmek ve kullanmak için izne ihtiyacı yoktur.
Web Sitesi Yayıncılarının Sınırlı Seçenekleri Var
Yapay zekayı web içeriği konusunda eğitmenin etik olup olmadığı düşüncesi, yapay zeka teknolojisinin nasıl geliştirildiğine ilişkin etik hakkındaki herhangi bir konuşmanın parçası gibi görünmüyor.
İnternet içeriğinin indirilebileceği, özetlenebileceği ve ChatGPT adlı bir ürüne dönüştürülebileceği kanıksanıyor gibi görünüyor.