Google Yararlı İçerik Algoritması mı? Google, AI ile sayfa kalitesini belirleme konusunda çığır açan bir araştırma makalesi yayınladı. Algoritmanın ayrıntıları, yararlı içerik algoritmasının yaptığı bilinen şeye oldukça benzer görünüyor.
Google, Algoritma Teknolojilerini Tanımlamıyor
Google dışında hiç kimse, bu araştırma makalesinin faydalı içerik sinyalinin temeli olduğunu kesin olarak söyleyemez.
Google genellikle Penguin, Panda veya SpamBrain algoritmaları gibi çeşitli algoritmalarının altında yatan teknolojiyi tanımlamaz.
Dolayısıyla, bu algoritmanın yararlı içerik algoritması olduğu kesin olarak söylenemez, sadece tahminde bulunulabilir ve bu konuda bir fikir sunulabilir. Ama bir göz atmaya değer çünkü benzerlikler ufuk açıcı.
Yararlı İçerik Sinyali Google Yararlı İçerik Algoritması mı?
Bir Sınıflandırıcıyı İyileştirir
Google, faydalı içerik sinyali hakkında bir dizi ipucu sağladı, ancak bunun gerçekte ne olduğu hakkında hala birçok spekülasyon var.
İlk ipuçları, ilk faydalı içerik güncellemesini duyuran 6 Aralık 2022 tarihli bir tweet’teydi. Tweet’te şunlar söylendi :
“Sınıflandırıcımızı geliştiriyor ve içerik genelinde tüm dillerde küresel olarak çalışıyor.”
Tweet
Makine öğreniminde bir sınıflandırıcı, verileri kategorilere ayıran bir şeydir (bu mu yoksa şu mu?).
Manuel veya Spam İşlemi Değildir
Google’ın açıklayıcısına göre Yararlı İçerik algoritması ( İçerik oluşturucuların Google’ın Ağustos 2022 yararlı içerik güncellemesi hakkında bilmesi gerekenler ), bir spam işlemi veya manuel bir işlem değildir.
“Bu sınıflandırıcı süreci, bir makine öğrenimi modeli kullanılarak tamamen otomatikleştirildi. Bu manuel bir işlem veya spam işlemi değildir.”
Google’ın açıklayıcısına göre
Sıralamayla İlgili Bir Sinyaldir
Faydalı içerik güncelleme açıklayıcısı, faydalı içerik algoritmasının içeriği sıralamak için kullanılan bir sinyal olduğunu söylüyor.
“…bu sadece yeni bir sinyal ve Google’ın içeriği sıralamak için değerlendirdiği birçok sinyalden biri.”
Google’ın açıklayıcısına göre
İçeriğin Kişilere Ait Olup Olmadığını Kontrol Eder
İlginç olan, yardımcı içerik sinyalinin (görünüşe göre) içeriğin insanlar tarafından oluşturulup oluşturulmadığını kontrol etmesidir.
Google’ın Faydalı İçerik Güncellemesi ( Daha fazla içerik, insanlar için Arama’daki kişiler ) hakkındaki blog yazısı, bunun insanlar tarafından ve insanlar için oluşturulan içeriği tanımlamanın bir işareti olduğunu belirtti. Google’dan Danny Sullivan şunları yazdı:
“…insanların insanlar tarafından ve onlar için hazırlanmış faydalı içerikleri bulmalarını kolaylaştırmak için Arama’da bir dizi iyileştirmeyi kullanıma sunuyoruz. …Önümüzdeki aylarda gerçek insanlar tarafından ve onlar için orijinal içerik bulmayı daha da kolaylaştırmak için bu çalışmayı geliştirmeyi dört gözle bekliyoruz.”
Google’dan Danny Sullivan
İçeriğin “insanlar tarafından” olması kavramı, duyuruda üç kez tekrarlanıyor ve bu, görünüşe göre bunun yardımcı içerik sinyalinin bir niteliği olduğunu gösteriyor.
Ve “insanlar tarafından” yazılmamışsa, makine tarafından oluşturulmuştur, bu da önemli bir husustur çünkü burada tartışılan algoritma, makine tarafından oluşturulan içeriğin algılanmasıyla ilgilidir.
Google Yararlı İçerik Algoritması mı?
Son olarak, Google’ın blog duyurusu, Yararlı İçerik Güncellemesinin tek bir algoritma gibi tek bir şey olmadığını gösteriyor gibi görünüyor.
Danny Sullivan, bunun bir “bir dizi iyileştirme ” olduğunu yazıyor , eğer çok fazla okumuyorsam, bunun yalnızca bir algoritma veya sistem değil, yardımcı olmayan içeriği ayıklama görevini birlikte yerine getiren birkaç algoritma veya sistem olduğu anlamına geliyor. Yazdığı şey buydu:
“…insanların insanlar tarafından ve onlar için hazırlanmış yararlı içerikleri bulmalarını kolaylaştırmak için Arama’da bir dizi iyileştirmeyi kullanıma sunuyoruz.”
Danny Sullivan
Metin Oluşturma Modelleri Sayfa Kalitesini Tahmin Edebilir Google Yararlı İçerik Algoritması mı?
Bu araştırma makalesinin keşfettiği şey, GPT-2 gibi büyük dil modellerinin (LLM) düşük kaliteli içeriği doğru bir şekilde tanımlayabildiğidir.
Makine tarafından oluşturulan metni tanımlamak için eğitilmiş sınıflandırıcılar kullandılar ve aynı sınıflandırıcıların, bunun için eğitilmeseler bile düşük kaliteli metni tanımlayabildiklerini keşfettiler.
Büyük dil modelleri, yapmak için eğitilmedikleri yeni şeyleri nasıl yapacaklarını öğrenebilirler.
GPT-3 ile ilgili bir Stanford Üniversitesi makalesi, öğrenmesi için daha fazla veri verildiği için metni İngilizceden Fransızcaya çevirme becerisini bağımsız olarak nasıl öğrendiğini tartışıyor; bu, daha az bilgiyle eğitilen GPT-2’de olmayan bir şeydi veri.
Makale, daha fazla veri eklemenin, denetimsiz eğitim olarak adlandırılan şeyin bir sonucu olarak yeni davranışların ortaya çıkmasına nasıl neden olduğunu belirtiyor .
Denetimsiz eğitim, bir makinenin yapmak için eğitilmediği bir şeyi nasıl yapacağını öğrendiği zamandır.
Bu ” ortaya çıkmak” sözcüğü önemlidir, çünkü makinenin yapmak için eğitilmediği bir şeyi yapmayı öğrendiği zaman anlamına gelir. GPT-3 ile ilgili Stanford Üniversitesi makalesi şunları açıklıyor:
“Atölye katılımcıları, bu tür davranışların verilerin ve hesaplama kaynaklarının basit bir şekilde ölçeklendirilmesinden ortaya çıkmasına şaşırdıklarını ve daha fazla ölçekten başka hangi yeteneklerin ortaya çıkacağına dair meraklarını dile getirdiler.”
GPT-3 ile ilgili Stanford Üniversitesi makalesi
Ortaya çıkan yeni bir yetenek, tam olarak araştırma makalesinin tanımladığı şeydir. Makine tarafından oluşturulan bir metin algılayıcının düşük kaliteli içeriği de tahmin edebileceğini keşfettiler. Araştırmacılar şunları yazıyor:
“Çalışmamız iki yönlü: ilk olarak, insan ve makine tarafından oluşturulan metin arasında ayrım yapmak üzere eğitilen sınıflandırıcıların, herhangi bir eğitim olmaksızın düşük kaliteli içeriği tespit edebilen, ‘sayfa kalitesinin’ denetimsiz tahmin edicileri olarak ortaya çıktığını insan değerlendirmesi yoluyla gösteriyoruz. Bu, düşük kaynak ayarında kalite göstergelerinin hızlı bir şekilde önyüklenmesini sağlar. İkinci olarak, düşük kaliteli sayfaların yaygınlığını ve doğasını anlamak için 500 milyondan fazla web makalesini kapsamlı bir şekilde niteliksel ve niceliksel olarak analiz ediyoruz, bu da bunu konuyla ilgili şimdiye kadar yapılmış en büyük ölçekli çalışma haline getiriyor.”
Araştırmacılar
Buradaki çıkarım, makine tarafından oluşturulan içeriği tespit etmek için eğitilmiş bir metin oluşturma modeli kullanmaları ve düşük kaliteli sayfaları belirleme yeteneği olan yeni bir davranışın ortaya çıktığını keşfetmeleridir.