GNS Network

Google Web Sayfası İçeriğini Nasıl Analiz Ediyor ve Ağırlıklandırıyor

Google Web Sayfası İçeriğini Nasıl Analiz Ediyor ve Ağırlıklandırıyor

Bir Duda web seminerinde Martin Splitt, Google'ın bir web sayfasındaki içeriği nasıl analiz ettiğini tartışan Centerpiece Annotation adlı bir kavramı açıkladı. Konu dışı ve uzun olduğu için soruyu tekrarlamayacağım. Ancak Martin'in tartıştığı şey, Google'ın bir web sayfasının genel bilgilerini nasıl ayırdığı ve ardından metin içerik yapısından web sayfasının ne hakkında olduğunu özetlediğidir. Merkez Parça Açıklaması denilen şeyden bahsediyor. Martin Splitt açıkladı:

“Bu sadece içeriği analiz ediyoruz ve bu konuda halka ne söylediğimizi bilmiyorum, ama sanırım bunu podcast bölümlerinden birinde gündeme getirdim. Örneğin, Merkez Parça Açıklaması adında bir şeye sahip olduğumuzu söyleyebilirim ve anlamsal içeriğe ve potansiyel olarak yerleşim ağacına baktığımız yerde sahip olduğumuz birkaç ek açıklama daha var. Ancak temelde bunu HTML'deki içerik yapısından okuyabilir ve “Oh! Bu, buradaki tüm metin içeriği üzerinde yaptığımız tüm doğal dil işlemlerinden görünüyor, bu öncelikle A konusu, köpek maması ile ilgili gibi görünüyor.”

Sonraki Martin, sayfa analizinin web sayfasını, bazıları Merkez Parça ile alakalı olmayan bileşen bölümlerine nasıl ayırdığından bahsediyor. Sayfanın bölümlerinin farklı ağırlıkta olduğunu açıklıyor. Ağırlıklandırma, bir sayfa öğesinin ne kadar önemli olduğuna ilişkin bir referanstır. Bu nedenle, bir bölüm hafif bir ağırlık puanı alırsa, daha yüksek bir puanla ağırlıklı olması o kadar önemli değildir. Martin şöyle devam etti:

"Ve sonra burada, ilgili ürünlere bağlantılar gibi görünen ama aslında ana parçanın bir parçası olmayan başka bir şey var. Burada gerçekten ana içerik değil. Bu ek şeyler gibi görünüyor. Ve sonra bir sürü ortak bilgi veya "Hey, tüm bu sayfalarda ve listelerde menünün hemen hemen aynı göründüğünü anladık. Bu, bu alanın diğer tüm sayfalarında bulunan menüye çok benziyor”, örneğin, veya bunu daha önce gördük. Aslında alan adına bile gitmiyoruz ya da “Ah, bu bir menüye benziyor” gibi. Neyin kazan plakası gibi göründüğünü anlıyoruz ve sonra bu da farklı şekilde ağırlaşıyor. ”

Konu Dışı İçerik Daha Az Dikkate Alındı

Martin daha sonra, Google'ın bir web sayfasının neyle ilgili olduğunu belirledikten sonra, bir bölüm konu dışıysa, o konu dışı bölümün muhtemelen sıralama amacıyla çok fazla dikkate alınmadığından bahseder. Martin şöyle açıklıyor:

“Yani bir sayfada içeriğin geri kalanının ana konusu ile ilgili olmayan içeriğiniz varsa, onu düşündüğünüz kadar dikkate almayabiliriz. Bu bilgileri hala bağlantı keşfi ve site yapınızı ve tüm bunları çözmek için kullanıyoruz. Ancak bir sayfada köpek mamasıyla ilgili 10.000 kelime ve ardından bisikletlerle ilgili 3000 veya 2000 veya 1000 kelime varsa, bu muhtemelen bisikletler için iyi bir içerik değildir.”

Bu gerçekten ilginç çünkü Google bir sayfanın ne hakkında olduğunu belirlediğinde, konu dışı içeriğin sıralama için bir şansı olmayabileceğini veya Martin'in dediği gibi " çok fazla dikkate alınmadığını" gösteriyor gibi görünüyor . Jason Barnard sordu:

"Yani bu bana semantik HTML5'i tahmin ediyormuşsun gibi geliyor. Anlamsal HTML5e size herhangi bir yardım sağlıyor mu yoksa umurunuzda değil mi? Anlamı yok?"

Jason'ın bahsettiği şey, bir web sayfasının üstbilgi, gezinme, altbilgi vb. gibi farklı bölümlerini tanımlayan HTML5 işaretlemesiydi. Martin tartışmasının başında, içerik yapısını ve asıl metni analiz etmeye atıfta bulunuyordu. Şimdi konu biraz HTML5 semantik yapısına kayıyor. Martin yanıtladı:

“Bize yardımcı oluyor, ancak aradığımız tek şey bu değil. Evet."

Blog içeriklerinin temel paylaşım amacı o konuyu tartışmaya açmaktır. Sende fikirlerin ile konu hakkında katkıda bulun.
İfadeleri Gösterİfadeleri Gizle