6 Yaygın Robots.txt Sorunu ve Nasıl Düzeltilir?

Beytullah Güneş

3 yıl önce

Robots.txt, arama motoru tarayıcılarına web sitenizi nasıl taramalarını istediğiniz konusunda talimat vermek için kullanışlı ve nispeten güçlü bir araçtır. Çok güçlü değildir ( Google’ın kendi sözleriyle “bir web sayfasını Google’ın dışında tutmak için bir mekanizma değildir”) ancak sitenizin veya sunucunuzun tarayıcı istekleri tarafından aşırı yüklenmesini önlemeye yardımcı olabilir. Sitenizde bu tarama bloğu varsa, doğru kullanıldığından emin olmanız gerekir. Bu, teorik olarak sonsuz sayıda sayfa oluşturan dinamik URL’ler veya başka yöntemler kullanıyorsanız özellikle önemlidir. Bu kılavuzda, robots.txt dosyasıyla ilgili en yaygın sorunlardan bazılarına, bunların web siteniz ve aramadaki varlığınız üzerindeki etkilerine ve meydana geldiğini düşünüyorsanız bu sorunların nasıl düzeltileceğine bakacağız. Ama önce robots.txt’e ve alternatiflerine hızlıca bir göz atalım.

Robots.txt Nedir?

Robots.txt düz metin dosya formatı kullanır ve web sitenizin kök dizinine yerleştirilir. Sitenizin en üst dizininde olmalıdır; bir alt dizine yerleştirirseniz, arama motorları onu görmezden gelir. Büyük gücüne rağmen, robots.txt genellikle nispeten basit bir belgedir ve Notepad gibi bir düzenleyici kullanılarak birkaç saniye içinde temel bir robots.txt dosyası oluşturulabilir. Robots.txt dosyasının genellikle kullanıldığı bazı hedefleri gerçekleştirmenin başka yolları da vardır. Tek tek sayfalar, sayfa kodunun kendisinde bir robots meta etiketi içerebilir. İçeriğin arama sonuçlarında nasıl (ve gösterilip gösterilmeyeceğini) etkilemek için X-Robots-Tag HTTP başlığını da kullanabilirsiniz.

Robots.txt ne yapabilir?

Robots.txt, bir dizi farklı içerik türünde çeşitli sonuçlar elde edebilir:

Web sayfalarının taranması engellenebilir .

Arama sonuçlarında görünmeye devam edebilirler, ancak bir metin açıklamasına sahip olmayacaklardır. Sayfadaki HTML olmayan içerik de taranmayacaktır.

Medya dosyalarının Google arama sonuçlarında görünmesi engellenebilir.

Buna resim, video ve ses dosyaları dahildir. Dosya herkese açıksa, çevrimiçi olarak “var” olmaya devam eder ve görüntülenebilir ve bağlantı verilebilir, ancak bu özel içerik Google aramalarında gösterilmez.

Önemsiz harici komut dosyaları gibi kaynak dosyaları engellenebilir .

Ancak bu, Google’ın bu kaynağın yüklenmesini gerektiren bir sayfayı tararsa, Googlebot robotunun sayfanın bir sürümünü o kaynak yokmuş gibi “göreceği” ve bu da dizine eklemeyi etkileyebileceği anlamına gelir. Bir web sayfasının Google’ın arama sonuçlarında görünmesini tamamen engellemek için robots.txt dosyasını kullanamazsınız. Bunu başarmak için sayfanın başına noindex meta etiketi eklemek gibi alternatif bir yöntem kullanmalısınız .

ilgili konu Google Zengin Metin Snippet SEO Çalışmaları

Robots.txt Hataları Ne Kadar Tehlikeli?

robots.txt dosyasındaki bir hata istenmeyen sonuçlara yol açabilir, ancak bu genellikle dünyanın sonu değildir. İyi haber şu ki, robots.txt dosyanızı düzelterek tüm hatalardan hızlı ve (genellikle) tam olarak kurtulabilirsiniz. Google’ın web geliştiricilerine yönelik rehberliği , robots.txt hataları konusunda şunu söylüyor:

“Web tarayıcıları genellikle çok esnektir ve genellikle robots.txt dosyasındaki küçük hatalardan etkilenmezler. Genel olarak, olabilecek en kötü şey, yanlış [veya] desteklenmeyen yönergelerin yok sayılmasıdır. Google’ın bir robots.txt dosyasını yorumlarken zihin okuyamadığını unutmayın; getirdiğimiz robots.txt dosyasını yorumlamamız gerekiyor. Bununla birlikte, robots.txt dosyanızdaki sorunların farkındaysanız, düzeltmeleri genellikle kolaydır.”

6 Yaygın Robots.txt Hatası

Robots.txt Kök Dizinde Yok.
Joker Karakterlerin Kötü Kullanımı.
Robots.txt’de Noindex.
Engellenen Komut Dosyaları ve Stil Sayfaları.
Site Haritası URL’si yok.
Geliştirme Sitelerine Erişim.

Web siteniz arama sonuçlarında garip davranıyorsa, robots.txt dosyanız hataları, sözdizimi hatalarını ve aşırı erişim kurallarını aramak için iyi bir yerdir. Yukarıdaki hataların her birine daha ayrıntılı olarak bakalım ve geçerli bir robots.txt dosyanız olduğundan nasıl emin olacağınızı görelim.

1. Robots.txt Kök Dizinde Yok

Arama robotları, dosyayı yalnızca kök klasörünüzdeyse bulabilir. Bu nedenle, web sitenizin .com (veya eşdeğer etki alanı) ile robots.txt dosyanızın URL’sindeki ‘robots.txt’ dosya adı arasında yalnızca bir eğik çizgi olmalıdır. Orada bir alt klasör varsa, robots.txt dosyanız muhtemelen arama robotları tarafından görülemez ve web siteniz muhtemelen hiç robots.txt dosyası yokmuş gibi davranıyordur. Bu sorunu çözmek için robots.txt dosyanızı kök dizininize taşıyın. Bunun, sunucunuza kök erişiminizin olması gerekeceğini belirtmekte fayda var. Bazı içerik yönetim sistemleri varsayılan olarak dosyaları bir ‘medya’ alt dizinine (veya benzeri bir şeye) yükler, bu nedenle robots.txt dosyanızı doğru yere almak için bunu atlamanız gerekebilir.

2. Joker Karakterlerin Kötü Kullanımı

Robots.txt iki joker karakteri destekler:

Bir kart destesindeki Joker gibi geçerli bir karakterin herhangi bir örneğini temsil eden yıldız işareti * .
Bir URL’nin sonunu belirten dolar işareti $ , kuralları dosya türü uzantısı gibi yalnızca URL’nin son kısmına uygulamanıza olanak tanır.

ilgili konu Görüntüleri Güncellemek Neden Ters Tepebilir?

Web sitenizin çok daha geniş bir bölümüne kısıtlamalar uygulama potansiyeline sahip olduklarından, joker karakterleri kullanmak için minimalist bir yaklaşım benimsemek mantıklıdır. Ayrıca, kötü yerleştirilmiş bir yıldız işaretiyle tüm sitenizden robot erişimini engellemek nispeten kolaydır. Bir joker karakter sorununu düzeltmek için yanlış joker karakteri bulmanız ve robots.txt dosyanızın istendiği gibi çalışması için onu taşımanız veya kaldırmanız gerekir.

3. Robots.txt’de Noindex

Bu, birkaç yıldan eski web sitelerinde daha yaygındır. Google, 1 Eylül 2019 itibarıyla robots.txt dosyalarındaki noindex kurallarına uymayı durdurmuştur. robots.txt dosyanız bu tarihten önce oluşturulduysa veya noindex talimatları içeriyorsa, bu sayfaların Google’ın arama sonuçlarında dizine eklendiğini görmeniz olasıdır. Bu sorunun çözümü, alternatif bir ‘noindex’ yöntemi uygulamaktır. Seçeneklerden biri, Google’ın dizine eklemesini engellemek istediğiniz herhangi bir web sayfasının başlığına ekleyebileceğiniz robots meta etiketidir.

4. Engellenen Komut Dosyaları ve Stil Sayfaları

Tarayıcının harici JavaScript’lere ve basamaklı stil sayfalarına (CSS) erişimini engellemek mantıklı görünebilir. Ancak, HTML ve PHP sayfalarınızı doğru bir şekilde “görmek” için Googlebot’un CSS ve JS dosyalarına erişmesi gerektiğini unutmayın. Sayfalarınız Google’ın sonuçlarında garip davranıyorsa veya Google onları doğru görmüyorsa, tarayıcının gerekli harici dosyalara erişimini engelleyip engellemediğinizi kontrol edin. Bunun için basit bir çözüm, erişimi engelleyen satırı robots.txt dosyanızdan kaldırmaktır. Veya engellemeniz gereken bazı dosyalarınız varsa, gerekli CSS ve JavaScript’lere erişimi geri yükleyen bir istisna ekleyin.

5. Site Haritası URL’si Yok

Bu, her şeyden çok SEO ile ilgilidir. Site haritanızın URL’sini robots.txt dosyanıza ekleyebilirsiniz. Bu, Googlebot’un web sitenizi taradığında ilk baktığı yer olduğundan, bu, tarayıcıya sitenizin yapısını ve ana sayfalarını tanıma konusunda bir başlangıç sağlar. Bu kesinlikle bir hata olmamakla birlikte, bir site haritasının çıkarılması, web sitenizin arama sonuçlarındaki gerçek temel işlevselliğini ve görünümünü olumsuz etkilememesi gerektiği için, SEO çabalarınızı hızlandırmak istiyorsanız yine de site haritası URL’nizi robots.txt’ye eklemeye değer.

ilgili konu Bing webmaster tools DMCA işlemleri güncellendi

6. Geliştirme Sitelerine Erişim

Tarayıcıları canlı web sitenizden engellemek hayır-hayır, ancak hala geliştirilmekte olan sayfalarınızı taramalarına ve dizine eklemelerine izin vermek de öyle. Yapım aşamasındaki bir web sitesinin robots.txt dosyasına izin vermeme talimatı eklemek en iyi uygulamadır, böylece genel halk bunu bitene kadar görmez. Aynı şekilde, tamamlanmış bir web sitesini başlattığınızda izin vermeme talimatını kaldırmak da çok önemlidir. Bu satırı robots.txt dosyasından kaldırmayı unutmak, web geliştiricileri arasında en yaygın hatalardan biridir ve tüm web sitenizin taranmasını ve doğru şekilde dizine eklenmesini durdurabilir. Geliştirme siteniz gerçek dünyadan trafik alıyor gibi görünüyorsa veya yakın zamanda başlatılan web siteniz aramada hiç iyi performans göstermiyorsa, robots.txt dosyanızda evrensel bir kullanıcı aracısı izin vermeme kuralı arayın: Bunu yapmanız gerektiğinde görürseniz’ t (veya görmeniz gerektiğinde görmüyorsanız), robots.txt dosyanızda gerekli değişiklikleri yapın ve web sitenizin arama görünümünün buna göre güncellenip güncellenmediğini kontrol edin.

User-Agent: *

Disallow: /

Robots.txt Hatasından Nasıl Kurtulursunuz

Robots.txt dosyasındaki bir hata web sitenizin arama görünümü üzerinde istenmeyen etkiler yaratıyorsa, en önemli ilk adım robots.txt dosyasını düzeltmek ve yeni kuralların istenen etkiye sahip olduğunu doğrulamaktır. Bazı SEO tarama araçları bu konuda yardımcı olabilir, böylece arama motorlarının sitenizi bir sonraki taramasını beklemeniz gerekmez. Robots.txt dosyasının istediğiniz gibi çalıştığından emin olduğunuzda, sitenizi en kısa sürede yeniden taramayı deneyebilirsiniz. Google Arama Konsolu ve Bing Web Yöneticisi Araçları gibi platformlar yardımcı olabilir. Güncellenmiş bir site haritası gönderin ve uygunsuz bir şekilde listeden kaldırılan tüm sayfaların yeniden taranmasını isteyin. Ne yazık ki, Googlebot’un kaprisindesiniz – eksik sayfaların Google arama dizininde yeniden görünmesinin ne kadar süreceğinin garantisi yok. Yapabileceğiniz tek şey, bu süreyi mümkün olduğunca en aza indirmek için doğru eylemi yapmak ve sabit robots.txt Googlebot tarafından uygulanana kadar kontrol etmeye devam etmektir.