Robots.txt Dosyası Nedir? Robots.txt Nasıl Oluşturulur? Web sitesine Nasıl Eklenir.
Robots.txt Nasıl Oluşturulur? Web sitesine Nasıl Eklenir.

Robots.txt Nedir? Ne işe Yarar? Dosya Nasıl Oluşturulur?

Robots.txt dosyası, dijital pazarlama ve SEO ilişkisinde görünmeyen ama etkileri büyük önem içeren ve içerisinde yönergelerin olmasının yanı sıra birçok teknik stratejiyi de barındıran kritik dosyalardan biridir. Özellikle de yakın geçmişte arama motorlarının yapay zeka (AI) destekli tarama algoritmaları geliştirmesi ve geliştirme süreçlerinin ivme alması sebebi ile robots.txt dosyalarının web tabanlı projelerde olan SEO rolü çok daha fazla önem içeren seviyelere gelmiştir.

Bu yazının içeriğinde; robots.txt dosyasının ne anlama geldiğini, web siteleri ve e-ticaret web projelerinde bu dosyasının niçin önemli olduğunu, nasıl doğru bir şekilde oluşturulup bir web sitesine eklenmesi gerektiğini incelerken; temel düzey SEO, teknik düzey ve ileri seviyede seo uyarlamalarını bu süreçte örnekler ile görmüş olacağız.

E-ticaret siteleri için özel ipuçlarını detaylı bir şekilde inceleyebilirsiniz. “Robots.txt Stratejileri ile E-Ticaret Optimizasyonu”

Dijitalde bir sonraki seviyeye geçme zamanı. Zaman kaybetme!

Robots.txt dosyası, kesin surette bir web sitesinin kök dizininde bulunması gereken basit yapıda bir metin (.TXT) dosyasıdır. Arama motorlarının botlarına (Googlebot, Yandex, adidxbot, Bingbot vb.) hangi web sayfalarını taramalarına izin verildiğini ve hangi web sayfalarının taranmasını engellemek istenildiğinin bilgisini iletir.

Robots.txt olarak bildiğimiz bu yönergeler dosyası, Robot Exclusion Protocol (REP) adında bir standart üzerine kurulmuştur. Robots.txt dosyası, web sitenizin tarama trafiğini kontrol altında tutmak, sunucu bazında yükü azaltmak ve istediğimiz özel verileri arama motorlarından gizli tutmak için olması gereken önemli bir araçtır.

Kısaca; temelde bir robots.txt dosyası:

  • Arama motorlarına (Google, Bing, Yandex) web alanı tarama kurallarını bildirir.
  • Arama motorlarının web sitelerinin içerisindeki tarama alanlarını kurallar ile hassas bir şekilde optimize eder.
  • Gereksiz görülen ya da düşük değerli olduğunu belirlediğimiz içeriklerin veya web sayfalarının indekslenmesini (gösterilmesini) önler.
Not: Bir web sayfasının botlar tarafından taranabilir olabilmesi için 200 ‘OK’ http durum koduna sahip olması gereklidir.

Arama motoru botları; (Googlebot, Yandex, adidxbot, Bingbot vb.) web sitelerine ulaştıklarında öncelikle robots.txt dosyasını kontrol eder, taramaya alır ve buradaki uygulanan yönergelere büyük oranda uyum sağlarlar.

Bir robots.txt dosyası tarama yapılmasına izin verilen veya engellenen web alanlarını belirtmek için “Allow” (İzin vermek) ve “Disallow” (İzin vermemek) direktiflerini kullanır. Eğer izin verilmeyen sayfalarımız varsa ve bu sayfalar içeriğinde dahili veya harici bağlantılar da verilmişse, özellikle Google arama motoru botu Googlebot, bu yönergeleri göz ardı ederek yine de ilgili sayfaları tarayabilir.

Extra SEO Notu:

Eğer bir arama motoru, robots txt dosyasına erişmeye çalıştığında HTTP 500 Internal Server Error gibi bir sunucu hatası ile karşılaşırsa, web sitesinin genelinde bir problem olduğunu varsayarak tarama işlemini durdurabilir. Bu yalnızca sayfaları değil, bir CDN üzerinden servis edilen görseller gibi medya içeriklerini de etkiler. Böyle bir senaryoda Google, sayfanızda görsellerin bulunmadığını düşünerek içerik algısını olumsuz yönde etkileyebilir.

Sonuç olarak, robots.txt dosyasının doğru yapılandırılması ve sürekli erişilebilir olması hem site sağlığı hem de arama motoru optimizasyonu (SEO) açısından kritik öneme taşır.

Dijitalde bir sonraki seviyeye geçme zamanı. Şimdi harekete geç!

Robots.txt dosyasının web sitemizde temel görevleri şunlardır:

  • Arama motoru trafiğini yönetmek

Web sitemizin hangi bölümlerinin taranacağını veya taranmayacağını belirleyerek crawl budget (tarama bütçesi) yönetiminde kontrol sağlar. Özellikle e-ticaret sitelerinde çalışma yapılıyorsa tarama bütçesinin doğru kullanılması SEO başarısında kritik rol oynar.

  • Özel veya gizli sayfaları koruma

Test sayfası ortamları, web yönetim panelleri, filtre edilmiş arama sonuçları gibi görünüme açık olması istenmeyen web alanlarını arama motorlarından gizlemek için kullanılır.

  • Sunucu yükünü azaltmak

Yoğun bot trafiği site performansını düşürebilir. Stratejik bir şekilde dizayn edilmiş profesyonel bir robots.txt dosyası bot trafiğinin web site performansını düşürmesini ciddi boyutta önler. Düşük kaynaklı performansı zayıf bir sunucuda çalışıyorsak crawl-delay gibi parametreler ile botların siteyi aşırı tarama yükü bindirmesinin de önüne geçilebilir.

  • SEO stratejilerini beslemek

Kalitesiz veya web sitemizde tekrar eden içeriklerin (örneğin filtreleme sonuçları) dizine eklenmesini kontrol altında tutarak bir web sitesinin genel SEO sağlığını koruyarak SEO performansına besleme yapar.

Robots.txt dosyası; 1994 yılında sunulan Robots Exclusion Standard‘a göre başlangıç olarak var olmuştur. Bu protokol ile sitenizi tarayan botlara belirli direktifler göstererek yol göstermek koşulu ile tarama alanlarına yönlendirmek üzerine şekillendirilmiştir.

2022 yılı itibari ile güncellemesi yapılan RFC 9309 standardı ile birlikte robots.txt protokolü daha anlaşılır ve standart düzeye getirilmiştir. Bu güncelleme özelinde, özellikle tarayıcıların ve botların farklı yorumlama biçimlerini ortadan kaldırmayı amaçlamaktadır. Artık resmi olarak W3C tarafından tanınmasa da Google başta olmak üzere Bing, Yandex, Baidu gibi pek çok arama motoru bu standartları uygulamaya devam etmektedir.

En yaygın kullanılan direktifler (Yönergeler) arasında ise;

  • User-agent (Kullanıcı tanımlayıcısı),
  • Disallow (İzin vermemek),
  • Allow (İzin vermek),
  • Allow (İzin vermek),
  • Sitemap (site haritası) ve
  • Crawl-delay (Tarama gecikmesi) bulunur.

User-agent; net ortamındaki tarayıcılar, arama motorlarının botları (örneğin Googlebot, AdsBot-Google vb.), mobil cihaz uygulamaları ya da diğer istemciler gibi bir kullanıcının veya herhangi bir sistemin web sunucusuna yaptığı istekte kendisini ifade etmek için kullandığı bir tanımlayıcıdır.

Robots.txt dosyasında User-Agent kullanarak isteği yapanın:

  • Hangi arama motorunu (Google, Yandex, Bing vs.)
  • Hangi arama botu (bingbot, baiduspider vs.)
  • Hangi cihaz tipini (Mobil | mobil-Googlebot, masaüstü vs.)

Anlayabilir.

Robots.txt dosyasında belirli user-agent’lara göre erişim kısıtlaması yapılması mümkündür,

Robots.txt dosyasında User-agent örneği;


User-agent: Googlebot
Disallow: /ornek-sayfa/
  

Robots.txt dosyasında Disallow komutu Arama motorlarının botlarına (örneğin; Googlebot, Bingbot) belirli sayfa veya dizinleri taramamaları gerektiğini ileten bir direktiftir komutudur.
Web sitelerinde bazı alanların arama motorları tarafından dizine eklenmesini veya indexlenmesini ya da taranmasını istemiyorsak, bu durumu Disallow komutuyla robots.txt dosyasında belirtebiliriz.

Robots.txt dosyasında Disalow komutu örneği:


User-agent: *
Disallow: /login/
Disallow: /ozel-kampanya/
  

User-agent: * → Tüm botları kapsayan talimattır.

/login/ ve /ozel-kampanya/ klasörlerinin taramaması gerektiğini ifade eder.

Not: Disallow sadece taramayı engeller, indexlemeyi değil.
📖 Robots.txt Terminolojisi: Tüm Yönergeler ve Anlamları

Allow (izin vermek) komutu, robots.txt dosyalarında kullanılan temel yönergelerden biridir. Belirli sayfaların ya da belirlenen klasörlerin arama motoru botları tarafından taranmasına açık olduğunu ifade etmek için kullanılır. Özellikle, bir dizin genel olarak Disallow edilmişse ama o dizin içindeki bazı dosyalara veya alt dizinlere istisna yapmak isteniyorsa robots.txt dosyasında Allow komutu kullanılır.

Robots.txt dosyasında Allow komutu örneği:


User-agent: *
Disallow: /uploads/
Allow: /uploads/public-image.jpg
  

Sitemap (site haritası) komutu, web sitelerinin içeriğini arama motorlarına daha kolay tanıtmak için kullanılan bir dosya türüdür. Sitemap genellikle XML formatında olur ve site içindeki önemli web sayfalarının, yazıların, e-ticaret sitelerinde ürünlerin veya medya dosyalarının URL’lerini listeler. Dosyamızda Sitemap etiketi kullanılarak bu dosyanın yeri arama motorlarının botlarına bildirilir.

Robots.txt dosyasında Sitemap komutu örneği:


User-agent: *
Disallow:

Sitemap: https://www.ornekwebsite.com/sitemap.xml

  
Not: Sitemap etiketi her zaman tam URL ile yazılmalıdır. Mutlak yol gerekir (https:// ile başlayan).

Crawl-delay (Tarama Gecikmesi) komutu, robots.txt dosyasında kullanılan bir yönergedir ve arama motoru botlarının sitenizi tararken ne kadar beklemesi gerektiğini belirtir. Yani, bu komut botların bir sayfayı taradıktan sonra bir sonraki sayfayı taramadan önce beklemeleri gereken süreyi (genellikle saniye cinsinden) ayarlamak için kullanılır.

  • Web sitemizin sunucu kaynaklarına aşırı yük bindirmemek amacıyla botların tarama hızını yavaşlatmak için kullanılır.
  • Özellikle yoğun trafiğe sahip, paylaşımlı hosting veya sunucu kaynakları sınırlı olan siteler için önemli derecede faydalıdır.
  • Arama motoru botlarının, özellikle yoğun içerik barındıran sayfalarda, çok hızlı taramalar yaparak sitenizin performansını olumsuz etkilememesi için kullanılması tavsiye edilir.

Robots.txt dosyasında Crawl-delay komutu örneği:


User-agent: *
Crawl-delay: 10
  
Not: 10 saniyelik Crawl-delay komutu günde yaklaşık 8.640 web sayfa taraması gerçekleştirir.

Küçük ve orta seviye web sayfaları için yeterli bir tarama karşılığı olurken büyük çaplı web siteleri için de ideal bir değerdir.

Tüm arama motorları için aynı olmaz:

  • Crawl-delay komutu, tüm botlar tarafından aynı şekilde uygulanmaz. Googlebot, Bingbot gibi büyük arama motorları genellikle bu komutu göz ardı edebilir. Ancak bazı daha küçük botlar bu komutu dikkate alabilir.
  • Google ve Yandex arama motorları Crawl-delay komutunu kullanmaz.

Sunucu yükü ve performans:

  • Eğer web siteniz çok büyükse ve tarama sırasında sunucu kapasitesi aşırı zorlanıyorsa, Crawl-delay komutunu kullanarak güç harcayan kaynakları dengeleyebilirsiniz. Unutulmaması gereken ise bu komutun tüm botlar tarafından desteklenmediği.

Googlebot ve diğer botlar için alternatif:

  • Googlebot gibi büyük arama motorlarının, sitenizin hızını optimize etme konusunda kendi başlarına kararlar alabileceğini ve Crawl-delay komutunu göz ardı edebileceğini belirtmek önemlidir. Bunun yerine Google Search Console üzerinden tarama hızını kontrol edebilirsiniz.

Dijitalde bir sonraki seviyeye geçme zamanı. Şimdi harekete geç!

Robots.txt dosyası nasıl oluşturulur? Bu dosyayı oluşturmak tahmin edildiğinden çok daha basittir fakat sadece dikkat edilmesi gereken teknik detaylar vardır. Yanlış girilen komutlar ile yüksek önem içeren web sayfalarının botlar tarafından taranmasını engelleyebilirsiniz.

Basit yapıda bir robots.txt dosyası aşağıdaki gibidir;


User-agent: [bot adı veya *]
Disallow: [erişimi kısıtlanan URL yolu]
Allow: [erişime açık URL yolu]
Sitemap: [web sitenizin site haritası URL’si]

Basit bir yapıda bir web sitesinde uygulanabilir şekli ile örnek robots.txt kullanımı;


User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://www.orneksite.com/sitemap.xml

Örnek açıklaması;

  • Tüm arama botları için /wp-admin/ dizini engelleniyor.
  • admin-ajax.php dosyasına erişim için izin veriliyor.
  • Web sitesinin Sitemap dosyasının yeri arama botlarına bildiriliyor.

İlk olarak robots.txt dosyasını oluştur

  • Bir metin düzenleyici (örneğin Notepad, Sublime Text) kullanarak ihtiyacın için gerekli olan dosyayı oluştur.
  • Oluşturulan dosyayı UTF-8 formatında kaydet ve dosya adını robots.txt olarak adlandır.

Dosyayı web sitenizin kök dizinine yükleyin. Üç farklı şekilde dosyanızı yükleyebilirsiniz.

  • FTP istemcisi (örn: FileZilla) kullanarak dosyayı web sitenizin kök dizinine ekleyin.
  • cPanel kullanımı ile hosting paneline erişim sağla. Burada /public_html/ kök dizinine dosyanızı yükleyebilirsiniz.
  • WordPress alt yapılı bir site kullanıyorsanız Yoast eklentisi ile yönergeleri web sitenize entegre edebilirsiniz
Not: Dosya adresi https://www.orneksite.com/robots.txt şeklinde erişilebilir olmalıdır.

Alt domainleriniz için: shop.ornekwebsite.com/robots.txt

Standart okmayan portlar için: www.ornekwebsite.com:881/robots.txt.

Hazırlanan ve web sitenize entegre edilen dosyamızın sorunsuz çalıştığından mutlaka emin olmanız gerekir.

Dosyamızı test etmenin birkaç farklı yol vardır. Bu robot.txt test araçlarından herhangi biriyle robots.txt dosyanızda bir sorun olup olmadığını görebilirsiniz. İşte bunlardan bazıları:

  • Bu dosyalar web sayfalarını gizlemez: Sadece taranmayı engeller veya yönlendirir, URL arama sonuçlarında gözükebilir. (Sayfa gizlemek istiyorsak noindex kullanılmalıyız.)
  • Yanlış bir şekilde Disallow komutu kullanmak SEO kaybına sebep olur: Bir hata ile tüm siteyi Disallow yapmaktan kesinlikle kaçının ve dikkat gösterin.
  • Dosya içerisinde Sitemap (Site haritası) belirtilmesi: Bu durum Google’ın ve arama motoru botlarının sitemap dosyanızı daha kolay bulmasını sağlar.
  • Crawl-delay dikkatli kullanılmalı: Tüm botlar Crawl-delay komutunu desteklemez. Örneğin; Googlebot ve Yandex bu komutu desteklemez. Bing ise belirsizdir.
  • Dinamik URL parametrelerine dikkat: Özellikle e-ticaret sitelerinde ?sort= gibi URL parametreleri hassasiyet ile kullanılmalıdır.

Görünüşte basit gibi görünebilir fakat web sitenizin SEO sağlığı için de temel yapı taşlarından biridir. Özellikle büyük, dinamik ve çok sayfalı web sitelerinde doğru yapılandırılması, tarama bütçenizin optimize edilmesine ve arama motorlarındaki görünürlüğünüzün artırılmasına büyük katkı sağlar.
Doğru hazırlanmış bir robots.txt dosyası ile, yalnızca SEO performansınızı değil, e-ticaret dönüşümlerinizi de güçlendirebilirsiniz.

Hakkında» Cenk Pınarcı

Stratejik Pazarlama ve E-Ticaret Uzmanı | Dijital Performans | Sosyal ve Dijital Medya Planlama | Arama Motoru Reklamcılığı

Kaçırma ↴

Robots.txt Terminolojisine Bakış: Tüm Direktifler ve Anlamları

Robots.txt Terminolojisine Bakış: Tüm Yönergeler ve Anlamları

Robots.txt dilinin gramer kitabına ihtiyacım var! diyorsanız tam olarak doğru yerdesiniz. Robots.txt dosyası, sadece birkaç …

YORUM

Hızlı iletişim başlat

WhatsApp Hattı Hemen Ara
Konuya ne eklemek istersin?