Robots.txt Terminolojisine Bakış: Tüm Direktifler ve Anlamları
Robots.txt Terminolojisine Bakış: Tüm Yönergeler ve Anlamları

Robots.txt Terminolojisine Bakış: Tüm Yönergeler ve Anlamları

Robots.txt dosyası, sadece birkaç basit komut ile yapılandırılan sıradan bir metin dosyası gibi görünüyor olsa da doğru ve teknik bir şekilde kurgulandığında web sitemizin SEO sağlığı, sunucu üzerindeki performansı ve web içeriğinin güvenliği aşamalarında oldukça stratejik bir görev üstlenir.

Bu dosya, arama motoru botlarına (crawler) sitenizde hangi sayfaların taranıp hangilerinin taranmayacağını belirten bir dizi yönergelerden oluşur. Daha önce bu dosyanın ne olduğunu ve nasıl oluşturulacağını Robots.txt dosyası nedir? Ne işe yarar? Dosya nasıl oluşturulur? yazısında protokol yapısından, robots.txt kullanımına kadar giriş seviyesinde inceledik.

Bu yazımızda ise Robots.txt terminolojisini derinlemesine inceleyecek, kullanılan tüm terimleri, sembolleri ve robots.txt komutlarını örneklerle kullanacağız.

Pek çok kullanıcı User-agent, Disallow, Allow komutlarıyla temel düzeyde bir robots.txt dosyası oluşturabilir. Fakat, gelişmiş web siteleri (örneğin büyük e-ticaret altyapıları, haber portalları veya medya web siteleri) için daha detaylı karakter kontrolü, URL filtreleme, medya dosyası engelleme ve dinamik parametre yönetimi gibi gelişmiş kurallar profesyonel düzeyde tercih görür.

Robots.txt dosyasındaki her satır ve her satırda kullanılan tüm karakterler arama motoru tarayıcılarına bir şey anlatır. Bunları genelde yönergeler ve direktifler olarak adlandırıyoruz. Fakat; bu iletişimin anlaşılabilir olması için kullanılan terminolojinin doğru bir şekilde bilinmesi gerekir.

Robots.txt dilinin gramer kitabına ihtiyacım var diyorsan.! Robots.txt terminolojisi ile tam olarak doğru yerdesin.

Dijitalde bir sonraki seviyeye geçme zamanı. Zaman kaybetme!

Robots.txt terminolojisinde User-agent satırı; aşağıda gelecek yönergelerin sadece Google arama motorunun tarayıcısı için geçerli olduğunu belirtir.


User-agent: Googlebot

Bilinen temel standart botlar dışında bilinmeyen ya da az bilinen birçok arama motoru botu bulunmaktadır.

Arama motorlarına ait bazı arama motoru botları aşağıda listelenmiştir:

Google arama motoruna ait arama motoru botları;

Bot adıPlatformUser-agent komutuTanım
GooglebotGoogleGooglebotGenel Google botu
Googlebot-ImageGoogleGooglebot-ImageGörsel tarama botu
Googlebot-NewsGoogleGooglebot-NewsHaber içerikleri
Googlebot-VideoGoogleGooglebot-VideoVideo içerik tarama
Google-AdsBotGoogleAdsBot-GoogleGoogle Ads denetimi
Google-AdsBot-MobileGoogleAdsBot-Google-MobileMobil reklam tarayıcı
Googlebot-MobileGoogleGooglebot-MobileMobil sayfa tarayıcısı
Google-FaviconGoogleGoogle-FaviconFavicon tarayıcısı
Google-StoreBotGoogleStorebot-GoogleGoogle Play & App Store
📖 Hemen Oku: Robots.txt Nedir? Nasıl Oluşturulur?

Yandex arama motoruna ait arama motoru botları;

Bot adıPlatformUser-agent komutuTanım
YandexBotYandexYandexBotGenel Yandex botu
YandexImagesYandexYandexImagesGörsel tarama botu
YandexVideoYandexYandexVideoVideo içerik tarama
YandexNewsYandexYandexNewsHaber içerikleri
YandexBlogsYandexYandexBlogsBlog içerikler
YandexDirectYandexYandexDirectYandex reklam tarayıcısı
YandexMobileBotYandexYandexMobileBotMobil sayfa taraması

Bing arama motoruna ait arama motoru botları;

Bot adıPlatformUser-agent komutuTanım
BingbotBing (Microsoft)bingbotGenel Bing botu
MSNBotBing (Eski)msnbotBing önceki nesil botu
BingPreviewBingBingPreviewSayfa önizlemesi
AdIdxBotBingAdIdxBotBing Ads tarayıcısı
LinkedInBotBingLinkedInBotMicrosoft LinkedIn

Dijitalde bir sonraki seviyeye geçme zamanı. Şimdi harekete geç!

SEO araçlarına ait robots.txt botları;

Bot adıPlatformUser-agent komutuTanım
AhrefsBotAhrefs SEO AracıAhrefsBotSEO analiz aracı botu
SemrushBotSemrush SEO AracıSemrushBotSEO analiz aracı botu
MJ12botMajestic SEO AracıMJ12botBağlantı analizleri yapar

Robots.txt dosyası ile farklı arama motoru botlarına yönelik özel davranış kurguları tasarlanabilir;


User-agent: Googlebot
Disallow: /testsayfasi/

User-agent: Bingbot
Disallow: /ozellikler/

User-agent: AhrefsBot
Disallow: /

SEO tarayıcıları (örneğin Ahrefs) tamamen engellenirken Google ve Bing arama motorlarına seçici erişim tanımlanabilir.

Diğer arama motoru botlarına ait User-agent komutları aşığıda listelenmiştir;

Bot adıPlatformUser-agent komutuTanım
DuckDuckBotDuckDuckGoDuckDuckBotDuckDuckGo web tarayıcısı
ApplebotAppleApplebotSiri ve Spotlight arama sonuçları
PetalBotPetal Search (Huawei)PetalBotHuawei arama motoru botu
BaiduspiderBaidu (Çin)BaiduspiderBaidu arama motoru botu
SogouSpiderSogou (Çin)SogouwebspiderSogou web tarayıcısı botu
ExabotExalead (Fransa)ExabotExabot arama motoru botu
SeznamBotSeznam (Çekya)SeznamBotSeznam arama motoru botu
Cốc Cốc SpiderCốc Cốc (Vietnam)coccocbot-webCốc Cốc arama motoru botu

Arama motoru botlarının belirtilen sayfalara veya dizinlere erişimini engeller.


Disallow: /admin/

Bu disallow kullanımıda /admin/ dizini arama botları tarafından taranmaz.

Disallow komutu robots.txt dosyasında boş satır olarak kullanıldığında; arama motoru botlarına her şeye erişim izni ver anlamında bir direktif gönderir.


Disallow: 

Disallow tarafından engellenmiş bir dizin içinde belirli veya farklı bir web sayfasının erişimine izin verir.


Disallow: /ozel/
Allow: /ozel/iletisim.html

Genel olarak websitesi içerisinde /ozel/ klasörü engellenmişken, iletisim.html sayfasına özel izin verilmiştir.

Arama motoru botlarına, XML formatında site haritasının nerede olduğunu söyler.


Sitemap: https://www.cenkorneksite.com/sitemap.xml
Sitemap komutu Google gibi arama motorlarına web sayfamızın yapısını gösteren site haritasının adresini bildirir.

Arama motoru botlarının web sayfalarımızı tararken belirlediğimiz sürede beklemesini (Gecikmesini) sağlar.


User-agent: Bingbot
Crawl-delay: 10
Bingbot her istekte 10 saniye bekler. Ancak Google arama motoru Googlebot bu komutu desteklemez.

Robots.txt’ de “#” karakteri; robots.txt dosyasının içerisine açıklama veya notlar eklemek için kullanılır. Tarayıcılar kullanılan bu satırları dikkate almazlar.


# Bu bölüm login panelini engeller
Disallow: /login/

Belirsiz herhangi bir karakter grubunu temsil eder. Yani herhangi bir karakter dizisi (klasör adı, dosya adı vs.) yerine geçer.


Disallow: /ozel/*.pdf

Tüm .pdf dosyalarını engeller.

URL’de GET parametresi kullanıldığını gösterir.


Disallow: /*?*

Tüm dinamik URL’ler (örneğin; E-ticaret sitelerinde ürün filtreleri, kampanya sayfaları) engellenir.

Bir ifadenin tam olarak o şekilde bitmesi gerektiğinin direktifini verir.


Disallow: /gizli-sonu.html$

Yalnızca /gizli-sonu.html adresini engeller. Robots.txt dosyasında sonlandırma karakteri kullanıldığında benzer başlayan ama farklı biten dosyaları engellemez.

Aşağıdaki örnek robots.txt kodunda yalnızca arama sonuçlarının taranması engellenir.


Disallow: /arama?*

Siteye ait tercih edilen ana domaini belirtmek için kullanılır.


Host: www.cenkorneksite.com
Not: Bu robots.txt komutu sadece Yandex botları içindir. Google tarafından dikkate alınmaz.

User-agent: Googlebot-Image

Disallow: /resimler/

Sadece Google görsel botu /resimler/ dizinini tarayamaz.

Robots.txt dosyası ile gif, jpeg, webp veya web sayfalarımızda kullandığımız png gibi diğer belirli formatlarda görsellerimizi engelleyebiliriz.

Örneğin;


User-agent: *
Disallow: /*.gif$
Disallow: /*.webp$
Disallow: /*.jpeg$

Web site içerikleri erişilebilir durumdayken sadece belirlenen görsellerin önbelleğe alınması ve dizine eklenmesi engellenmiş olur.

Dijitalde bir sonraki seviyeye geçme zamanı. Zaman kaybetme!


Disallow: /*.mp4$
Disallow: /videolar/

Robots.txt terminolojisinde bu komut sunucu yükünü düşürmek ve video sayfalarının dizine girmesini önlemek için kullanılır.

Arama botlar URL encode edilmiş karakterleri de görür.

Örneğin; boşluk + ya da %20 şeklinde temsil edilir. Robots.txt dosyasında bu karakterler botların yanlış tanımlamaması için doğru bir biçimde belirtilmelidir.


Disallow: /dokumanlar/dosya%20adi.pdf

User-agent: *
Disallow: /gecici/
Disallow: /admin/
Disallow: /*.doc$
Disallow: /*.pdf$
Disallow: /*.gif$
Disallow: /*?ref=*
Disallow: /arama?*
Allow: /gecici/onizleme.html
Crawl-delay: 5
Sitemap: https://www.siteadi.com/sitemap.xml
# Yandex için tercih edilen domain
Host: www.siteadi.com
  • Web sitenizdeki görselleri Googlebot-Image için engelleyin, normal botlara izin verin.
  • Çok dilli web sitelerinde farklı arama botları için lokalize User-agent blokları kullanın.
  • Yandex’e özel Host: komutunu yalnızca bir kez tanımlayın. Çift Host: tanımı geçersiz sayılır.
  • Sitemap: komutunu mutlaka HTTPS versiyonuyla tanımlayın.

Robots.txt, sadece bir “botlara kapı aç/kapat” aracı değil, web sitelerimizin tarama stratejisinin temelini oluşturur. Bu yazıda ele aldığımız terminolojik bilgiler sayesinde:

  • Web sitemizin sunucu yükünü kontrol altına alabilir,
  • SEO bütçenizi net ve doğru kullanabilir,
  • Görsel, video, belge gibi web içerikleri gerektiği durumlarda dışarıya kapatabilir,
  • Dinamik yapılarla oluşan ve yinelenen içeriklerin taranmasını önleyebilirsiniz.

Artık robots.txt terminolojisi ile dosyanız, sıradan bir filtre değil; profesyonel bir SEO aracına dönüşebilir.

Hakkında» Cenk Pınarcı

Stratejik Pazarlama ve E-Ticaret Uzmanı | Dijital Performans | Sosyal ve Dijital Medya Planlama | Arama Motoru Reklamcılığı

Kaçırma ↴

Robots.txt Dosyası Nedir? Robots.txt Nasıl Oluşturulur? Web sitesine Nasıl Eklenir.

Robots.txt Nedir? Ne işe Yarar? Dosya Nasıl Oluşturulur?

Robots.txt dosyasında yapılan yanlış bir uygulama web sitenize ciddi zararlar verebilir, uygulama veya değişiklik yapmadan …

YORUM

Hızlı iletişim başlasın

WhatsApp'tan Yaz Hemen Ara
Konuya ne eklemek istersin?