İçindekiler
- Robots.txt terminolojisine giriş
- Terminoloji ve karakter anlamlarıyla Robots.txt
- User-agent: Bot Tanımlayıcısı
- Disallow: Erişime izin verme
- Allow: erişime izin ver komutu
- Sitemap: site haritası komutu
- Robots.txt terminolojisinde “ # ” karakterinin anlamı
- Robots.txt terminolojisinde ” * ” (Yıldız Karakteri)
- Robots.txt terminolojisinde “ ? ” Sorgu Parametresi (Dinamik URL’ler için)
- Robots.txt terminolojisinde “ $ “ sonlandırma Karakteri
- Medya türlerine yönelik engelleme
- Robots.txt ile video sayfalarının engellenmesi
- Robots.txt terminolojisinde URL encode edilmiş karakterler
- Örnek: Gelişmiş bir Robots.txt dosyası
- İleri düzey robots.txt ipuçları
- Sonuç: robots.txt gerçek bir optimizasyon aracı
Bu dosya, arama motoru botlarına (crawler) sitenizde hangi sayfaların taranıp hangilerinin taranmayacağını belirten bir dizi yönergelerden oluşur. Daha önce bu dosyanın ne olduğunu ve nasıl oluşturulacağını Robots.txt dosyası nedir? Ne işe yarar? Dosya nasıl oluşturulur? yazısında protokol yapısından, robots.txt kullanımına kadar giriş seviyesinde inceledik.
Bu yazımızda ise Robots.txt terminolojisini derinlemesine inceleyecek, kullanılan tüm terimleri, sembolleri ve robots.txt komutlarını örneklerle kullanacağız.
Robots.txt terminolojisine giriş
Pek çok kullanıcı User-agent, Disallow, Allow komutlarıyla temel düzeyde bir robots.txt dosyası oluşturabilir. Fakat, gelişmiş web siteleri (örneğin büyük e-ticaret altyapıları, haber portalları veya medya web siteleri) için daha detaylı karakter kontrolü, URL filtreleme, medya dosyası engelleme ve dinamik parametre yönetimi gibi gelişmiş kurallar profesyonel düzeyde tercih görür.
Robots.txt dosyasındaki her satır ve her satırda kullanılan tüm karakterler arama motoru tarayıcılarına bir şey anlatır. Bunları genelde yönergeler ve direktifler olarak adlandırıyoruz. Fakat; bu iletişimin anlaşılabilir olması için kullanılan terminolojinin doğru bir şekilde bilinmesi gerekir.
Robots.txt dilinin gramer kitabına ihtiyacım var diyorsan.! Robots.txt terminolojisi ile tam olarak doğru yerdesin.
Dijitalde bir sonraki seviyeye geçme zamanı. Zaman kaybetme!
Terminoloji ve karakter anlamlarıyla Robots.txt

User-agent: Bot Tanımlayıcısı
Robots.txt terminolojisinde User-agent satırı; aşağıda gelecek yönergelerin sadece Google arama motorunun tarayıcısı için geçerli olduğunu belirtir.
User-agent: Googlebot
Bilinen temel standart botlar dışında bilinmeyen ya da az bilinen birçok arama motoru botu bulunmaktadır.
Arama motorlarına ait bazı arama motoru botları aşağıda listelenmiştir:
Google arama motoru botları
Google arama motoruna ait arama motoru botları;
Bot adı | Platform | User-agent komutu | Tanım |
---|---|---|---|
Googlebot | Googlebot | Genel Google botu | |
Googlebot-Image | Googlebot-Image | Görsel tarama botu | |
Googlebot-News | Googlebot-News | Haber içerikleri | |
Googlebot-Video | Googlebot-Video | Video içerik tarama | |
Google-AdsBot | AdsBot-Google | Google Ads denetimi | |
Google-AdsBot-Mobile | AdsBot-Google-Mobile | Mobil reklam tarayıcı | |
Googlebot-Mobile | Googlebot-Mobile | Mobil sayfa tarayıcısı | |
Google-Favicon | Google-Favicon | Favicon tarayıcısı | |
Google-StoreBot | Storebot-Google | Google Play & App Store |
Yandex arama motoru botları
Yandex arama motoruna ait arama motoru botları;
Bot adı | Platform | User-agent komutu | Tanım |
---|---|---|---|
YandexBot | Yandex | YandexBot | Genel Yandex botu |
YandexImages | Yandex | YandexImages | Görsel tarama botu |
YandexVideo | Yandex | YandexVideo | Video içerik tarama |
YandexNews | Yandex | YandexNews | Haber içerikleri |
YandexBlogs | Yandex | YandexBlogs | Blog içerikler |
YandexDirect | Yandex | YandexDirect | Yandex reklam tarayıcısı |
YandexMobileBot | Yandex | YandexMobileBot | Mobil sayfa taraması |
Bing arama motoru botları
Bing arama motoruna ait arama motoru botları;
Bot adı | Platform | User-agent komutu | Tanım |
---|---|---|---|
Bingbot | Bing (Microsoft) | bingbot | Genel Bing botu |
MSNBot | Bing (Eski) | msnbot | Bing önceki nesil botu |
BingPreview | Bing | BingPreview | Sayfa önizlemesi |
AdIdxBot | Bing | AdIdxBot | Bing Ads tarayıcısı |
LinkedInBot | Bing | LinkedInBot | Microsoft LinkedIn |
Dijitalde bir sonraki seviyeye geçme zamanı. Şimdi harekete geç!
SEO araçları botları
SEO araçlarına ait robots.txt botları;
Bot adı | Platform | User-agent komutu | Tanım |
---|---|---|---|
AhrefsBot | Ahrefs SEO Aracı | AhrefsBot | SEO analiz aracı botu |
SemrushBot | Semrush SEO Aracı | SemrushBot | SEO analiz aracı botu |
MJ12bot | Majestic SEO Aracı | MJ12bot | Bağlantı analizleri yapar |
Robots.txt’de çoklu User-agent kullanımı
Robots.txt dosyası ile farklı arama motoru botlarına yönelik özel davranış kurguları tasarlanabilir;
User-agent: Googlebot
Disallow: /testsayfasi/
User-agent: Bingbot
Disallow: /ozellikler/
User-agent: AhrefsBot
Disallow: /
SEO tarayıcıları (örneğin Ahrefs) tamamen engellenirken Google ve Bing arama motorlarına seçici erişim tanımlanabilir.
Diğer arama motoru botları
Diğer arama motoru botlarına ait User-agent komutları aşığıda listelenmiştir;
Bot adı | Platform | User-agent komutu | Tanım |
---|---|---|---|
DuckDuckBot | DuckDuckGo | DuckDuckBot | DuckDuckGo web tarayıcısı |
Applebot | Apple | Applebot | Siri ve Spotlight arama sonuçları |
PetalBot | Petal Search (Huawei) | PetalBot | Huawei arama motoru botu |
Baiduspider | Baidu (Çin) | Baiduspider | Baidu arama motoru botu |
SogouSpider | Sogou (Çin) | Sogouwebspider | Sogou web tarayıcısı botu |
Exabot | Exalead (Fransa) | Exabot | Exabot arama motoru botu |
SeznamBot | Seznam (Çekya) | SeznamBot | Seznam arama motoru botu |
Cốc Cốc Spider | Cốc Cốc (Vietnam) | coccocbot-web | Cốc Cốc arama motoru botu |
Disallow: Erişime izin verme (Engelle)
Arama motoru botlarının belirtilen sayfalara veya dizinlere erişimini engeller.
Disallow: /admin/
Bu disallow kullanımıda /admin/ dizini arama botları tarafından taranmaz.
Disallow boş satır kullanımı
Disallow komutu robots.txt dosyasında boş satır olarak kullanıldığında; arama motoru botlarına her şeye erişim izni ver anlamında bir direktif gönderir.
Disallow:
Allow: erişime izin ver komutu
Disallow tarafından engellenmiş bir dizin içinde belirli veya farklı bir web sayfasının erişimine izin verir.
Disallow: /ozel/
Allow: /ozel/iletisim.html
Genel olarak websitesi içerisinde /ozel/ klasörü engellenmişken, iletisim.html sayfasına özel izin verilmiştir.
Sitemap: site haritası komutu
Arama motoru botlarına, XML formatında site haritasının nerede olduğunu söyler.
Sitemap: https://www.cenkorneksite.com/sitemap.xml
Crawl-delay: Tarama Gecikmesi
Arama motoru botlarının web sayfalarımızı tararken belirlediğimiz sürede beklemesini (Gecikmesini) sağlar.
User-agent: Bingbot
Crawl-delay: 10
Robots.txt terminolojisinde “#” karakterinin anlamı
Robots.txt’ de “#” karakteri; robots.txt dosyasının içerisine açıklama veya notlar eklemek için kullanılır. Tarayıcılar kullanılan bu satırları dikkate almazlar.
# Bu bölüm login panelini engeller
Disallow: /login/
Robots.txt terminolojisinde “*” yıldız Karakterinin anlamı
Belirsiz herhangi bir karakter grubunu temsil eder. Yani herhangi bir karakter dizisi (klasör adı, dosya adı vs.) yerine geçer.
Disallow: /ozel/*.pdf
Tüm .pdf dosyalarını engeller.
Robots.txt terminolojisi “?” Sorgu Parametresi (Dinamik URL’ler için)
URL’de GET parametresi kullanıldığını gösterir.
Disallow: /*?*
Tüm dinamik URL’ler (örneğin; E-ticaret sitelerinde ürün filtreleri, kampanya sayfaları) engellenir.
Robots.txt terminolojisi “$“ sonlandırma Karakteri
Bir ifadenin tam olarak o şekilde bitmesi gerektiğinin direktifini verir.
Disallow: /gizli-sonu.html$
Yalnızca /gizli-sonu.html adresini engeller. Robots.txt dosyasında sonlandırma karakteri kullanıldığında benzer başlayan ama farklı biten dosyaları engellemez.
Aşağıdaki örnek robots.txt kodunda yalnızca arama sonuçlarının taranması engellenir.
Disallow: /arama?*
Host Yönergesi (Yandex)
Siteye ait tercih edilen ana domaini belirtmek için kullanılır.
Host: www.cenkorneksite.com
Medya türlerine yönelik engelleme
Görsel dosyaların engellenmesi
User-agent: Googlebot-Image
Disallow: /resimler/
Sadece Google görsel botu /resimler/ dizinini tarayamaz.
Belirli görsel formatlarını engellemek
Robots.txt dosyası ile gif, jpeg, webp veya web sayfalarımızda kullandığımız png gibi diğer belirli formatlarda görsellerimizi engelleyebiliriz.
Örneğin;
User-agent: *
Disallow: /*.gif$
Disallow: /*.webp$
Disallow: /*.jpeg$
Web site içerikleri erişilebilir durumdayken sadece belirlenen görsellerin önbelleğe alınması ve dizine eklenmesi engellenmiş olur.
Dijitalde bir sonraki seviyeye geçme zamanı. Zaman kaybetme!
Robots.txt ile video sayfalarının engellenmesi
Disallow: /*.mp4$
Disallow: /videolar/
Robots.txt terminolojisinde bu komut sunucu yükünü düşürmek ve video sayfalarının dizine girmesini önlemek için kullanılır.
Robots.txt terminolojisinde URL encode edilmiş karakterler
Arama botlar URL encode edilmiş karakterleri de görür.
Örneğin; boşluk + ya da %20 şeklinde temsil edilir. Robots.txt dosyasında bu karakterler botların yanlış tanımlamaması için doğru bir biçimde belirtilmelidir.
Disallow: /dokumanlar/dosya%20adi.pdf
Örnek: Gelişmiş bir Robots.txt dosyası
User-agent: *
Disallow: /gecici/
Disallow: /admin/
Disallow: /*.doc$
Disallow: /*.pdf$
Disallow: /*.gif$
Disallow: /*?ref=*
Disallow: /arama?*
Allow: /gecici/onizleme.html
Crawl-delay: 5
Sitemap: https://www.siteadi.com/sitemap.xml
# Yandex için tercih edilen domain
Host: www.siteadi.com
İleri düzey robots.txt ipuçları
- Web sitenizdeki görselleri Googlebot-Image için engelleyin, normal botlara izin verin.
- Çok dilli web sitelerinde farklı arama botları için lokalize User-agent blokları kullanın.
- Yandex’e özel Host: komutunu yalnızca bir kez tanımlayın. Çift Host: tanımı geçersiz sayılır.
- Sitemap: komutunu mutlaka HTTPS versiyonuyla tanımlayın.
Sonuç: robots.txt gerçek bir optimizasyon aracı
Robots.txt, sadece bir “botlara kapı aç/kapat” aracı değil, web sitelerimizin tarama stratejisinin temelini oluşturur. Bu yazıda ele aldığımız terminolojik bilgiler sayesinde:
- Web sitemizin sunucu yükünü kontrol altına alabilir,
- SEO bütçenizi net ve doğru kullanabilir,
- Görsel, video, belge gibi web içerikleri gerektiği durumlarda dışarıya kapatabilir,
- Dinamik yapılarla oluşan ve yinelenen içeriklerin taranmasını önleyebilirsiniz.
Artık robots.txt terminolojisi ile dosyanız, sıradan bir filtre değil; profesyonel bir SEO aracına dönüşebilir.