SEO 08 – Die Datei Robots Text? Was ist das?

Die robots.txt-Datei ist ein wichtiges Werkzeug, um das Crawlingverhalten von Suchmaschinen-Bots auf einer Website zu steuern. Hier sind einige grundlegende Informationen und bewährte Methoden für die Verwendung der robots.txt-Datei zur Crawlingsteuerung:

1. Was ist die robots.txt-Datei?

Die robots.txt-Datei ist ein Textdokument, das auf dem Wurzelverzeichnis einer Website platziert wird und Suchmaschinen-Bots Anweisungen gibt, welche Seiten oder Bereiche der Website sie crawlen dürfen und welche nicht. Sie dient als Leitfaden für die Bots, um die Website effizient zu durchsuchen und zu indexieren.

2. Grundlegende Syntax der robots.txt-Datei

Die robots.txt-Datei besteht aus verschiedenen Direktiven, die von User-Agenten und Pfadangaben begleitet werden. Ein Beispiel für die Syntax lautet:

User-agent: *
Crawl-delay: 30
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /

In diesem Beispiel wird allen User-Agenten der Zugriff:

  • User-agent: *: Diese Zeile definiert die Anweisungen für alle Suchmaschinen-Bots (User-Agenten), die die Website crawlen. Das Sternchen () wird als Platzhalter verwendet, um alle Bots anzusprechen, unabhängig von ihrer spezifischen Identität.
  • Crawl-delay: 30: Diese Zeile legt fest, dass zwischen den Crawling-Anfragen ein Zeitverzögerung von 30 Sekunden besteht. Das bedeutet, dass der Bot nach dem Crawlen einer Seite 30 Sekunden warten muss, bevor er eine weitere Seite crawlt. Dies kann dazu beitragen, die Serverlast zu reduzieren und die Website-Performance zu verbessern.
  • Disallow: /wp-admin/: Diese Zeile verbietet den Bots den Zugriff auf den “/wp-admin/”-Ordner der Website. Der “/wp-admin/”-Ordner ist in der Regel der Administrationsbereich von WordPress-Websites und sollte nicht von Suchmaschinen indexiert werden, um Sicherheitsrisiken zu minimieren.
  • Disallow: /wp-includes/: Ähnlich wie oben, diese Zeile blockiert den Zugriff auf den “/wp-includes/”-Ordner, der wichtige Systemdateien von WordPress enthält. Dieser Ordner enthält Dateien wie Skripte und Stile, die nicht für die Indexierung durch Suchmaschinen relevant sind.
  • Allow: /: Diese Zeile erlaubt den Bots den Zugriff auf alle anderen Bereiche der Website, die nicht explizit durch die “Disallow”-Anweisungen blockiert wurden. Es ist eine allgemeine Erlaubnis, um sicherzustellen, dass die meisten Seiten der Website für Suchmaschinen indexiert werden können.
  • Zusammenfassend legt diese robots.txt-Datei fest, dass alle Suchmaschinen-Bots, die die Website crawlen, eine Verzögerung von 30 Sekunden zwischen den Crawling-Anfragen haben sollen. Außerdem werden die Bots angewiesen, die Ordner “/wp-admin/” und “/wp-includes/” nicht zu crawlen, während der Zugriff auf alle anderen Bereiche der Website erlaubt ist.

3. Steuerung des Crawlingverhaltens

Mit der robots.txt-Datei kann man das Crawlingverhalten von Suchmaschinen-Bots steuern, indem bestimmte Seiten oder Bereiche der Website blockiert oder erlaubt. Dies kann nützlich sein, um vertrauliche Informationen zu schützen, unwichtige Seiten zu vermeiden oder spezielle Anforderungen für bestimmte Bots festzulegen.

4. Verwendung von Wildcards und Muster

Die robots.txt-Datei unterstützt die Verwendung von Wildcards und Mustern, um bestimmte Gruppen von URLs zu blockieren oder zuzulassen. Zum Beispiel kann man mit dem Asterisk (*) alle User-Agenten ansprechen und mit dem Slash (/) alle Seiten auf der Website.

5. Überwachung und Aktualisierung

Es ist wichtig, die robots.txt-Datei regelmäßig zu überwachen und zu aktualisieren, um sicherzustellen, dass sie den aktuellen Anforderungen und Zielen der Website entspricht. Änderungen an der robots.txt-Datei sollten sorgfältig geplant und getestet werden, um unerwünschte Auswirkungen auf das Crawlingverhalten zu vermeiden.

Fazit

Die robots.txt-Datei ist ein nützliches Werkzeug zur Steuerung des Crawlingverhaltens von Suchmaschinen-Bots auf einer Website. Durch die gezielte Blockierung oder Freigabe von Seiten und Bereichen können Website-Betreiber das Crawlingverhalten optimieren und sicherstellen, dass wichtige Inhalte effizient indexiert werden. Es ist wichtig, die Syntax und Funktionsweise der robots.txt-Datei zu verstehen und regelmäßig zu überwachen, um die bestmöglichen Ergebnisse zu erzielen.

Bastbox - Sebastian Znotka
MENU