robots.txt – kurz und bündig

Website-Besitzer verwenden die Datei /robots.txt, um Web-Robots Anweisungen über ihre Website zu erteilen, dies wird als The Robots Exclusion Protocol bezeichnet.

Es funktioniert so: Der Robot will eine Website-URL besuchen, sagen wir

http://www.beispiel.de/willkommen.html.

Zuvor prüft er zunächst auf https://www.beispiel.de/robots.txt und findet:

User-agent: *
Disallow: /

Der “User-Agent: “bedeutet, dass dieser Abschnitt für alle Robots gilt. Die “Disallow: /” sagt dem Robot, dass er keine Seiten auf der Website besuchen soll.

Es gibt zwei wichtige Punkte bei der Verwendung von /robots.txt:

  1. Robots können Ihre /robots.txt ignorieren. Vor allem Malware-Robots, die das Internet nach Sicherheitslücken durchsuchen.
  2. Die /robots.txt-Datei ist eine öffentlich zugängliche Datei. Jeder kann sehen, welche Bereiche Ihres Servers nicht von Robots genutzt werden sollten.

Versuchen Sie also nicht, /robots.txt zu benutzen, um Informationen zu verstecken.

So erstellen Sie eine /robots.txt-Datei

Wohin mit der robots.txt-Datei?

Die kurze Antwort: im obersten Verzeichnis Ihres Webservers.

Sobald ein Robot die Datei “/robots.txt” sucht, entfernt er die Pfadkomponente von der URL (alles vom ersten einzelnen Schrägstrich) und setzt “/robots.txt” an deren Stelle.

Beispielsweise wird für “https://www.beispiel.de/shop/index.html” die Datei “/shop/index.html” entfernt und durch “/robots.txt” ersetzt und endet mit “https://www.beispiel.de/robots.txt”.

Also, als Website-Besitzer müssen Sie es an der richtigen Stelle auf Ihrem Webserver platzieren, damit die resultierende URL funktioniert. Normalerweise ist das derselbe Ort, an dem Sie die Startseite Ihrer Website “index.html” bzw. “index.php” einrichten. Wo genau das ist und wie Sie die Datei dort ablegen, hängt von Ihrer Webserver-Software ab.

Achten Sie darauf, für den Dateinamen nur Kleinbuchstaben zu verwenden: “robots.txt”, nicht “Robots.TXT”.

Was soll man da rein tun?

Die Datei “/robots.txt” ist eine Textdatei mit einem oder mehreren Datensätzen. In der Regel enthält sie einen einzelnen Datensatz, der so aussieht:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

In diesem Beispiel sind drei Verzeichnisse ausgeschlossen.

Beachten Sie, dass Sie für jeden auszuschließenden URL-Präfix eine eigene “Disallow”-Zeile benötigen – Sie können nicht “Disallow” sagen: /cgi-bin/ /tmp/” in einer Zeile. Außerdem dürfen Sie in einem Datensatz keine Leerzeilen haben, da diese zum Abgrenzen mehrerer Datensätze verwendet werden.

Beachten Sie auch, dass Globbing und regulärer Ausdruck weder in den Zeilen User-Agent noch Disallow unterstützt werden. Das’*’ im User-Agent-Feld ist ein spezieller Wert, der “beliebiger Robot” bedeutet. Insbesondere können Sie keine Zeilen wie “User-agent: *bot*”, “Disallow: /tmp/*” oder “Verbieten: *.gif”.

Was Sie ausschließen wollen, hängt von Ihrem Server ab. Alles, was nicht ausdrücklich verboten ist, wird als frei verfügbar angesehen. Hier einige Beispiele:

So schließen Sie alle Robots vom gesamten Server aus

User-agent: *
Disallow: /

Um allen Robots den vollständigen Zugriff zu ermöglichen

User-agent: *
Disallow:

(oder einfach eine leere “/robots.txt”-Datei erstellen)

So schließen Sie alle Roboter von einem Teil des Servers aus

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

So schließen Sie einen einzelnen Robot aus

User-agent: BadRobot
Disallow: /

Einen einzelnen Robot zulassen

User-agent: Google
Disallow:

User-agent: *
Disallow: /

So schließen Sie alle Dateien bis auf eine aus

Dies ist derzeit etwas umständlich, da es kein “Allow” Feld gibt. Der einfache Weg ist, alle zu verbietenden Dateien in ein separates Verzeichnis zu legen, z.B. “zeugs”, und die eine Datei in der Ebene über diesem Verzeichnis zu belassen:
User-agent: *
Disallow: /~joe/zeugs/

Alternativ können Sie alle nicht erlaubten Seiten explizit verbieten:
User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html

Hilfreich? Wenn ja, würden Sie es mit anderen teilen, die es auch zu schätzen wissen? Herzlichen Dank!
SEO Wiki
Previous reading
Wie Sie Ihre Seitenstruktur für SEO optimieren können
Next reading
Lokale SEO für Restaurants: Die besten Tipps zur Steigerung der Markenbekanntheit von Restaurants