Robots.txt ist eine Textdatei, die sich an Suchmaschinen-Roboter richtet und Anweisungen zur Indizierung einzelner Verzeichnisse und Dateien enthält. Die Textdatei ist kein zwingend erforderlicher Bestandteil von Internetseiten, wird jedoch von den meisten Suchmaschinen abgefragt und somit erwartet. Falls eine solche Datei nicht vorhanden ist, können Fehlermeldungen in den Serverprotokollen die Folge sein. Darüber hinaus erweist sich die Verwendung der Datei robots.txt als überaus sinnvoll, da auf diese Weise bestimmte Elemente wie Admin-Verzeichnisse oder Ordner mit Bildern oder cgi-Dateien von der Suche von vornherein ausgeschlossen werden können.
Die Inhalte von robots.txt
Die Datei robots.txt basiert auf dem Robots-Exclusion-Standard, der von einer unabhängigen Gruppierung im Jahr 1994 entwickelt wurde. Inzwischen ist das Protokoll allgemein anerkannt und gilt als Quasi-Standard. Die Datei befindet sich im Stammverzeichnis einer Domain und ist die erste Datei, die von Suchmaschinen-Robotern gelesen wird. Die Datei enthält Anweisungen darüber, ob und in welchem Umfang die Webseite von Suchmaschinen-Bots besucht werden darf. Robots.txt hat einen rein hinweisenden Charakter und ist auf die Mitarbeit der Suchmaschinen-Roboter angewiesen. Dass bestimmte Seiten einer Internetpräsenz von der Suche ausgeschlossen werden, bedeutet jedoch nicht deren Geheimhaltung. Dazu bedarf es weiterer Schutzmechanismen wie beispielsweise einer Access-Control-List oder einer HTTP-Authentifizierung.
Der Aufbau von robots.txt
Robots.txt ist eine einfach lesbare Textdatei, die aus mehreren Zeilen besteht. Jede dieser Zeilen besteht aus zwei Feldern, wobei die Felder durch einen Doppelpunkt voneinander getrennt werden. Die erste Zeile hat die Form „User-agent : Name der Suchmaschine“ und legt fest, an welche Suchmaschine sich die folgenden Anweisungen richten. Anschließend werden alle URLs, die von der Suche ausgeschlossen werden sollen, einzeln festgelegt. Diese Festlegung erfolgt mit Hilfe von Zeilen der Form „Disallow : Name der URL“. Mit Hilfe des Befehls „Disallow : /“ kann festgelegt werden, dass die komplette Webseite nicht durchsucht werden darf. Wenn hinsichtlich der Suche keine Einschränkungen bestehen sollen, kann dies mit Hilfe der Zeile „disallow : “ umgesetzt werden – die zweite Spalte wird also leer gelassen. Einzelne Verzeichnisse sperrt man mit Hilfe der Anweisung „disallow : /Name_des_Verzeichnisses/“.
Weitere Informationen und Links:
Wikipedia-Eintrag zum Thema „Robots Exclusion Standard“
Informationen zur robots.txt-Datei von Google
Grundlagenwissen zu robots.txt bei SelfHTML