Skip to content
Übersicht

Kontakt

  • Dieses Feld dient zur Validierung und sollte nicht verändert werden.

Crawler

Als Crawler, Spider oder Bot werden Programme der Suchmaschinen bezeichnet, die verschiedene Aufgaben erfüllen. Bei Google hat der bekannteste Crawler die Bezeichnung Googlebot. Je nach ihrer Programmierung durchsuchen sie das World Wide Web nach neuen Webseiten oder nach Veränderungen auf bereits bestehenden Homepages. Die dadurch gewährleistete Katalogisierung und Indexierung sorgen dafür, dass die Suchergebnisseiten relativ aktuell sind. Gleichzeitig werden Verweise auf Webseiten, die nicht mehr existieren, aus den Suchergebnisseiten entfernt.

Andere Crawler überprüfen, ob sich die Webseiteninhaber an die Optimierungskriterien der Suchmaschinenbetreiber halten. Die Algorithmen dieser Programme erkennen Keyword-Spamming oder Keyword-Stuffing. Auch der natürliche Backlink-Aufbau wird von den Crawlern der Suchmaschinen überwacht.

Webseitenbetreiber können die Crawler der Suchmaschinen unterstützen

Viele Webseiten, insbesondere Content-Management-Systeme, sind komplex auf mehreren Ebenen aufgebaut. Es bestehen Hauptseiten, Kategorien und Unterseiten, die ganz verschieden miteinander verknüpft sind. Webmaster können die Crawler der Suchmaschinen mit kleinen Dateien bei ihrer Arbeit unterstützen.

Crawl-Unterstützung mit Sitemaps

Die sogenannten Sitemaps werden in Form einer XML-Datei auf dem Server hinterlegt. Umfangreiche Webauftritte arbeiten mit mehreren Sitemaps. In diesen Dateien sind alle Seiten der Homepage aufgeführt. Bei Content-Management-Systemen werden die Sitemaps mittels eines Plugins automatisch erstellt und bei neuen Beiträgen automatisch aktualisiert.

Crawl-Unterstützung mit Robots.txt und Anweisungen im Head-Bereich

Ein weiteres Hilfsmittel für die Crawler sind Robot.txt-Dateien. In diesen einfachen Textdateien sind Befehle für die Crawler der Suchmaschinen hinterlegt, die ihnen Zugriff auf den gesamten Webauftritt oder auf Teile ermöglichen. Auch diese Textdateien können in Content-Management-Systemen über das Dashboard gesteuert werden. Bei HTML-Seiten kann eine normale Text-Datei hinterlegt werden. Zusätzlich ist es möglich, dass die Crawler mit Attributen im Head-Bereich des HTML-Codes über ihre Aufgaben informiert werden.

Weitere Informationen und Links
https://support.google.com/webmasters/answer/1061943?hl=de

https://de.wikipedia.org/wiki/Webcrawler

https://www.google.de/insidesearch/howsearchworks/crawling-indexing.html

Ähnliche Einträge