Damit Ihre Website von möglichst vielen Nutzern gefunden werden kann, müssen Suchmaschinen wie Google diese zunächst einmal selbst finden und in den eigenen Index aufnehmen. Erst dann sind Ihre potentiellen Kunden in der Lage, über das klassische Suchfenster auf Ihren Webauftritt aufmerksam zu werden. Gleiches gilt für neue Beiträge Ihrer Website. Schließlich möchten Sie, dass auch die stetig neu hinzukommenden Inhalte Ihrer Website über Google und Co. schnellstmöglich zu finden sind.

Damit die Indexierung des Webs überhaupt erst möglich wird, nutzen Suchmaschinen sogenannten Web Crawler, die auch gerne als Spider oder Searchbots bezeichnet werden. Dabei handelt es sich um Computerprogramme, die das World Wide Web automatisch durchforsten. Eben wie Spinnen, die von Site zu Site krabbeln (= crawl), deren Inhalt analysieren und schließlich in einem Index verwalten.

Geschichte der Webcrawler

Der erste Crawler namens Wanderer krabbelte bereits 1993 durch die damals noch überschaubaren Weiten des Internets, womit sein Entwickler Matthew Gray dessen Größe vermessen wollte. Auf der Basis von Wanderer startete 1994 dann die erste öffentliche Internet-Suchmaschine namens WebCrawler mit Volltextsuche.

Heute durchforsten Webcrawler in Massen das World Wide Web und crawlen täglich Milliarden von Websites. Dabei bestimmen Suchmaschinen mithilfe spezieller Algorithmen, wie oft Crawler die verschiedenen Webauftritte nach neuen Inhalten durchsuchen. Laut einer Studie von Imperva Incapsula verursachen Searchbots sogar einen größeren Traffic auf Websites, als reale Menschen.

So finden Crawler Ihren Content

Searchbots gehen beim Durchforsten des Webs genauso wie normale Webnutzer vor: Über Hyperlinks, also Verlinkungen auf einzelne Webseiten, gelangen die digitalen Sucher von einer Webseite zur nächsten und fügen Ihrem Index neue Adressen hinzu. Durch diese Verknüpfung des gesamten Netzes können Crawler sämtliche Websites aufspüren. Wie häufig Searchbots Ihren Webauftritt nach neuen Inhalten durchsuchen, hängt von verschiedenen Faktoren ab. Für eine schnelle Indexierung sollten Sie deshalb folgende Maßnahmen treffen:

  • Aktualisieren Sie ihre Inhalte regelmäßig
  • Schaffen Sie themenrelevante und hochwertige Inhalte
  • Stellen Sie eine suchmaschinenfreundliche Struktur ihrer Website-Navigation
  • Achten Sie auf professionelles und zeitgemäßes Webdesign

Zur Hauptaufgabe von Crawlern zählt zwar die Indexierung von Websites, daneben dienen sie aber auch weiteren Zwecken, wie dem Sammeln von Produktdaten für Preisvergleichsportale oder zur Analyse von Websites.

Good Bot, bad Bot

Im Web gibt es nicht nur gute, sondern auch böse Searchbots. Dazu gehören beispielsweise sogenannte Harvester, also Erntemaschinen, die im Web Adressen von Unternehmen sammeln, um diese dann zu vermarkten. Die Folgen sind in der Regel unerwünschte Werbemails.

Eine Indexierung bestimmter Unterseiten Ihrer Website können Sie mithilfe des Robots Exclusion Standard verhindern. Dabei handelt es sich um ein Protokoll, mit dem Sie Webcrawler mitteilen können, welche Unterseiten dieser indexieren soll und welche nicht. Das funktioniert über die robots.txt Dateien, die Sie im Stammverzeichnis Ihrer Domain ablegen.