Googlebot: Wie tickt der Webcrawler?

Der Googlebot, der Webcrawler (oder „Spider“) von Google, macht es sich zur Aufgabe, stetig neue und aktualisierte Websites zu ermitteln und diese zu durchsuchen („crawlen“). Nur so können Websites in den Google-Index aufgenommen und schließlich bei der Google-Suche gefunden werden. Laut Google wird dazu eine riesige Anzahl von Computern eingesetzt, die täglich durch das Internet „krabbeln“ und Milliarden von Websites mithilfe eines algorithmischen Prozesses durchsuchen. „Durch Computerprogramme wird bestimmt, welche Websites wann und wie oft durchsucht werden und wie viele Seiten von jeder Website abgerufen werden“, schreibt der Internetkonzern zum Crawling-Prozess, mit dem der Google-Index stetig aktualisiert wird. Was der Googlebot dabei alles zu Gesicht bekommt, wollen unschuldige Seelen eher nicht sehen, aber die landen auch zum größten Teil nicht in den Suchergebnissen.

So tickt der Googlebot: Indexierung und Parsing

Die Indexierung (auch Indizierung) funktioniert so: Die vom Googlebot erfassten Inhalte werden durch einen sogenannten Parser regelrecht auseinandergenommen: Beim „Parsing“ entsteht ein Stichwortregister und so eine tabellarische Gewichtung und Bewertung des Dokuments nach Themen. Jede einzelne Unterseite einer Website wird eingestuft. „Wovon handelt sie und in welcher Größenordnung?“, fragt sich der Crawler bei der Indexierung. Die Häufigkeit und Position der Keywords zählen dabei zu den wichtigen Anhaltspunkten. Alles schluckt der Googlebot nicht, allzu häufige Wörter, z.B. Konjunktionen und Pronomen, werden gefiltert.  Ebenso aber inflationär eingefügte Keywords!

Wichtig für eine gute Platzierung in den Suchergebnissen ist also das richtige Verhältnis und die Verteilung entsprechender Begriffe in den Inhalten der Website. Wirklich relevante Inhalte sollten diese Prinzipien automatisch abbilden. In der Praxis sollte ein besonderes Augenmerk auf der redaktionellen Sorgfalt liegen. Bilder, Videos und Audio-Dateien kann die Suchmaschine schließlich nicht lesen, deshalb werden sie auch separat ausgewiesen.

SEO-Tipps: So wird Ihre Website richtig gecrawlt

Das Grundprinzip des Crawlings ist wirklich einfach: Websites werden vom Googlebot gefunden, indem er sich von Link zu Link hangelt so von einer Seite zur nächsten folgt. Keine Links, kein Crawl –  da können die Inhalte noch so gut sein. Um die Wahrscheinlichkeit zu erhöhen, dass Ihre Website gefunden und auch in möglichst vollem Umfang indiziert wird, wird die Bereitstellung einer XML-Sitemap empfohlen. Gleichzeitig gilt es verschiedene Crawling-Fehler zu vermeiden: Nicht funktionierende Skripts auf den Seiten, fehlerhafte Verlinkungen sowie weitere Websitefehler können die Arbeit des Googlebots beeinträchtigen. Im Zweifelsfall gibt er einfach auf und geht.

Um das zu vermeiden, hat Google selbst eine Liste häufiger Crawling-Fehler veröffentlicht. Sie sollten Ihre Website regelmäßig auf die angegebenen Fehler überprüfen, um sicherzustellen, dass der Googlebot ungehindert crawlen kann. Mit den Richtlinien für Webmaster stellen Sie nicht nur die Funktionalität, sondern auch die Qualität Ihrer Inhalte sicher. Auch die ist für den Googlebot nämlich von großer Bedeutung: „Google ist bestrebt, bei jeder Suchanfrage Ergebnisse mit höchster Relevanz bereitzustellen“, heißt es von offizieller Seite. Überprüfen Sie also die Leistung Ihrer Website.

Grundlegende Hinweise zum Crawling

  • Crawler sind nicht imstande, Formulare auszufüllen, Auswahllisten, Radio-Buttons oder Checkboxen zu bedeien. Nur Links sind für Crawler navigierbar!
  • Um Text zu erfassen und verstehen, kennt der Crawler nur ein einziges Format: HTML. Text in Bildern, Videos und Audio-Dateien erkennt der Googlebot nicht an. iFrames werden grundsätzlich ebenfalls nicht gecrawlt.
  • Texte und Links in Rich-Media-Formaten können gecrawlt und indexiert werden. Zum Beispiel eingebunden in Javascript oder Flash. ABER: Wirklich zuverlässig ist der Prozess nicht und funktioniert nur, wenn die Einbindung nach bestimmten technischen Vorgaben erfolgt.
  • Sie können Crawler verwirren: Unkontrollierte interne Links können dazu führen, dass inhaltlich irrelevante Unterseiten als zu wichtig einstuft – oder wichtige Seiten zu selten erreicht.
  • Lange Ladezeiten strapazieren mutmaßlich das Zeitbudget, das dem Crawler für Ihre Website zur Verfügung steht (Crawling-Budget). Googles Webmaster Trends Analyst John Mueller behauptete jedoch jüngst, dass dies nicht so sei. Dennoch ist es nützlich, das Crawling gezielt auf wichtigere Inhalte zu lenken.

Zutritt verboten: Website-Inhalte für den Googlebot sperren

Möchten Sie dem Googlebot verbieten, Inhalte Ihrer Website zu crawlen, haben Sie verschiedene Möglichkeiten: Am schnellsten und einfachsten, aber auch am effizientesten ist die Blockierung per passwortgeschütztem Verzeichnis auf Ihrem Websitesever. Weder der Googlebot noch andere Web-Crawler können auf Inhalte eines passwortgeschützten Verzeichnisses zugreifen. Das betrifft natürlich vorrangig sensible Bereiche, die niemanden etwas angehen.

Eine andere Möglichkeit ist viel mehr im Sinne des Budgets: Mithilfe von robots.txt können Sie den Zugriff auf die Dateien und Verzeichnisse auf Ihrem Server sperren. Das sperrt aber nur den Googlebot aus, nicht die Nutzer, die immer noch auf die entsprechenden Inhalte gelangen – teils sogar trotzdem per Google, wenn Links auf die URL verweisen und deshalb in den Suchergebnissen angezeigt wird, nur ohne Vorschau. Nach Erstellung der robots.txt-Datei kann es laut Google jedoch möglicherweise ein wenig dauern, bis der Googlebot die Änderungen erfasst. Warum aber? Wenn Ihre Seite nicht zufälligerweise Wikipedia heißt oder eine News-Institution darstellt, kommt der Crawler nicht zwangsläufig jeden Tag vorbei. Möchten Sie Crawling-Budget sparen – also die Anzahl der Seiten, die der Crawler maximal durchsucht – kommt robots.txt ins Spiel. Damit sagen Sie dem Googlebot: Konzentrier dich auf die wichtigen Inhalte!

Googlebot via Meta-Tags „lenken“

Eine weitere Möglichkeit in der SEO-Optimierung ist der Eintrag „noindex“ in den Meta-Tags. Damit wird dem Crawler mitgeteilt, dass die besuchte Seite nicht im Index landen soll. Gecrawlt wird sie aber dennoch, auch die internen Links werden weiterverfolgt. Wann kommt der Meta-Tag „noindex“ aber zum Einsatz? Etwa dann, wenn doppelte Inhalte vorhanden sind, die womöglich aus technischen Gründen notwendig sind. In CMS-Systemen mit vielen automatisch angelegten Archivseiten können Sie dadurch im Extremfall verhindern, dass Google Ihre Duplikate als Spam kennzeichnet. Vielleicht sind die Inhalte aber auch einfach nicht interessant genug für extern Suchende, die von Google hereinspazieren, sollen aber dennoch erhalten bleiben. Sie können dem Crawler mittels „nofollow“ übrigens auch mitteilen, bestimmten Links nicht zu folgen. Angewendet wird dies heute vor allem bei externen Links, wenn Sie etwa eine Quelle verlinken möchten, der Sie aber nicht völlig vertrauen.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.