robots.txt-Blockade

Was bedeutet eine robots.txt-Blockade?

Von einer robots.txt-Blockade spricht man, wenn eine Website mittels der robots.txt-Datei Suchmaschinen-Crawler daran hindert, bestimmte Seiten oder Bereiche abzurufen. Die robots.txt ist eine einfache Textdatei im Hauptverzeichnis der Website, die enthält, welche URLs nicht gecrawlt werden dürfen. Beispiel: Steht in der robots.txt Disallow: /intern/, dann werden alle Seiten unterhalb von /intern/ von Google & Co. nicht besucht. Eine solche Blockade ist kein Angriff oder technischer Fehler, sondern meist vom Website-Betreiber bewusst eingerichtet, um Crawler auszusperren.

Wichtig zu verstehen: Die robots.txt verhindert nur das Crawlen, nicht das Indexieren. Suchmaschinen dürfen die geblockte URL weiterhin in ihren Index aufnehmen, falls sie sie anderweitig finden – sie können nur den Inhalt nicht sehen. Praktisch bedeutet das: Eine von robots.txt geblockte Seite könnte trotzdem in den Google-Ergebnissen auftauchen, dann jedoch ohne Beschreibungstext (Snippet). Stattdessen steht dort oft der Hinweis „Für diese Seite sind keine Informationen verfügbar“. Die Seite ist also indexiert, aber Google durfte sie nicht lesen, um einen Auszug anzuzeigen.

Auswirkungen auf SEO und Indexierung

Eine robots.txt-Blockade hat Vor- und Nachteile im SEO-Kontext. Positiv: Sie kann verhindern, dass Suchmaschinen unwichtige oder sensible Bereiche Ihrer Website crawlen. Das schont das Crawl-Budget – also die begrenzte Anzahl Seiten, die Google pro Besuch crawlt – und lenkt die Aufmerksamkeit auf die wirklich relevanten Inhalte. Klassische Beispiele zum Aussperren via robots.txt sind: Login-Bereiche, Warenkorb-/Checkout-Seiten, Paging-Varianten (z. B. endlose Filter-URLs in Shops) oder Duplicate-Content-Seiten (z. B. Druckversionen). Wenn solche Seiten vom Crawling ausgeschlossen sind, verschwenden Suchmaschinen keine Zeit darauf.

Negativ ist allerdings: Wenn Sie aus Versehen wichtige Seiten per robots.txt blockieren, verschenken Sie Sichtbarkeit. Google kann diese Seiten dann nicht mehr besuchen – selbst wenn sie in Ihrer Sitemap stehen oder gute Backlinks haben, bleiben sie unentdeckt. In der Google Search Console tauchen solche Fälle als Warnung „Indexed, though blocked by robots.txt“ bzw. auf Deutsch „Indexiert, obwohl durch robots.txt blockiert“ auf. Das heißt, Google kennt die Seite (oft durch externe Links oder Ihre interne Verlinkung) und listet sie eventuell, konnte die Inhalte aber nicht beurteilen. Schlimmstenfalls rankt die Seite dann schlecht oder erscheint mit veraltetem Titel/ohne Snippet, was Nutzer kaum zum Klicken animiert.

Außerdem verhindert eine robots.txt-Sperre, dass Google eventuelle Meta-Tags auf der Seite sieht. Das ist besonders heikel, wenn man versucht, eine Seite durch Kombination von Disallow + noindex aus dem Index zu nehmen. Dieser Fall passiert öfter, als man denkt: Aus Angst, interne Seiten könnten indexiert werden, tragen Webmaster sie in die robots.txt und versehen sie mit <meta name="robots" content="noindex">. Doch das klappt nicht – Google kann das Noindex-Tag nicht auslesen, weil die Seite ja gar nicht gecrawlt wird. Merke: Nie gleichzeitig via robots.txt sperren und via noindex löschen wollen. Entweder/oder – meist ist das noindex der zuverlässigere Weg, um eine Indexierung zu verhindern.

Sinnvoller Einsatz einer robots.txt-Blockade

Wann sollte man mit robots.txt arbeiten? Zum einen, wenn man Teile der Website hat, die definitiv nicht in Suchmaschinen auftauchen sollen, aber auch kein Geheimnis sind. Robots.txt ist öffentlich zugänglich – jeder kann sie einsehen. Sie eignet sich also nicht, um wirklich vertrauliche Inhalte zu schützen (dafür braucht es Passwortschutz). Aber sie ist ideal, um Crawler von technisch unnötigen oder doppelten Inhalten fernzuhalten:

Zusammengefasst: Die robots.txt ist ein grobes Steuerungsinstrument, um Crawler von bestimmten Pfaden fernzuhalten. Man sollte damit sparsam und gezielt umgehen. Alles, was indexiert werden soll, darf nicht durch robots.txt geblockt sein. Und was wirklich sicher nicht im Index landen soll, sollte zusätzlich mit noindex versehen oder per Zugriffsschutz gesichert werden, da robots.txt eben kein absoluter Schutz vor Indexierung ist.

Fehlerquellen vermeiden

Fazit: Eine robots.txt-Blockade ist ein nützliches SEO-Werkzeug, um Suchmaschinen effizient zu lenken – jedoch mit Augenmaß einzusetzen. Verhindern Sie Crawling nur dort, wo es wirklich unerwünscht oder unnötig ist. Für alle wichtigen Seiten gilt: Sie müssen von den Crawlern gelesen werden dürfen, sonst können sie nicht optimal ranken. Wenn Sie verstehen, wann Disallow oder noindex zu benutzen ist, vermeiden Sie Indexierungsprobleme und steuern die Sichtbarkeit Ihrer Website gezielt.

Alexander Hacke - Webdesigner

Haben Sie den Verdacht, dass wichtige Inhalte durch Ihre robots.txt ausgebremst werden? Kontaktieren Sie mich – ich unterstütze Sie gerne dabei.

Alexander Hacke, Inhaber

Kontakt aufnehmen 06182 8958560‬