robots.txt-Blockade

Was bedeutet eine robots.txt-Blockade?

Von einer robots.txt-Blockade spricht man, wenn eine Website mittels der robots.txt-Datei Suchmaschinen-Crawler daran hindert, bestimmte Seiten oder Bereiche abzurufen. Die robots.txt ist eine einfache Textdatei im Hauptverzeichnis der Website, die enthält, welche URLs nicht gecrawlt werden dürfen. Beispiel: Steht in der robots.txt Disallow: /intern/, dann werden alle Seiten unterhalb von /intern/ von Google & Co. nicht besucht. Eine solche Blockade ist kein Angriff oder technischer Fehler, sondern meist vom Website-Betreiber bewusst eingerichtet, um Crawler auszusperren.

Wichtig zu verstehen: Die robots.txt verhindert nur das Crawlen, nicht das Indexieren. Suchmaschinen dürfen die geblockte URL weiterhin in ihren Index aufnehmen, falls sie sie anderweitig finden – sie können nur den Inhalt nicht sehen. Praktisch bedeutet das: Eine von robots.txt geblockte Seite könnte trotzdem in den Google-Ergebnissen auftauchen, dann jedoch ohne Beschreibungstext (Snippet). Stattdessen steht dort oft der Hinweis „Für diese Seite sind keine Informationen verfügbar“. Die Seite ist also indexiert, aber Google durfte sie nicht lesen, um einen Auszug anzuzeigen.

Auswirkungen auf SEO und Indexierung

Eine robots.txt-Blockade hat Vor- und Nachteile im SEO-Kontext. Positiv: Sie kann verhindern, dass Suchmaschinen unwichtige oder sensible Bereiche Ihrer Website crawlen. Das schont das Crawl-Budget – also die begrenzte Anzahl Seiten, die Google pro Besuch crawlt – und lenkt die Aufmerksamkeit auf die wirklich relevanten Inhalte. Klassische Beispiele zum Aussperren via robots.txt sind: Login-Bereiche, Warenkorb-/Checkout-Seiten, Paging-Varianten (z. B. endlose Filter-URLs in Shops) oder Duplicate-Content-Seiten (z. B. Druckversionen). Wenn solche Seiten vom Crawling ausgeschlossen sind, verschwenden Suchmaschinen keine Zeit darauf.

Negativ ist allerdings: Wenn Sie aus Versehen wichtige Seiten per robots.txt blockieren, verschenken Sie Sichtbarkeit. Google kann diese Seiten dann nicht mehr besuchen – selbst wenn sie in Ihrer Sitemap stehen oder gute Backlinks haben, bleiben sie unentdeckt. In der Google Search Console tauchen solche Fälle als Warnung „Indexed, though blocked by robots.txt“ bzw. auf Deutsch „Indexiert, obwohl durch robots.txt blockiert“ auf. Das heißt, Google kennt die Seite (oft durch externe Links oder Ihre interne Verlinkung) und listet sie eventuell, konnte die Inhalte aber nicht beurteilen. Schlimmstenfalls rankt die Seite dann schlecht oder erscheint mit veraltetem Titel/ohne Snippet, was Nutzer kaum zum Klicken animiert.

Außerdem verhindert eine robots.txt-Sperre, dass Google eventuelle Meta-Tags auf der Seite sieht. Das ist besonders heikel, wenn man versucht, eine Seite durch Kombination von Disallow + noindex aus dem Index zu nehmen. Dieser Fall passiert öfter, als man denkt: Aus Angst, interne Seiten könnten indexiert werden, tragen Webmaster sie in die robots.txt und versehen sie mit <meta name="robots" content="noindex">. Doch das klappt nicht – Google kann das Noindex-Tag nicht auslesen, weil die Seite ja gar nicht gecrawlt wird. Merke: Nie gleichzeitig via robots.txt sperren und via noindex löschen wollen. Entweder/oder – meist ist das noindex der zuverlässigere Weg, um eine Indexierung zu verhindern.

Sinnvoller Einsatz einer robots.txt-Blockade

Wann sollte man mit robots.txt arbeiten? Zum einen, wenn man Teile der Website hat, die definitiv nicht in Suchmaschinen auftauchen sollen, aber auch kein Geheimnis sind. Robots.txt ist öffentlich zugänglich – jeder kann sie einsehen. Sie eignet sich also nicht, um wirklich vertrauliche Inhalte zu schützen (dafür braucht es Passwortschutz). Aber sie ist ideal, um Crawler von technisch unnötigen oder doppelten Inhalten fernzuhalten:

Dynamische URLs & Filterseiten: Viele Websites – insbesondere Online-Shops – erzeugen durch Filter, Sortierungen oder interne Suchfunktionen zig URL-Varianten. Diese enthalten oft kaum eigenständigen Content und belasten das Crawl-Budget. Solche Seiten kann man guten Gewissens per robots.txt ausschließen, damit Google sich auf die Hauptseiten konzentriert.
Staging- und Testumgebungen: Wenn Ihre Website unter einer zweiten URL zu Testzwecken erreichbar ist (z. B. staging.meine-seite.de), sollten Sie diese nicht indexieren lassen. Eine robots.txt mit Disallow: / auf der Staging-Domain stellt sicher, dass Suchmaschinen diese Kopie nicht durchsuchen.
Interne Bereiche: Alles, was nur für Ihre Kunden oder Mitarbeiter gedacht ist (Login-Seiten, Backend, interne Suchen), gehört in der Regel per Disallow gesperrt. Diese Seiten bieten Suchenden keinen Mehrwert und würden nur „Ballast“ im Index darstellen.
Duplikate & Druckansichten: Gibt es für Seiten HTML- und PDF-Versionen oder mobile und Desktop-Varianten auf verschiedenen URLs, sollten die weniger wichtigen davon vom Crawling ausgeschlossen werden. So vermeiden Sie Duplicate Content in den Suchergebnissen.

Zusammengefasst: Die robots.txt ist ein grobes Steuerungsinstrument, um Crawler von bestimmten Pfaden fernzuhalten. Man sollte damit sparsam und gezielt umgehen. Alles, was indexiert werden soll, darf nicht durch robots.txt geblockt sein. Und was wirklich sicher nicht im Index landen soll, sollte zusätzlich mit noindex versehen oder per Zugriffsschutz gesichert werden, da robots.txt eben kein absoluter Schutz vor Indexierung ist.

Fehlerquellen vermeiden

Regeln prüfen: Es kommt vor, dass Einträge in der robots.txt falsch formuliert sind oder zu viel abdecken (Disallow: / blockiert z. B. die gesamte Seite!). Nutzen Sie Tools wie den Robots.txt-Tester in der Search Console, um zu testen, ob die gewünschten Seiten tatsächlich gesperrt oder freigegeben sind.
Nach dem Relaunch freischalten: Häufig wird während der Entwicklung einer neuen Website alles per robots.txt gesperrt, damit unfertige Seiten nicht indexiert werden. Nach dem Relaunch vergisst man aber manchmal, die Sperre aufzuheben. Aktualisieren Sie Ihre robots.txt nach größeren Änderungen, damit Google die neuen Inhalte crawlen kann.
Crawl-Budget vs. Indexierungsbedarf: Blockieren Sie nicht wahllos Seiten. Fragen Sie sich: Muss Google das sehen? Wenn nein, Disallow. Wenn doch (weil es SEO-relevante Inhalte sind), darf kein Disallow davorstehen. Notfalls kann man die Crawling-Last auch über die Crawl-Rate in der Search Console steuern, statt Inhalte zu verstecken.

Fazit: Eine robots.txt-Blockade ist ein nützliches SEO-Werkzeug, um Suchmaschinen effizient zu lenken – jedoch mit Augenmaß einzusetzen. Verhindern Sie Crawling nur dort, wo es wirklich unerwünscht oder unnötig ist. Für alle wichtigen Seiten gilt: Sie müssen von den Crawlern gelesen werden dürfen, sonst können sie nicht optimal ranken. Wenn Sie verstehen, wann Disallow oder noindex zu benutzen ist, vermeiden Sie Indexierungsprobleme und steuern die Sichtbarkeit Ihrer Website gezielt.

Haben Sie den Verdacht, dass wichtige Inhalte durch Ihre robots.txt ausgebremst werden? Kontaktieren Sie mich – ich unterstütze Sie gerne dabei.

Alexander Hacke, Inhaber

Kontakt aufnehmen 06182 8958560‬