robots.txt

Die robots.txt ist eine Textdatei im Root-Verzeichnis einer Website (z. B. example.com/robots.txt) und dient dazu, Suchmaschinen-Crawlern Anweisungen zu geben, welche Seiten oder Verzeichnisse sie crawlen dürfen – oder eben nicht.

Einfaches Beispiel:

				
					User-agent: *
Disallow: /intern/
				
			

→ Diese Anweisung sagt allen Crawlern, dass der Ordner /intern/ nicht gecrawlt werden soll.

Wichtig: Die robots.txt verhindert nicht das Indexieren einer Seite – sie hindert Crawler nur am Besuch. Seiten können dennoch im Index erscheinen, wenn sie z. B. von außen verlinkt werden. Wer Inhalte vollständig aus den Suchergebnissen entfernen will, sollte zusätzlich mit dem Meta-Tag noindex arbeiten.

Warum ist das wichtig?

Die robots.txt steuert das Crawling-Verhalten, schützt sensible Bereiche vor unnötigem Bot-Zugriff und hilft dabei, das Crawl-Budget effizient einzusetzen – besonders bei großen Websites.