Was ist Robots.txt?
Robots.txt ist eine Textdatei, die Webmaster erstellen, um Crawling-Anweisungen für Benutzer-Agenten, in der Regel Suchmaschinen-Roboter, bereitzustellen. Die robots.txt-Dateien enthalten Richtlinien darüber, welche Teile Ihrer Website von Web-Robotern gecrawlt werden können und welche nicht gecrawlt werden sollen, indem das Verhalten bestimmter User-Agents zugelassen oder untersagt wird. Sie enthält auch Anweisungen, wie Suchmaschinen die auf einer Webseite gefundenen Links behandeln sollen, einschließlich Follow- und Nofollow-Links.
Eine robots-Datei kann mehrere Zeilen mit User-Agents und Richtlinien enthalten. Seien Sie jedoch vorsichtig, denn das Hinzufügen der falschen Richtlinien kann Suchmaschinen daran hindern, Ihre Seiten zu crawlen, und sich negativ auf Ihr Ranking auswirken. Eine robots.txt-Datei muss außerdem im Top-Level-Verzeichnis oder in der Root-Domain einer Website platziert werden, damit sie von User-Agents entdeckt werden kann. Andernfalls wird die Website so behandelt, als hätte sie gar keine robots-Datei. Robots.txt-Dateien steuern den Zugriff von Benutzeragenten auf bestimmte Bereiche Ihrer Website. Eine robots.txt-Datei kann jedoch nur Anweisungen für Bots bereitstellen, aber diese Anweisungen nicht tatsächlich durchsetzen. Das bedeutet, dass bösartige Bots, wie z. B. Malware-Roboter oder E-Mail-Adressen-Scraper, Ihre robots.txt-Datei ignorieren können.