- Seit 25 Jahren ist REP als Draft-Mode verfügbar
- Google möchte REP zum Internet-Standard machen
- Jede Suchmaschine hat hierzu unterschiedliche Varianten implementiert
Im allgemeinen geht es darum, nicht dokumentierte Szenarien festzuhalten:
- Jedes Übertragungsprotokoll, das auf URIs (Uniform Resource Identifiern) basiert, kann eine robots.txt verwenden. Dazu gehört nicht nur HTTP, sondern zum Beispiel auch FTP oder CoAP.
- Entwickler / Suchmaschinen müssen mindestens 500 Kilobytes einer robots.txt parsen.
- Eine neue maximale Obegrenze für das Caching von 24 Stunden gibt Webseitenbetreibern die Möglichkeit, ihre robots.txt flexibel anzupassen. Gleichzeitig überfordern Crawler die Websites nicht mit Anfragen an die robots.txt.
- Wenn eine zuvor verfügbare robots.txt auf einmal nicht mehr abgerufen werden kann, werden Seiten, die zuvor "disallowed" waren, für einen angemessenen Zeitraum weiterhin nicht gecrawlt.
- Google folgt fünf Redirect-Hops.
- Für 5xx, wenn die robots.txt länger als 30 Tage nicht erreichbar ist, wird die letzte zwischengespeicherte Kopie der robots.txt verwendet, oder wenn sie nicht verfügbar ist, geht Google davon aus, dass es keine Crawlbeschränkungen gibt.
- Google behandelt erfolglose Anfragen oder unvollständige Daten als Serverfehler. Quelle
- Noindex, nofollow & crawl-delay in robots.txt wird nicht mehr berücksichtigt Quelle
Google veröffentlicht seinen robots.txt Crawler: https://github.com/google/robotstxt
robots_main <robots.txt content> <user_agent> <url>