Skip to content

Instantly share code, notes, and snippets.

@mindbreaker
Last active July 8, 2019 09:03
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save mindbreaker/ac92f352a931b17936d184e4c7df4443 to your computer and use it in GitHub Desktop.
Save mindbreaker/ac92f352a931b17936d184e4c7df4443 to your computer and use it in GitHub Desktop.

Robots Exclusion Protocol

  • Seit 25 Jahren ist REP als Draft-Mode verfügbar
  • Google möchte REP zum Internet-Standard machen
  • Jede Suchmaschine hat hierzu unterschiedliche Varianten implementiert

Im allgemeinen geht es darum, nicht dokumentierte Szenarien festzuhalten:

  • Jedes Übertragungsprotokoll, das auf URIs (Uniform Resource Identifiern) basiert, kann eine robots.txt verwenden. Dazu gehört nicht nur HTTP, sondern zum Beispiel auch FTP oder CoAP.
  • Entwickler / Suchmaschinen müssen mindestens 500 Kilobytes einer robots.txt parsen.
  • Eine neue maximale Obegrenze für das Caching von 24 Stunden gibt Webseitenbetreibern die Möglichkeit, ihre robots.txt flexibel anzupassen. Gleichzeitig überfordern Crawler die Websites nicht mit Anfragen an die robots.txt.
  • Wenn eine zuvor verfügbare robots.txt auf einmal nicht mehr abgerufen werden kann, werden Seiten, die zuvor "disallowed" waren, für einen angemessenen Zeitraum weiterhin nicht gecrawlt.
  • Google folgt fünf Redirect-Hops.
  • Für 5xx, wenn die robots.txt länger als 30 Tage nicht erreichbar ist, wird die letzte zwischengespeicherte Kopie der robots.txt verwendet, oder wenn sie nicht verfügbar ist, geht Google davon aus, dass es keine Crawlbeschränkungen gibt.
  • Google behandelt erfolglose Anfragen oder unvollständige Daten als Serverfehler. Quelle
  • Noindex, nofollow & crawl-delay in robots.txt wird nicht mehr berücksichtigt Quelle

Google veröffentlicht seinen robots.txt Crawler: https://github.com/google/robotstxt

robots_main <robots.txt content> <user_agent> <url>
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment