Google möchte, dass das Robots Exclusion Protocol (REP) zum offiziellen Standard erklärt wird. Dazu hat das Unternehmen bei der Internet Engineering Task Force (IETF) einen Vorschlag als RFC (Request for Comments) eingereicht. Darüber hinaus hat
Google den Code seines robots.txt-Parsers als Open Source veröffentlicht.
Das REP gibt es seit 25 Jahren, als der Software-Entwickler Martijn Koster auf die Idee kam, Regeln für Webcrawler auf dem Webserver in einem separaten File unter dem Namen robots.txt abzulegen. Es gilt zwar seit 1994 als De-facto-Standard, wurde aber nie als offizieller Internet-Standard verabschiedet. Dies will Google nun ändern, wie einem
Blogbeitrag zu entnehmen ist.
Die RFC-Vorschläge, die Google zusammen mit Webmastern, anderen Suchanbietern und dem ursprünglichen Entwickler Koster formuliert und bei der IETF eingereicht hat, basieren auf den über 20 Jahren Erfahrung mit robots.txt, bringen aber auch Neuerungen. So soll REP nicht nur für HTTP, sondern auch für FTP oder das IoT-Protokoll CoAP genutzt werden können, und es müssen mindestens die ersten 500 Kibibytes (eine andere Bezeichnung für Kilobytes) der robots.txt-Datei geparst werden. Dies legt implizit eine Maximalgrösse fest (bei mehr als 500 Kibibytes ist nicht gewährleistet, dass alles geparst wird), so dass die Verbindung nicht übermässig lang offen gehalten und der Webserver entlastet wird.
Den Code für den hauseigenen robots.txt-Parser hat Google auf Github
veröffentlicht, zusammen mit einem Tool, mit dem ein lokales robots.txt-File gegenüber einer Kombination von User Agent und URL getestet werden kann. Der Parser und die zugehörige C++-Bibliothek sind unter der Apache-Lizenz freigegeben.
(ubi)