Google publiziert seinen robots.txt-Parser als Open Source

von Urs Binder

3. Juli 2019 - Das Robots Exclusion Protocol (REP), bekannter unter dem Namen robots.txt, soll zum offiziellen Internet-Standard werden. Um dies voranzutreiben, hat Google bei der IETF einen RFC eingereicht und den Code für seinen robotx.txt-Parser als Open Source veröffentlicht.

Google möchte, dass das Robots Exclusion Protocol (REP) zum offiziellen Standard erklärt wird. Dazu hat das Unternehmen bei der Internet Engineering Task Force (IETF) einen Vorschlag als RFC (Request for Comments) eingereicht. Darüber hinaus hat Google den Code seines robots.txt-Parsers als Open Source veröffentlicht.

Das REP gibt es seit 25 Jahren, als der Software-Entwickler Martijn Koster auf die Idee kam, Regeln für Webcrawler auf dem Webserver in einem separaten File unter dem Namen robots.txt abzulegen. Es gilt zwar seit 1994 als De-facto-Standard, wurde aber nie als offizieller Internet-Standard verabschiedet. Dies will Google nun ändern, wie einem Blogbeitrag zu entnehmen ist.

Die RFC-Vorschläge, die Google zusammen mit Webmastern, anderen Suchanbietern und dem ursprünglichen Entwickler Koster formuliert und bei der IETF eingereicht hat, basieren auf den über 20 Jahren Erfahrung mit robots.txt, bringen aber auch Neuerungen. So soll REP nicht nur für HTTP, sondern auch für FTP oder das IoT-Protokoll CoAP genutzt werden können, und es müssen mindestens die ersten 500 Kibibytes (eine andere Bezeichnung für Kilobytes) der robots.txt-Datei geparst werden. Dies legt implizit eine Maximalgrösse fest (bei mehr als 500 Kibibytes ist nicht gewährleistet, dass alles geparst wird), so dass die Verbindung nicht übermässig lang offen gehalten und der Webserver entlastet wird.

Den Code für den hauseigenen robots.txt-Parser hat Google auf Github veröffentlicht, zusammen mit einem Tool, mit dem ein lokales robots.txt-File gegenüber einer Kombination von User Agent und URL getestet werden kann. Der Parser und die zugehörige C++-Bibliothek sind unter der Apache-Lizenz freigegeben.

Copyright by Swiss IT Media GmbH / 2024