Google publiziert seinen robots.txt-Parser als Open Source
Quelle: Pixabay/alluregraphicdesign

Google publiziert seinen robots.txt-Parser als Open Source

Das Robots Exclusion Protocol (REP), bekannter unter dem Namen robots.txt, soll zum offiziellen Internet-Standard werden. Um dies voranzutreiben, hat Google bei der IETF einen RFC eingereicht und den Code für seinen robotx.txt-Parser als Open Source veröffentlicht.
3. Juli 2019

     

Google möchte, dass das Robots Exclusion Protocol (REP) zum offiziellen Standard erklärt wird. Dazu hat das Unternehmen bei der Internet Engineering Task Force (IETF) einen Vorschlag als RFC (Request for Comments) eingereicht. Darüber hinaus hat Google den Code seines robots.txt-Parsers als Open Source veröffentlicht.

Das REP gibt es seit 25 Jahren, als der Software-Entwickler Martijn Koster auf die Idee kam, Regeln für Webcrawler auf dem Webserver in einem separaten File unter dem Namen robots.txt abzulegen. Es gilt zwar seit 1994 als De-facto-Standard, wurde aber nie als offizieller Internet-Standard verabschiedet. Dies will Google nun ändern, wie einem Blogbeitrag zu entnehmen ist.


Die RFC-Vorschläge, die Google zusammen mit Webmastern, anderen Suchanbietern und dem ursprünglichen Entwickler Koster formuliert und bei der IETF eingereicht hat, basieren auf den über 20 Jahren Erfahrung mit robots.txt, bringen aber auch Neuerungen. So soll REP nicht nur für HTTP, sondern auch für FTP oder das IoT-Protokoll CoAP genutzt werden können, und es müssen mindestens die ersten 500 Kibibytes (eine andere Bezeichnung für Kilobytes) der robots.txt-Datei geparst werden. Dies legt implizit eine Maximalgrösse fest (bei mehr als 500 Kibibytes ist nicht gewährleistet, dass alles geparst wird), so dass die Verbindung nicht übermässig lang offen gehalten und der Webserver entlastet wird.

Den Code für den hauseigenen robots.txt-Parser hat Google auf Github veröffentlicht, zusammen mit einem Tool, mit dem ein lokales robots.txt-File gegenüber einer Kombination von User Agent und URL getestet werden kann. Der Parser und die zugehörige C++-Bibliothek sind unter der Apache-Lizenz freigegeben. (ubi)


Weitere Artikel zum Thema

Internetauftritt für Googles OS Fuchsia ist online

2. Juli 2019 - Google hat eine Entwickler-Website für sein Open-Source-Betriebssystem Fuchsia online geschaltet. Auch der Source Code ist dort einsehbar.

Chrome OS 75 erlaubt Einbindung von alternativen Clouddiensten

26. Juni 2019 - Chrome OS 75 steht vor der Tür. Eine interessante Neuerung dürfte die Einbindung von anderen Clouddiensten in die File App sein. Bislang konnte man damit nur auf Files in Google Drive zugreifen.

Internet Archive ignoriert in Zukunft Robots.txt

25. April 2017 - Das Internet-Archiv will in Zukunft die Robots.txt-Datei von Webseiten nicht mehr beachten. Die Datei stehe einer echten Archivierung des Internets aus Nutzersicht entgegen.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Wie hiess im Märchen die Schwester von Hänsel?
GOLD SPONSOREN
SPONSOREN & PARTNER