Google publiziert seinen robots.txt-Parser als Open Source

Google publiziert seinen robots.txt-Parser als Open Source

(Quelle: Pixabay/alluregraphicdesign)
3. Juli 2019 -  Das Robots Exclusion Protocol (REP), bekannter unter dem Namen robots.txt, soll zum offiziellen Internet-Standard werden. Um dies voranzutreiben, hat Google bei der IETF einen RFC eingereicht und den Code für seinen robotx.txt-Parser als Open Source veröffentlicht.
Google möchte, dass das Robots Exclusion Protocol (REP) zum offiziellen Standard erklärt wird. Dazu hat das Unternehmen bei der Internet Engineering Task Force (IETF) einen Vorschlag als RFC (Request for Comments) eingereicht. Darüber hinaus hat Google den Code seines robots.txt-Parsers als Open Source veröffentlicht.

Das REP gibt es seit 25 Jahren, als der Software-Entwickler Martijn Koster auf die Idee kam, Regeln für Webcrawler auf dem Webserver in einem separaten File unter dem Namen robots.txt abzulegen. Es gilt zwar seit 1994 als De-facto-Standard, wurde aber nie als offizieller Internet-Standard verabschiedet. Dies will Google nun ändern, wie einem Blogbeitrag zu entnehmen ist.

Die RFC-Vorschläge, die Google zusammen mit Webmastern, anderen Suchanbietern und dem ursprünglichen Entwickler Koster formuliert und bei der IETF eingereicht hat, basieren auf den über 20 Jahren Erfahrung mit robots.txt, bringen aber auch Neuerungen. So soll REP nicht nur für HTTP, sondern auch für FTP oder das IoT-Protokoll CoAP genutzt werden können, und es müssen mindestens die ersten 500 Kibibytes (eine andere Bezeichnung für Kilobytes) der robots.txt-Datei geparst werden. Dies legt implizit eine Maximalgrösse fest (bei mehr als 500 Kibibytes ist nicht gewährleistet, dass alles geparst wird), so dass die Verbindung nicht übermässig lang offen gehalten und der Webserver entlastet wird.

Den Code für den hauseigenen robots.txt-Parser hat Google auf Github veröffentlicht, zusammen mit einem Tool, mit dem ein lokales robots.txt-File gegenüber einer Kombination von User Agent und URL getestet werden kann. Der Parser und die zugehörige C++-Bibliothek sind unter der Apache-Lizenz freigegeben. (ubi)
Weitere Artikel zum Thema
 • Internetauftritt für Googles OS Fuchsia ist online
 • Chrome OS 75 erlaubt Einbindung von alternativen Clouddiensten
 • Internet Archive ignoriert in Zukunft Robots.txt

Vorherige News
 
Nächste News

Neuen Kommentar erfassen

Kommentare werden vor der Freischaltung durch die Redaktion geprüft.
Anti-Spam-Frage Wieviele Zwerge traf Schneewittchen im Wald?
Antwort
Name
E-Mail
NEWSLETTER ABONNIEREN
Abonnieren Sie unseren täglichen Newsletter mit den wichtigsten ICT-Meldungen
SWISS IT MAGAZINE - AUSGABE 2019/12
Schwerpunkt: Software-Bereitstellung, Apps und Packaging
• Alles einfacher machen: Software-Paketierung
• Software-Paketierung - Pain or gain
• "Paketierung wird es nach wie vor brauchen"
• Knappe Ressourcen, maximale Automatisierung
• Software-Packaging in der Schweiz
Zum Inhaltsverzeichnis
SPONSOREN & PARTNER