Internet Archive ignoriert in Zukunft Robots.txt

Das Internet-Archiv will in Zukunft die Robots.txt-Datei von Webseiten nicht mehr beachten. Die Datei stehe einer echten Archivierung des Internets aus Nutzersicht entgegen.

25. April 2017

Swiss IT Magazine bei
Google bevorzugen

Das Internet Archive hat bekannt gegeben, künftig Einträge in Robots.txt nicht mehr zu beachten. Die Datei, welche Instruktionen zum Umgang von Crawlern mit Webseiten enthält, diene, so das Projekt, "nicht notwendigerweise unseren archivarischen Zwecken." So hätten Robots.txt-Einträge auf archivierten Webseiten immer wieder dazu geführt, dass die Webseiten aus der "Wayback Machine" des Internet Archive herausfallen, einem Service, der es Nutzern erlaubt, Kopien von Webseiten aufzurufen, welche durch das Internet Archive gespeichert wurden.

Das Projekt hatte bereits vor einigen Monaten aufgehört, Robots.txt auf Seiten der US-Regierung und der US-Militärs zu betrachten. Nun soll Robots.txt auch bei anderen Webseiten nicht mehr beachtet werden. Das Ziel des Internet-Archivs ist das Erstellen von kompletten Snapshots von Webseiten, was auch Inhalte einschliesst, welche von Suchmaschinen ignoriert werden, wie etwa doppelt vorhandene Inhalte oder grössere Dateien. "Wir sehen, dass die Zukunft der Webarchivierung sich weniger auf die Deklaration der Robot.txt-Datei verlässt, die eher auf Suchmaschinen zielt, sondern das Web so abbildet, wie es wirklich war – aus Nutzersicht", so das Projekt.

Die Robots.txt ist eine Textdatei, durch welche Webseitenbetreiber Instruktionen an Suchmaschinen-Crawler geben können. Dadurch lassen sich zum Beispiele Teile oder auch ganze Webseiten von der Suche ausschliessen. Robots.txt ist kein verbindlicher Standard, sondern eine Konvention, welche jedoch von den meisten grossen Suchmaschinenbetreibern beachtet wird. (swe)

Internet Archive stellt über 1000 Windows-3.1-Anwendungen bereit

17. Februar 2016 - Das Internet Archive hat mehr als 1000 Anwendungen bereitgestellt, die unter Windows 3.1 laufen und die direkt im Browser dank Emulator genutzt werden können.

Artikel kommentieren

Advertorial

Internet Archive ignoriert in Zukunft Robots.txt

Internet Archive stellt über 1000 Windows-3.1-Anwendungen bereit

AI braucht den Kundenkontext

Warum Endpoint-Transparenz zum Steuerungsfaktor wird

Auswirkungen von AI-DLC auf die Zusammensetzung technischer Teams

Kundennutzen im Fokus: AI-Strategie bei Opacc

Agentic AI: Gesteuerte Autonomie als Erfolgsfaktor

KI im Kundendialog: Der erste Schritt ist näher als Sie denken