Reddit sperrt Waybackmachine aus

Das Internet-Archiv Waybackmachine wird fortan keine Reddit-Threads mehr archivieren. Grund ist, dass KI-Scraper Waybackmachine als Hintertür genutzt hatten, um die eigentlich kostenpflichtigen Daten abzugreifen.

12. August 2025

Swiss IT Magazine bei
Google bevorzugen

Die Forum- und Social-Media-Plattform Reddit wehrt sich einmal mehr gegen das automatisierte Abgreifen von Daten zum Zweck des KI-Trainings. Nun sperrt Reddit sogar die Waybackmachine von Internet Archive aus, wie "The Verge" berichtet. Damit will man datenhungrige KI-Unternehmen davon abhalten, sich die Daten über die Hintertür der Waybackmachine herunterzuladen.

Der aktuelle Schritt scheint recht rabiat, aber auch naheliegend: Denn Reddit verkauft seit geraumer Zeit den Zugang zu seinen Daten an KI-Firmen für gutes Geld. Google etwa bezahlt der Plattform jährlich 60 Millionen Dollar, um die Daten für Gemini & Co. nutzen zu dürfen. Auch OpenAI hat angeblich einen vergleichbaren Deal. Andere, wie Anthropic, werden ausgeschlossen, bis sie gewillt sind, Geld in die Hand zu nehmen.

Weil die zahlreichen Reddit-Posts mit teils hunderten kontextbezogenen Antworten fürs KI-Training durchaus nützlich sind, sperrt Reddit die Scraper von nichtbezahlenden KI-Unternehmen bereits seit geraumer Zeit aus. Offenbar konnten findige KI-Firmen diese Sperre aber über mehrere Monate hinweg umgehen, indem man stattdessen einfach die von Internet Archive gesammelten Reddit-Threads abgraste.

Komplett ausgesperrt ist die Waybackmachine übrigens nicht – immerhin die Frontseite mit den beliebtesten Beiträgen wird weiter archiviert. Auch, so Reddit gegenüber "The Verge", gelte die Sperre, "bis sie in der Lage sind, ihre Website zu verteidigen und die Richtlinien der Plattform einzuhalten". Wenn KI-Scraper bei Waybackmachine zuverlässig ausgeschlossen werden könnten, wäre das erneute Aufnehmen der Archivierungsarbeiten also wohl wieder möglich. (win)