cnt
Reddit sperrt Waybackmachine aus
Quelle: Depositphotos

Reddit sperrt Waybackmachine aus

Das Internet-Archiv Waybackmachine wird fortan keine Reddit-Threads mehr archivieren. Grund ist, dass KI-Scraper Waybackmachine als Hintertür genutzt hatten, um die eigentlich kostenpflichtigen Daten abzugreifen.
12. August 2025

     

Die Forum- und Social-Media-Plattform Reddit wehrt sich einmal mehr gegen das automatisierte Abgreifen von Daten zum Zweck des KI-Trainings. Nun sperrt Reddit sogar die Waybackmachine von Internet Archive aus, wie "The Verge" berichtet. Damit will man datenhungrige KI-Unternehmen davon abhalten, sich die Daten über die Hintertür der Waybackmachine herunterzuladen.


Der aktuelle Schritt scheint recht rabiat, aber auch naheliegend: Denn Reddit verkauft seit geraumer Zeit den Zugang zu seinen Daten an KI-Firmen für gutes Geld. Google etwa bezahlt der Plattform jährlich 60 Millionen Dollar, um die Daten für Gemini & Co. nutzen zu dürfen. Auch OpenAI hat angeblich einen vergleichbaren Deal. Andere, wie Anthropic, werden ausgeschlossen, bis sie gewillt sind, Geld in die Hand zu nehmen.
Weil die zahlreichen Reddit-Posts mit teils hunderten kontextbezogenen Antworten fürs KI-Training durchaus nützlich sind, sperrt Reddit die Scraper von nichtbezahlenden KI-Unternehmen bereits seit geraumer Zeit aus. Offenbar konnten findige KI-Firmen diese Sperre aber über mehrere Monate hinweg umgehen, indem man stattdessen einfach die von Internet Archive gesammelten Reddit-Threads abgraste.


Komplett ausgesperrt ist die Waybackmachine übrigens nicht – immerhin die Frontseite mit den beliebtesten Beiträgen wird weiter archiviert. Auch, so Reddit gegenüber "The Verge", gelte die Sperre, "bis sie in der Lage sind, ihre Website zu verteidigen und die Richtlinien der Plattform einzuhalten". Wenn KI-Scraper bei Waybackmachine zuverlässig ausgeschlossen werden könnten, wäre das erneute Aufnehmen der Archivierungsarbeiten also wohl wieder möglich. (win)


Weitere Artikel zum Thema

Reddit verklagt Anthropic wegen Page-Nutzung durch KI

5. Juni 2025 - Weil Anthropic sich ohne Einigung mit Reddit weiterhin an den Daten der Website vergreift, hat Reddit Klage eingereicht. Eine vorgängige Einigung konnte nicht erzielt werden.

Reddit sperrt Suchmaschinen aus - ausser Google

25. Juli 2024 - Reddit möchte von Unternehmen, welche mit Reddit-Content ihre KI trainieren, Lizenzgebühren sehen. Darum werden aktuell zahlreiche Crawler ausgeschlossen, auch solche von Suchmaschinen. Ausgenommen ist Google.

Google nutzt Reddit-Content für AI-Training

23. Februar 2024 - Für rund 60 Millionen Dollar jährlich stellt Reddit Google Daten aus seiner Plattform der KI von Google zu Trainingszwecken zur Verfügung. Konkreten Angaben verweigern beide beteiligten Parteien.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Wie hiess im Märchen die Schwester von Hänsel?
GOLD SPONSOREN
SPONSOREN & PARTNER