Die Forum- und Social-Media-Plattform
Reddit wehrt sich einmal mehr gegen das automatisierte Abgreifen von Daten zum Zweck des KI-Trainings. Nun sperrt Reddit sogar die Waybackmachine von Internet Archive aus, wie "The Verge"
berichtet. Damit will man datenhungrige KI-Unternehmen davon abhalten, sich die Daten über die Hintertür der Waybackmachine herunterzuladen.
Der aktuelle Schritt scheint recht rabiat, aber auch naheliegend: Denn Reddit verkauft seit geraumer Zeit den Zugang zu seinen Daten an KI-Firmen für gutes Geld.
Google etwa
bezahlt der Plattform jährlich 60 Millionen Dollar, um die Daten für Gemini & Co. nutzen zu dürfen. Auch
OpenAI hat angeblich einen vergleichbaren Deal. Andere, wie
Anthropic,
werden ausgeschlossen, bis sie gewillt sind, Geld in die Hand zu nehmen.
Weil die zahlreichen Reddit-Posts mit teils hunderten kontextbezogenen Antworten fürs KI-Training durchaus nützlich sind, sperrt
Reddit die Scraper von nichtbezahlenden KI-Unternehmen bereits seit geraumer Zeit aus. Offenbar konnten findige KI-Firmen diese Sperre aber über mehrere Monate hinweg umgehen, indem man stattdessen einfach die von Internet Archive gesammelten Reddit-Threads abgraste.
Komplett ausgesperrt ist die Waybackmachine übrigens nicht – immerhin die Frontseite mit den beliebtesten Beiträgen wird weiter archiviert. Auch, so Reddit gegenüber "The Verge", gelte die Sperre, "bis sie in der Lage sind, ihre Website zu verteidigen und die Richtlinien der Plattform einzuhalten". Wenn KI-Scraper bei Waybackmachine zuverlässig ausgeschlossen werden könnten, wäre das erneute Aufnehmen der Archivierungsarbeiten also wohl wieder möglich.
(win)