cnt
Perplexity soll mit getarnten Crawlern unerlaubt Daten abgreifen
Quelle: Depositphotos

Perplexity soll mit getarnten Crawlern unerlaubt Daten abgreifen

Eine Untersuchung zeigt, dass KI-Anbieter Perplexity mit Tricksereien Daten von Websites crawlt, auch wenn diese das Crawling eigentlich verbieten.
5. August 2025

     

Um ihre KI-Modelle zu trainieren, brauchen deren Entwickler vor allem eines: Daten in rauen Mengen. Um an diese zu kommen, werden teils beachtliche Summen gezahlt, wie etwa im Rahmen des Deals zwischen Google und Reddit. Der Suchriese lässt seit dem Frühjahr 2024 jährlich 60 Millionen Dollar springen, um an die Daten der Plattform zu kommen. Klar ist auch, dass die Crawler aller, die nicht bezahlen, ausgesperrt werden.


Einzelne KI-Spezialisten scheinen solche Blockaden jedoch aktiv zu umgehen, wie ein aktueller Bericht des Security- und DNS-Anbieters Cloudflare zeigt. In diesem wird KI-Anbieter Perpflexity der Einsatz von nicht deklarierten "Stealth Crawlern" vorgeworfen. Sobald ein deklarierter Perplexity-Bot auf einen Block stosse, wird laut Cloudflare ein neuer Versuch gestartet. Bei diesem komme der Crawler dann modifiziert und verschleiert daher und transportiere die Daten gegen den Willen der Betreiber der Website ab. So werde die IP des Crawlers etwa auf eine geändert, die ausserhalb der offiziellen IP-Range von Perplexity liegt.
Cloudflare pocht im Bericht darauf, dass man sich auf Transparenz verlassen können müsse, und fordert, dass Crawler künftig klar gekennzeichnet werden.

Mit einer neuer Strategie versucht Cloudflare nun, auch die verschleierten Crawler zu blocken. Im Bericht wird aber auch klargestellt, dass einzelne KI-Anbieter wohl auf weitere Tricks zurückgreifen werden, damit ihre Crawler auch in Zukunft an den Blockaden vorbeikommen und man daher am Ball bleiben müsse. (win)


Weitere Artikel zum Thema

Reddit verklagt Anthropic wegen Page-Nutzung durch KI

5. Juni 2025 - Weil Anthropic sich ohne Einigung mit Reddit weiterhin an den Daten der Website vergreift, hat Reddit Klage eingereicht. Eine vorgängige Einigung konnte nicht erzielt werden.

Ebay trainiert KI mit Kundendaten

23. April 2025 - Ebay hat seine Datenschutzerklärung dahingehend aktualisiert, dass personenbezogene Nutzerdaten zum Trainieren der KI verwendet werden können.

Reddit sperrt Suchmaschinen aus - ausser Google

25. Juli 2024 - Reddit möchte von Unternehmen, welche mit Reddit-Content ihre KI trainieren, Lizenzgebühren sehen. Darum werden aktuell zahlreiche Crawler ausgeschlossen, auch solche von Suchmaschinen. Ausgenommen ist Google.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Aus welcher Stadt stammten die Bremer Stadtmusikanten?
GOLD SPONSOREN
SPONSOREN & PARTNER