Perplexity soll mit getarnten Crawlern unerlaubt Daten abgreifen

Eine Untersuchung zeigt, dass KI-Anbieter Perplexity mit Tricksereien Daten von Websites crawlt, auch wenn diese das Crawling eigentlich verbieten.

5. August 2025

Swiss IT Magazine bei
Google bevorzugen

Um ihre KI-Modelle zu trainieren, brauchen deren Entwickler vor allem eines: Daten in rauen Mengen. Um an diese zu kommen, werden teils beachtliche Summen gezahlt, wie etwa im Rahmen des Deals zwischen Google und Reddit. Der Suchriese lässt seit dem Frühjahr 2024 jährlich 60 Millionen Dollar springen, um an die Daten der Plattform zu kommen. Klar ist auch, dass die Crawler aller, die nicht bezahlen, ausgesperrt werden.

Einzelne KI-Spezialisten scheinen solche Blockaden jedoch aktiv zu umgehen, wie ein aktueller Bericht des Security- und DNS-Anbieters Cloudflare zeigt. In diesem wird KI-Anbieter Perpflexity der Einsatz von nicht deklarierten "Stealth Crawlern" vorgeworfen. Sobald ein deklarierter Perplexity-Bot auf einen Block stosse, wird laut Cloudflare ein neuer Versuch gestartet. Bei diesem komme der Crawler dann modifiziert und verschleiert daher und transportiere die Daten gegen den Willen der Betreiber der Website ab. So werde die IP des Crawlers etwa auf eine geändert, die ausserhalb der offiziellen IP-Range von Perplexity liegt.

Cloudflare pocht im Bericht darauf, dass man sich auf Transparenz verlassen können müsse, und fordert, dass Crawler künftig klar gekennzeichnet werden.

Mit einer neuer Strategie versucht Cloudflare nun, auch die verschleierten Crawler zu blocken. Im Bericht wird aber auch klargestellt, dass einzelne KI-Anbieter wohl auf weitere Tricks zurückgreifen werden, damit ihre Crawler auch in Zukunft an den Blockaden vorbeikommen und man daher am Ball bleiben müsse. (win)

Advertorial

Perplexity soll mit getarnten Crawlern unerlaubt Daten abgreifen

Reddit verklagt Anthropic wegen Page-Nutzung durch KI

Ebay trainiert KI mit Kundendaten

Reddit sperrt Suchmaschinen aus - ausser Google

AI braucht den Kundenkontext

Warum Endpoint-Transparenz zum Steuerungsfaktor wird

Auswirkungen von AI-DLC auf die Zusammensetzung technischer Teams

Kundennutzen im Fokus: AI-Strategie bei Opacc

Agentic AI: Gesteuerte Autonomie als Erfolgsfaktor

KI im Kundendialog: Der erste Schritt ist näher als Sie denken