Um ihre KI-Modelle zu trainieren, brauchen deren Entwickler vor allem eines: Daten in rauen Mengen. Um an diese zu kommen, werden teils beachtliche Summen gezahlt, wie
etwa im Rahmen des Deals zwischen Google und Reddit. Der Suchriese lässt seit dem Frühjahr 2024 jährlich 60 Millionen Dollar springen, um an die Daten der Plattform zu kommen. Klar ist auch, dass die Crawler aller, die nicht bezahlen, ausgesperrt werden.
Einzelne KI-Spezialisten scheinen solche Blockaden jedoch aktiv zu umgehen, wie
ein aktueller Bericht des Security- und DNS-Anbieters
Cloudflare zeigt. In diesem wird KI-Anbieter Perpflexity der Einsatz von nicht deklarierten "Stealth Crawlern" vorgeworfen. Sobald ein deklarierter Perplexity-Bot auf einen Block stosse, wird laut Cloudflare ein neuer Versuch gestartet. Bei diesem komme der Crawler dann modifiziert und verschleiert daher und transportiere die Daten gegen den Willen der Betreiber der Website ab. So werde die IP des Crawlers etwa auf eine geändert, die ausserhalb der offiziellen IP-Range von Perplexity liegt.
Cloudflare pocht im Bericht darauf, dass man sich auf Transparenz verlassen können müsse, und fordert, dass Crawler künftig klar gekennzeichnet werden.
Mit einer neuer Strategie versucht
Cloudflare nun, auch die verschleierten Crawler zu blocken. Im Bericht wird aber auch klargestellt, dass einzelne KI-Anbieter wohl auf weitere Tricks zurückgreifen werden, damit ihre Crawler auch in Zukunft an den Blockaden vorbeikommen und man daher am Ball bleiben müsse.
(win)