Im Netzwerk von Cloudflare kam es gestern zu deutlichen Störungen, weil eine defekte Konfigurationsdatei im Bot-Schutz-System Teile des Datenverkehrs blockierte und vielen Nutzerinnen und Nutzern statt der gewünschten Website eine Cloudflare-Fehlerseite angezeigt wurde (Swiss IT Magazine
berichtete). In einem technischen
Bericht erklärt
Cloudflare, dass eine Anpassung der Berechtigungen in einem Datenbanksystem dazu führte, dass zusätzliche Einträge in eine sogenannte Feature-Datei geschrieben wurden, die Datei dadurch etwa doppelt so gross wurde und in dieser Form an alle Server im Netzwerk verteilt wurde. Da die Weiterleitungssoftware im Kernnetz eine kleinere Maximalgrösse für diese Datei hinterlegt hatte, löste die übergrosse Datei einen Softwarefehler aus.
Nach Angaben von Cloudflare wird diese Feature-Datei alle fünf Minuten automatisch von einem Clickhouse-Cluster erzeugt, also einer Gruppe von Datenbankservern, die gemeinsam Anfragen auswerten. Während der laufenden Aktualisierung dieses Clusters entstanden zeitweise korrekte und zeitweise fehlerhafte Versionen der Datei, die im Fünf-Minuten-Takt im Netzwerk landeten und ein Auf und Ab bei den HTTP-5xx-Fehlern auslösten, was intern zunächst wie ein möglicher DDoS-Angriff ausgesehen habe. Cloudflare stoppte schliesslich die Generierung der fehlerhaften Datei, spielte eine funktionierende Version ein, startete die zentralen Proxys neu und meldet, dass sich der Datenverkehr im Verlauf des Nachmittags wieder normalisiert habe.
Cloudflare berichtet, dass insbesondere das Bot-Management-Modul betroffen war und Kundinnen und Kunden auf der neuen Proxy-Engine FL2 vermehrt HTTP-Fehler sahen, während auf der älteren Engine FL zwar keine Ausfälle, aber fehlerhafte Bot-Scores auftraten, die zu Fehlalarmen führen konnten. Cloudflare CEO Matthew Prince bezeichnet den Ausfall als inakzeptabel und kündigt Massnahmen an, mit denen automatisch verteilte Konfigurationsdateien besser abgesichert und Fehlerzustände in den Kernsystemen künftig schneller erkannt und abgefangen werden sollen.
(dow)