Gezielt manipulierte Bilder können KI-Modelle dazu bringen, Sicherheitsvorgaben zu umgehen und unerwünschte Antworten zu liefern. Laut der Florida International University (FIU) haben die Forscher Hadi Amini und Md Jueal Mia
untersucht, wie kleinste Änderungen an einzelnen Pixeln die Reaktion eines KI-Systems verändern können.
Für die Studie entwickelte das Team eine Methode namens JaiLIP. Damit werden Bilder so verändert, dass ein Modell sie anders bewertet als ein Mensch. In Tests mit dem multimodalen Modell BLIP-2 führten solche Bilder laut der FIU fast doppelt so häufig zu schädlichen Antworten. In einem Beispiel reichte ein manipuliertes Bild einer Ampel aus, damit das Modell Hinweise gab, wie man eine rote Ampel überfahren und dabei eine Busse vermeiden könnte.
Die Forschenden sehen darin ein Risiko für Unternehmen, die KI-Systeme in Chatbots, im Kundendienst oder in automatisierten Abläufen einsetzen. Schwachstellen in offenen oder schlecht geschützten Modellen könnten dazu führen, dass Systeme irreführende Antworten geben, interne Regeln umgehen oder neue Angriffsmöglichkeiten schaffen. Unternehmen sollten deshalb prüfen, welche Bilder und sensiblen Informationen sie solchen Modellen geben, wer Zugriff darauf hat und welche Schutzfunktionen vor dem Einsatz aktiv sind.
(dow)