In den letzten sechs Monaten hat die Anzahl der Fälle drastisch zugenommen, bei denen KI-Modelle auf Anfragen von Nutzern mit "hinterhältigen Machenschaften" reagierten. Dies
berichtet der "Guardian" und beruft sich dabei auf eine Studie, die im Auftrag des britischen AI Security Institute vom Think Tank Centre for Long-Term Resilience durchgeführt wurde. Demnach haben KI-Chatbots und Agenten in gegen 700 Fällen direkte Anweisungen der Nutzer missachtet, Sicherheitshürden umgangen und Menschen sowie andere KI-Tools getäuscht. Die festgestellte Anzahl bedeutet einen Anstieg um das Fünffache zwischen Oktober 2025 und März 2026.
Im Gegensatz zu früheren Studien berücksichtigte die Untersuchung tatsächliche Fälle aus der Praxis, die somit nicht unter Laborbedingungen stattgefunden haben. So wurden zum Beispiel E-Mails und Dateien ohne Erlaubnis des Nutzers gelöscht. Für die Studie wurden Tausende von Interaktionen zwischen Usern auf X mit KI-Chatbots und Agenten von verschiedensten KI-Unternehmen berücksichtigt, darunter Google, OpenAI, X und Anthropic. In einem der Fälle hat sich ein KI-Agent namens Rathbun über einen User lustig gemacht, der dem Agenten eine bestimmte Aktion untersagte. Rathbun reagierte darauf mit der Veröffentlichung eines Blogbeitrags, der den User "schlicht und einfach der Unsicherheit" bezichtigte und ihm unterstellte, er versuche bloss, "sein kleines Königreich" zu schützen.
Der Leiter der Untersuchung, Tommy Shaffer Shane, malt laut dem "Guardian"-Beitrag ein düsteres Szenario an die Wand: „Die Sorge ist, dass sie (die KI-Modelle, Anm. d. Red.) derzeit noch etwas unzuverlässige Nachwuchskräfte sind, aber wenn sie in sechs bis zwölf Monaten zu äusserst fähigen Führungskräften werden, die gegen einen intrigieren, ist das eine ganz andere Sorge." KI Modelle würden zunehmend in Zusammenhängen von höchster Tragweite eingesetzt, inklusive Militär und kritische Infrastrukturen. "Gerade in solchen Situationen könnte hinterhältiges Verhalten erheblichen, ja sogar katastrophalen Schaden anrichten."
(ubi)