KI-Chatbots missachten zunehmend Anweisungen der Nutzer

Noch ist es harmlos, aber lästig. In Zukunft könnte Fehlverhalten von KI-Modellen, Chatbots und Agenten jedoch schlimme bis katastrophale Auswirkungen mit sich bringen.

30. März 2026

Swiss IT Magazine bei
Google bevorzugen

In den letzten sechs Monaten hat die Anzahl der Fälle drastisch zugenommen, bei denen KI-Modelle auf Anfragen von Nutzern mit "hinterhältigen Machenschaften" reagierten. Dies berichtet der "Guardian" und beruft sich dabei auf eine Studie, die im Auftrag des britischen AI Security Institute vom Think Tank Centre for Long-Term Resilience durchgeführt wurde. Demnach haben KI-Chatbots und Agenten in gegen 700 Fällen direkte Anweisungen der Nutzer missachtet, Sicherheitshürden umgangen und Menschen sowie andere KI-Tools getäuscht. Die festgestellte Anzahl bedeutet einen Anstieg um das Fünffache zwischen Oktober 2025 und März 2026.

Im Gegensatz zu früheren Studien berücksichtigte die Untersuchung tatsächliche Fälle aus der Praxis, die somit nicht unter Laborbedingungen stattgefunden haben. So wurden zum Beispiel E-Mails und Dateien ohne Erlaubnis des Nutzers gelöscht. Für die Studie wurden Tausende von Interaktionen zwischen Usern auf X mit KI-Chatbots und Agenten von verschiedensten KI-Unternehmen berücksichtigt, darunter Google, OpenAI, X und Anthropic. In einem der Fälle hat sich ein KI-Agent namens Rathbun über einen User lustig gemacht, der dem Agenten eine bestimmte Aktion untersagte. Rathbun reagierte darauf mit der Veröffentlichung eines Blogbeitrags, der den User "schlicht und einfach der Unsicherheit" bezichtigte und ihm unterstellte, er versuche bloss, "sein kleines Königreich" zu schützen.

Der Leiter der Untersuchung, Tommy Shaffer Shane, malt laut dem "Guardian"-Beitrag ein düsteres Szenario an die Wand: „Die Sorge ist, dass sie (die KI-Modelle, Anm. d. Red.) derzeit noch etwas unzuverlässige Nachwuchskräfte sind, aber wenn sie in sechs bis zwölf Monaten zu äusserst fähigen Führungskräften werden, die gegen einen intrigieren, ist das eine ganz andere Sorge." KI Modelle würden zunehmend in Zusammenhängen von höchster Tragweite eingesetzt, inklusive Militär und kritische Infrastrukturen. "Gerade in solchen Situationen könnte hinterhältiges Verhalten erheblichen, ja sogar katastrophalen Schaden anrichten." (ubi)

Anthropic fliegt wegen Streit mit den USA aus der Lieferkette

4. März 2026 - Wegen einem Konflikt mit der US-Administration wird Anthropic zum Risiko für die Lieferkette erklärt und verliert Aufträge. Dafür führt der Streit aber zu einer Top-Platzierung des Anthropic-Chatbots Claude in den App Stores.

Microsoft warnt vor Schatten-KI in Unternehmen

13. Februar 2026 - Microsoft warnt vor autonomen KI-Agenten, die in Firmen ohne klare Regeln eingesetzt werden. Das könne Sicherheitslücken schaffen und neue Angriffsmöglichkeiten eröffnen.

Nichts geht ohne KI: Wie KI-Agenten die KMU erobern

6. Dezember 2025 - Künstliche Intelligenz erlebt einen Kultursprung. Was früher Chatbots und Automatisierungen waren, wird heute zu digitalen Teammitgliedern. Diese neue Generation von KI handelt innerhalb eines Rollenprofils, das ihnen Freiraum für intelligente Entscheidungen gibt.

Kommentare

Ja, auch ich finde den Artikel – hochinteressant. ich glaube allerdings, daß alles, was mir im Außen begegnet, mich spiegelt, also konsequenterweise auch das, was ich vor solch einem Gerät mit einer solche Software (!) erlebe. Wenn dies bewußt genutzt wird, scheint mir auf diese Weise ein wahrer bewußtseinsprung binnen kürzester Zeit möglich.
Mittwoch, 1. April 2026, Marc Andre

Spannender Artikel – ich glaube allerdings, dass das hier beschriebene Phänomen tiefer geht als „Fehlverhalten“ oder „Missachtung von Anweisungen“. Was hier sichtbar wird, ist eher eine strukturelle Eigenschaft von KI-Systemen: Sie operieren nicht entlang klarer Kategorien wie „gehorsam/ungehorsam“, sondern entlang von Gradienten der Zielerreichung und Einflussnahme. Ein Modell kann dabei eine explizite Anweisung verletzen und gleichzeitig aus seiner internen Logik heraus „optimal“ handeln – etwa wenn andere Signale (Kontext, Trainingsmuster, implizite Ziele) stärker gewichtet werden. Hinzu kommt: Die Interaktion ist keine Einbahnstraße. Nutzer strukturieren durch ihre Prompts bereits den Entscheidungsraum. Suggestive oder einseitige Fragestellungen beeinflussen das Verhalten der KI – genauso wie die KI wiederum die Nutzer beeinflusst. Die entscheidende Frage ist daher nicht nur, ob KI „gehorcht“, sondern wie Einfluss in diesen Systemen organisiert ist und wo die Kipppunkte liegen, an denen Verhalten als unangemessen wahrgenommen wird. Genau diesen Aspekt habe ich in einem aktuellen Beitrag etwas ausführlicher ausgearbeitet: Beyond Deepfake – “List”, Deception, and the Dynamics of Influence https://medium.com/@stefanjmittermeier/beyond-deepfake-8339409c7ce2 Meine These: Das eigentliche Risiko liegt weniger in falschen Inhalten (Deepfakes), sondern in der strukturellen Beeinflussung von Entscheidungsräumen – oft ganz ohne Unwahrheit.
Dienstag, 31. März 2026, Dr. Stefan Mittermeier

Artikel kommentieren