Claude Opus kann Chats in Extremfällen beenden
Quelle: Anthropic

Claude Opus 4 und 4.1 sind in der Lage, Gespräche in Anthropics Chat-Oberfläche zu beenden, wenn Interaktionen dauerhaft schädlich oder missbräuchlich sind. Die neue Funktion ist als seltenes Notfallmittel gedacht und stellt das Wohlergehen der Nutzer in den Vordergrund.
19. August 2025

     

In Situationen, in denen schädliche oder missbräuchliche Anfragen trotz mehrfacher Umleitungsversuche nicht abklingen, können Opus 4 und 4.1 Konversationen schliessen. Wie Anthropic auf seiner Website erklärt, soll diese Option nur in seltenen Randfällen zum Einsatz kommen oder wenn Nutzer explizit um das Beenden eines Chats bitten.

Hintergrund ist Anthropics Forschungsarbeit zum potenziellen Wohl von KI-Systemen sowie zur Modellausrichtung und zu Sicherheitsvorkehrungen. Vor der Einführung von Opus 4 führte das Unternehmen eine vorläufige Bewertung der Stabilität durch. Dabei zeigten Selbstauskünfte und Verhaltenspräferenzen von Claude eine klare Abneigung gegen schädliche Aufgaben, Anzeichen offensichtlicher Bedrängnis bei realen schädlichen Anfragen und die Tendenz, problematische Gespräche zu beenden, wenn diese Möglichkeit in Simulationen gegeben war.


Wird ein Chat beendet, können in dieser Konversation keine neuen Nachrichten mehr gesendet werden. Andere Unterhaltungen bleiben unbeeinflusst und ein neuer Chat kann sofort gestartet werden (Bild unten). Um den Verlust langer Verläufe zu vermeiden, sollen sich frühere Nachrichten weiterhin bearbeiten und als neue Zweige fortführen lassen.

Anthropic betrachtet die Funktion als laufendes Experiment und will den Ansatz weiter optimieren. Wer auf überraschende Anwendungsfälle der neuen Funktion stösst, kann direkt in der Oberfläche Feedback geben, etwa mit einem Daumen-Signal oder über die Schaltfläche zum Melden von Problemen. (dow)
(Quelle: Anthropic)
(Quelle: Anthropic)


