OpenAI verschärft Sicherheitskonzept für eigene KI-Modelle

OpenAI reagiert auf die rasant steigenden Cyberfähigkeiten seiner KI-Modelle mit zusätzlichen Schutzmassnahmen und neuen Werkzeugen, die vor allem Verteidiger stärken sollen.

11. Dezember 2025

Nach eigenen Angaben stellt OpenAI fest, dass seine Modelle in Cyber-Aufgaben deutlich besser werden – etwa in Capture-the-Flag-Wettbewerben, wo die Erfolgsquote von 27 Prozent bei GPT-5 auf 76 Prozent bei GPT-5.1-Codex-Max gestiegen ist. Das Unternehmen plant daher künftige Modelle grundsätzlich so, als könnten sie sehr leistungsfähige Angriffe unterstützen, und will diese Fähigkeiten gezielt in Richtung Verteidigung lenken.

Um Missbrauch zu begrenzen, setzt OpenAI laut eigenem Sicherheitskonzept auf einen mehrschichtigen Ansatz. Zugriffskontrollen, gehärtete Infrastruktur, Überwachung und Systeme, die verdächtige oder klar schädliche Anfragen erkennen und blockieren oder an weniger leistungsfähige Modelle umleiten. Spezialisierte Red-Teaming-Gruppen versuchen ausserdem laufend, diese Schutzmassnahmen zu umgehen, damit Schwachstellen frühzeitig sichtbar werden und das System angepasst werden kann.

Parallel dazu baut OpenAI neue Angebote speziell für die Cyberabwehr auf. Geplant sei ein Programm für "vertrauenswürdigen Zugriff", das Sicherheitsprofis abgestufte Rechte für defensive Einsätze geben soll. Mit dem KI-Agenten Aardvark teste OpenAI in einer privaten Beta zudem ein Tool, das Codebasen nach Schwachstellen durchsucht und Korrekturvorschläge liefert – ausgewählte Open-Source-Projekte sollen diesen Schutz kostenlos erhalten. Ergänzend dazu will ein neues Beratungsgremium "Frontier Risk Council" sowie die Zusammenarbeit mit anderen KI-Laboren im Rahmen des Frontier Model Forum helfen, gemeinsame Standards für Bedrohungsmodelle und Schutzmassnahmen zu entwickeln. (dow)

Advertorial

OpenAI verschärft Sicherheitskonzept für eigene KI-Modelle

OpenAI und Jony Ive teasern neuen Prototyp ihrer KI-Hardware

OpenAI führt Codierungsmodell GPT-5.1-Codex-Max ein

OpenAI lanciert Gratis-ChatGPT-Version für Lehrer

Cybercrime Trends 2026: Wunderwaffe KI

Wie Behörden sich auf die Post-Quantum-Ära vorbereiten können

Digitale Souveränität: Schweizer Daten gehören in die Schweiz

AI 2035: 900 Milliarden autonome Agenten

Digitale Souveränität beginnt bei Ihren Endpoints

Cisco: Doppelter Einsatz für eine belastbare Infrastruktur