OpenAI zeigt Sicherheitskonzept für KI-Entwicklung

Um die Sicherheit von neuen, mächtigeren KI-Modellen zu gewährleisten, hat OpenAI ein Sicherheitskonzept namens Preparedness Framework vorgelegt, das Modelle in verschiedene Risikostufen einteilt und gegebenenfalls sogar die Weiterentwicklung verbietet.

19. Dezember 2023

OpenAI hat ein überarbeitetes Modell zur Risikobewertung seiner KI-Modelle vorgestellt – das Preparedness Framework, das nun in einer Beta-Version vorliegt. Durch immer leistungsfähigere Modelle entstünden "katastrophale Risiken", vor denen man sich und die Nutzer mit dem neuen Regelwerk schützen wolle. Dabei wolle man über hypothetische Szenarien hinausblicken und aufgrund datengetriebener Erkenntnisse konkrete Massnahmen ergreifen.

Dafür werden für die verschiedenen Modelle "Scorecards" erstellt, welche ein Modell nach vier Kriterien in Risikostufen zwischen "tief" und "kritisch" einstufen. Die vier Bereiche sind Cybersecurity, CBRN (chemische, biologische, radiologische und nukleare Bedrohungen), Überredungskunst und Modell-Autonomie. Nur, wenn ein Modell nach der Überarbeitung die durchschnittliche Gefahrenstufe Medium oder tiefer erreicht, soll es ausgerollt werden. Eine Weiterentwicklung ist derweil nur erlaubt, wenn die maximale Risikostufe als hoch eingeordnet wird.

Bemerkenswert sind dabei die Sorgen rund um die höchste Risikostufe "kritisch": Als solche eingestufte Modelle könnten über den Menschen hinauswachsen (OpenAI spricht hier von einer "Intelligenzexplosion") und damit beispielsweise Versuche von Menschen, das Modell abzuschalten, aktiv verhindern.

Das speziell dafür ins Leben gerufene Preparedness Team soll dafür sorgen, dass die Modelle entsprechend untersucht und eingestuft werden. Auch soll potenzieller missbräuchlicher Einsatz des Modells vonseiten der Nutzerschaft überwacht und registriert werden, falls intern etwas übersehen wurde oder unvorhersehbar war.

Mehr Details und einen tieferen Einblick ins neue Preparedness Framework von OpenAI finden sich an dieser Stelle. (win)