OpenAI hat in einer wissenschaftlichen Arbeit den Ursprung von KI-Halluzinationen näher untersucht. Halluzinationen sind plausibel klingende, aber falsche Aussagen, die von Sprachmodellen erzeugt werden. Die Autoren führen das Problem vor allem auf die Bewertungsmethoden zur Performance der Modelle zurück, die falsche Anreize setzen würden. "Die Bewertungen selbst verursachen zwar keine Halluzinationen, aber die meisten Bewertungen messen die Leistung des Modells auf eine Weise, die eher zum Raten als zum ehrlichen Umgang mit Unsicherheiten ermutigt", heisst es in einem
Blog-Beitrag, der die Ergebnisse des Papers zusammenfasst. "Stellen Sie sich das wie einen Multiple-Choice-Test vor. Wenn Sie die Antwort nicht wissen, aber wild drauflos raten, haben Sie vielleicht Glück und liegen richtig. Wenn Sie das Feld leer lassen, ist eine Null garantiert."
Die Autoren schreiben zwar, dass die Genauigkeit mit neuen Modellen weiter gestiegen wäre. Dennoch sei ein Wert von 100 Prozent gerade bei komplexen Anfragen schlicht nicht möglich, zum Beispiel, weil keine Informationen verfügbar sind, das Denkvermögen kleiner Modelle begrenzt ist oder Mehrdeutigkeiten geklärt werden müssen. Dabei gilt mit Blick auf das Training: "Es ist doppelt schwer, gültige Aussagen von ungültigen zu unterscheiden, wenn keine Beispiele vorhanden sind, die als ungültig gekennzeichnet sind. Aber auch mit Kennzeichnungen sind einige Fehler unvermeidlich."
Eine Möglichkeit, dem Problem entgegenzuwirken, ist laut den Autoren, die Bewertungsmethoden der Modelle anzupassen und geratene Antworten und Zufallstreffer nicht mehr zu belohnen. Dennoch dürften Halluzinationen zumindest in naher Zukunft weiterhin vorkommen. Sind sie also unvermeidlich? "Das ist nicht der Fall, denn Sprachmodelle können sich enthalten, wenn sie unsicher sind."
(sta)