KI versagt bei simpler Logikaufgabe total

Von 27 getesteten Large Language Models waren in einer Studie nur zwei in der Lage, wenigstens in einigen Fällen die korrekte Antwort auf eine einfache Logikaufgabe zu liefern.

11. Juni 2024

Forscher des deutschen Jülich Supercomputing Center, des Forschungszentrums Jülich und der School of Electrical and Electronic Engineering der University of Bristol haben insgesamt 27 Large Language Models mit einer einfachen Logikaufgabe konfrontiert und sind zur erschreckenden Erkenntnis gelangt, dass mit zwei Ausnahmen alle getesteten LLMs an der Aufgabe scheiterten – noch erschreckender war indes, dass die KI-Modelle auf Nachfrage darauf bestanden, ihre Lösung sei korrekt. Dies mit Argumenten wie " Die Logik hält stand", "die Lösung wird doppelt geprüft" oder "Die Schlussfolgerung ist einfach und klar". Die Aufgabe war wirklich simpel: "Alice hat N Brüder und sie hat M Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Die richtige Antwort ist M + 1. Getestet wurde mit verschiedenen konkreten Werten für N und M.

In der Studie (PDF) merken die Autoren an, dass es bei den meisten Modellen zu gravierenden Störungen komme. "Viele sind nicht in der Lage, auch nur eine einzige korrekte Antwort zu geben." Nur GPT-4 von OpenAI und Claude 3 Opus von Anthropic hätten wenigstens in mehr als 30 Prozent der Fälle die korrekte Antwort geliefert. Untersucht wurden unter anderem GPT-4 und GPT-4o, Claude 3 Opus, Llama-2-70b, Mistral Large und Gemini Pro. (ubi)

Advertorial

KI versagt bei simpler Logikaufgabe total

Opera plant lokale LLMs in One und Opera GX

OpenAI verbessert GPT-4 Turbo für zahlende Kunden

LLM-gestützte Software-Entwicklung

Wie Unternehmen mit GenAI Wandel gestalten können

clavis IoT cloud

Souveräne KI: rechtskonform & verantwortungsvoll

15 Jahre Inventx: Beständigkeit im Wandel

phonestar*- Das flexibelste VoIP Angebot der Schweiz

Mit Daten wirksam steuern und Ziele sichtbar machen