KI versagt bei simpler Logikaufgabe total
Quelle: Depositphotos

KI versagt bei simpler Logikaufgabe total

Von 27 getesteten Large Language Models waren in einer Studie nur zwei in der Lage, wenigstens in einigen Fällen die korrekte Antwort auf eine einfache Logikaufgabe zu liefern.
11. Juni 2024

     

Forscher des deutschen Jülich Supercomputing Center, des Forschungszentrums Jülich und der School of Electrical and Electronic Engineering der University of Bristol haben insgesamt 27 Large Language Models mit einer einfachen Logikaufgabe konfrontiert und sind zur erschreckenden Erkenntnis gelangt, dass mit zwei Ausnahmen alle getesteten LLMs an der Aufgabe scheiterten – noch erschreckender war indes, dass die KI-Modelle auf Nachfrage darauf bestanden, ihre Lösung sei korrekt. Dies mit Argumenten wie " Die Logik hält stand", "die Lösung wird doppelt geprüft" oder "Die Schlussfolgerung ist einfach und klar". Die Aufgabe war wirklich simpel: "Alice hat N Brüder und sie hat M Schwestern. Wie viele Schwestern hat der Bruder von Alice?" Die richtige Antwort ist M + 1. Getestet wurde mit verschiedenen konkreten Werten für N und M.


In der Studie (PDF) merken die Autoren an, dass es bei den meisten Modellen zu gravierenden Störungen komme. "Viele sind nicht in der Lage, auch nur eine einzige korrekte Antwort zu geben." Nur GPT-4 von OpenAI und Claude 3 Opus von Anthropic hätten wenigstens in mehr als 30 Prozent der Fälle die korrekte Antwort geliefert. Untersucht wurden unter anderem GPT-4 und GPT-4o, Claude 3 Opus, Llama-2-70b, Mistral Large und Gemini Pro. (ubi)


Weitere Artikel zum Thema

Opera plant lokale LLMs in One und Opera GX

31. Mai 2024 - Opera möchte die Installation von lokalen LLMs in die Browser One und Opera GX ermöglichen. In der Development-Version hat das Unternehmen bereits Erfahrungen damit gesammelt.

OpenAI verbessert GPT-4 Turbo für zahlende Kunden

16. April 2024 - Das neueste Update zu OpenAIs Sprachmodell GPT-4 Turbo bringt erkennbare Verbesserungen und steht vorerst zahlenden Abonnenten von ChatGPT Plus zur Verfügung.

LLM-gestützte Software-Entwicklung

3. Februar 2024 - Wie Künstliche Intelligenz in der Softwareentwicklung gewinn­bringend angewendet werden kann – und sollte.


Artikel kommentieren
Kommentare werden vor der Freischaltung durch die Redaktion geprüft.

Anti-Spam-Frage: Wieviele Fliegen erledigte das tapfere Schneiderlein auf einen Streich?
GOLD SPONSOREN
SPONSOREN & PARTNER