Microsoft hat ein Tool namens
Microsoft 365 Copilot Agent Evaluations CLI
als Vorschau veröffentlicht. Das Command Line Tool für Windows-Entwicklungsumgebungen ermöglicht es, KI-Agenten für Copilot zu testen und die Qualität der Antworten zu testen und zu verbessern. Die Prüfung erfolgt, indem das Tool Prompts an den eingereichten Agenten übermittelt und die Antworten auf Basis von Azure-OpenAI-Modellen bewertet. Die Evaluation der Agenten kann interaktiv oder im Batch-Verfahren ablaufen, am Schluss entstehen Berichte in den Formaten HTML, JSON oder CSV.
Die Bewertung des Outputs der Agenten basiert auf sieben Metriken, nämlich Relevanz, Kohärenz, Vernünftigkeit, Ähnlichkeit, Zitate sowie exakte oder teilweise Entsprechung. Die vier ersten Metriken werden LLM-basiert analysiert, die Anzahl Zitate wird gezählt und Entsprechungen werden durch Stringvergleich ermittelt. Das Tool lässt sich in der Vorschauphase kostenlos nutzen – allerdings nicht ganz kostenlos: Die Nutzung erfordert eine Lizenz für Microsoft 365 Copilot. Weitere Voraussetzungen sind Node.js ab Version 24.12.0, eine Microsoft Entra Tenant ID, unter der der Agent bereitgestellt ist, sowie einen Azure OpenAI Endpoint.
(ubi)