Schnellstart: Verwenden der Agent-Auswertungs-CLI (Vorschau)

Die Microsoft 365 Copilot Agent Evaluation CLI (@microsoft/m365-copilot-eval) unterstützt Sie beim Testen, Messen und Verbessern der Qualität Ihrer Agents durch automatisierte Promptevaluierung und KI-basierte Bewertung. In dieser Schnellstartanleitung erfahren Sie, wie Sie das Agent-Auswertungstool installieren, Ihre Umgebung konfigurieren, Ihr erstes Dataset erstellen und eine Auswertung ausführen.

Hinweis

Die Agent-Auswertungs-CLI befindet sich derzeit in der Vorschauphase. Features und Funktionen können geändert werden.

Voraussetzungen

Bevor Sie beginnen, stellen Sie sicher, dass Sie über Folgendes verfügen:

  • Ein Microsoft 365 Copilot Agent, der für Ihren Mandanten bereitgestellt wird.
  • Node.js 24.12.0 oder höher (zum Überprüfen verwenden node --version ).
  • Zugriff auf eine Azure OpenAI in Foundry Models-Ressource mit GPT-4o-mini bereitgestellt.
  • Microsoft Entra Administratoreinwilligung für die Agentauswertungs-CLI in Ihrem Mandanten erteilt. Wenn Sie kein Mandantenadministrator sind, bitten Sie Ihren Administrator, ihre Zustimmung zu erteilen, bevor Sie zum ersten Mal ausführen runevals . Weitere Informationen finden Sie unter Erteilen der Administratoreinwilligung.
  • Ihre Mandanten-ID, Azure OpenAI-Endpunkt und API-Schlüssel. Wenn Sie nicht über diese Werte verfügen, finden Sie weitere Informationen unter Abrufen von Werten für Umgebungsvariablen.

Hinweis

In dieser Schnellstartanleitung wird davon ausgegangen, dass Sie eine Windows-Entwicklungsumgebung verwenden. Die Authentifizierungsunterstützung für andere Betriebssysteme ist in Kürze verfügbar.

Schritt 1: Installieren der CLI

Installieren Sie die Agent-Auswertungs-CLI global mithilfe von npm:

npm install -g @microsoft/m365-copilot-eval

Überprüfen Sie die Installation:

runevals --version

Nach der Installation ist der runevals Befehl global auf Ihrem System verfügbar.

Schritt 2: Einrichten der Projektstruktur

Führen Sie das Auswertungstool aus Ihrem Microsoft 365-Agent-Projektverzeichnis (in dem sich Ihr Agent-Code befindet) und nicht aus dem Repository des Auswertungstools aus.

cd /path/to/your-agent-project

Ihr Agent-Projekt sollte die folgenden Dateien und Ordner enthalten:

my-agent/
├── .env.local              # Agent configuration (Agents Toolkit projects)
├── .env.local.user         # Secrets — never committed
├── evals/
│   └── evals.json          # Your test dataset (auto-discovered)
└── .evals/
    └── <generated reports> # Results written here (YYYY-MM-DD_HH-MM-SS.html)

Sie erstellen das evals/evals.json Dataset in Schritt 4. Der .evals/ Berichtsordner wird bei der ersten Ausführung automatisch erstellt.

Schritt 3: Konfigurieren von Umgebungsvariablen

Wählen Sie die Option aus, die Ihrem Projekttyp entspricht.

Tipp

Wenn Sie Ihren Agent mit dem Microsoft 365 Agents Toolkit erstellt haben, haben .env.local Sie dies bereits mit Ihrer Agent-Konfiguration. Erstellen Sie .env.local.user in Ihrem Projektstamm für Geheimnisse.

Microsoft 365 Agents Toolkit-Projekte

Hinzufügen von Geheimnissen zu .env.local.user:

# .env.local.user (NOT checked in — secrets go here)
AZURE_AI_OPENAI_ENDPOINT="https://your-resource.openai.azure.com/"
AZURE_AI_API_KEY="your-api-key-here"
TENANT_ID="your-tenant-id-here"
AZURE_AI_API_VERSION="2024-12-01-preview" # default
AZURE_AI_MODEL_NAME="gpt-4o-mini" # default

Fügen Sie zu Ihrer .gitignorehinzu.env.local.user:

# User-specific secrets — never commit
.env.local.user
env/.env.local.user

Schritt 4: Erstellen Ihres ersten Datasets

Erstellen Sie evals/evals.json mit einer kleinen Gruppe von Eingabeaufforderungen und erwarteten Antworten. In diesem Beispiel wird das einfachste gültige Schema für Single-Turn-Auswertungen verwendet.

{
  "schemaVersion": "1.0.0",
  "items": [
    {
      "prompt": "What is Microsoft 365?",
      "expected_response": "Microsoft 365 is a cloud-based productivity suite that includes Office apps, cloud services, and device management."
    },
    {
      "prompt": "How do I share a file in Microsoft Teams?",
      "expected_response": "To share a file in Teams, you can upload it to a channel or chat, or share it from OneDrive with specific permissions."
    }
  ]
}

Tipp

Wenn Sie diesen Schritt überspringen, bietet das Tool an, bei der ersten Ausführung runevalseine Startdatei mit Beispielaufforderungen zu generieren.

Vollständige Datasetschemas, Kategorien und erweiterte Muster finden Sie unter Erstellen von Evaluierungstestsammlungen.

Schritt 5: Ausführen der ersten Auswertung

Für Agents Toolkit-Projekte (verwendet .env.local automatisch und .env.local.user):

runevals

Für Nicht-Agents-Toolkit-Projekte:

runevals --env dev

Schritt 6: Bestätigen der erfolgreichen Einrichtung

Eine erfolgreiche Ausführung führt zu Folgendem:

  • Eine Abschlussmeldung im Terminal ähnlich der folgenden Meldung.

    M365 Copilot Agent Evaluations CLI
    
    Loading environment: dev
    Agent ID: T_my-agent.declarativeAgent
    Using prompts file: ./evals/evals.json
    
    Running evaluations...
    
    Evals completed successfully!
    Results saved to: ./.evals/2026-04-22_14-30-45.html
    
  • Ein in gespeicherter ./.evals/YYYY-MM-DD_HH-MM-SS.html HTML-Bericht, der automatisch in Ihrem Browser geöffnet wird.

Der Bericht enthält Bewertungen für jede Eingabeaufforderung.

Evaluator Typ Skalierung Standardschwellenwert Default
Relevanz LLM-basiert 1-5 3 Ja
Kohärenz LLM-basiert 1-5 3 Ja
Erdung LLM-basiert 1-5 3 Nein
Ähnlichkeit LLM-basiert 1-5 3 Nein
Zitate Anzahlbasiert >= 0 1 Nein
ExactMatch Zeichenfolgen-Übereinstimmung Boolescher Wert Nicht zutreffend Nein
PartialMatch Zeichenfolgen-Übereinstimmung 0.0-1.0 0.5 Nein

Wenn diese Ergebnisse nicht angezeigt werden, finden Sie weitere Informationen unter Problembehandlung.