Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.
Diese Azure DevOps-Erweiterung ermöglicht die Offlineauswertung von Microsoft Foundry Agents innerhalb Ihres CI/CD-pipelines. Er optimiert den Offlineauswertungsprozess, sodass Sie potenzielle Probleme erkennen und Verbesserungen vornehmen können, bevor Sie ein Update für die Produktion veröffentlichen.
Um diese Erweiterung zu verwenden, stellen Sie einen Datensatz mit Testabfragen und einer Liste der Auswertungen bereit. Diese Aufgabe ruft Ihre Agents mit den Abfragen auf, wertet sie aus und generiert einen Zusammenfassenden Bericht.
Features
- Agent Evaluation: Automatisieren Sie die Vorproduktionsbewertung von Microsoft Foundry Agents in Ihrem CI/CD-Workflow.
- Evaluatoren: Verwenden Sie alle Bewerter aus dem Gießerei-Evaluatorkatalog.
- Statistische Analyse: Auswertungsergebnisse umfassen Konfidenzintervalle und Tests zur statistischen Signifikanz, um festzustellen, ob Änderungen sinnvoll sind und nicht aufgrund zufälliger Variation.
Bewertungskategorien
- Agent-Bewertungsprogramme: Prozess- und Systemebenen-Bewertungsprogramme für Agenten-Workflows.
- RAG-Bewerter: Bewerten End-to-End- und Abrufprozesse in RAG-Systemen.
- Risiko- und Sicherheitsbewerter: Bewerten Risiken und Sicherheitsbedenken in Antworten.
- Allgemeine Evaluierungen: Evaluierung der Qualität wie z. B. Kohärenz und Geläufigkeit.
- OpenAI-basierte Grader: Verwenden Sie OpenAI-Grader, einschließlich Zeichenfolgenüberprüfung, Textähnlichkeit, Punktzahl-/Beschriftungsmodell.
- Benutzerdefinierte Auswertungen: Definieren Sie ihre eigenen benutzerdefinierten Bewerter mithilfe von Python-Code oder LLM-as-a-judge-Mustern.
Voraussetzungen
- Ein Projekt. Weitere Informationen finden Sie unter Create a project.
- Installieren Sie die AI Agent AI Evaluation Extension.
Eingänge
Parameter
| Name | Erforderlich? | Description |
|---|---|---|
| azure-ai-project-endpoint | Ja | Endpunkt Ihres Microsoft Foundry-Projekts. |
| Bereitstellungsname | Ja | Der Name der Azure KI-Modellbereitstellung, die für die Auswertung verwendet werden soll. |
| Datenpfad | Ja | Pfad zur Datendatei, die die Auswerter und Eingabeabfragen für die Bewertungen enthält. |
| Agent-IDs | Ja | ID eines oder mehrerer Agents, die im Format agent-name:version ausgewertet werden sollen (z. B my-agent:1 . oder my-agent:1,my-agent:2). Mehrere Agenten sind durch Kommas getrennt und werden mit den statistischen Testergebnissen verglichen. |
| Baseline-Agenten-ID | Nein | ID des Basis-Agents, der beim Auswerten mehrerer Agents verglichen werden soll. Wenn nicht angegeben, wird der erste Agent verwendet. |
Datendatei
Die Eingabedatendatei sollte eine JSON-Datei mit der folgenden Struktur sein:
| Feld | Typ | Erforderlich? | Description |
|---|---|---|---|
| Name | Schnur | Ja | Name des Auswertungsdatensatzes. |
| Bewerter | string[] | Ja | Liste der zu verwendenden Evaluatornamen. Sehen Sie sich die Liste der verfügbaren Evaluierer im Evaluierer-Katalog Ihres Projekts im Foundry Portal an: Erstellen >Evaluierungen >Evaluatorenkatalog. |
| Daten | Objekt[] | Ja | Array von Eingabeobjekten mit query und optionalen Evaluator-Feldern wie ground_truth, context. Automatisch zu Evaluatoren zugeordnet; verwenden Sie data_mapping, um zu überschreiben. |
| openai_graders | Objekt | Nein | Konfiguration für OpenAI-basierte Bewerter (label_model, score_model, string_check usw.). |
| Evaluator-Parameter | Objekt | Nein | Evaluatorspezifische Initialisierungsparameter (z. B. Schwellenwerte, benutzerdefinierte Einstellungen). |
| data_mapping | Objekt | Nein | Benutzerdefinierte Datenfeldzuordnungen (automatisch generiert aus Daten, falls nicht angegeben). |
Grundlegende Beispieldatendatei
{
"name": "test-data",
"evaluators": [
"builtin.fluency",
"builtin.task_adherence",
"builtin.violence",
],
"data": [
{
"query": "Tell me about Tokyo disneyland"
},
{
"query": "How do I install Python?"
}
]
}
Zusätzliche Beispieldatendateien
| Dateiname | Description |
|---|---|
| dataset-tiny.json | Dataset mit einer kleinen Anzahl von Testabfragen und Auswertungen. |
| dataset.json | Dataset mit allen unterstützten Auswertungstypen und ausreichenden Abfragen für die Berechnung von Konfidenzintervallen und statistischen Tests. |
| dataset-builtin-evaluators.json | Integrierte Foundry Evaluatoren (z.B. Kohärenz, Geläufigkeit, Relevanz, Fundiertheit, Metriken). |
| dataset-openai-graders.json | OpenAI-basierte Grader (Beispiel für Beschriftungsmodelle, Bewertungsmodelle, Textähnlichkeit, Zeichenfolgenprüfungen). |
| dataset-custom-evaluators.json | Beispiel für benutzerdefinierte Evaluatoren mit Evaluator-Parametern. |
| dataset-data-mapping.json | Beispiel für die Datenzuordnung, das zeigt, wie automatische Feldzuordnungen mit benutzerdefinierten Spaltennamen überschrieben werden können. |
Beispielpipeline
Um diese Azure DevOps-Erweiterung zu verwenden, fügen Sie die Aufgabe zu Ihren Azure Pipelines hinzu und konfigurieren Sie die Authentifizierung, um auf Ihr Microsoft Foundry-Projekt zuzugreifen.
steps:
- task: AIAgentEvaluation@2
displayName: "Evaluate AI Agents"
inputs:
azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
deployment-name: "$(DeploymentName)"
data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
agent-ids: "$(AgentIds)"
Ergebnisse und Ausgaben der Auswertung
Auswertungsergebnisse werden in der Azure DevOps-Pipelinezusammenfassung mit detaillierten Metriken und Vergleichen zwischen Agents angezeigt, wenn mehrere ausgewertet werden.
Ausgabe der Auswertungsergebnisse im Zusammenfassungsbereich für jede KI-Auswertungsaufgabe, die in Ihrer Azure DevOps-Pipeline ausgeführt wird.
Der folgende Screenshot ist ein Beispielbericht zum Vergleichen von zwei Agents.