Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Von Bedeutung
Die in diesem Artikel markierten Elemente (Vorschau) sind aktuell als öffentliche Vorschau verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
Der Lebenszyklus von KI-Anwendungen erfordert robuste Bewertungsrahmen, um sicherzustellen, dass KI-Systeme genaue, relevante und zuverlässige Ergebnisse liefern. Ohne strenge Bewertung riskieren KI-Systeme, Antworten zu erzeugen, die ungenau, inkonsistent, schlecht geerdet oder potenziell schädlich sind. Observability ermöglicht Es Teams, sowohl die Qualität als auch die Sicherheit von KI-Ausgaben während des gesamten Entwicklungslebenszyklus zu messen und zu verbessern – von der Modellauswahl bis hin zur Produktionsüberwachung.
Hinweis
Das Microsoft Foundry SDK für die Auswertung und das Foundry-Portal befindet sich in der öffentlichen Vorschau, die APIs sind jedoch allgemein für die Modell- und Datasetauswertung verfügbar (die Agentauswertung bleibt in der öffentlichen Vorschau). Evaluatoren, die in diesem Artikel als "Vorschau" markiert sind, befinden sich derzeit überall in der öffentlichen Vorschau.
Was bedeutet Einblick?
Beobachtbarkeit von KI-Systemen bezieht sich auf die Fähigkeit, KI-Systeme während ihres gesamten Lebenszyklus zu überwachen, zu verstehen und zu beheben. Teams können automatisierte Qualitätsgates in CI/CD-Pipelines integrieren, nachverfolgen und bewerten sowie Signale wie Auswertungsmetriken, Protokolle, Traces und Modellausgaben sammeln, um Einblicke in Leistung, Qualität, Sicherheit und Betriebsgesundheit zu erhalten.
Zentrale Observability-Funktionen
Microsoft Foundry bietet drei Kernfunktionen, die zusammenarbeiten, um umfassende Observierbarkeit über den GESAMTEN AI-Anwendungslebenszyklus hinweg zu gewährleisten:
Evaluation
Evaluatoren messen die Qualität, Sicherheit und Zuverlässigkeit von KI-Reaktionen während der gesamten Entwicklung. Microsoft Foundry bietet integrierte Bewerter für allgemeine Qualitätsmetriken (Kohärenz, Flüssigkeit), RAG-spezifische Metriken (Fundierung, Relevanz), Sicherheit (Hass/Unfairness, Gewalt, geschützte Materialien) und agentspezifische Metriken (Genauigkeit von Werkzeugaufrufen, Aufgabenerfüllung). Teams können auch benutzerdefinierte Evaluatoren erstellen, die auf ihre domänenspezifischen Anforderungen zugeschnitten sind.
Eine vollständige Liste der integrierten Bewerter finden Sie in der Referenz zu integrierten Evaluatoren.
Überwachung
Die Produktionsüberwachung stellt sicher, dass Ihre bereitgestellten KI-Anwendungen Qualität und Leistung unter realen Bedingungen erhalten. In Azure Monitor Application Insights integriert, bietet Microsoft Foundry Echtzeit-Dashboards zur Nachverfolgung von Betriebsmetriken, Tokenverbrauch, Latenz, Fehlerraten und Qualitätsbewertungen. Teams können Warnungen einrichten, wenn Ausgaben die Qualitätsschwellenwerte nicht erreichen oder schädliche Inhalte erzeugen. Dadurch wird eine schnelle Problemlösung ermöglicht.
Ausführliche Informationen zum Einrichten der Produktionsüberwachung finden Sie im Dashboard "Monitor-Agents".
Nachverfolgung
Die verteilte Ablaufverfolgung erfasst den Ausführungsfluss von KI-Anwendungen und bietet Einblicke in LLM-Aufrufe, Toolaufrufe, Agententscheidungen und Dienstübergreifende Abhängigkeiten. Tracing, das auf OpenTelemetry-Standards basiert und in Application Insights integriert ist, ermöglicht das Debuggen komplexer Agentenverhaltensweisen, das Identifizieren von Leistungsengpässen und das Verständnis von mehrschrittigen Schrittketten. Microsoft Foundry unterstützt die Ablaufverfolgung für beliebte Frameworks wie LangChain, Semantic Kernel und das OpenAI Agents SDK.
Anleitungen zur Implementierung der Ablaufverfolgung finden Sie unter Trace your application und Trace with Agents SDK.
Was sind Bewerter?
Bewertungen sind spezielle Tools, die die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten während des gesamten Entwicklungslebenszyklus messen.
Eine vollständige Liste der integrierten Bewerter finden Sie in der Referenz zu integrierten Evaluatoren.
Evaluatoren werden in jede Phase des KI-Lebenszyklus integriert, um Zuverlässigkeit, Sicherheit und Effektivität sicherzustellen.
Die drei Phasen der KI-Anwendungslebenszyklus-Bewertung
Auswahl des Basismodells
Wählen Sie das richtige Foundation-Modell aus, indem Sie Qualität, Aufgabenleistung, ethische Überlegungen und Sicherheitsprofile in verschiedenen Modellen vergleichen.
Verfügbare Tools: Microsoft Foundry-Benchmark zum Vergleichen von Modellen für öffentliche Datasets oder Ihre eigenen Daten und das Azure AI Evaluation SDK zum Testen bestimmter Modellendpunkte.
Bewertung vor der Produktion
Vor der Bereitstellung stellen gründliche Tests sicher, dass Ihr KI-Agent oder Ihre Anwendung produktionsbereit ist. In dieser Phase wird die Leistung durch Auswertungsdatensets überprüft, Randfälle identifiziert, die Zuverlässigkeit bewertet und wichtige Metriken wie die Einhaltung von Aufgaben, Fundierung, Relevanz und Sicherheit ermittelt. Informationen zum Erstellen von produktionsreifen Agents mit mehrteiligen Unterhaltungen, Tool-Aufrufen und Zustandsverwaltung finden Sie unter Foundry Agent Service.
Bewertungstools und -ansätze:
Bringen Sie Ihre eigenen Daten mit: Bewerten Sie KI-Anwendungen mit Ihren eigenen Daten mit Qualität, Sicherheit oder benutzerdefinierten Bewertern. Verwenden Sie den Assistenten für die Auswertung des Foundry-Portals oder das Foundry SDK , und zeigen Sie Ergebnisse im Foundry-Portal an.
KI-Red-Teaming-Agent: Der KI-Red-Teaming-Agent simuliert komplexe Angriffe mithilfe des PyRIT-Frameworks von Microsoft, um Sicherheits- und Schutzrisiken vor der Bereitstellung zu identifizieren. Am besten geeignet für Mensch-in-the-Loop-Prozesse.
Postproduktionsüberwachung
Nach der Bereitstellung sorgt die kontinuierliche Überwachung dafür, dass Ihre KI-Anwendung unter realen Bedingungen die Qualität aufrecht erhält:
- Operative Metriken: Regelmäßige Messung wichtiger KI-Agent-Betriebsmetriken
- Kontinuierliche Bewertung: Qualitäts- und Sicherheitsbewertung des Produktionsverkehrs mit einer Stichprobenrate
- Geplante Auswertung: Geplante Qualitäts- und Sicherheitsbewertung mithilfe von Testdatensätzen zur Erkennung von Systemabweichungen
- Geplantes rotes Teaming: Geplanter Adversarialtest zur Untersuchung von Sicherheits- und Schutzlücken
- Azure Monitor-Warnungen: Benachrichtigungen, wenn Ausgaben qualitätsschwache Schwellenwerte verursachen oder schädliche Inhalte erzeugen
Integriert in Azure Monitor Application Insights bietet das Foundry Observability-Dashboard Echtzeiteinblicke in Leistungs-, Sicherheits- und Qualitätsmetriken, wodurch eine schnelle Problemauflösung und die Aufrechterhaltung der Benutzervertrauensstellung ermöglicht werden.
Spickzettel für die Auswertung
| Zweck | Prozess | Parameter, Anleitungen und Beispiele |
|---|---|---|
| Wie richten Sie die Ablaufverfolgung ein? | Verteilte Ablaufverfolgung konfigurieren |
Ablaufverfolgungsübersicht Tracing mit Agents SDK |
| Was wird ausgewertet? | Identifizieren oder Erstellen relevanter Evaluatoren |
Integrierte Evaluatoren Benutzerdefinierte Bewerter Python SDK-Beispiele C#-SDK-Beispiele |
| Welche Daten sollten Sie verwenden? | Hochladen oder Generieren relevanter Datasets | Auswählen oder Erstellen eines Datasets |
| Wie kann ich Auswertungen durchführen? | Auswertung ausführen |
Agentenbewertung läuft Remote-Cloud-Ausführung |
| Wie hat meine Modell-/KI-Anwendung ausgeführt? | Ergebnisanalysen |
Anzeigen von Auswertungsergebnissen Clusteranalyse |
| Wie kann ich etwas verbessern? | Analysieren von Ergebnissen und Optimieren von Agents | Analysieren Von Auswertungsfehlern mit Clusteranalyse. Optimieren Sie Agenten, und bewerten Sie erneut. Überprüfen Sie die Auswertungsergebnisse. |
Unterstützung von Regionen, Preisbeschränkungen und Unterstützung für virtuelle Netzwerke
Um zu erfahren, welche Regionen KI-unterstützte Bewertungen unterstützen, die Rategrenzwerte, die für Auswertungsläufe gelten, und wie Sie die Unterstützung des virtuellen Netzwerks für die Netzwerkisolation konfigurieren, siehe Regionsunterstützung, Ratelimits und Unterstützung für virtuelle Netzwerke für die Auswertung.
Pricing
Observability-Features wie Risiko- und Sicherheitsbewertungen und Bewertungen im Agent-Playground werden basierend auf dem Verbrauch abgerechnet, wie auf unserer Azure-Preisseite aufgeführt.
Von Bedeutung
Auswertungen im Agents-Playground sind für alle Foundry-Projekte standardmäßig aktiviert und sind in verbrauchsbasierte Abrechnung enthalten. Zum Deaktivieren der Playground-Auswertungen wählen Sie die Metriken oben rechts im Agents-Playground aus und wählen Sie alle Bewerter ab.