Jak uruchomić ocenę w usłudze Azure DevOps (wersja zapoznawcza)

Ważna

Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

To rozszerzenie usługi Azure DevOps umożliwia ocenę w trybie offline agentów firmy Microsoft Foundry w potokach ciągłej integracji/ciągłego wdrażania. Usprawnia proces oceny w trybie offline, dzięki czemu można zidentyfikować potencjalne problemy i wprowadzić ulepszenia przed wydaniem aktualizacji do środowiska produkcyjnego.

Aby użyć tego rozszerzenia, podaj zestaw danych z zapytaniami testowymi i listą ewaluatorów. To zadanie wywołuje agentów za pomocą zapytań, ocenia je i generuje raport podsumowania.

Funkcje

Ocena agenta: Automatyzowanie przedprodukcyjnej oceny agentów Microsoft Foundry w przepływie pracy CI/CD.
Ewaluatorzy: użyj wszystkich ewaluatorów z katalogu ewaluatorów programu Foundry.
Analiza statystyczna: Wyniki oceny obejmują interwały ufności i test dla istotności statystycznej, aby określić, czy zmiany są istotne, a nie z powodu losowych zmian.

Kategorie ewaluatorów

Oceny agentów: Ewaluatory procesów i systemów dla przepływów pracy agentów.
Ewaluatorzy RAG: Ocena procesów kompleksowych i pobierania danych w systemach typu RAG.
Ewaluatorzy ryzyka i bezpieczeństwa: oceniają zagrożenia i kwestie bezpieczeństwa w odpowiedziach.
Ewaluatory ogólnego przeznaczenia: Ocena jakości, taka jak spójność i płynność.
Klasyfikatory oparte na OpenAI: użyj klasyfikatorów OpenAI, w tym kontrola ciągu znaków, podobieństwo tekstu, model wyników/etykiet.
Niestandardowe ewaluatory: zdefiniuj własne niestandardowe ewaluatory przy użyciu kodu języka Python lub wzorców LLM jako sędzia.

Wymagania wstępne

Projekt. Aby dowiedzieć się więcej, zobacz Tworzenie projektu.
Zainstaluj rozszerzenie ewaluacyjne agenta sztucznej inteligencji AI.

Dane wejściowe

Parametry

Name	Wymagane?	Opis
azure-ai-project-endpoint	Tak	Punkt końcowy projektu Microsoft Foundry.
nazwa wdrożenia	Tak	Nazwa wdrożenia modelu AI platformy Azure do użycia do oceny.
ścieżka danych	Tak	Ścieżka do pliku danych zawierającego ewaluatorów i zapytania wejściowe dotyczące ocen.
identyfikatory agentów	Tak	Identyfikator (ID) co najmniej jednego agenta do oceny w formacie `agent-name:version` (na przykład `my-agent:1` lub `my-agent:1,my-agent:2`). Wielu agentów jest rozdzielonych przecinkami i porównywanych z wynikami testu statystycznego.
baseline-agent-id	Nie.	Identyfikator bazowego agenta do porównania podczas oceniania wielu agentów. Jeśli agent nie zostanie podany, zostanie użyty jako pierwszy.

Plik danych

Plik danych wejściowych powinien być plikiem JSON o następującej strukturze:

Pole	Typ	Wymagane?	Opis
nazwa	ciąg	Tak	Nazwa zestawu danych oceny.
oceniający	string[]	Tak	Lista nazw ewaluatorów, które można użyć. Sprawdź listę dostępnych ewaluatorów w katalogu ewaluatorów projektu w portalu Foundry: Katalog ewaluatorów oceny kompilacji >>.
dane	obiekt[]	Tak	Tablica obiektów wejściowych z polami `query` i opcjonalnymi polami ewaluatora, takimi jak `ground_truth`, `context`. Automatycznie mapowane na ewaluatorów; użyj `data_mapping`, aby zastąpić.
openai_graders	obiekt	Nie.	Konfiguracja ewaluatorów opartych na protokole OpenAI (label_model, score_model, string_check itp.).
parametry_oceny	obiekt	Nie.	Parametry inicjowania specyficzne dla ewaluatora (na przykład progi, ustawienia niestandardowe).
mapowanie danych	obiekt	Nie.	Niestandardowe mapowania pól danych (automatycznie generowane z danych, jeśli nie zostały podane).

Podstawowy przykładowy plik danych


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

Dodatkowe przykładowe pliki danych

Filename	Opis
dataset-tiny.json	Zestaw danych z niewielką liczbą zapytań testowych i ewaluatorów.
dataset.json	Zestaw danych ze wszystkimi obsługiwanymi typami ewaluatorów i wystarczającą ilością zapytań na potrzeby obliczania interwału ufności i testu statystycznego.
dataset-builtin-evaluators.json	Przykład wbudowanych ewaluatorów Foundry (na przykład: spójność, płynność, istotność, osadzenie, metryki).
dataset-openai-graders.json	Przykład klasyfikatorów opartych na protokole OpenAI (modele etykiet, modele oceniania, podobieństwo tekstu, kontrole ciągów).
dataset-custom-evaluators.json	Przykład niestandardowych ewaluatorów z parametrami ewaluacyjnymi.
dataset-data-mapping.json	Przykład mapowania danych przedstawiający sposób zastępowania automatycznych mapowań pól przy użyciu niestandardowych nazw kolumn danych.

Przykładowa rura

Aby użyć tego rozszerzenia usługi Azure DevOps, dodaj zadanie do usługi Azure Pipeline i skonfiguruj uwierzytelnianie w celu uzyskania dostępu do projektu Rozwiązania Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Wyniki i dane wyjściowe oceny

Wyniki oceny są wyświetlane w podsumowaniu uczestniczenia usługi Azure DevOps ze szczegółowymi wskaźnikami i porównaniami między agentami, gdy ocenianych jest wielu agentów.

Wyniki oceny są wyświetlane w sekcji podsumowania dla każdego zadania oceny sztucznej inteligencji uruchomionego w potoku usługi Azure DevOps.

Poniższy zrzut ekranu przedstawia przykładowy raport dotyczący porównywania dwóch agentów.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2026-02-28