Udostępnij przez


Jak uruchomić ocenę w usłudze Azure DevOps (wersja zapoznawcza)

Ważna

Elementy oznaczone jako (wersja zapoznawcza) w tym artykule są aktualnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

To rozszerzenie usługi Azure DevOps umożliwia ocenę w trybie offline agentów firmy Microsoft Foundry w potokach ciągłej integracji/ciągłego wdrażania. Usprawnia proces oceny w trybie offline, dzięki czemu można zidentyfikować potencjalne problemy i wprowadzić ulepszenia przed wydaniem aktualizacji do środowiska produkcyjnego.

Aby użyć tego rozszerzenia, podaj zestaw danych z zapytaniami testowymi i listą ewaluatorów. To zadanie wywołuje agentów za pomocą zapytań, ocenia je i generuje raport podsumowania.

Funkcje

  • Ocena agenta: Automatyzowanie przedprodukcyjnej oceny agentów Microsoft Foundry w przepływie pracy CI/CD.
  • Ewaluatorzy: użyj wszystkich ewaluatorów z katalogu ewaluatorów programu Foundry.
  • Analiza statystyczna: Wyniki oceny obejmują interwały ufności i test dla istotności statystycznej, aby określić, czy zmiany są istotne, a nie z powodu losowych zmian.

Kategorie ewaluatorów

Wymagania wstępne

Dane wejściowe

Parametry

Name Wymagane? Opis
azure-ai-project-endpoint Tak Punkt końcowy projektu Microsoft Foundry.
nazwa wdrożenia Tak Nazwa wdrożenia modelu AI platformy Azure do użycia do oceny.
ścieżka danych Tak Ścieżka do pliku danych zawierającego ewaluatorów i zapytania wejściowe dotyczące ocen.
identyfikatory agentów Tak Identyfikator (ID) co najmniej jednego agenta do oceny w formacie agent-name:version (na przykład my-agent:1 lub my-agent:1,my-agent:2). Wielu agentów jest rozdzielonych przecinkami i porównywanych z wynikami testu statystycznego.
baseline-agent-id Nie. Identyfikator bazowego agenta do porównania podczas oceniania wielu agentów. Jeśli agent nie zostanie podany, zostanie użyty jako pierwszy.

Plik danych

Plik danych wejściowych powinien być plikiem JSON o następującej strukturze:

Pole Typ Wymagane? Opis
nazwa ciąg Tak Nazwa zestawu danych oceny.
oceniający string[] Tak Lista nazw ewaluatorów, które można użyć. Sprawdź listę dostępnych ewaluatorów w katalogu ewaluatorów projektu w portalu Foundry: Katalog ewaluatorów oceny kompilacji >>.
dane obiekt[] Tak Tablica obiektów wejściowych z polami query i opcjonalnymi polami ewaluatora, takimi jak ground_truth, context. Automatycznie mapowane na ewaluatorów; użyj data_mapping, aby zastąpić.
openai_graders obiekt Nie. Konfiguracja ewaluatorów opartych na protokole OpenAI (label_model, score_model, string_check itp.).
parametry_oceny obiekt Nie. Parametry inicjowania specyficzne dla ewaluatora (na przykład progi, ustawienia niestandardowe).
mapowanie danych obiekt Nie. Niestandardowe mapowania pól danych (automatycznie generowane z danych, jeśli nie zostały podane).

Podstawowy przykładowy plik danych


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

Dodatkowe przykładowe pliki danych

Filename Opis
dataset-tiny.json Zestaw danych z niewielką liczbą zapytań testowych i ewaluatorów.
dataset.json Zestaw danych ze wszystkimi obsługiwanymi typami ewaluatorów i wystarczającą ilością zapytań na potrzeby obliczania interwału ufności i testu statystycznego.
dataset-builtin-evaluators.json Przykład wbudowanych ewaluatorów Foundry (na przykład: spójność, płynność, istotność, osadzenie, metryki).
dataset-openai-graders.json Przykład klasyfikatorów opartych na protokole OpenAI (modele etykiet, modele oceniania, podobieństwo tekstu, kontrole ciągów).
dataset-custom-evaluators.json Przykład niestandardowych ewaluatorów z parametrami ewaluacyjnymi.
dataset-data-mapping.json Przykład mapowania danych przedstawiający sposób zastępowania automatycznych mapowań pól przy użyciu niestandardowych nazw kolumn danych.

Przykładowa rura

Aby użyć tego rozszerzenia usługi Azure DevOps, dodaj zadanie do usługi Azure Pipeline i skonfiguruj uwierzytelnianie w celu uzyskania dostępu do projektu Rozwiązania Microsoft Foundry.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

Wyniki i dane wyjściowe oceny

Wyniki oceny są wyświetlane w podsumowaniu uczestniczenia usługi Azure DevOps ze szczegółowymi wskaźnikami i porównaniami między agentami, gdy ocenianych jest wielu agentów.

Wyniki oceny są wyświetlane w sekcji podsumowania dla każdego zadania oceny sztucznej inteligencji uruchomionego w potoku usługi Azure DevOps.

Poniższy zrzut ekranu przedstawia przykładowy raport dotyczący porównywania dwóch agentów.

Zrzut ekranu przedstawiający wynik oceny agenta.