다음을 통해 공유


Azure DevOps에서 평가를 실행하는 방법(미리 보기)

중요합니다

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

Azure DevOps 확장을 사용하면 CI/CD 파이프라인 내에서 Microsoft Foundry 에이전트를 오프라인으로 평가할 수 있습니다. 오프라인 평가 프로세스를 간소화하므로 프로덕션에 대한 업데이트를 릴리스하기 전에 잠재적인 문제를 식별하고 개선할 수 있습니다.

이 확장을 사용하려면 테스트 쿼리와 계산기 목록이 포함된 데이터 집합을 제공합니다. 이 작업은 쿼리를 사용하여 에이전트를 호출하고, 평가하고, 요약 보고서를 생성합니다.

기능

  • 에이전트 평가: CI/CD 워크플로에서 Microsoft Foundry 에이전트의 사전 프로덕션 평가를 자동화합니다.
  • 평가자: Foundry 평가자 카탈로그의 모든 평가자를 사용하세요.
  • 통계 분석: 평가 결과에는 신뢰 구간과 통계적 유의성 테스트가 포함되어 임의 변형으로 인한 변경이 아닌 의미가 있는지 확인합니다.

평가자 범주

필수 조건

입력

매개 변수

이름 필수? Description
Azure AI 프로젝트 엔드포인트 (azure-ai-project-endpoint) Microsoft Foundry 프로젝트의 엔드포인트입니다.
배포명 평가에 사용할 Azure AI 모델 배포의 이름입니다.
데이터 경로 평가자와 평가용 입력 쿼리가 포함된 데이터 파일의 경로입니다.
agent-ID들 형식 agent-name:version (예를 들어 my-agent:1 또는 my-agent:1,my-agent:2)으로 평가할 하나 이상의 에이전트 ID입니다. 여러 에이전트는 쉼표로 구분되고 통계 테스트 결과와 비교됩니다.
베이스라인-에이전트-id 아니오 여러 에이전트를 평가할 때 비교할 기준 에이전트의 ID입니다. 제공되지 않으면 첫 번째 에이전트가 사용됩니다.

데이터 파일

입력 데이터 파일은 다음 구조를 가진 JSON 파일이어야 합니다.

분야 유형 필수? Description
이름 문자열 평가 데이터 세트의 이름입니다.
평가자 문자열[] 사용할 평가자 이름 목록입니다. Foundry 포털의 Build > Evaluations > 평가자 카탈로그에서 프로젝트의 사용 가능한 평가자 목록을 확인하세요.
데이터 객체[] 와 같은 queryground_truth선택적 계산기 필드가 있는 context 입력 개체의 배열입니다. 평가자에 자동 매핑됨; 재정의하려면 data_mapping을(를) 사용합니다.
openai_graders 객체 아니오 OpenAI 기반 계산기(label_model, score_model, string_check 등)에 대한 구성입니다.
평가자_매개변수 객체 아니오 계산기별 초기화 매개 변수(예: 임계값, 사용자 지정 설정).
data_mapping 객체 아니오 사용자 지정 데이터 필드 매핑(제공되지 않은 경우 데이터에서 자동 생성됨).

기본 샘플 데이터 파일


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence",
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

추가 샘플 데이터 파일

Filename Description
dataset-tiny.json 적은 수의 테스트 쿼리 및 계산기가 있는 데이터 세트입니다.
dataset.json 지원되는 모든 평가자 형식과 신뢰 구간 계산 및 통계 테스트를 위한 충분한 쿼리가 있는 데이터 세트입니다.
dataset-builtin-evaluators.json 기본 제공 Foundry 평가자 예제(예: 일관성, 유창성, 관련성, 근거성, 메트릭).
dataset-openai-graders.json OpenAI 기반 채점자 예제(레이블 모델, 점수 모델, 텍스트 유사성, 문자열 검사).
dataset-custom-evaluators.json 계산기 매개 변수가 있는 사용자 지정 계산기 예제입니다.
dataset-data-mapping.json 사용자 지정 데이터 열 이름으로 자동 필드 매핑을 재정의하는 방법을 보여 주는 데이터 매핑 예제입니다.

예시 파이프라인

이 Azure DevOps 확장을 사용하려면 Azure Pipeline에 작업을 추가하고 Microsoft Foundry 프로젝트에 액세스하도록 인증을 구성합니다.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

평가 결과 및 출력

평가 결과는 Azure DevOps 파이프라인 요약에 여러 메트릭이 평가될 때 에이전트 간의 자세한 메트릭 및 비교와 함께 표시됩니다.

평가 결과는 Azure DevOps 파이프라인에서 실행되는 각 AI 평가 작업에 대한 요약 섹션으로 출력됩니다.

다음 스크린샷은 두 에이전트를 비교하기 위한 샘플 보고서입니다.

에이전트 평가 결과의 스크린샷