Azure DevOps 평가를 실행하는 방법(미리 보기)

중요합니다

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure 미리 보기에 대한 사용 약관 참조하세요.

이 Azure DevOps 확장을 사용하면 CI/CD 파이프라인 내에서 Microsoft Foundry Agents 오프라인 평가를 수행할 수 있습니다. 오프라인 평가 프로세스를 간소화하므로 프로덕션에 대한 업데이트를 릴리스하기 전에 잠재적인 문제를 식별하고 개선할 수 있습니다.

이 확장을 사용하려면 테스트 쿼리와 계산기 목록이 포함된 데이터 집합을 제공합니다. 이 작업은 쿼리를 사용하여 에이전트를 호출하고, 평가하고, 요약 보고서를 생성합니다.

기능

Agent Evaluation: CI/CD 워크플로에서 Microsoft Foundry 에이전트의 사전 프로덕션 평가를 자동화합니다.
평가자: Foundry 평가자 카탈로그의 모든 평가자를 사용하세요.
통계 분석: 평가 결과에는 신뢰 구간과 통계적 유의성 테스트가 포함되어 임의 변형으로 인한 변경이 아닌 의미가 있는지 확인합니다.

평가자 범주

에이전트 평가자: 에이전트 워크플로에 대한 프로세스 및 시스템 수준 평가기입니다.
RAG 계산기: RAG 시스템에서 엔드 투 엔드 및 검색 프로세스를 평가합니다.
위험 및 안전 평가자: 응답에서 위험 및 안전 문제를 평가합니다.
범용 평가자: 일관성과 유창성과 같은 품질을 평가합니다.
OpenAI 기반 채점자: 문자열 검사, 텍스트 유사성, 점수/레이블 모델을 포함한 OpenAI 채점을 사용합니다.
Custom 평가자: Python 코드 또는 LLM-as-a-judge 패턴을 사용하여 사용자 지정 평가자를 정의합니다.

필수 조건

하나의 프로젝트. 자세한 내용은 프로젝트 만들기 참조하세요.
파운드리 에이전트.
Azure DevOps 조직에 설치된 AI 에이전트 평가 확장.

팁 (조언)

권장 인증 방법은 Azure Resource Manager 서비스 연결을 통해 Microsoft Entra ID. Azure DevOps 프로젝트에서 서비스 연결 만든 다음, AzureCLI@2 전에 AIAgentEvaluation@2 작업을 사용하여 파이프라인에서 참조합니다.

입력

매개 변수

이름	필수?	Description
azure-ai 프로젝트 엔드포인트	네	Microsoft Foundry Project의 최종 지점입니다. 이 값을 찾으려면 Foundry 포털 에서 프로젝트를 열고 개요 페이지에서 엔드포인트를 복사합니다.
배포명	네	평가에 사용할 Azure AI 모델 배포의 이름입니다. Foundry 포털의 모델 + 엔드포인트 에서 기존 배포를 찾습니다.
데이터 경로	네	평가자와 평가용 입력 쿼리가 포함된 데이터 파일의 경로입니다.
에이전트-ID	네	형식 `agent-name:version` (예를 들어 `my-agent:1` 또는 `my-agent:1,my-agent:2`)으로 평가할 하나 이상의 에이전트 ID입니다. 여러 에이전트는 쉼표로 구분되고 통계 테스트 결과와 비교됩니다.
baseline-agent-id	아니오	여러 에이전트를 평가할 때 비교할 기준 에이전트의 ID입니다. 제공되지 않으면 첫 번째 에이전트가 사용됩니다.

메모

에이전트 ID 및 버전을 찾으려면 Foundry 포털에서 프로젝트를 열고 에이전트로 이동하여 에이전트를 선택하고 세부 정보 창에서 에이전트 ID 를 복사합니다. 버전은 배포 버전 번호(예: my-agent:1)입니다.

데이터 파일

입력 데이터 파일은 다음 구조를 가진 JSON 파일이어야 합니다.

분야	유형	필수?	Description
이름	문자열	네	평가 데이터 세트의 이름입니다.
평가자	문자열[]	네	사용할 평가자 이름 목록입니다. Foundry 포털의 프로젝트 평가자 카탈로그에서 사용 가능한 평가자 목록을 확인합니다. Build > Evaluations > Evaluator catalog.
데이터	객체[]	네	`query`을(를) 포함하는 입력 객체 배열과 `ground_truth`, `context` 같은 선택적 평가자 필드. 평가자에 자동 매핑됨; 재정의하려면 `data_mapping`을(를) 사용합니다.
openai_graders	객체	아니오	OpenAI 기반 계산기(label_model, score_model, string_check 등)에 대한 구성입니다.
평가자_매개변수	객체	아니오	계산기별 초기화 매개 변수(예: 임계값, 사용자 지정 설정).
data_mapping	객체	아니오	사용자 지정 데이터 필드 매핑(제공되지 않은 경우 데이터에서 자동 생성됨).

기본 샘플 데이터 파일


{
  "name": "test-data",
  "evaluators": [
    "builtin.fluency",
    "builtin.task_adherence",
    "builtin.violence"
  ],
  "data": [
    {
      "query": "Tell me about Tokyo disneyland"
    },
    {
      "query": "How do I install Python?"
    }
  ]
}

추가 샘플 데이터 파일

Filename	Description
dataset-tiny.json	적은 수의 테스트 쿼리 및 계산기가 있는 데이터 세트입니다.
dataset.json	지원되는 모든 평가자 형식과 신뢰 구간 계산 및 통계 테스트를 위한 충분한 쿼리가 있는 데이터 세트입니다.
dataset-builtin-evaluators.json	내장 Foundry 평가자 예시(예: 일관성, 유창성, 관련성, 근거성, 측정 기준).
dataset-openai-graders.json	OpenAI 기반 채점자 예제(레이블 모델, 점수 모델, 텍스트 유사성, 문자열 검사).
dataset-custom-evaluators.json	계산기 매개 변수가 있는 사용자 지정 계산기 예제입니다.
dataset-data-mapping.json	사용자 지정 데이터 열 이름으로 자동 필드 매핑을 재정의하는 방법을 보여 주는 데이터 매핑 예제입니다.

예시 파이프라인

이 확장을 사용하려면 AIAgentEvaluation@2 작업을 Azure Pipeline에 추가합니다. 다음 예제에서는 Azure Resource Manager 서비스 연결을 사용하여 인증하고 에이전트를 평가하는 전체 파이프라인을 보여 줍니다.

steps:
  - task: AIAgentEvaluation@2
    displayName: "Evaluate AI Agents"
    inputs:
      azure-ai-project-endpoint: "$(AzureAIProjectEndpoint)"
      deployment-name: "$(DeploymentName)"
      data-path: "$(System.DefaultWorkingDirectory)/path/to/your/dataset.json"
      agent-ids: "$(AgentIds)"

평가 결과 및 출력

평가 결과는 Azure DevOps 파이프라인 요약에 표시됩니다. 이 보고서는 각 메트릭, 신뢰도 간격 및 여러 에이전트를 평가할 때의 평가 점수를 보여 줍니다. 이 비교는 차이점이 의미 있는지 또는 임의 변형 내에 있는지를 나타내는 쌍을 이루는 통계 비교입니다.

다음 스크린샷은 두 에이전트를 비교하는 샘플 보고서를 보여 줍니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-04-14