모자이크 AI 에이전트 평가(MLflow 2)

2025-06-20

중요합니다

이 페이지에서는 MLflow 2에서 에이전트 평가 버전을 0.22 사용하는 것을 설명합니다. Databricks는 에이전트 평가 >1.0와 통합된 MLflow 3을 사용하는 것이 좋습니다. MLflow 3에서 에이전트 평가 API는 이제 패키지의 mlflow 일부입니다.

이 항목에 대한 자세한 내용은 평가 및 모니터를 참조하세요.

이 문서에서는 Mosaic AI 에이전트 평가를 사용하는 방법에 대한 개요를 제공합니다. 에이전트 평가를 통해 개발자는 RAG 애플리케이션 및 체인을 비롯한 에이전트 AI 애플리케이션의 품질, 비용, 대기 시간을 평가할 수 있습니다. 에이전트 평가는 품질 문제를 식별하고 이러한 문제의 근본 원인을 확인하도록 설계되었습니다. 에이전트 평가 기능은 MLOps 수명 주기의 개발, 스테이징 및 프로덕션 단계에서 통합되며 모든 평가 메트릭 및 데이터는 MLflow 실행에 기록됩니다.

에이전트 평가는 고급 연구 지원 평가 기술을 레이크하우스, MLflow 및 기타 Databricks Data Intelligence 플랫폼 구성 요소와 통합된 사용자 친화적인 SDK 및 UI에 통합합니다. Mosaic AI 연구와 공동으로 개발된 이 독점 기술은 에이전트 성능을 분석하고 향상시키는 포괄적인 접근 방식을 제공합니다.

평가를 보여 주는 LLMOps 다이어그램

에이전트 AI 애플리케이션은 복잡하고 다양한 구성 요소를 포함합니다. 이러한 애플리케이션의 성능을 평가하는 것은 기존 ML 모델의 성능을 평가하는 것만큼 간단하지 않습니다. 품질을 평가하는 데 사용되는 질적 메트릭과 양적 메트릭은 모두 본질적으로 더 복잡합니다. 에이전트 평가에는 검색 및 요청 품질뿐 아니라 대기 시간 및 토큰 비용과 같은 전반적인 성능 메트릭을 평가하는 독점적인 LLM 판정자 및 에이전트 메트릭이 포함됩니다.

에이전트 평가를 사용하려면 어떻게 해야 하나요?

다음 코드에서는 이전에 생성된 출력에서 에이전트 평가를 호출하고 테스트하는 방법을 보여줍니다. 에이전트 평가의 일부인 LLM 판정자가 계산한 평가 점수가 포함된 데이터 프레임을 반환합니다. 예제 노트북을 참조하여 Databricks 작업 영역에서 실행할 수 있는 유사한 코드가 포함된 빠른 시작 노트북을 확인하세요.

다음을 복사하여 기존 Databricks Notebook에 붙여넣을 수 있습니다.

%pip install mlflow databricks-agents
dbutils.library.restartPython()

import mlflow
import pandas as pd

examples =  {
    "request": [
      {
      # Recommended `messages` format
        "messages": [{
          "role": "user",
          "content": "Spark is a data analytics framework."
        }],
      },
      # SplitChatMessagesRequest format
      {
        "query": "How do I convert a Spark DataFrame to Pandas?",
        "history": [
          {"role": "user", "content": "What is Spark?"},
          {"role": "assistant", "content": "Spark is a data processing engine."},
        ],
      }
      # Note: Using a primitive string is discouraged. The string will be wrapped in the
      # OpenAI messages format before being passed to your agent.
    ],
    "response": [
        "Spark is a data analytics framework.",
        "This is not possible as Spark is not a panda.",
    ],
    "retrieved_context": [ # Optional, needed for judging groundedness.
        [{"doc_uri": "doc1.txt", "content": "In 2013, Spark, a data analytics framework, was open sourced by UC Berkeley's AMPLab."}],
        [{"doc_uri": "doc2.txt", "content": "To convert a Spark DataFrame to Pandas, you can use toPandas()"}],
    ],
    "expected_response": [ # Optional, needed for judging correctness.
        "Spark is a data analytics framework.",
        "To convert a Spark DataFrame to Pandas, you can use the toPandas() method.",
    ]
}
global_guidelines = {
  "english": ["The response must be in English"],
  "clarity": ["The response must be clear, coherent, and concise"],
}

result = mlflow.evaluate(
    data=pd.DataFrame(examples),    # Your evaluation set
    # model=logged_model.model_uri, # If you have an MLFlow model. `retrieved_context` and `response` will be obtained from calling the model.
    model_type="databricks-agent",  # Enable Mosaic AI Agent Evaluation
    evaluator_config={
       "databricks-agent": {"global_guidelines": global_guidelines}
    }
)

# Review the evaluation results in the MLFLow UI (see console output), or access them in place:
display(result.tables['eval_results'])

에이전트 평가 입력 및 출력

다음 다이어그램에서는 에이전트 평가에서 허용하는 입력 및 에이전트 평가에서 생성된 해당 출력의 개요를 보여 줍니다.

에이전트_평가_데이터_흐름

입력

필드 이름 및 데이터 형식을 포함하여 에이전트 평가에 필요한 입력에 대한 자세한 내용은 입력 스키마참조하세요. 일부 필드는 다음과 같습니다.

사용자의 쿼리(request): 에이전트(사용자의 질문 또는 쿼리)에 입력합니다. 예를 들어 "RAG란?"입니다.
에이전트의 응답(response): 에이전트에서 생성된 응답입니다. 예를 들어 "검색 보강된 생성은 ..."입니다.
예상 응답(expected_response): (선택 사항) 지상 진리(올바른) 응답입니다.
MLflow 추적(): (trace선택 사항) 에이전트 평가에서 검색된 컨텍스트 또는 도구 호출과 같은 중간 출력을 추출하는 에이전트의 MLflow 추적입니다. 또는 이러한 중간 출력을 직접 제공할 수 있습니다.
지침(guidelines선택 사항): (선택 사항) 모델의 출력이 준수해야 하는 지침 또는 명명된 지침 목록입니다.

출력물

이러한 입력에 따라 에이전트 평가는 두 가지 유형의 출력을 생성합니다.

평가 결과(행당): 입력으로 제공되는 각 행에 대해 에이전트 평가는 에이전트의 품질, 비용 및 대기 시간에 대한 자세한 평가를 포함하는 해당 출력 행을 생성합니다.
- LLM 심사위원은 정확성이나 근거와 같은 다양한 품질 측면을 확인하여 예/아니요 점수를 출력하고 해당 점수에 대한 근거를 작성합니다. 자세한 내용은 에이전트 평가(MLflow 2)에서 품질, 비용 및 대기 시간을 평가하는 방법을 참조하세요.
- LLM 심사위원의 평가는 해당 행이 "통과"(고품질) 또는 "실패"(품질 문제가 있음)인지 여부를 나타내는 전체 점수를 생성하기 위해 결합됩니다.
  - 실패한 행의 경우 근본 원인이 식별됩니다. 각 근본 원인은 특정 LLM 판사의 평가에 해당하므로 판사의 근거를 사용하여 잠재적 인 수정 사항을 식별 할 수 있습니다.
- 비용 및 대기 시간은 MLflow 추적에서 추출됩니다. 자세한 내용은 비용 및 대기 시간을 평가하는 방법을 참조하세요.
메트릭(집계 점수): 모든 입력 행에서 에이전트의 품질, 비용 및 대기 시간을 요약하는 집계된 점수입니다. 여기에는 정답의 백분율, 평균 토큰 수, 평균 대기 시간 등의 메트릭이 포함됩니다. 자세한 내용은 비용 및 대기 시간을 평가하는 방법 및 품질, 비용 및 대기 시간에 대해 MLflow 실행 수준에서 메트릭을 집계하는 방법을 참조하세요.

개발(오프라인 평가) 및 프로덕션(온라인 모니터링)

에이전트 평가는 개발(오프라인)과 프로덕션(온라인) 환경 간에 일관성을 유지하도록 설계되었습니다. 이 설계를 사용하면 개발에서 프로덕션으로 원활하게 전환할 수 있으므로 고품질 에이전트 애플리케이션을 신속하게 반복, 평가, 배포 및 모니터링할 수 있습니다.

개발과 프로덕션의 주요 차이점은 프로덕션에서는 정확한 레이블이 없다는 점이며, 개발 환경에서는 선택적으로 정확한 레이블을 사용할 수 있다는 것입니다. 실제 레이블을 사용하면 에이전트 평가에서 추가적인 품질 지표를 계산할 수 있습니다.

개발(오프라인)

agent_eval_overview_dev

개발 중에는 requests 및 expected_responses이 평가 집합에서 제공됩니다. 평가 집합은 에이전트가 정확하게 처리할 수 있어야 하는 대표 입력의 컬렉션입니다. 평가 집합에 대한 자세한 내용은 평가 집합(MLflow 2)을 참조하세요.

에이전트 평가에서 response 및 trace을 얻기 위해 에이전트의 코드를 호출하여 평가 집합의 각 행에 대해 이러한 출력을 생성합니다. 또는 이러한 출력을 직접 생성하여 에이전트 평가에 전달할 수 있습니다. 자세한 내용은 평가 실행에 대한 입력을 제공하는 방법을 참조하세요.

프로덕션(온라인)

agent_eval_overview_prod

프로덕션 환경에서 에이전트 평가에 대한 모든 입력은 프로덕션 로그에서 가져옵니다.

Mosaic AI Agent Framework를 사용하여 AI 애플리케이션을 배포하는 경우 Monitor 배포된 에이전트에서 이러한 입력을 자동으로 수집하고 모니터링 테이블을 지속적으로 업데이트하도록 에이전트 평가를 구성할 수 있습니다. 자세한 내용은 에이전트 프레임워크(MLflow 2)를 사용하여 배포된 앱 모니터링을 참조하세요.

Azure Databricks 외부에서 에이전트를 배포하는 경우 에이전트 모니터링을 사용할 수도 있습니다. Azure Databricks(MLflow 2) 외부에 배포된 모니터 앱을 참조하세요.

평가 집합을 사용하여 품질 벤치마크 설정

개발 중인 AI 애플리케이션의 품질(오프라인)을 측정하려면 평가 집합, 즉 일련의 대표 질문과 선택적 근거 대답을 정의해야 합니다. 애플리케이션에 RAG 워크플로와 같은 검색 단계가 포함된 경우 필요에 따라 응답의 기반이 되는 지원 문서를 제공할 수 있습니다.

메트릭 종속성 및 모범 사례를 포함하여 평가 집합에 대한 자세한 내용은 평가 집합(MLflow 2)을 참조하세요.
필요한 스키마는 에이전트 평가 입력 스키마(MLflow 2)를 참조하세요.
고품질 평가 집합을 합성적으로 생성하는 방법에 대한 자세한 내용은 평가 집합 합성을 참조하세요.

평가 작업

평가를 실행하는 방법에 대한 자세한 내용은 평가 실행 및 결과 보기(MLflow 2)를 참조하세요. 에이전트 평가는 체인에서 출력을 제공하기 위한 두 가지 옵션을 지원합니다.

평가 실행의 일부로 애플리케이션을 실행할 수 있습니다. 애플리케이션은 평가 집합의 각 입력에 대한 결과를 생성합니다.
애플리케이션의 이전 실행에 대한 출력을 제공할 수 있습니다.

각 옵션을 사용하는 시기에 대한 자세한 내용 및 설명은 평가 실행입력 제공을 참조하세요.

생성 AI 애플리케이션의 품질에 대한 사용자 의견 얻기

Databricks 검토 앱을 사용하면 사용자 검토자로부터 AI 애플리케이션의 품질에 대한 피드백을 쉽게 수집할 수 있습니다. 자세한 내용은 검토 앱에서 Gen AI 앱(MLflow 2)에 대한 사용자 검토를 참조하세요.

Mosaic AI 에이전트 평가의 지리적 가용성

Mosaic AI 에이전트 평가는 Geos를 사용하여 고객 콘텐츠를 처리할 때 데이터 상주를 관리하는 지정된 서비스입니다. 다른 지리적 영역에서 에이전트 평가의 가용성에 대한 자세한 내용을 알아보려면 Databricks 지정 서비스를 참조하세요.

가격 책정

가격 책정 정보는 Mosaic AI 에이전트 평가 가격 책정을 참조하세요.

LLM 판정자를 구동하는 모델 관련 정보

LLM 판정자는 타사 서비스를 사용하여 Microsoft에서 운영하는 Azure OpenAI를 포함한 GenAI 애플리케이션을 평가할 수 있습니다.
Azure OpenAI의 경우 Databricks는 남용 모니터링을 옵트아웃하여 Azure OpenAI와 함께 프롬프트 또는 응답을 저장하지 않습니다.
EU(유럽 연합) 작업 영역의 경우 LLM 판정자는 EU에서 호스트되는 모델을 사용합니다. 다른 모든 지역에서는 미국에서 호스트되는 모델을 사용합니다.
Azure AI 기반 AI 보조 기능을 사용하지 않도록 설정하면 LLM 판정자가 Azure AI 기반 모델을 호출할 수 없습니다.
LLM 심사위원은 고객이 GenAI 에이전트/애플리케이션을 평가하는 데 도움을 주기 위한 것이며 LLM 판사 출력은 LLM을 학습, 개선 또는 미세 조정하는 데 사용해서는 안 됩니다.

예제 노트북

다음 노트에서는 Mosaic AI 에이전트 평가를 사용하는 방법을 설명합니다.

Mosaic AI 에이전트 평가 퀵스타트 노트북

노트북 가져오기

에이전트 평가 사용자 지정 메트릭, 지침 및 도메인 전문가 레이블 노트북