평가 세트(MLflow 2)

2025-06-23

중요합니다

이 페이지에서는 MLflow 2에서 에이전트 평가 버전을 0.22 사용하는 것을 설명합니다. Databricks는 에이전트 평가 >1.0와 통합된 MLflow 3을 사용하는 것이 좋습니다. MLflow 3에서 에이전트 평가 API는 이제 패키지의 mlflow 일부입니다.

이 항목에 대한 자세한 내용은 MLflow 평가 데이터 세트 빌드를 참조하세요.

AI 에이전트의 품질을 측정하려면 고품질 응답을 특징짓는 기준과 함께 대표적인 요청 집합을 정의할 수 있어야 합니다. 평가 집합을 제공함으로써 그렇게 할 수 있습니다. 이 문서에서는 평가 집합에 대한 다양한 옵션과 평가 집합을 만들기 위한 몇 가지 모범 사례를 설명합니다.

Databricks는 대표적인 질문과 정확한 답변으로 구성된 인간 레이블 평가용 데이터 세트를 만드는 것이 좋습니다. 애플리케이션에 검색 단계가 포함된 경우 필요에 따라 응답의 기반이 될 것으로 예상되는 지원 문서를 제공할 수 있습니다. 평가 집합 작성을 시작할 수 있도록, Databricks는 에이전트 평가에서 직접 사용하거나 주제 전문가가 검토할 수도 있는 고품질의 합성 질문과 정답을 생성할 수 있는 SDK를 제공합니다. 평가 집합을 합성하여을 참조하세요.

좋은 평가 집합에는 다음과 같은 특징이 있습니다.

담당자: 애플리케이션이 프로덕션에서 발생하는 요청 범위를 정확하게 반영해야 합니다.
도전: 애플리케이션의 모든 기능을 효과적으로 테스트하려면 어렵고 다양한 사례가 포함되어야 합니다.
지속적으로 업데이트: 애플리케이션이 사용되는 방법과 프로덕션 트래픽의 변화하는 패턴을 반영하도록 정기적으로 업데이트해야 합니다.

평가 집합의 필수 스키마는 에이전트 평가 입력 스키마(MLflow 2)를 참조하세요.

샘플 평가 집합

이 섹션에는 평가 집합의 간단한 예제가 포함되어 있습니다.

`request`만 포함된 샘플 평가 집합

eval_set = [
    {
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
    }
]

`request`와 `expected_response`를 포함한 샘플 평가 집합

eval_set  = [
    {
        "request_id": "request-id",
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "expected_response": "There's no significant difference.",
    }
]

`request`, `expected_response`, `expected_retrieved_content` 포함 샘플 평가 집합

eval_set  = [
    {
        "request_id": "request-id",
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "expected_retrieved_context": [
            {
                "doc_uri": "doc_uri_1",
            },
            {
                "doc_uri": "doc_uri_2",
            },
        ],
        "expected_response": "There's no significant difference.",
    }
]

`request` 및 `response`만 있는 샘플 평가 집합

eval_set = [
    {
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
    }
]

임의로 형식화된 `request` 및 `response`을 사용한 샘플 평가 집합.

eval_set = [
    {
        "request": {"query": "Difference between", "item_a": "reduceByKey", "item_b": "groupByKey"},
        "response": {
            "differences": [
                "reduceByKey aggregates data before shuffling",
                "groupByKey shuffles all data",
                "reduceByKey is more efficient",
            ]
        }
    }
]

`request`, `response`, `guidelines` 포함 샘플 평가 집합

eval_set = [
    {
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
        # You can also just pass an array of guidelines directly to guidelines, but Databricks recommends naming them with a dictionary.
        "guidelines": {
            "english": ["The response must be in English"],
            "clarity": ["The response must be clear, coherent, and concise"],
        }
    }
]

샘플 평가 집합은 `request`, `response`, `guidelines`, 및 `expected_facts`를 사용하여 구성됩니다.

eval_set = [
    {
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
        "expected_facts": [
            "There's no significant difference.",
        ],
        # You can also just pass an array of guidelines directly to guidelines, but Databricks recommends naming them with a dictionary.
        "guidelines": {
            "english": ["The response must be in English"],
            "clarity": ["The response must be clear, coherent, and concise"],
        }
    }
]

`request`, `response`, `retrieved_context` 포함 샘플 평가 집합

eval_set = [
    {
        "request_id": "request-id", # optional, but useful for tracking
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
        "retrieved_context": [
            {
                # In `retrieved_context`, `content` is optional, but delivers additional functionality if provided (the Databricks Context Relevance LLM judge runs to check the relevance of the provided content to the request).
                "content": "reduceByKey reduces the amount of data shuffled by merging values before shuffling.",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "groupByKey may lead to inefficient data shuffling due to sending all values across the network.",
                "doc_uri": "doc_uri_6_extra",
            },
        ],
    }
]

`request`, `response`, `retrieved_context`및 `expected_facts`이 포함된 샘플 평가 집합

eval_set  = [
    {
        "request_id": "request-id",
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "expected_facts": [
            "There's no significant difference.",
        ],
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
        "retrieved_context": [
            {
                # In `retrieved_context`, `content` is optional, but delivers additional functionality if provided (the Databricks Context Relevance LLM judge runs to check the relevance of the provided content to the request).
                "content": "reduceByKey reduces the amount of data shuffled by merging values before shuffling.",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "groupByKey may lead to inefficient data shuffling due to sending all values across the network.",
                "doc_uri": "doc_uri_6_extra",
            },
        ],
    }
]

`request`, `response`, `retrieved_context`, `expected_facts`및 `expected_retrieved_context`로 구성된 샘플 평가 집합

eval_set  = [
    {
        "request_id": "request-id",
        "request": "What is the difference between reduceByKey and groupByKey in Spark?",
        "expected_retrieved_context": [
            {
                "doc_uri": "doc_uri_2_1",
            },
            {
                "doc_uri": "doc_uri_2_2",
            },
        ],
        "expected_facts": [
            "There's no significant difference.",
        ],
        "response": "reduceByKey aggregates data before shuffling, whereas groupByKey shuffles all data, making reduceByKey more efficient.",
        "retrieved_context": [
            {
                # In `retrieved_context`, `content` is optional, but delivers additional functionality if provided (the Databricks Context Relevance LLM judge runs to check the relevance of the provided content to the request).
                "content": "reduceByKey reduces the amount of data shuffled by merging values before shuffling.",
                "doc_uri": "doc_uri_2_1",
            },
            {
                "content": "groupByKey may lead to inefficient data shuffling due to sending all values across the network.",
                "doc_uri": "doc_uri_6_extra",
            },
        ],
    }
]

평가 집합을 개발하기 위한 모범 사례

평가 집합에서 각 샘플 또는 샘플 그룹을 단위 테스트로 고려합니다. 즉, 각 샘플은 명시적 예상 결과가 있는 특정 시나리오에 해당해야 합니다. 예를 들어 더 긴 컨텍스트, 다중 홉 추론 및 간접 증거에서 답변을 유추하는 기능을 테스트하는 것이 좋습니다.
악의적인 사용자의 악의적인 시나리오를 테스트하는 것이 좋습니다.
평가 집합에 포함할 질문 수에 대한 구체적인 지침은 없지만 고품질 데이터의 명확한 신호는 일반적으로 약한 데이터의 시끄러운 신호보다 더 잘 수행됩니다.
인간이 대답하는 경우에도 매우 어려운 예를 포함하는 것이 좋습니다.
범용 애플리케이션을 빌드하든 특정 도메인을 대상으로 하든 앱에 다양한 질문이 발생할 수 있습니다. 평가 집합은 이를 반영해야 합니다. 예를 들어 특정 HR 질문에 대한 애플리케이션을 만드는 경우 애플리케이션이 환각되거나 유해한 응답을 제공하지 않도록 다른 도메인(예: 작업)을 테스트하는 것이 좋습니다.
고품질의 일관된 인간 생성 레이블은 애플리케이션에 제공하는 기본 진리 값이 원하는 동작을 정확하게 반영하도록 하는 가장 좋은 방법입니다. 고품질 휴먼 레이블을 보장하기 위한 몇 가지 단계는 다음과 같습니다.
- 동일한 질문에 대한 여러 사용자 레이블러의 응답(레이블)을 집계합니다.
- 레이블 지정 지침이 명확하고 사용자 레이블 지정자가 일관성이 있는지 확인합니다.
- 사용자 레이블 지정 프로세스에 대한 조건이 RAG 애플리케이션에 제출된 요청 형식과 동일한지 확인합니다.
사람이 붙인 레이블은 본질적으로 일관성이 없고, 예를 들어 질문을 각자 다르게 해석하기 때문에 변동성이 있습니다. 이는 프로세스의 중요한 부분입니다. 사용자 레이블 지정을 사용하면 고려하지 않은 질문의 해석이 표시될 수 있으며, 이는 애플리케이션에서 관찰하는 동작에 대한 인사이트를 제공할 수 있습니다.

다음을 통해 공유

평가 세트(MLflow 2)

샘플 평가 집합

request만 포함된 샘플 평가 집합

request와 expected_response를 포함한 샘플 평가 집합

request, expected_response, expected_retrieved_content 포함 샘플 평가 집합

request 및 response만 있는 샘플 평가 집합

임의로 형식화된 request 및 response을 사용한 샘플 평가 집합.

request, response, guidelines 포함 샘플 평가 집합

샘플 평가 집합은 request, response, guidelines, 및 expected_facts를 사용하여 구성됩니다.

request, response, retrieved_context 포함 샘플 평가 집합

request, response, retrieved_context및 expected_facts이 포함된 샘플 평가 집합

request, response, retrieved_context, expected_facts및 expected_retrieved_context로 구성된 샘플 평가 집합