사용자 지정 LLM 평가 시스템 만들기

2025-06-11

MLflow의 미리 정의된 LLM 판사 점수는 더 간단한 애플리케이션에서 공통 품질 차원에 대한 우수한 시작점을 제공하지만, 애플리케이션이 더 복잡해짐에 따라 사용자 지정 LLM 심사위원을 만들고 평가 기준을 조정하여 사용 사례의 구체적이고 미묘한 비즈니스 요구 사항을 충족하고 도메인 전문가의 판단에 부합해야 합니다. MLflow는 이러한 고유한 요구 사항에 맞게 조정된 사용자 지정 LLM 심사위원 을 만드는 강력하고 유연한 방법을 제공합니다.

사용자 지정 심사위원을 만드는 방법

MLflow는 사용자 지정 심사위원을 빌드하는 2가지 방법을 제공합니다. 지침 기반 심사위원부터 시작하여 더 많은 제어가 필요하거나 평가 기준을 통과/실패 지침으로 작성할 수 없는 경우에만 프롬프트 기반 심사위원을 사용하는 것이 좋습니다. 지침 기반 심사위원은 비즈니스 이해 관계자에게 쉽게 설명할 수 있다는 뚜렷한 장점을 가지고 있으며 도메인 전문가가 직접 작성할 수 있는 경우가 많습니다.

지침을 기반으로 한 채점 방식(여기에서 시작하는 것이 좋습니다).

최적 대상: 통과/실패 조건으로 프레임된 특정 자연어 조건의 명확한 집합을 기반으로 하는 평가입니다. 규칙, 스타일 가이드 또는 정보 포함/제외 준수를 확인하는 데 적합합니다.
작동 방식: 예를 들어 The response must be polite앱의 특정 입력 또는 출력을 참조하는 일반 언어 규칙 집합을 제공합니다. 그런 다음 LLM은 지침이 통과하거나 실패하는지 여부를 확인하고 그 이유에 대한 근거를 제공합니다.

지침으로 시작하기 »

프롬프트 기반 득점자

가장 적합한 경우: 복잡하고 세심한 평가를 수행해야 하며, 득점자의 프롬프트를 완전히 제어하거나, 득점자가 "매우 좋음", "괜찮음", "나쁨"과 같은 여러 출력 값을 지정할 수 있도록 해야 할 때입니다.
작동 방식: 평가 조건을 정의하고 앱 추적의 특정 필드에 대한 자리 표시자를 포함하는 프롬프트 템플릿을 제공합니다. 채점자가 선택할 수 있는 출력 옵션을 정의합니다. 그런 다음 LLM은 출력 선택 항목을 선택하고 선택 근거를 제공합니다.

프롬프트 기반 심사 시작하기 »

다음 단계

이러한 권장 작업 및 자습서를 사용하여 여행을 계속합니다.

지침 기반 득점자 만들기 - 자연어 규칙을 사용하여 평가 기준 정의(권장)
프롬프트 기반 득점자 만들기 - 사용자 지정 프롬프트 및 출력 선택 항목으로 복잡한 심사위원 빌드
프로덕션에서 득점자 실행 - 지속적인 모니터링을 위한 사용자 지정 심사위원 배포

참조 가이드

이 가이드에 언급된 개념 및 기능에 대한 자세한 설명서를 살펴보세요.

LLM 심사위원 - LLM 심사위원의 작동 방식과 아키텍처 이해
사용자 지정 심사위원: 지침 기반 - 지침 기반 평가에 대한 심층 분석
사용자 지정 심사위원: 프롬프트 기반 - 프롬프트 기반 심사위원에 대한 기술 세부 정보