다음을 통해 공유


"품질" 정의: 평가 기준

이 문서에서는 평가 집합과 평가 집합이 애플리케이션의 품질을 보장하는 데 어떻게 도움이 되는지 설명합니다.

평가 집합이 무엇인가요?

품질을 측정하기 위해 Databricks는 사람이 직접 레이블을 지정한 평가 집합을 만드는 것을 권장합니다. 평가용 데이터 집합은 선별된 대표 쿼리 집합과 정답, 그리고 (선택적으로) 검색해야 할 올바른 지원 문서로 구성됩니다. 이 프로세스에서는 최종 사용자의 기대와 요구 사항을 정확하게 반영하는 평가 집합이 보장되므로 사용자 입력이 중요합니다.

사용자 레이블 큐레이팅은 시간이 많이 걸리는 프로세스일 수 있습니다. 질문만 포함하는 평가 집합을 만들어 시작할 수 있으며 시간이 지남에 따라 기본 진리 응답을 추가할 수 있습니다. Mosaic AI 에이전트 평가 는 지상 진리 없이 체인의 품질을 평가할 수 있지만, 지상 진리를 사용할 수 있는 경우 응답 정확성과 같은 추가 메트릭을 계산합니다.

좋은 평가 세트의 요소

좋은 평가 집합에는 다음과 같은 특징이 있습니다.

  • 담당자: 애플리케이션이 프로덕션에서 발생하는 다양한 요청을 정확하게 반영합니다.
  • 도전적인: 모델의 기능을 효과적으로 테스트하려면 집합에 어렵고 다양한 사례가 포함되어야 합니다. 이상적으로는 프롬프트 주입을 시도하는 질문이나 LLM에서 부적절한 응답을 생성하도록 하는 질문과 같은 대립적인 예제가 포함되어 있습니다.
  • 지속적으로 업데이트됨: 애플리케이션이 프로덕션에서 사용되는 방법, 인덱싱된 데이터의 변화하는 특성 및 애플리케이션 요구 사항의 변경 내용을 반영하도록 집합을 주기적으로 업데이트해야 합니다.

Databricks는 평가 집합에 30개 이상의 질문과 이상적으로 100-200개의 질문을 권장합니다. 최상의 평가 집합은 시간이 지남에 따라 증가하여 1,000개의 질문을 포함합니다.

학습, 테스트 및 유효성 검사 집합

과잉 맞춤을 방지하기 위해 Databricks는 평가 집합을 학습, 테스트 및 유효성 검사 집합으로 분할하는 것이 좋습니다.

  • 훈련 데이터 세트: 질문의 약 70%. 모든 실험을 평가하여 가장 높은 잠재력을 가진 실험을 식별하는 초기 평가 단계에서 사용됩니다.
  • 테스트 세트: 약 20%의 질문. 학습 집합에서 가장 성능이 높은 실험을 평가하는 데 사용됩니다.
  • 유효성 검사 집합: 질문의 약 10%. 프로덕션에 실험을 배포하기 전에 최종 유효성 검사에 사용됩니다.

Mosaic AI 에이전트 평가는 관련자가 애플리케이션의 출력에 대한 피드백을 제공할 수 있도록 웹 기반 채팅 인터페이스를 제공하여 평가 집합을 만드는 데 도움이 됩니다. 체인의 출력 및 관련자 피드백은 Delta Tables에 저장되며 평가 집합으로 큐레이팅할 수 있습니다. 평가 집합을 큐레이팅하는 방법에 대한 실습 지침과 샘플 코드는 이 쿡북의 구현 섹션에서 을 참조하세요.