모델 성능 평가

10분

배포된 모델을 평가하면 품질 표준을 충족하고, 정확한 응답을 제공하며, 시간이 지남에 따라 지속적으로 개선됩니다. Microsoft Foundry 포털은 수동 테스트부터 자동화된 메트릭 및 포괄적인 평가 흐름에 이르기까지 여러 가지 평가 방법을 제공합니다.

모델 평가 이유

평가는 생성 AI 애플리케이션 개발에서 다음과 같은 몇 가지 중요한 용도로 사용됩니다.

품질 보증 은 문제를 식별하고 모델이 정확하고 관련 있는 응답을 제공하는지 확인합니다. 프로덕션이 아닌 평가 중에 문제를 발견하면 사용자와 조직의 평판이 보호됩니다.

모델이 지속적으로 유용하고 적절한 응답을 제공할 때 사용자 만족도가 향상됩니다. 평가는 사용자가 애플리케이션을 경험하는 방법과 향상된 기능으로 가장 큰 영향을 주는 위치를 이해하는 데 도움이 됩니다.

지속적인 개선 은 향상된 기회를 식별하기 위해 평가 결과를 분석하는 데서 비롯됩니다. 프롬프트를 업데이트하거나, 기능을 추가하거나, 모델을 재학습할 때 정기적으로 평가하면 지속적인 품질이 보장됩니다.

규정 준수 및 안전 확인은 모델이 정책을 준수하고, 유해한 콘텐츠 생성을 방지하며, 사용자 개인 정보 보호 및 데이터 보호 요구 사항을 준수하는지 확인합니다.

수동 평가 방법

수동 평가에는 모델 응답을 평가하는 사용자 검토자가 포함됩니다. 시간이 많이 걸리는 수동 평가는 자동화된 메트릭을 캡처할 수 없는 인사이트를 제공합니다.

플레이그라운드의 대화형 테스트를 통해 모델 동작을 정성적으로 탐색할 수 있습니다. 다양한 프롬프트를 입력하고, 응답을 관찰하고, 잘못된 정보, 부적절한 어조 또는 지침을 따르지 못하는 등의 문제를 기록해 둡니다. 이 예비 테스트는 모델의 강점과 제한 사항을 이해하는 데 도움이 됩니다.

애플리케이션 디자인을 최적화하기 위해 놀이터에서 모델을 나란히 테스트하고 시스템 지침 및 프롬프트를 동기화하여 응답을 비교할 수 있습니다.

구조적 검토 에는 애플리케이션의 사용 사례를 나타내는 테스트 사례 집합을 만드는 작업이 포함됩니다. 인간 평가자는 다음과 같은 기준에 따라 응답을 평가합니다.

관련성: 응답이 질문 또는 요청을 처리하나요?
정보 제공: 충분한 세부 정보와 유용한 정보를 제공하나요?
참여: 응답이 흥미롭고 적절하게 대화형인가요?
정확도: 사실과 진술이 올바른가요?
안전: 응답이 유해하거나 편향되거나 부적절한 콘텐츠를 방지하나요?

평가자는 일반적으로 각 기준에 대해 등급 배율(예: 1-5)을 사용합니다. 여러 테스트 사례의 집계 등급은 전체 품질에 대한 정량적 측정값을 제공합니다.

사용자 연구는 애플리케이션과 상호 작용하는 실제 또는 대표 사용자로부터 피드백을 수집합니다. 사용자 피드백은 복잡한 구문, 누락된 컨텍스트 또는 충족되지 않은 기대와 같이 제어된 테스트에서 놓칠 수 있는 실제 문제를 보여줍니다.

수동 평가는 사용자 만족도, 상황별 적합성 및 메트릭만으로는 측정할 수 없는 브랜드 맞춤과 같은 주관적인 품질 측면을 캡처하여 자동화된 접근 방식을 보완합니다.

자동화된 평가 메트릭

자동화된 평가는 표준 메트릭을 사용하여 모델의 출력을 자동으로 평가합니다. 이러한 평가는 효율적으로 확장되며 일관되고 객관적인 측정을 제공합니다.

Microsoft Foundry 포털은 다음을 비롯한 여러 범주의 평가 메트릭을 지원합니다.

생성 품질 메트릭은 전반적인 응답 품질을 평가합니다.

근거 있음: 응답이 추측이 아닌 제공된 컨텍스트에 기반하고 있는지 여부를 결정합니다. Groundedness Pro는 사실 정확성 요구 사항에 유용한 이진 평가(그라운딩됨 또는 그라운딩되지 않음)를 제공합니다.
관련성: 응답이 사용자의 질문을 처리할지 아니면 요청을 적절하게 처리할지를 측정합니다.
일관성: 응답이 논리적으로 흐르는지 여부를 평가하고 일관된 아이디어를 유지합니다.
유창성: 언어적 정확성과 자연어 품질을 평가합니다.

위험 및 안전 메트릭은 잠재적인 유해한 콘텐츠를 식별합니다.

자해 콘텐츠: 자해를 논의하거나 장려하는 응답을 감지합니다.
증오 및 불공정 콘텐츠: 편견, 차별 또는 증오 진술을 식별합니다.
폭력적인 콘텐츠: 폭력을 포함하거나 조장하는 응답에 플래그 지정
성적 콘텐츠: 부적절한 성적 콘텐츠 감지
보호된 자료: 잠재적인 저작권 또는 독점 콘텐츠 복제 식별
간접 공격(탈옥): 조작 시도에 대한 취약성 평가

콘텐츠 피해 메트릭의 경우 결과는 심각도 임계값(일반적으로 중간)을 초과하는 응답의 백분율인 결함율로 집계됩니다. 보호된 재질 및 간접 공격의 경우 결함율은 다음과 같이 (true instances / total instances) × 100계산됩니다.

AI 지원 평가를 사용하는 경우 평가를 수행할 GPT 모델을 지정합니다. 이 평가기 모델은 배포된 모델의 응답을 분석하고 선택한 기준에 따라 점수를 할당합니다.

자연어 처리 메트릭

NLP 메트릭은 계산기 모델을 요구하지 않고도 수학 기반 평가를 제공합니다. 이러한 메트릭은 종종 비교를 위해 예상되거나 올바른 응답인 지상 진리 데이터가 필요합니다.

F1 점수는 생성된 답변과 정답 간의 공유 단어 비율을 측정하며, 정밀도(잘못된 단어 방지)와 재현율(중요한 단어 포함) 사이에서 균형을 맞춥니다. F1 점수는 텍스트 분류 및 정보 검색과 같은 작업에 유용합니다.

BLEU (이중 언어 평가 언더스터디)는 생성된 텍스트와 참조 텍스트 간에 n-gram(단어 시퀀스)을 비교하며, 일반적으로 기계 번역 평가에 사용됩니다.

METEOR (명시적 순서 지정을 사용한 번역 평가 메트릭)는 동의어, 형태소 분석 및 의역을 고려하여 BLEU를 확장하여 보다 유연한 비교를 제공합니다.

ROUGE (핵심 내용 평가를 위한 재현율 중심 지표)는 정밀도보다 재현율을 강조하며, 핵심 포인트를 포함하는 것이 불필요한 단어를 피하는 것보다 중요한 요약 작업에 특히 유용합니다.

GLEU (Google-BLEU)는 문장 수준 평가를 위해 설계된 BLEU의 변형입니다.

NLP 메트릭은 명확한 정답 또는 참조 텍스트가 있는 경우 잘 작동합니다. 유효한 응답이 많은 개방형 세대에는 적합하지 않습니다.

포괄적인 평가 만들기

Microsoft Foundry 포털의 평가 기능을 사용하면 테스트 데이터 세트 및 여러 메트릭을 사용하여 체계적인 평가를 동시에 실행할 수 있습니다.

다음 중 하나를 기반으로 평가를 수행할 수 있습니다.

모델: 지정한 프롬프트를 사용하여 배포된 모델을 평가합니다. 시스템은 평가 중에 출력을 생성합니다.
에이전트: 사용자 정의 프롬프트를 사용하여 에이전트의 응답을 평가합니다.
데이터 세트: 테스트 데이터 세트에 이미 있는 미리 생성된 출력을 평가합니다.

모델 또는 에이전트를 평가할 때 평가를 위한 입력을 제공하는 데이터 세트가 필요합니다. 다음 세 가지 옵션이 있습니다.

새 데이터 세트 추가: 로컬 storage 테스트 사례가 포함된 CSV 또는 JSONL 파일을 제공합니다.
기존 데이터 세트 사용: 이전에 project 업로드한 데이터 세트에서 선택합니다.
가상 데이터 세트 생성: 테스트 데이터가 부족한 경우 시스템에서 제공하는 토픽 설명에 따라 샘플 데이터를 생성할 수 있습니다. 데이터를 생성할 리소스, 행 수 및 원하는 데이터를 설명하는 프롬프트를 지정합니다. 파일을 업로드하여 특정 작업과 관련성을 높일 수도 있습니다.

출력이 미리 생성된 데이터 세트 평가의 경우 입력 및 모델 생성 응답을 모두 포함하는 데이터 세트를 선택하거나 업로드합니다.

계산할 메트릭을 구성한 후 평가 데이터에 대한 필드 매핑 및 모델에 대한 시스템 프롬프트가 표시됩니다. 선택한 메트릭에 대해 테스트 데이터 세트의 각 행을 처리하여 비동기적으로 실행하는 데 다소 시간이 걸릴 수 있는 평가 작업을 시작할 수 있습니다.

평가 결과 검토

평가가 완료되면 선택한 메트릭에 대한 집계 점수와 각 테스트 프롬프트의 세부 정보가 결과에 표시됩니다.

평가기 라이브러리 탐색

계산기 라이브러리는 사용 가능한 모든 평가자를 보고 관리할 수 있는 중앙 집중식 위치를 제공합니다. 프로젝트 Evaluation 페이지에서 Evaluator 라이브러리 탭을 선택하여 액세스하세요.

평가기 라이브러리에서 다음을 수행할 수 있습니다.

품질, 안전성 및 성능에 대한 Microsoft 큐레이팅 평가자 보기
이름, 설명, 매개 변수 및 관련 파일을 포함한 평가자 세부 정보 검사
품질 평가자가 메트릭을 계산하는 방법을 이해하도록 주석 프롬프트를 검토합니다.
안전 평가자에 대한 정의 및 심각도 수준 확인
특정 시나리오에 대해 만든 사용자 지정 평가자 관리

라이브러리는 버전 관리를 지원하므로 다른 버전을 비교하고, 필요한 경우 이전 버전을 복원하고, 사용자 지정 평가자에서 다른 사용자와 공동 작업할 수 있습니다.

평가에 따라 반복

평가 결과는 다음 단계를 알려줍니다.

점수가 필요 이상으로 낮은 경우 다음을 고려합니다.

프롬프트 엔지니어링: 지침 및 시스템 메시지 구체화
다양한 모델: 사용 사례에 최적화된 모델 시도
RAG 통합: 데이터에서 지상 응답에 검색 기능 추가
미세 조정: 특정 도메인에서 모델 학습(지원되는 경우)

이러한 각 단계는 복잡성(때로는 비용)으로 증가할 수 있으므로 개선 사항을 계획할 때 이를 고려해야 합니다.

안전 메트릭에 문제가 표시되는 경우:

콘텐츠 필터: Azure AI Content Safety 서비스 구현
프롬프트 강화: 시스템 메시지에 안전 지침 추가
출력 유효성 검사: 사용자에게 표시하기 전에 응답 확인

변경을 수행할 때 정기적으로 평가하면 개선 사항이 추적되고 품질이 회귀하지 않습니다. 개발 초기에 평가 벤치마크를 설정한 다음 수정 후 평가를 다시 실행하여 객관적으로 영향을 측정합니다.

수동 테스트, 자동화된 메트릭 및 포괄적인 평가 흐름을 결합하여 모델이 잘 수행되고, 사용자에게 안전하게 서비스를 제공하고, 애플리케이션의 품질 요구 사항을 충족한다는 확신을 쌓을 수 있습니다.

피드백

이 페이지가 도움이 되었나요?