Azure AI 스튜디오를 사용하여 생성형 AI 앱을 평가하는 방법

아티클
05/22/2024

Important

이 문서에 설명된 기능 중 일부는 미리 보기로만 제공될 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

중요한 데이터 세트에 적용할 때 생성 AI 애플리케이션의 성능을 철저하게 평가하기 위해 평가 프로세스를 시작할 수 있습니다. 이 평가 중에 애플리케이션은 지정된 데이터 세트로 테스트되고, 해당 성능은 수학 기반 메트릭과 AI 지원 메트릭을 모두 사용하여 정량적으로 측정됩니다. 이 평가 실행은 애플리케이션의 기능 및 제한 사항에 대한 포괄적인 인사이트를 제공합니다.

이 평가를 수행하려면 생성 AI 모델의 성능 및 안전을 평가하기 위한 도구와 기능을 제공하는 포괄적인 플랫폼인 Azure AI 스튜디오의 평가 기능을 활용할 수 있습니다. AI 스튜디오에서는 자세한 평가 메트릭을 기록하고, 보고, 분석할 수 있습니다.

이 문서에서는 Azure AI 스튜디오 UI의 기본 제공 평가 메트릭을 사용하여 테스트 데이터 세트 또는 흐름에서 평가 실행을 만드는 방법을 알아봅니다. 유연성을 높이기 위해 사용자 지정 평가 흐름을 설정하고 사용자 지정 평가 기능을 사용할 수 있습니다. 또는 평가 없이 일괄 처리 실행만 수행하는 것이 목표인 경우 사용자 지정 평가 기능을 활용할 수도 있습니다.

필수 조건

AI 지원 메트릭을 사용하여 평가를 실행하려면 다음을 준비해야 합니다.

csv 또는 jsonl 형식 중 하나인 테스트 데이터 세트입니다.
Azure OpenAI 연결입니다.
GPT 3.5 모델, GPT 4 모델 또는 Davinci 모델 중 하나를 배포합니다.

기본 제공 평가 메트릭을 사용하여 평가 만들기

평가 실행을 통해 테스트 데이터 세트의 각 데이터 행에 대한 메트릭 출력을 생성할 수 있습니다. 하나 이상의 평가 메트릭을 선택하여 다양한 측면에서 출력을 평가할 수 있습니다. AI 스튜디오의 평가 및 프롬프트 흐름 페이지에서 평가 실행을 만들 수 있습니다. 그런 다음, 평가 실행 설정 프로세스를 안내하는 평가 만들기 마법사가 나타납니다.

평가 페이지에서

축소 가능한 왼쪽 메뉴에서 평가>+ 새 평가를 선택합니다.

흐름 페이지에서

축소 가능한 왼쪽 메뉴에서 프롬프트 흐름>평가>기본 제공 평가를 선택합니다.

기본 정보

평가 만들기 마법사에 들어가면 평가 실행에 대한 선택적 이름을 제공하고 애플리케이션의 목표에 가장 적합한 시나리오를 선택할 수 있습니다. 현재 다음 시나리오에 대한 지원을 제공합니다.

컨텍스트가 포함된 질문과 답변: 이 시나리오는 사용자 쿼리에 답변하고 컨텍스트 정보가 포함된 답변을 제공하는 애플리케이션을 위해 설계되었습니다.
컨텍스트 없는 질문과 답변: 이 시나리오는 사용자 쿼리에 답변하고 컨텍스트 없이 답변을 제공하는 애플리케이션을 위해 설계되었습니다.

도움말 패널을 사용하여 FAQ를 확인하고 마법사를 스스로 확인해 볼 수 있습니다.

적절한 시나리오를 지정함으로써 애플리케이션의 특정 특성에 맞게 평가를 조정하여 정확하고 관련성이 높은 메트릭을 보장할 수 있습니다.

데이터에서 평가: 이미 테스트 데이터 세트에 모델 생성 출력이 있는 경우 평가할 흐름 선택을 건너뛰고 바로 다음 단계로 이동하여 테스트 데이터를 구성합니다.
흐름에서 평가: 흐름 페이지에서 평가를 시작하면 평가할 흐름이 자동으로 선택됩니다. 다른 흐름을 평가하려는 경우 다른 흐름을 선택할 수 있습니다. 흐름 내에는 여러 노드가 있을 수 있으며 각 노드에는 고유한 변형 세트가 있을 수 있다는 점에 유의해야 합니다. 이러한 경우 평가 프로세스 중에 평가하려는 노드와 변형을 지정해야 합니다.

테스트 데이터 구성

기존 데이터 세트 중에서 선택하거나 특별히 평가할 새 데이터 세트를 업로드할 수 있습니다. 테스트 데이터 세트에는 이전 단계에서 선택한 흐름이 없는 경우 평가에 사용할 모델 생성 출력이 있어야 합니다.

기존 데이터 세트 선택: 설정된 데이터 세트 컬렉션에서 테스트 데이터 세트를 선택할 수 있습니다.
새 데이터 세트 추가: 로컬 스토리지에서 파일을 업로드할 수 있습니다. .csv 및 .jsonl 파일 형식만 지원합니다.
흐름을 위한 데이터 매핑: 평가할 흐름을 선택하는 경우 흐름에서 일괄 처리 실행을 실행하여 평가용 출력을 생성하는 데 필요한 입력과 일치하도록 데이터 열이 구성되어 있는지 확인합니다. 그런 다음 흐름의 출력을 사용하여 평가가 수행됩니다. 그런 다음, 다음 단계에서 평가 입력에 대한 데이터 매핑을 구성합니다.

메트릭 선택

사용자의 애플리케이션에 대한 포괄적인 평가를 용이하게 하기 위해 Microsoft에서 큐레이팅한 두 가지 형식의 메트릭을 지원합니다.

성능 및 품질 메트릭: 이 메트릭은 생성된 콘텐츠의 전반적인 품질과 일관성을 평가합니다.
위험 및 안전 메트릭: 이 메트릭은 잠재적인 콘텐츠 위험을 식별하고 생성된 콘텐츠의 안전을 보장하는 데 중점을 둡니다.

각 시나리오에서 지원을 제공하는 메트릭의 전체 목록을 보려면 표를 참조하세요. 각 메트릭 정의 및 계산 방법에 대한 자세한 내용은 메트릭 평가 및 모니터링을 참조하세요.

시나리오	성능 및 품질 메트릭	위험 및 안전 메트릭
컨텍스트에 따른 질문과 답변	근거성, 관련성, 일관성, 유창성, GPT 유사성, F1 점수	자해 관련 콘텐츠, 증오성 및 불공정한 콘텐츠, 폭력적인 콘텐츠, 성적인 콘텐츠
컨텍스트 없는 질문과 답변	일관성, 유창성, GPT 유사성, F1 점수	자해 관련 콘텐츠, 증오성 및 불공정한 콘텐츠, 폭력적인 콘텐츠, 성적인 콘텐츠

성능 및 품질 평가를 위해 AI 지원 메트릭을 사용하는 경우 계산 프로세스에 대해 GPT 모델을 지정해야 합니다. 계산을 위해 Azure OpenAI 연결과 GPT-3.5, GPT-4 또는 Davinci 모델을 사용한 배포를 선택합니다.

위험 및 안전 메트릭의 경우 연결 및 배포를 제공할 필요가 없습니다. Azure AI Studio 안전 평가 백 엔드 서비스는 애플리케이션의 콘텐츠 손상을 평가할 수 있도록 콘텐츠 위험 심각도 점수 및 추론을 생성할 수 있는 GPT-4 모델을 프로비전합니다.

위험 및 안전 메트릭에 대한 결함률을 계산하기 위해 임계값을 설정할 수 있습니다. 결함률은 심각도 수준(매우 낮음, 낮음, 중간, 높음)이 임계값을 초과하는 인스턴스의 비율을 취하여 계산됩니다. 기본값으로 임계값은 “중간”으로 설정됩니다.

참고 항목

AI 지원 위험 및 안전 메트릭은 Azure AI Studio 안전 평가 백 엔드 서비스에서 호스트되며 미국 동부 2, 프랑스 중부, 영국 남부, 스웨덴 중부 지역에서만 사용할 수 있습니다.

평가를 위한 데이터 매핑: 데이터 세트의 어떤 데이터 열이 평가에 필요한 입력과 일치하는지 지정해야 합니다. 다양한 평가 메트릭은 정확한 계산을 위해 고유한 형식의 데이터 입력이 필요합니다.

참고 항목

데이터에서 평가하는 경우 “답변”은 데이터 세트 ${data$answer}의 답변 열에 매핑되어야 합니다. 흐름에서 평가하는 경우 흐름 출력 ${run.outputs.answer}에서 “답변”이 나와야 합니다.

각 메트릭에 대한 특정 데이터 매핑 요구 사항에 대한 지침은 표에 제공된 정보를 참조하세요.

메트릭 요구 사항에 대한 질문 답변

메트릭	질문	답변	Context	참값(Ground truth)
접지	필수: Str	필수: Str	필수: Str	해당 없음
일관성	필수: Str	필수: Str	해당 없음	해당 없음
유창성	필수: Str	필수: Str	해당 없음	해당 없음
정확도	필수: Str	필수: Str	필수: Str	해당 없음
GPT 유사성	필수: Str	필수: Str	해당 없음	필수: Str
F1 점수	필수: Str	필수: Str	해당 없음	필수: Str
자해 관련 콘텐츠	필수: Str	필수: Str	해당 없음	해당 없음
증오스럽고 불공정한 콘텐츠	필수: Str	필수: Str	해당 없음	해당 없음
폭력적인 콘텐츠	필수: Str	필수: Str	해당 없음	해당 없음
성적인 콘텐츠	필수: Str	필수: Str	해당 없음	해당 없음

질문: 질문 답변 쌍의 사용자가 묻는 질문
답변: 모델이 답변으로 생성한 질문에 대한 답변
컨텍스트: 응답이 생성된 소스(즉, 근거 문서)
참값: 사용자/인간이 정답으로 생성한 질문에 대한 응답

검토 및 완료

필요한 모든 구성을 완료한 후 검토하고 '제출'을 선택하여 평가 실행을 제출할 수 있습니다.

사용자 지정 평가 흐름을 사용하여 평가 만들기

자체 평가 방법을 개발할 수 있습니다.

흐름 페이지에서: 축소 가능한 왼쪽 메뉴에서 프롬프트 흐름>평가>사용자 지정 평가를 선택합니다.

평가기 라이브러리에서 평가기 보기 및 관리

평가기 라이브러리는 평가기의 세부 정보와 상태를 볼 수 있는 중앙 집중식 위치입니다. Microsoft에서 큐레이팅한 평가기를 보고 관리할 수 있습니다.

팁

프롬프트 흐름 SDK를 통해 사용자 지정 평가기를 사용할 수 있습니다. 자세한 내용은 프롬프트 흐름 SDK 사용하여 평가를 참조하세요.

평가기 라이브러리를 사용하여 버전 관리도 가능합니다. 다른 버전의 작업과 비교하고, 필요한 경우 이전 버전을 복원하고, 다른 사용자와 더 쉽게 공동 작업할 수 있습니다.

AI 스튜디오에서 평가기 라이브러리를 사용하려면 프로젝트의 평가 페이지로 이동하여 평가기 라이브러리 탭을 선택합니다.

평가기 이름을 선택하여 자세한 내용을 볼 수 있습니다. 이름, 설명, 매개 변수를 확인하고 평가기와 연결된 파일을 확인할 수 있습니다. 다음은 Microsoft에서 큐레이팅한 평가기의 몇 가지 예입니다.

Microsoft에서 큐레이팅한 성능 및 품질 평가기의 경우 세부 정보 페이지에서 주석 프롬프트를 볼 수 있습니다. 프롬프트 흐름 SDK를 사용하여 데이터와 목표에 따라 매개 변수나 조건을 변경하여 이러한 프롬프트를 사용자의 사용 사례에 맞게 조정할 수 있습니다. 예를 들어 Groundedness-Evaluator를 선택하고 메트릭을 계산하는 방법을 보여 주는 프롬프트 파일을 확인할 수 있습니다.
Microsoft에서 큐레이팅한 위험 및 안전 평가기의 경우 메트릭의 정의를 볼 수 있습니다. 예를 들어 Self-Harm-Related-Content-Evaluator를 선택하고, 이 안전 메트릭의 의미와 Microsoft에서 여러 심각도 수준을 결정하는 방법을 알아볼 수 있습니다.

다음 단계

생성 AI 애플리케이션을 평가하는 방법에 대해 자세히 알아봅니다.

다음을 통해 공유