다음을 통해 공유


Azure AI Foundry 포털 플레이그라운드에서 수동으로 프롬프트 평가

중요합니다

이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

프롬프트 엔지니어링을 학습할 때 다른 프롬프트(입력)를 한 번에 하나씩 테스트하여 효과를 평가해야 합니다. 이 프로세스는 여러 가지 이유로 시간이 많이 소요될 수 있습니다. 콘텐츠 필터가 적절하게 작동하고 응답이 정확한지 확인해야 합니다.

이 프로세스를 간소화하기 위해 Azure AI Foundry 포털에서 수동 평가를 활용할 수 있습니다. 이 평가 도구를 사용하면 단일 인터페이스를 사용하여 테스트 데이터에 대해 프롬프트를 지속적으로 반복하고 평가할 수 있습니다. 또한 모델의 응답(출력)을 수동으로 평가하여 프롬프트에 대한 확신을 얻을 수 있습니다.

수동 평가는 프롬프트의 성능을 이해하는 데 도움이 될 수 있습니다. 그런 다음 프롬프트를 반복하여 원하는 신뢰 수준에 도달할 수 있습니다.

이 문서에서는 다음을 알아봅니다.

  • 수동 평가 결과를 생성합니다.
  • 모델 응답을 평가합니다.
  • 프롬프트를 반복하고 다시 평가합니다.
  • 결과를 저장하고 비교합니다.
  • 기본 제공 메트릭을 사용하여 평가합니다.

필수 조건

  • CSV 또는 JSONL(JSON 선) 형식 중 하나로 된 테스트 데이터 세트입니다. 사용할 수 있는 데이터 세트가 없는 경우 UI에서 데이터를 수동으로 입력할 수도 있습니다.
  • GPT-3.5, GPT-4 또는 Davinci 모델 중 하나를 배포합니다. 배포를 만드는 방법에 대한 자세한 내용은 모델 배포를 참조하세요.

비고

현재 수동 평가는 채팅 및 완료 작업 유형에 대한 Azure OpenAI 모델에 대해서만 지원됩니다.

수동 평가 결과 생성

Playground에서 수동 평가 옵션을 선택하여 테스트 데이터 및 프롬프트에 따라 모델 응답을 수동으로 검토하는 프로세스를 시작합니다. 프롬프트가 수동 평가 파일로 자동으로 전환됩니다. 프롬프트를 평가하려면 테스트 데이터를 추가해야 합니다. 입력 열의 텍스트 상자를 사용하여 이 단계를 수동으로 수행할 수 있습니다.

데이터 가져오기 기능을 사용하여 프로젝트의 기존 데이터 세트 중 하나를 선택하거나 CSV 또는 JSONL 형식으로 데이터 세트를 업로드할 수도 있습니다. 데이터를 로드한 후 열을 적절하게 매핑하라는 메시지가 표시됩니다. 가져오기를 완료하고 선택하면 데이터가 적절한 열에 채워집니다.

수동 평가 결과를 생성하는 방법을 보여 주는 스크린샷

비고

수동 평가에 최대 50개의 입력 행을 추가할 수 있습니다. 테스트 데이터에 50개 이상의 입력 행이 있는 경우 처음 50개만 입력 열에 업로드됩니다.

이제 데이터가 추가되었으므로 실행을 선택하여 출력 열을 모델의 응답으로 채울 수 있습니다.

모델의 응답을 평가하세요

각 응답에 대해 엄지 손가락을 위아래로 선택하여 프롬프트의 출력을 평가할 수 있습니다. 제공하는 등급에 따라 한눈에 볼 수 있는 요약에서 이러한 응답 점수를 볼 수 있습니다.

한눈에 보는 요약의 응답 점수를 보여 주는 스크린샷.

프롬프트를 수정하고 다시 평가하십시오

요약에 따라 프롬프트를 변경할 수 있습니다. 앞에서 언급한 프롬프트 컨트롤을 사용하여 프롬프트 설정을 편집할 수 있습니다. 시스템 메시지를 업데이트하고, 모델을 변경하고, 매개 변수를 편집하는 등의 작업을 수행할 수 있습니다.

편집한 후에는 모두 다시 실행하여 전체 테이블을 업데이트하거나 처음으로 예상을 충족하지 않는 특정 행만 다시 실행할 수 있습니다.

결과 저장 및 비교

결과를 채웁시면 결과 저장을 선택할 수 있습니다. 결과를 저장하면 팀과 진행 상황을 공유하거나 나중에 수동 평가를 계속할 수 있습니다.

결과 저장 선택 스크린샷

수동 평가에서 좋아요 및 싫어요 평가를 비교할 수도 있습니다. 저장한 다음 수동 평가 아래의 평가 탭에서 확인합니다.

생성 AI 애플리케이션을 평가하는 방법에 대해 자세히 알아봅니다.

피해 완화 기술에 대해 자세히 알아보세요.