다음을 통해 공유


단일 응답 테스트 집합 만들기

단일 응답 평가는 전체 대화 대신 한 번에 하나의 연결되지 않은 질문에서 에이전트를 테스트합니다. 예를 들어 고객 서비스 에이전트에 대한 단일 응답 평가에서 업무 시간이 얼마인지 묻고, 해당 질문에 대한 에이전트의 응답을 기록한 다음, 새 질문으로 시작합니다. 내 주문 기록을 찾으려면 어떻게 하나요?

단일 응답 평가는 특정 질문에 대답하는 방법, 에이전트가 호출하는 기능 및 대답에서 사용하는 정확한 표현에 대해 에이전트를 테스트하려는 경우에 적합합니다. 대화형 평가를 실행하여 더 긴 상호 작용을 통해 에이전트의 동작을 평가할 수도 있습니다.

평가는 테스트 집합을 사용합니다. 단일 응답 평가에 대한 테스트 집합은 최대 100개의 테스트 사례 그룹으로 구성됩니다. 에이전트 평가를 실행할 때 테스트 집합을 선택하고 Copilot Studio는 에이전트에 대해 해당 집합의 모든 테스트 사례를 실행합니다.

테스트 세트 내에서 수동으로 테스트 케이스를 만들거나, 스프레드시트를 사용해 가져오거나, AI를 이용해 에이전트의 설계와 자원을 기반으로 메시지를 생성할 수 있습니다. 그 후 테스트 세트 내 각 테스트 케이스에 대해 에이전트의 응답 품질을 어떻게 측정할지 선택할 수 있습니다.

에이전트 평가 작동 방식에 대한 자세한 내용은 '에이전트 평가에 대하여'를 참조하세요.

기존 테스트 세트를 편집하는 방법을 배우려면 ' 테스트 세트의 세부 사항 변경'을 참조하세요.

중요합니다

테스트 결과는 Copilot Studio에서 89일 동안 사용할 수 있습니다. 테스트 결과를 더 오래 저장하려면 결과를 CSV 파일로 내보내 세요.

새 테스트 집합 만들기

  1. 에이전트의 평가 페이지로 가세요.

    화면 크기 때문에 탭 선택이 압축될 때 평가 탭을 선택하는 방법을 보여주는 스크린샷입니다.

  2. 새 평가를 선택한 다음, 단일 응답을 선택합니다.

    평가 페이지의 새 테스트 생성 버튼을 보여주는 스크린샷입니다.

  3. 테스트 집합을 만드는 데 사용할 메서드를 선택합니다. 테스트 세트는 최대 100개의 테스트 케이스를 가질 수 있습니다.

    • 간단한 질문 세트를 통해 Copilot Studio가 에이전트의 설명, 지침 및 기능에 기반하여 자동으로 테스트 케이스를 생성하도록 합니다. 이 옵션은 소규모 빠른 평가를 수행하거나 더 큰 테스트 세트를 구축하기 위한 10개의 질문을 생성합니다.
    • 전체 질문 세트를 선택하면 Copilot Studio에서 참조 자료 원본 또는 토픽을 사용하여 테스트 케이스를 생성하고 생성할 질문 수를 선택할 수 있습니다.
    • 테스트 채팅 대화를 사용 해 테스트 채팅에서 제공한 질문들을 자동으로 테스트 세트에 채워 넣으세요. 이 방법은 최신 테스트 채팅에서 질문을 사용합니다. 테스트 채팅에서 버튼을 사용하여 평가를 시작할 수도 있습니다. 테스트 채팅에서 새 테스트 생성 버튼을 보여주는 스크린샷입니다.
    • 파일을 지정된 영역으로 드래그하여 '탐색'을 선택해 파일을 업로드하거나 다른 업로드 옵션 중 하나를 선택하여 테스트 케이스를 가져오세요.
    • 또는 직접 문제를 만들어 테스트 세트를 직접 만들어 보세요. 테스트 세트를 편집 하는 과정을 따라 테스트 케이스를 추가하고 편집하세요.
    • 에이전트의 분석을 바탕으로 한 주제별 프로덕션 데이터를 활용하세요. 한 주제의 테마 목록에서 '평가' 옵션이 표시되는 스크린샷입니다.
  4. 이름 아래에서 테스트 집합의 이름을 입력합니다.

  5. 사용하고 싶은 테스트 방법을 변경하거나 추가하세요:

    • 새로운 방법 추가:
      1. 테스트 방법 추가를 선택하세요.
      2. 테스트할 모든 방법을 선택한 후 확인을 선택하세요.
      3. 일부 방법은 합격 점수를 요구합니다. 합격 점수는 합격과 불합격을 결정하는 점수를 나타냅니다. 점수를 설정한 후 확인을 선택하세요.
      4. 일부 방법은 각 테스트 케이스마다 기대 응답이나 키워드를 추가해야 합니다. 자세한 내용은 평가 방법 선택 항목을 참조하세요
    • 기존 테스트 메서드를 선택하여 편집하거나 삭제하세요.
    테스트 방법 조치 테스트 집합 유형 점수 매기기 Configurations
    일반 품질 특정 품질에 따라 테스트 사례의 응답이 얼마나 좋은지 단일 응답 또는 대화 100점 만점에 점수화 None
    의미 비교 테스트 케이스 답변의 의미가 기대되는 답변과 얼마나 잘 일치하는지에 관한 것입니다 단일 응답 100점 만점에 점수화 합격 점수, 예상 답변
    능력 사용 테스트 사례에서 모든 리소스 또는 예상 리소스를 사용했는지 여부 단일 응답 합격/불합격 예상 능력
    키워드 매칭 테스트 케이스가 예상되는 키워드나 구절을 모두 또는 사용했는지 여부 단일 응답 또는 대화 합격/불합격 예상되는 키워드 또는 구문
    텍스트 유사성 테스트 케이스 답변의 텍스트가 기대되는 답변과 얼마나 잘 일치하는지도 중요합니다 단일 응답 100점 만점에 점수화 합격 점수, 예상 답변
    정확히 일치 테스트 케이스의 답변이 기대되는 답변과 정확히 일치하는지 여부 단일 응답 합격/불합격 예상된 답변
  6. 테스트 케이스의 세부 사항을 수정하세요. 일반 품질을 제외한 모든 테스트 메서드에는 예상 응답 또는 키워드가 필요합니다. 테스트 사례 편집에 대한 자세한 내용은 테스트 집합 수정을 참조하세요.

  7. 사용자 프로필을 선택한 후, 이 테스트 세트에 사용할 계정을 선택하거나 추가하거나, 인증 없이 계속 진행하세요. 평가는 이 계정을 사용해 테스트 중 지식 출처와 도구에 연결됩니다. 커넥터 인증을 사용하는 계정과 다른 계정을 평가하기 위해 선택한 경우 커넥터 또는 도구를 사용하는 에이전트가 실패합니다. 사용자 프로필 추가 및 관리에 관한 정보는 '사용자 프로필 및 연결 관리'를 참조하세요.

    비고

    자동 테스트는 선택한 테스트 계정의 인증을 사용합니다. 만약 귀하의 에이전트가 특정 인증이 필요한 지식 출처나 인맥을 가지고 있다면, 테스트에 적합한 계정을 선택하세요.

    Copilot Studio에서 테스트 사례를 생성하는 경우 연결된 계정의 인증 자격 증명을 사용하여 에이전트의 기술 자료 및 도구에 액세스합니다. 생성된 테스트 케이스나 결과에는 연결된 계정이 접근할 수 있는 민감한 정보가 포함될 수 있으며, 이 정보는 테스트 세트에 접근할 수 있는 모든 제작자에게 공개됩니다.

  8. 테스트 케이스를 실행하지 않고 테스트 세트를 업데이트하려면 저장을 선택하거나, 즉시 테스트 세트를 실행하려면 평가를 선택하세요.

테스트 케이스 생성 제한

테스트 케이스 생성은 하나 이상의 질문이 에이전트의 콘텐츠 관리 설정을 위반하면 실패합니다. 가능한 이유는 다음과 같습니다:

  • 에이전트의 지시나 주제가 모델이 콘텐츠를 생성하게 하고, 시스템은 이를 플래그합니다.
  • 연결된 지식 소스에는 민감하거나 제한된 콘텐츠가 포함됩니다.
  • 에이전트의 콘텐츠 관리 설정이 지나치게 엄격합니다.

문제를 해결하기 위해 지식 소스 조정, 지침 업데이트, 중재 설정 변경 등 다양한 조치를 시도해 보세요.

테스트 세트는 최대 100개의 테스트 케이스를 포함할 수 있습니다.

지식이나 주제로부터 테스트 세트를 생성하세요

에이전트가 이미 가지고 있는 정보와 대화 자료를 활용해 질문을 생성해 테스트할 수 있습니다. 이 테스트 방법은 에이전트가 이미 가지고 있는 기술 자료 또는 토픽을 사용하는 방법을 테스트하는 데 좋지만 정보 격차를 테스트하는 데는 적합하지 않습니다.

다음 지식 소스를 사용하여 테스트 케이스를 생성할 수 있습니다:

  • 문자 메시지

  • 마이크로소프트 워드

  • Microsoft Excel

최대 5MB의 파일을 사용하여 테스트 질문을 생성할 수 있습니다.

테스트 집합을 생성하려면:

  1. 새 평가에서 전체 문제 세트를 선택하세요.

  2. 지식 또는 주제 중 하나를 선택하세요.

    • 지식은 생성 오케스트레이션을 사용하는 에이전트에게 가장 적합합니다. 이 메서드는 에이전트의 기술 자료 중 하나를 사용하여 질문을 만듭니다.
    • Topics는 클래식 오케스트레이션을 사용하는 에이전트에게 가장 적합합니다. 이 방법은 에이전트의 주제를 활용해 질문을 만듭니다.
  3. 지식의 경우 질문을 생성하는 데 사용할 기술 자료를 선택합니다.

    테스트 케이스 생성에 포함할 지식 소스 선택 과정을 보여주는 스크린샷입니다.

  4. 지식주제 항목에서는 슬라이더를 선택하고 드래그하여 생성할 질문 수를 선택하세요.

    몇 개의 문제를 생성할 수 있는지 선택할 수 있는 슬라이더를 보여주는 스크린샷입니다.

  5. 생성을 선택합니다.

  6. 이름 아래에서 테스트 집합의 이름을 입력합니다.

    1. 사용하고 싶은 테스트 방법을 변경하거나 추가하세요:
    • 새로운 방법 추가:
      1. 테스트 방법 추가를 선택하세요.
      2. 테스트할 모든 방법을 선택한 후 확인을 선택하세요. 여러 가지 방법을 추가할 수 있습니다.
      3. 어떤 방법은 합격 점수를 설정한 후 OK를 선택하세요. 합격 점수는 합격과 불합격을 결정하는 점수를 나타냅니다.
      4. 일부 방법은 각 테스트 케이스마다 기대 응답이나 키워드를 추가해야 합니다. 자세한 내용은 평가 방법 선택 항목을 참조하세요
    • 기존 테스트 메서드를 선택하여 편집하거나 삭제하세요.
  7. 테스트 케이스의 세부 사항을 수정하세요. 일반적인 품질을 제외한 모든 방법을 사용하는 테스트 케이스는 기대되는 응답을 요구합니다. 편집에 관한 자세한 내용은 테스트 세트 수정(Modify a test set)을 참조하세요.

  8. 테스트 케이스를 실행하지 않고 테스트 세트를 업데이트하려면 저장을 선택하거나, 즉시 테스트 세트를 실행하려면 평가를 선택하세요.

임포트할 테스트 세트 파일을 생성하세요

Copilot Studio에서 직접 테스트 사례를 빌드하는 대신 모든 테스트 사례가 포함된 스프레드시트 파일을 만들고 가져와서 테스트 집합을 만들 수 있습니다. 각 테스트 질문을 작성하고, 사용할 테스트 방법을 결정하고, 각 질문에 대한 예상 응답을 지정할 수 있습니다. 파일 만들기를 마치면 파일을 .csv 또는 .txt 파일로 저장하고 Copilot Studio로 가져옵니다.

중요합니다

  • 파일에는 최대 100개의 질문이 포함될 수 있습니다.
  • 각 질문은 공백을 포함하여 최대 1,000자까지 가능합니다.
  • 파일은 CSV(쉼표로 구분된 값) 또는 텍스트 형식이어야 합니다.

가져오기 파일을 만들려면 다음을 수행합니다.

  1. 스프레드시트 애플리케이션(예: Microsoft Excel)을 엽니다. 새 평가를 선택한 후 데이터 원본에서 CSV 템플릿을 다운로드할 수 있습니다.

  2. 다음 제목을 이 순서대로 첫 번째 행에 추가합니다.

    • Question
    • 예상 응답
    • 테스트 방법
  3. 질문 열에 테스트 질문을 입력합니다. 각 질문은 공백을 포함하여 1,000자 이하일 수 있습니다.

  4. 각 질문에 대해 다음 시험 방법 중 하나를 시험 방법 열에 입력하세요:

    • 일반 품질
    • 의미 비교
    • 유사성
    • 정확히 일치
    • 키워드 매칭
  5. 예상 응답 열에 각 질문에 대한 예상 응답을 입력합니다. 예상 응답은 테스트 집합을 가져오기 위한 선택 사항입니다. 그러나 일치, 유사성 및 의미 테스트 사례를 비교하려면 예상 응답이 필요합니다.

  6. 파일을 .csv 또는 .txt 파일로 저장합니다.

  7. Create a new test set의 단계를 따라 파일을 가져오세요.

주제를 기반으로 테스트 세트를 만드세요

실제 사용자와의 대화에서 나온 질문들로 테스트 세트를 만드세요. 이 방법은 에이전트의 분석에서 찾을 수 있는 테마(미리보기)를 사용합니다.

테마는 생성 답변을 트리거하는 사용자 질문 풀에서 가져온 질문의 그룹화입니다. 테마를 사용해 테스트 세트를 만들 때, 해당 테마와 관련된 사용자가 묻는 질문들로부터 테스트 케이스를 생성합니다.

이 테스트 세트를 활용해 에이전트의 범위 중 한 영역이나 주제에 집중한 평가를 수행하세요. 예를 들어, 고객 서비스 담당자가 있다면, 청구 및 결제 관련 질문의 답변 품질을 문제 해결과 별도로 추적할 수 있습니다.

비고

테마에서 테스트 세트를 만들기 전에 분석에서 테마에 접근할 수 있어야 합니다. 주제 (미리보기)의 전제 조건을 복습하세요.

  1. 에이전트의 분석 페이지에서 주제 목록으로 가세요.

  2. 테마 위에 마우스를 올리고 평가를 선택하세요.

    주제 목록에서 '평가' 옵션이 표시된 스크린샷입니다.

    더 많은 주제를 보려면 '모두 보기 '를 선택한 후 '평가'를 선택할 수도 있습니다.

  3. 만들기 및 열기를 선택합니다.

  4. 테스트 세트와 케이스의 세부 사항을 수정하세요. 일반적인 품질을 제외한 모든 방법을 사용하는 테스트 케이스는 기대되는 응답을 요구합니다. 편집에 관한 자세한 내용은 테스트 세트 수정(Modify a test set)을 참조하세요.

  5. 테스트 케이스를 실행하지 않고 테스트 세트를 업데이트하려면 저장을 선택하거나, 즉시 테스트 세트를 실행하려면 평가를 선택하세요.