다음을 통해 공유


다중 턴 대화를 사용하여 테스트를 실행

대화형 평가를 사용하면 더 긴 상호 작용을 통해 에이전트의 일반적인 동작을 평가할 수 있습니다. 실제 사용자가 에이전트와 상호 작용하는 방식을 반영하며, 각 응답은 진행 중인 대화 내의 이전 컨텍스트에 따라 달라집니다. 이러한 평가를 사용하여 에이전트가 컨텍스트를 유지하고, 설명을 요청하고, 다단계 작업을 완료할 수 있는지 여부를 결정할 수 있습니다.

특정 질문에 대답하는 방법, 에이전트가 호출하는 기능 및 대답에서 사용하는 정확한 표현에 대해 에이전트를 테스트하려는 경우에 적합한 단일 응답 평가를 실행할 수도 있습니다.

평가는 테스트 집합을 사용합니다. 대화형 평가를 위한 테스트 집합은 최대 20개의 테스트 사례 그룹으로 구성됩니다. 에이전트 평가를 실행할 때 테스트 집합을 선택하고 Copilot Studio는 에이전트에 대해 해당 집합의 모든 테스트 사례를 실행합니다.

테스트 집합 내에서 스프레드시트를 사용하여 테스트 사례를 가져오거나 AI를 사용하여 에이전트의 디자인 및 리소스에 따라 메시지를 생성할 수 있습니다. 그 후 테스트 세트 내 각 테스트 케이스에 대해 에이전트의 응답 품질을 어떻게 측정할지 선택할 수 있습니다.

에이전트 평가 작동 방식에 대한 자세한 내용은 '에이전트 평가에 대하여'를 참조하세요.

기존 테스트 세트를 편집하는 방법을 배우려면 ' 테스트 세트의 세부 사항 변경'을 참조하세요.

중요합니다

테스트 결과는 Copilot Studio에서 89일 동안 사용할 수 있습니다. 테스트 결과를 더 오래 저장하려면 결과를 CSV 파일로 내보내 세요.

대화 테스트 집합 만들기

  1. 에이전트의 평가 페이지로 가세요.

화면 크기 때문에 탭 선택이 압축될 때 평가 탭을 선택하는 방법을 보여주는 스크린샷입니다.

  1. 새 평가를 선택한 다음, 대화를 선택합니다.

    테스트 집합을 만들기 위해 선택한 대화 옵션을 보여 주는 스크린샷

  2. 다음 방법 중 원하는 방법을 사용하여 다중 턴 테스트 사례를 만들 수 있습니다.

    • 빠른 대화 집합: 에이전트의 설명, 지침 및 기능에 따라 10개의 짧은 대화를 자동으로 생성합니다.

    • 전체 대화 집합: 에이전트의 지식 또는 정의된 토픽을 사용하여 대화를 생성합니다. 이 옵션에서는 짧거나 긴 대화 만들기를 선택할 수 있습니다.

    • 테스트 채팅 사용: 최신 테스트 채팅을 테스트 사례로 변환합니다.

메모

대화 테스트 집합은 최대 20개의 테스트 사례를 지원합니다. 각 테스트 사례는 최대 12개의 총 메시지를 지원하며, 이는 6 쌍의 질문과 답변입니다.

  1. 이름 아래에 테스트 집합의 이름을 입력합니다.

  2. 사용하려는 테스트 메서드 를 변경하거나 추가합니다. 대화 테스트 집합의 경우 일반 품질, 키워드 일치, 기능 일치 또는 분류 사용자 지정 테스트 메서드를 추가할 수 있습니다.

    • 새로운 방법 추가:
      1. 테스트 방법 추가를 선택하세요.
      2. 테스트할 모든 방법을 선택한 후 확인을 선택하세요. 여러 가지 방법을 추가할 수 있습니다.
      3. 어떤 방법은 합격 점수를 설정한 후 OK를 선택하세요. 합격 점수는 합격과 불합격을 결정하는 점수를 나타냅니다.
      4. 일부 방법은 각 테스트 케이스마다 기대 응답이나 키워드를 추가해야 합니다. 자세한 내용은 '평가 방법 선택'을 참조하세요.
    • 기존 테스트 메서드를 선택하여 편집하거나 삭제하세요.
    테스트 방법 조치 테스트 집합 유형 점수 매기기 Configurations
    일반 품질 특정 품질에 따라 테스트 사례의 응답이 얼마나 좋은지 단일 응답 또는 대화 100점 만점에 점수화 없음
    의미 비교 테스트 케이스 답변의 의미가 기대되는 답변과 얼마나 잘 일치하는지에 관한 것입니다 단일 응답 100점 만점에 점수화 합격 점수, 예상 답변
    능력 사용 테스트 사례에서 모든 리소스 또는 예상 리소스를 사용했는지 여부 단일 응답 합격/불합격 예상 능력
    키워드 매칭 테스트 케이스가 예상되는 키워드나 구절을 모두 또는 사용했는지 여부 단일 응답 또는 대화 합격/불합격 예상되는 키워드 또는 구문
    텍스트 유사성 테스트 케이스 답변의 텍스트가 기대되는 답변과 얼마나 잘 일치하는지도 중요합니다 단일 응답 100점 만점에 점수화 합격 점수, 예상 답변
    정확히 일치 테스트 케이스의 답변이 기대되는 답변과 정확히 일치하는지 여부 단일 응답 합격/불합격 예상된 답변
  3. 테스트 케이스의 세부 사항을 수정하세요. 일반 품질을 제외한 모든 테스트 메서드에는 예상 응답 또는 키워드가 필요합니다. 테스트 사례 편집에 대한 자세한 내용은 테스트 집합 수정을 참조하세요.

  4. 사용자 프로필을 선택한 후, 이 테스트 세트에 사용할 계정을 선택하거나 추가하거나, 인증 없이 계속 진행하세요. 평가는 이 계정을 사용해 테스트 중 지식 출처와 도구에 연결됩니다. 사용자 프로필 추가 및 관리에 관한 정보는 '사용자 프로필 및 연결 관리'를 참조하세요.

메모

자동 테스트는 선택한 테스트 계정의 인증을 사용합니다. 만약 귀하의 에이전트가 특정 인증이 필요한 지식 출처나 인맥을 가지고 있다면, 테스트에 적합한 계정을 선택하세요.

  1. 테스트 사례를 수정하거나 새로 만듭니다. 테스트 집합 내의 테스트 사례 편집에서 자세히 알아봅니다.

  2. 테스트 케이스를 실행하지 않고 테스트 세트를 업데이트하려면 저장을 선택하거나, 즉시 테스트 세트를 실행하려면 평가를 선택하세요.