에이전트 평가 소개

AI 에이전트가 비즈니스 프로세스에서 핵심적인 역할을 맡게 됨에 따라, 신뢰할 수 있고 반복 가능한 테스트의 필요성이 커졌습니다. 에이전트 평가를 통해 에이전트의 실제 시나리오를 시뮬레이션하는 테스트를 생성할 수 있습니다. 이러한 테스트는 수작업, 개별 사례별 테스트보다 더 많은 질문과 대화를 더 빠르게 처리합니다. 그 다음에는 에이전트가 접근할 수 있는 정보를 기반으로 에이전트 상호작용 답변의 정확성, 관련성, 품질을 측정할 수 있습니다. 테스트 세트의 결과를 활용하여 에이전트의 동작을 최적화하고, 에이전트가 비즈니스 및 품질 요구사항을 충족하는지 검증할 수 있습니다.

자동화된 테스트를 사용하는 이유는 무엇인가요?

에이전트 평가는 자동화되고 구조화된 테스트를 제공합니다. 이는 문제를 조기에 발견하고, 잘못된 답변의 위험을 줄이며, 에이전트가 진화하는 동안 품질을 유지합니다. 이 과정은 에이전트 테스트에 자동화되고 반복 가능한 품질 보증 방식을 제공합니다. 이 과정은 에이전트가 귀사의 정확성 및 신뢰성 기준을 충족하는지 확인하고, 에이전트의 성능에 대한 투명성을 제공합니다. 이 방법은 테스트 채팅을 사용한 테스트와는 다른 강점이 있습니다.

Copilot Studio 인터페이스를 사용하거나, Power Platform REST API를 통해, 또는 도구, 흐름, Power Automate에 액션을 추가하여 평가를 실행하고 결과를 확인할 수 있습니다.

에이전트 평가에서는 AI 윤리 또는 안전 문제를 측정하는 것이 아니라, 정확성과 성능을 평가합니다. 에이전트가 모든 평가 테스트를 통과하더라도, 예를 들어 질문에 부적절한 답변을 제시할 수도 있습니다. 고객은 계속해서 책임 있는 AI 검토와 콘텐츠 안전성 필터를 사용해야 하며, 평가가 이러한 검토와 필터를 대체하지 않습니다.

Government Community Cloud 제한 사항

Government Community Cloud(GCC) 환경에서의 에이전트 평가에는 다음과 같은 제한이 있습니다.

제작자는 테스트 세트에 사용자 프로필을 추가할 수 없습니다. 그러나 제작자는 사용자 프로필 없이도 평가를 수행할 수 있습니다.
제작자는 평가에 유사성 테스트 방법을 사용할 수 없습니다. 다른 모든 테스트 방법도 사용 가능합니다.

에이전트 평가 방법

Copilot Studio는 각 에이전트 평가마다 테스트 케이스를 사용합니다. 테스트 케이스는 사용자가 에이전트와 상호작용하는 방식을 시뮬레이션하는 하나의 상호작용입니다. 상호작용은 단일 질문이나 전체 대화일 수 있습니다.

테스트 케이스에는 에이전트가 응답할 것으로 예상되는 답변도 포함될 수 있습니다. 예:

질문: 영업 시간은 어떻게 되나요?
예상되는 응답: 저희는 월요일부터 금요일까지 오전 9시부터 오후 5시까지 영업합니다.

에이전트 평가 기능을 사용하면 테스트 케이스 그룹을 생성, 가져오기 또는 수동으로 작성할 수 있습니다. 이 테스트 케이스 그룹을 테스트 세트라고 부릅니다. 테스트 세트로 다음과 같은 작업을 할 수 있습니다.

에이전트에게 한 번에 한 질문씩 묻는 대신, 다양한 기능을 포괄하는 여러 테스트 케이스를 한 번에 실행할 수 있습니다.
이해하기 쉬운 집계 점수로 에이전트의 성능을 분석하고, 개별 테스트 케이스를 자세히 살펴볼 수 있습니다.
동일 테스트 세트를 활용해 에이전트의 변경 사항을 테스트하면, 성능 변화를 객관적으로 측정하고 비교할 수 있는 기준을 마련할 수 있습니다.
신속하게 새로운 테스트 세트를 만들거나 기존 테스트 세트를 수정하여 변화하는 에이전트의 기능이나 요구사항을 반영할 수 있습니다.

각 테스트 세트는 여러 테스트 방법을 사용하여 에이전트를 동시에 평가할 수 있습니다.

사용자 프로필을 선택하여 시뮬레이션 사용자를 지정할 수도 있습니다. 에이전트는 서로 다른 사용자에게 다르게 반응하거나 리소스에 대한 액세스 권한을 다르게 허용하도록 설정할 수 있습니다.

테스트 세트를 선택하고 에이전트 평가를 실행하면, Copilot Studio는 테스트 케이스 내 질문을 전송하고, 에이전트의 응답을 기록하며, 그 응답을 기대 응답이나 품질 기준과 비교한 후 각 테스트 케이스에 점수를 부여합니다. 각 테스트 케이스의 세부 정보, 대화록, 활동 지도, 그리고 에이전트가 응답을 생성하는 데 사용한 리소스도 확인할 수 있습니다.

포괄적인 평가 전략 수립

평가를 실행하기 전에, 에이전트의 성공 기준을 정의하고 비즈니스 결과에 가장 중요한 시나리오를 결정하세요. 명확한 전략은 올바른 테스트 방법을 선택하고, 중요한 테스트 케이스를 우선적으로 선정하며, 결과를 적절한 맥락에서 해석하는 데 도움을 줍니다.

에이전트 솔루션 아키텍처 설계: 평가 프레임워크를 활용하여 비즈니스 목표를 측정 가능한 평가 차원과 점수 산정 방식에 매핑하세요.
에이전트 평가 설계 및 운영을 활용하여 지속적인 품질 개선을 뒷받침하는 반복 가능한 평가 프로세스를 구축하십시오.

평가를 자동화 워크플로에 통합하기

에이전트 평가 기능은 자동화를 지원하므로 제작자는 수동 개입 없이 평가를 실행할 수 있습니다. REST API 또는 Power Platform 커넥터를 사용하면 평가 실행을 프로그래밍적으로 트리거하고 테스트를 지속적 통합 및 지속적 배포(CI/CD) 파이프라인과 같은 자동화된 워크플로에 통합할 수 있습니다. 이 접근 방식은 Copilot Studio에서 수동 실행 없이, 대규모로 테스트 세트를 실행하고 변경 사항이 도입될 때마다 에이전트의 동작을 검증할 수 있도록 해줍니다.

테스트 채팅과 에이전트 평가 비교

각 테스트 방법은 에이전트의 특성과 행동에 대해 서로 다른 정보를 제공합니다.

테스트 채팅:

한 번에 한 질문씩 받고 답변합니다. 같은 테스트를 여러 번 반복하는 것은 어렵습니다.
여러 메시지가 포함된 전체 세션을 테스트할 수 있습니다.
채팅 인터페이스를 통해 사용자로서 에이전트와 상호작용할 수 있습니다.

에이전트 평가:

테스트 세트를 사용하여 여러 테스트 케이스를 동시에 생성하고 실행할 수 있습니다. 같은 테스트 세트로 테스트를 반복할 수 있습니다.
각 테스트 케이스에서 하나의 질문과 하나의 응답 또는 하나의 대화를 테스트할 수 있습니다. 하지만 테스트 채팅을 사용할 때보다 대화에 대한 제어가 적습니다.
여러 사용자 프로필을 선택하여 직접 상호작용을 수행하지 않고도 다양한 사용자를 시뮬레이션할 수 있습니다.

에이전트를 테스트할 때는 테스트 채팅과 에이전트 평가를 모두 활용해 에이전트의 전체 모습을 파악하세요.

에이전트 평가의 언어 지원

Copilot Studio 에이전트는 다양한 언어를 지원합니다. 에이전트를 여러 언어를 지원하도록 구성하면, 평가 시 원하는 언어를 선택할 수 있습니다.

다국어 에이전트의 경우, 다음 평가 구성 요소들은 특정 방식으로 동작합니다.

쿼리 생성
등급 평가 도구 실행
설명 출력

쿼리 생성

기본 언어는 평가 입력을 주로 사용하는 언어입니다. 평가를 실행할 언어를 선택하세요. 평가를 더 실행하면 출력은 입력과 같은 언어로 제공됩니다.

등급 평가 도구 실행

다국어 에이전트를 평가할 때, 의미 비교 평가 방법은 기대 응답과 에이전트 응답을 비교합니다. 다국어와 관련된 문제가 발생하면, 시스템이 불일치를 감지하고, 의미 비교 등급 평가 도구가 응답을 실패 처리하며, 응답은 언어 불일치로 인해 실패로 표시됩니다.

설명 출력

멀티 턴 대화에서 다국어 에이전트는 자신의 응답에 사용하는 동일한 언어로 이유를 설명합니다.

제한 사항

현재 에이전트 평가에서는 Fabric 데이터 에이전트를 지원하지 않습니다.

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-07-30