[이 문서는 시험판 설명서이므로 변경될 수 있습니다.]
AI 에이전트가 비즈니스 프로세스에서 중요한 역할을 맡게 됨에 따라, 신뢰할 수 있고 반복 가능한 테스트의 필요성이 필수적이 되었습니다. 에이전트 평가는 에이전트의 실제 시나리오를 시뮬레이션하는 테스트를 생성할 수 있게 해줍니다. 이 시험들은 수동적이고 사례별 시험보다 더 많은 문제를 더 빠르게 다룹니다. 그 다음, 에이전트가 접근할 수 있는 정보를 바탕으로 질문에 대한 답변의 정확성, 관련성, 품질을 측정 할 수 있습니다. 테스트 세트 결과를 활용하면 에이전트의 행동을 최적화하고 에이전트가 비즈니스 및 품질 요구사항을 충족하는지 검증할 수 있습니다.
중요합니다
이 문서는 Microsoft Copilot Studio 프리뷰 설명서를 포함하며 변경될 수 있습니다.
미리 보기 기능은 프로덕션용이 아니며 기능이 제한되었을 수 있습니다. 이러한 기능은 공식 릴리스 이전에 제공되므로 사용자가 조기에 액세스하고 피드백을 제공할 수 있습니다.
프로덕션이 가능한 에이전트를 빌드하는 경우 Microsoft Copilot Studio 개요를 참조하세요.
왜 자동화 테스트를 사용할까요?
에이전트 평가는 자동화되고 구조화된 테스트를 제공합니다. 이는 문제를 조기에 발견하고, 잘못된 답변의 위험을 줄이며, 에이전트가 진화하는 동안 품질을 유지합니다. 이 과정은 에이전트 테스트에 자동화되고 반복 가능한 품질 보증 방식을 제공합니다. 이는 에이전트가 귀사의 정확성과 신뢰성 기준을 충족하는지 확인하고, 업무 수행 상황에 대한 투명성을 제공합니다. 테스트 채팅을 이용한 테스트와는 다른 장점이 있습니다.
에이전트 평가는 AI 윤리나 안전 문제가 아니라 정확성과 성능을 측정합니다. 에이전트가 모든 평가 테스트를 통과했지만, 예를 들어 질문에 부적절한 답변을 내놓을 수도 있습니다. 고객들은 여전히 책임 있는 AI 리뷰와 콘텐츠 안전 필터를 사용해야 하며; 평가가 그 리뷰와 필터를 대체하지 않습니다.
에이전트 평가 작동 방식
Copilot Studio는 각 에이전트 평가에 테스트 케이스 를 사용합니다. 테스트 케이스는 사용자가 에이전트에게 무엇을 할지 시뮬레이션하는 단일 메시지나 질문입니다. 테스트 케이스에는 에이전트가 답변할 것으로 기대 하는 답변도 포함될 수 있습니다. 다음은 그 예입니다.
질문은: 영업 시간은 어떻게 되나요?
예상되는 답변: 월요일부터 금요일까지 오전 9시부터 오후 5시까지 운영합니다.
에이전트 평가를 사용하면 테스트 케이스 그룹을 생성, 가져오기 또는 수동으로 작성 할 수 있습니다. 이 테스트 케이스 그룹을 테스트 세트라고 부릅니다. 테스트 세트는 다음을 가능하게 합니다:
한 번에 한 질문씩 하는 대신, 다양한 기능을 다루는 여러 테스트 케이스를 실행하세요.
에이전트의 성과를 쉽게 소화할 수 있는 집계 점수로 분석하고, 개별 테스트 케이스도 확대 분석하세요.
동일한 테스트 세트를 사용해 에이전트의 변경 사항을 테스트하므로, 성능 변화를 측정하고 비교할 수 있는 객관적인 기준을 갖게 됩니다.
새로운 테스트 세트를 빠르게 생성하거나 기존 테스트 세트를 수정하여 에이전트의 기능이나 요구사항 변화를 감당할 수 있습니다.
테스트 세트에는 사용할 테스트 방법 도 포함되어 있습니다. 에이전트의 성과는 다음과 같은 기준으로 측정할 수 있습니다:
정확한 일치 또는 키워드 일치: 에이전트의 질문 답변이 기대하는 답변과 얼마나 가깝은지.
의미적 유사성: 에이전트의 답변이 예상되는 답변의 아이디어나 의도와 얼마나 가깝게 일치하는지.
품질: LLM 기반 평가를 통해 에이전트의 답변이 얼마나 잘 작동하는지.
또한 질문을 보내는 사용자 프로필을 선택할 수도 있습니다. 에이전트는 서로 다른 사용자에게 다르게 반응하거나 자원에 대한 접근 권한을 다르게 허용하도록 설정할 수 있습니다.
테스트 세트를 선택하고 에이전트 평가를 실행하면, Copilot Studio는 테스트 케이스 내 질문을 보내고, 에이전트의 응답을 기록하며, 이를 기대 응답이나 품질 기준과 비교한 후 각 테스트 케이스에 점수를 부여합니다. 각 테스트 케이스의 세부 정보, 대본, 활동 지도와 에이전트가 응답을 작성하는 데 사용한 자원도 확인할 수 있습니다.
테스트 채팅과 에이전트 평가
각 테스트 방법은 에이전트의 특성과 행동에 대해 서로 다른 통찰을 제공합니다:
한 번에 한 질문씩 받고 답변합니다. 같은 검사를 여러 번 반복하는 건 어렵습니다.
여러 메시지가 포함된 전체 세션을 테스트할 수 있습니다.
채팅 인터페이스를 통해 사용자로서 에이전트와 상호작용할 수 있습니다.
에이전트 평가:
여러 테스트 케이스를 동시에 생성하고 실행할 수 있습니다. 같은 테스트 세트를 사용해 테스트를 반복할 수 있습니다.
테스트 케이스당 한 질문과 한 답변만 테스트할 수 있습니다. 완전한 대화 세션을 테스트하지 않습니다.
직접 상호작용을 완료하지 않고도 서로 다른 사용자를 시뮬레이션하기 위해 다양한 사용자 프로필을 선택할 수 있습니다.
에이전트를 테스트할 때는 테스트 채팅과 에이전트 평가를 모두 활용해 에이전트의 전체 모습을 파악하세요.