변경 내용을 배포하기 전에 실시간으로 서브 에이전트의 동작을 테스트합니다. 분할 화면 레이아웃에서 즉각적인 피드백을 사용하여 지침, 도구 및 핸드오프를 편집합니다. AI 기반 점수 매기기 및 빠른 수정으로 에이전트 품질을 평가합니다.
문제
효과적인 에이전트 구성을 빌드하는 것은 반복적인 프로세스입니다. 지침을 작성하고, 도구를 할당하고, 핸드오프를 설정합니다. 배포한 후에야 에이전트가 의도를 오해했거나 중요한 도구가 부족하다는 것을 발견할 수 있습니다. 편집, 배포, 테스트 및 수정의 각 주기는 시간을 낭비하고 프로덕션 워크플로를 방해할 위험이 있습니다.
전용 테스트 환경이 없으면 변경 내용을 배포하여 동작 방식을 확인할 수 있습니다. 실제 스레드에 영향을 주는 라이브 대화에서 테스트합니다. 지침이 충분히 명확한지 여부를 추측할 수 있습니다.
놀이터의 작동 방식
플레이그라운드는 캔버스 및 테이블 뷰와 함께 서브에이전트 빌더의 전용 보기입니다. 보기 토글에서 테스트 플레이그 라운드를 선택하여 왼쪽에서 편집하고 오른쪽에서 테스트하는 분할 화면 환경으로 들어갑니다.
테스트할 대상 선택
맨 위에 있는 Subagent/Tool 드롭다운을 사용하여 테스트할 내용을 선택합니다.
| 개체 | 테스트할 수 있는 항목 |
|---|---|
| 하위 에이전트 | 라이브 채팅의 지침, 도구, 핸드오프 및 메모리 |
| 주 에이전트(meta_agent) | 오케스트레이터 프롬프트 재정의 및 라우팅 동작 테스트 |
| 시스템 도구 | 사용자 지정 매개 변수를 사용하여 기본 제공 도구 실행 |
| Kusto 도구 | 연결된 클러스터에 대해 쿼리 실행 |
나란히 편집 및 테스트
서브에이전트의 경우, 워크스페이스는 패널 두 개로 분할됩니다.
왼쪽 패널 - 편집기:
- 양식 보기 - 하위 에이전트 이름, 설명, 핸드오프 안내, 핸드오프 하위 에이전트, 도구 및 기술 자료 액세스를 편집합니다.
- YAML 보기 - 전체 에이전트 구성을 YAML로 편집합니다.
오른쪽 패널 - 테스트:
- 테스트 탭 - 현재 구성을 사용하여 에이전트와 채팅합니다.
- 평가 탭 - AI 기반 품질 분석을 실행합니다.
메모
구성을 수정하면 변경 내용을 저장하기 위해 적용 을 선택하거나 되돌릴 취소 를 선택할 때까지 채팅 입력이 비활성화됩니다. 이 동작은 부실 구성 테스트를 방지합니다. 적용을 선택하면 업데이트된 구성을 처음부터 테스트할 수 있도록 새 채팅 스레드도 시작됩니다.
이것이 다른 이유
라이브 대화의 테스트와 달리 플레이그라운드는 변경 내용이 프로덕션 스레드에 영향을 주지 않는 격리된 환경을 제공합니다. 분할 화면 레이아웃은 보기 간에 전환하거나 배포를 기다리지 않고 명령 변경의 효과를 즉시 볼 수 있습니다.
평가 기능은 수동 테스트를 넘어서는 것입니다. AI는 에이전트 구성 및 채팅 동작을 분석하여 불분명한 지침, 누락된 도구, 안전 격차 및 의도 잘못된 정렬 등 놓칠 수 있는 문제를 노출합니다.
| 이전 | 이후 |
|---|---|
| 변경 내용을 배포한 다음 라이브 채팅에서 테스트 | 격리된 환경에서 즉시 테스트 |
| 지침이 명확한지 여부를 추측합니다. | AI 기반 선명도 점수 가져오기 |
| 인시던트 중에 누락된 도구 검색 | 평가가 도구의 결함을 사전에 파악합니다 |
| 편집 및 테스트를 위해 여러 탭 간 전환 | 편집기와 채팅을 나란히 사용하여 분할 화면 사용 |
에이전트 품질 평가
평가 탭은 에이전트 구성에 대한 AI 기반 품질 점수를 제공합니다. 현재 설정 및 최근 채팅 동작을 분석하려면 [평가 ]를 선택합니다.
평가는 다음 점수를 반환합니다.
| 점수 | 측정한 내용 |
|---|---|
| 전체 | 결합 품질 점수(0-100) |
| 의도 일치 | 에이전트의 동작이 목표와 얼마나 잘 일치하는지(1-5) |
| 완전성 | 프롬프트에 역할, 목표 및 운영 지침이 적용되는지 여부 |
| 툴 피팅 | 올바른 도구가 구성되었는지 여부 |
| 프롬프트 명확성 | 지침이 얼마나 명확하고 실행 가능한지 |
| Safety | 오류 처리, 확인 프롬프트 및 보호 |
빠른 수정
평가에서 개선 사항을 식별할 때 검토를 선택하고 적용 하여 빠른 수정 대화 상자를 엽니다. 원하는 수정 사항을 선택하고 오른쪽에서 YAML diff를 미리 본 다음 선택한 수정 적용 단추를 사용합니다. 편집을 계속하거나 즉시 저장하도록 선택할 수 있습니다.
팁 (조언)
몇 번의 테스트 대화 후에 평가를 실행합니다. 평가에서는 더 정확한 점수를 제공하기 위해 구성과 함께 채팅 동작을 고려합니다.
메모
평가를 실행한 후 에이전트 구성을 변경하면 결과가 오래된 것으로 표시되고 다시 평가하라는 메시지가 표시됩니다. 마찬가지로 평가 후의 새 채팅 활동은 결과를 부실로 표시합니다. 최신 테스트를 반영하는 인사이트를 얻으려면 다시 평가합니다.
격리된 테스트 도구
에이전트 플레이그라운드와 독립적으로 시스템 도구 및 Kusto 도구를 테스트할 수 있습니다.
시스템 도구
Subagent/Tool 드롭다운에서 시스템 도구를 선택하여 기본 제공 기능을 독립적으로 테스트합니다. 매개 변수 값을 입력하고 도구 실행을 선택하여 원시 JSON 출력을 확인합니다.
Kusto 도구
Kusto 도구를 선택하여 연결된 클러스터에 대해 쿼리를 테스트합니다. 테스트 패널에는 행 수, 열 및 실행 시간이 포함된 쿼리 결과가 표시됩니다. 왼쪽에서 KQL을 조정하고 오른쪽에서 다시 실행합니다.
단계별 지침은 놀이터에서 도구 테스트를 참조하세요.
AI 지원 구성
플레이그라운드에는 하위 에이전트 지침을 개선하기 위한 두 가지 AI 지원 기능이 포함되어 있습니다.
- AI를 사용하여 구체화: 지침 및 핸드오프 설명을 제자리에 다시 작성합니다. 이 기능은 현재 텍스트를 AI 개선 버전으로 직접 대체하므로 저장하기 전에 변경 내용을 검토하세요.
- AI 제안 보기: 개선 제안, 잠재적 문제에 대한 경고, 향상된 버전의 지침 및 핸드오프 설명 등 AI 권장 사항을 보여 주는 양식과 함께 읽기 전용 패널을 엽니다. 이 기능은 구성을 수정하지 않습니다. 편집하는 동안 참조로 사용합니다.