에이전트가 문제를 진단하고 해결합니다. 서비스를 다시 시작하고, 리소스를 확장하고, 보안 설정을 강화하고, 선택한 제어 수준으로 진단을 수집합니다.
[!비디오 <VIDEO_URL>/Azure_SRE_Agent__Verified_Fix.mp4]
팁 (조언)
- 에이전트에 문제를 해결하도록 요청합니다. 솔루션을 제안하고, 승인하고, 수정을 실행합니다.
- 전체 감사 내역: 트리거한 사람, 변경된 내용 및 작동 여부.
- 신뢰 수준 선택: 검토 모드(각 작업 승인) 또는 자율 모드(에이전트에서 처리).
문제: 행동없는 진단은 시간을 낭비합니다.
문제를 확인했습니다. 이제 무엇을 해야 합니까? Azure Portal로 이동하여 오른쪽 블레이드를 찾고, 리소스를 확인하고, 확인 대화 상자를 클릭하고, 작업이 완료될 때까지 기다린 다음, 작동하는지 확인합니다. 조사는 5분이 걸렸습니다. 수정하는 데 10분 더 걸립니다.
이러한 마찰은 운영 워크플로에 걸쳐 존재합니다.
- 일일 작업: 예상 부하에 대한 리소스 크기를 조정하고 유지 관리 기간 동안 서비스를 다시 시작합니다.
- 규정 준수 검사: 수십 개의 스토리지 계정에서 보안 설정을 강화합니다.
- 통화 중 응답: 엔지니어가 다시 절전 모드로 돌아갈 수 있도록 잘 알려진 수정 사항을 신속하게 실행합니다.
- 사전 최적화: 문제가 발생하기 전에 사용 패턴에 따라 SKU를 조정합니다.
에이전트가 루프를 닫는 방법
에이전트가 문제를 식별하면, 단순히 문제점을 알리는 데 그치지 않습니다. 특정 수정 작업을 제안하고 실행 모드에 따라 승인을 기다리거나 즉시 작업을 실행합니다.
에이전트는 일관된 패턴을 따릅니다: 진단하기 → 작업을 식별하기 → 권한을 확인하기 → 실행(또는 제안하기) → 수정이 작동하는지 확인하기. 모든 작업은 트리거한 사람, 변경된 내용, 이유 및 성공 여부와 함께 기록됩니다.
조사 후 에이전트는 직접 조치를 취하거나, 추적 항목을 만들거나, 팀에게 알릴 수 있습니다( 각각 전체 컨텍스트가 있는 경우).
스크립트와 다른 점은 무엇인가요?
스크립트는 엄격합니다. 컨텍스트에 관계없이 동일한 작업을 실행합니다. 에이전트가 먼저 상황에 대한 이유를 설명합니다. 조사 중 발견된 내용, 과거 사건에서 기억하는 내용, 그리고 기술 및 지식 기반이 권장하는 사항을 고려합니다. 에이전트가 증거에 따라 적응하기 때문에 동일한 증상이 한 경우에 다시 시작되고 다른 사례에서 확장될 수 있습니다.
실행 모드를 사용하면 단계적으로 신뢰를 쌓을 수 있습니다. 에이전트가 제안하고 승인하는 검토 모드에서 시작합니다. 패턴에 확신을 가지고 있는 경우 자치 로 이동합니다. 조치를 취하지 않는 모니터링 전용 에이전트에 ReadOnly 를 사용합니다.
에이전트가 수행할 수 있는 작업
에이전트는 Azure CLI 명령을 통해 모든 Azure 작업을 실행할 수 있습니다.
az을(를) 실행할 수 있다면 에이전트도 실행할 수 있습니다. 이 기능에는 모든 리소스 종류 관리, 구성 수정, 리소스 만들기 및 Azure 작업 실행이 포함됩니다.
| 명령 유형 | 이 기능이 가능하게 하는 것 |
|---|---|
| 명령 읽기 | 모든 Azure 리소스 쿼리 - az webapp list, az containerapp show, az vm list. az network vnet show 즉시 실행되며 승인이 필요하지 않습니다. |
| 명령 작성 | Azure 리소스 수정: az webapp restart, az containerapp update, az vm resize, az role assignment create. 검토 모드에서 승인이 필요합니다. |
에이전트의 작업은 관리 ID에 할당된 권한에 의해서만 제한됩니다. 리소스 그룹에 기여자를 부여하는 경우 에이전트는 해당 그룹의 모든 항목을 관리할 수 있습니다. 특정 작업을 사용하여 사용자 지정 역할을 부여하는 경우 에이전트는 해당 작업으로 제한됩니다.
안전 가드레일
에이전트는 명령 수준에서 안전 제약 조건을 적용합니다.
-
삭제 작업 차단됨 — 에이전트는
delete및remove명령을 절대 실행하지 않습니다. 삭제를 위해 사용자를 Azure Portal로 안내하는 오류를 반환합니다. -
Key Vault 명령 차단 됨 - 에이전트는 자격 증명 노출을 방지하기 위해 모든
az keyvault명령을 차단합니다. - 관리 잠금이 적용됨 - 리소스를 수정하기 전에 에이전트가 Azure 관리 잠금을 확인합니다. ReadOnly 잠금이 있는 리소스는 수정할 수 없습니다.
- 구독 유효성 검사 - 에이전트는 실행 전에 올바른 GUID 형식에 대한 명령으로 구독 ID의 유효성을 검사합니다.
이전 및 이후
다음 표에서는 수동 완화 프로세스와 에이전트 지원 방법을 비교합니다.
| 이전 | 이후 | |
|---|---|---|
| 실행을 수정 | Azure Portal로 이동하여 리소스를 찾고 블레이드를 클릭합니다. | 에이전트 요청, 승인, 완료 |
| 확인 | 수정이 작동했는지 수동으로 확인 | 에이전트가 결과를 확인하고 보고합니다. |
| 감사 | 누군가가 그들이 한 일을 문서화하기를 바랍니다. | Application Insights의 전체 감사 내역 |
| 지식 | 한 엔지니어가 수정 사항을 알고 있습니다. | 에이전트는 학습된 패턴을 일관되게 적용합니다. |
사용 권한 요구 사항
기본적으로 에이전트는 Reader 권한만 있으므로 작업을 수행할 수 없습니다. 에이전트의 관리 ID에 역할을 할당하여 쓰기 권한을 명시적으로 부여합니다.
| Scope | 에이전트가 수행할 수 있는 작업 | 권장 대상 |
|---|---|---|
| Resource | 단일 리소스만 | 최대 제한 사항, 여기에서 시작 |
| 리소스 그룹 | 한 그룹의 모든 리소스 | 프로덕션 워크로드 |
| 구독 | 구독의 모든 리소스 | 개발 및 테스트만 |
경고
에이전트는 리소스를 수정하기 전에 Azure 관리 잠금을 확인합니다. 권한 또는 실행 모드에 관계없이 ReadOnly 잠금을 사용하여 리소스를 수정할 수 없습니다. 삭제 및 제거 작업은 완전히 차단됩니다. 삭제에 Azure Portal을 사용할 수 있습니다.
대체 응답 경로
직접 완화가 유일한 옵션은 아닙니다. 많은 팀은 작업을 직접 실행하는 대신 작업 항목 또는 티켓 시스템으로 결과를 라우팅하는 것을 선호합니다. 작업 항목은 사용자 검토가 필요하거나 변경 관리 프로세스가 적용되는 경우에 특히 유용합니다.
| 응답 경로 | 작동 방식 | 적합한 대상 |
|---|---|---|
| 직접 완화 | 에이전트가 다시 시작, 크기 조정 또는 강화를 실행합니다. | 신뢰할 수 있는 패턴, 비생산 환경 |
| 작업 항목 만들기 | 에이전트가 GitHub 문제 또는 Azure DevOps 작업 항목을 만듭니다. | 휴먼 인 더 루프, 변경 관리 |
| 알림 보내기 | 에이전트가 Teams에 게시하거나 전자 메일을 보냅니다. | 동작이 없는 인식 |
| 트리거 워크플로 | 에이전트가 GitHub Actions 또는 Logic Apps를 디스패치합니다. | CI/CD 통합, 다중 단계 프로세스 |
커넥터를 통해 작업 항목 만들기 및 알림을 구성 합니다. 예를 들어 GitHub MCP 서버를 연결하여 에이전트에서 문제를 만들거나 Azure DevOps를 연결하여 작업 항목을 자동으로 만듭니다.
자세한 내용은 이러한 응답 유형을 함께 연결하기 위한 알림 보내기 및 워크플로 자동화 를 참조하세요.
예: 인시던트 트리거 완화
다음 예제에서는 절전 모드에서 오전 3시 47분에 에이전트가 메모리 인시던트를 처리하는 방법을 보여 줍니다.
오전 3:47 — PagerDuty에서 "prod-api의 높은 메모리"라는 경고가 발생합니다.
에이전트(검토 모드)는 다음을 모두 처리합니다.
인시던트 승인 - PagerDuty가 "SRE 에이전트에 의해 승인됨"을 표시합니다.
자동으로 조사합니다.
- 쿼리 App Insights: 메모리가 94%로, 2시간 동안 증가 추세입니다.
- 배포 기록을 확인합니다. 최근 배포가 없습니다.
- 기억을 더듬어 "지난번에도 이런 일이 있었는데, 그때는 재시작해서 해결했어."
수정 제안 - 인시던트 스레드에 게시:
Memory at 94% on prod-api (App Service). Recommended action: Restart the App Service. Evidence: - Memory climbing since 1:30 AM - No recent deployments - Past incident: restart resolved similar issue on 2026-01-15 [Approve] [Deny]승인 합니다(또는 자율 모드에서는 에이전트가 즉시 실행됨).
에이전트는 다음을 실행하고 확인합니다.
✓ Restarted prod-api ✓ Memory now at 42% ✓ Incident resolved
무슨 일이 있었나요:승인을 클릭하면 에이전트가 조사, 작업 및 확인을 처리했습니다.
감사 추적
시스템은 전체 컨텍스트와 함께 모든 완화 작업을 기록합니다.
| 분야 | 캡처된 정보 |
|---|---|
| 정체성 | 에이전트 및 관리되는 ID |
| 조치 | 수행된 정확한 작업 |
| 타임 스탬프 | 작업이 실행된 경우 |
| Trigger | 행동으로 이어진 진단 또는 조건 |
| 결과 | 성공 또는 실패, 사후 작업 확인 |
에이전트 포털의 모니터 > 로그 를 통해 Application Insights에서 감사 내역을 쿼리할 수 있습니다. 시스템은 모든 az 명령을 사용자 지정 이벤트로 AgentAzCliExecution 기록합니다. 자세한 내용은 감사 에이전트 작업을 참조하세요.