다음을 통해 공유


OpenAI 모니터링 데이터 참조 Azure

이 문서에는 이 서비스에 대한 모든 모니터링 참조 정보가 포함되어 있습니다.

Microsoft Foundry 모델에서 Azure OpenAI에 대해 수집할 수 있는 데이터 및 사용 방법에 대한 자세한 내용은 모니터 Azure OpenAI를 참조하세요.

Metrics

이 섹션에는 이 서비스에 대해 자동으로 모은 플랫폼 메트릭이 모두 나열되어 있습니다. 이러한 메트릭은 Azure Monitor 지원되는 all 플랫폼 메트릭의 전역 목록의 일부이기도 합니다.

메트릭 보존에 대한 자세한 내용은 Azure Monitor 메트릭 개요 참조하세요.

Microsoft.CognitiveServices/계정에 대해 지원되는 메트릭

다음은 Azure OpenAI에 대해 모니터링해야 한다고 생각하는 가장 중요한 메트릭입니다. 이 문서의 뒷부분에서는 이 짧은 목록의 메트릭에 대한 자세한 내용을 포함하는 이 네임스페이스에 대해 사용 가능한 모든 메트릭의 긴 목록입니다. 최신 정보는 아래 목록을 참조하세요. 다음 섹션에서 테이블을 새로 고치는 작업을 진행 중입니다.

  • OpenAI 요청 Azure
  • 활성 토큰
  • 생성된 완료 토큰
  • 처리된 FineTuned 학습 시간
  • 처리된 유추 토큰
  • 처리된 프롬프트 토큰
  • 프로비저닝된 관리되는 사용률 V2
  • 프롬프트 토큰 캐시 일치 속도
  • 응답 시간
  • 토큰 간 시간
  • 마지막 바이트까지의 시간
  • 정규화된 첫 번째 바이트 시간
  • 초당 토큰 수

다른 관련 서비스에서 사용하는 콘텐츠 안전 메트릭을 모니터링할 수도 있습니다.

  • 차단된 볼륨
  • 유해한 볼륨이 감지됨
  • 잠재적인 악의적인 사용자 수
  • 안전 시스템 이벤트
  • 안전 확인을 위해 전송된 총 볼륨

비고

프로비전된 관리되는 사용률 메트릭은 이제 더 이상 사용되지 않으며 더 이상 권장되지 않습니다. 이 메트릭은 프로비전된 관리되는 사용률 V2 메트릭으로 대체되었습니다. 초당 토큰 수, 응답 시간, 토큰 간 시간은 현재 표준 배포에 사용할 수 없습니다.

Cognitive Services 메트릭에는 다음 표의 Cognitive Services - HTTP 요청 범주가 있습니다. 이러한 메트릭은 이 유형의 모든 리소스에 공통적인 레거시 메트릭입니다. 더 이상 Azure OpenAI에서 이러한 메트릭을 사용하는 것이 좋습니다.

다음 표에서는 Microsoft.CognitiveServices/accounts 리소스 종류에 사용할 수 있는 메트릭을 나열합니다.

  • 모든 테이블에 모든 열이 있는 것은 아닙니다.
  • 일부 열은 페이지의 보기 영역 밖에 있을 수 있습니다. 사용 가능한 모든 열을 보려면 테이블 확장을 선택합니다.

테이블 제목

  • 범주 - 메트릭 그룹 또는 분류입니다.
  • Metric - Azure portal 표시되는 메트릭 표시 이름입니다.
  • REST API의 이름 - REST API 참조되는 메트릭 이름입니다.
  • 단위 - 측정 단위입니다.
  • 집계 - 기본 집계 형식입니다. 유효한 값은 평균(Avg), 최소(Min), 최대(Max), 합계(Sum), 개수입니다.
  • 디멘션 - 차원 메트릭에 사용할 수 있습니다.
  • 메트릭이 샘플링되는 Time Grains - Intervals. 예를 들어, PT1M은 메트릭이 1분마다, PT30M은 30분마다, PT1H는 1시간마다 샘플링됨을 나타냅니다.
  • DS 내보내기- 진단 설정을 통해 로그 모니터링을 Azure 메트릭을 내보낼 수 있는지 여부입니다. 메트릭을 내보내는 방법에 대한 자세한 내용은 Azure Monitor 진단 설정 만들기를 참조하세요.

범주: 작업

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
작업 발생

각 동작이 표시되는 횟수입니다.
ActionIdOccurrences 수량 합계(총합) ActionId, , ModeRunId PT1M
이벤트당 작업

이벤트당 작업 수입니다.
ActionsPerEvent 수량 Average Mode, RunId PT1M

범주: Azure OpenAI - HTTP 요청

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
Azure OpenAI AvailabilityRate

다음 계산을 사용한 가용성 비율: (총 호출 - 서버 오류)/총 호출 수입니다. 서버 오류에는 HTTP 응답 >=500이 포함됩니다.
AzureOpenAIAvailabilityRate 백분율 최소값, 최대값, 평균값 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M 아니오
Azure OpenAI 요청

일정 기간 동안 Azure OpenAI API에 대한 호출 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. API 요청을 분석하려면 필터를 추가하거나 ModelDeploymentName, ModelName, ModelVersion, StatusCode(성공, 클라이언트 서버, 서버 오류), 분산 정보용 IsSpillover, ServiceTier, StreamType(스트리밍 및 비 스트리밍 요청) 및 작업으로 분할을 적용할 수 있습니다.
AzureOpenAIRequests 수량 합계(총합) ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersion, StatusCodeIsSpillover, ServiceTierRequestServiceTierResponse PT1M

범주: Azure OpenAI - 대기 시간

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
토큰 간 시간

스트리밍 요청의 경우 모델 토큰 생성 속도(밀리초)입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
AzureOpenAINormalizedTBTInMS 밀리초 최대, 최소, 평균 Region, ModelDeploymentName, , ModelName, ModelVersion PT1M
정규화된 첫 번째 바이트 시간

스트리밍 및 비 스트리밍 요청의 경우 모델에서 요청을 수행한 후 응답 데이터의 첫 번째 바이트를 수신하는 데 걸리는 시간이며 토큰별로 정규화됩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
AzureOpenAINormalizedTTFTInMS 밀리초 최대, 최소, 평균 Region, ModelDeploymentName, , ModelName, ModelVersion PT1M
응답 시간

스트리밍 요청에 권장되는 대기 시간(응답성) 측정입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. API 게이트웨이에서 측정한 대로 사용자가 프롬프트를 보낸 후 첫 번째 응답이 표시되는 데 걸린 시간으로 계산됩니다. 이 숫자는 프롬프트 크기가 증가하거나 캐시 적중 크기가 감소함에 따라 증가합니다. 응답 메트릭에 대한 시간을 분석하기 위해 필터를 추가하거나 ModelDeploymentName, ModelName 및 ModelVersion 차원으로 분할을 적용할 수 있습니다.

참고: 측정된 대기 시간은 동시 호출 및 전체 워크로드 패턴을 포함한 여러 요소에 크게 의존하므로 이 메트릭은 근사치입니다. 또한 클라이언트와 API 엔드포인트 사이에 있을 수 있는 클라이언트 쪽 대기 시간을 고려하지 않습니다. 최적의 대기 시간 추적을 위해서는 자체 로깅을 참조하세요.
AzureOpenAITimeToResponse 밀리초 최소값, 최대값, 평균값 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersionStatusCode PT1M
초당 토큰 수

지정된 Azure OpenAI 모델 응답에 대한 생성 속도를 열거합니다. 생성된 총 토큰은 토큰을 생성하는 시간(초)으로 나뉩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
AzureOpenAITokenPerSecond 수량 최대, 최소, 평균 Region, ModelDeploymentName, , ModelName, ModelVersion PT1M
마지막 바이트까지의 시간

스트리밍 및 비 스트리밍 요청의 경우 모델에서 요청을 수행한 후 응답 데이터의 마지막 바이트가 수신되는 데 걸리는 시간입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
AzureOpenAITTLTInMS 밀리초 최대, 최소, 평균 Region, ModelDeploymentName, , ModelName, ModelVersion PT1M

범주: Azure OpenAI - 사용량

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
활성 토큰

총 토큰에서 일정 기간 동안 캐시된 토큰을 뺀 값입니다. PTU 및 PTU 관리형 배포에 적용됩니다. 이 메트릭을 사용하여 TPS 또는 TPM 기반 PTU 사용률을 파악하고 시나리오의 대상 TPS 또는 TPM에 대한 벤치마크와 비교합니다. API 요청을 분석하려면 필터를 추가하거나 ModelDeploymentName, ModelName 및 ModelVersion 차원으로 분할을 적용할 수 있습니다.
ActiveTokens 수량 최소, 최대, 평균, 합계(합계) Region, ModelDeploymentName, , ModelName, ModelVersion PT1M
오디오 완성 토큰

OpenAI 모델에서 생성된 오디오 프롬프트 토큰(출력) 수입니다. PTU 관리형 및 종량제 모델 배포에 적용됩니다.
AudioCompletionTokens 수량 합계(총합) ModelDeploymentName, ModelName, , ModelVersion, Region PT1M
오디오 프롬프트 토큰

OpenAI 모델에서 처리된 오디오 프롬프트 토큰(입력)의 수입니다. PTU 관리형 및 종량제 모델 배포에 적용됩니다.
AudioPromptTokens 수량 합계(총합) ModelDeploymentName, ModelName, , ModelVersion, Region PT1M
프롬프트 토큰 캐시 일치 속도

캐시에 도달한 프롬프트 토큰의 백분율입니다. PTU 및 PTU 관리형 배포에 적용됩니다.
AzureOpenAIContextTokensCacheMatchRate 백분율 최소값, 최대값, 평균값 Region, ModelDeploymentName, , ModelName, ModelVersion PT1M 아니오
프로비전된 관리 사용률(사용되지 않음)

프로비저닝된 관리형 배포의 사용률%(사용된 CPU/배포된 CPU) x 100으로 계산됩니다. 사용률이 100%보다 크거나 같으면 호출이 제한되고 오류 코드 429가 반환됩니다. 이 메트릭을 분석하려면 필터를 추가하거나 ModelDeploymentName, ModelName, ModelVersion 및 StreamType(스트리밍 및 비 스트리밍 요청) 차원으로 분할을 적용할 수 있습니다.
AzureOpenAIProvisionedManagedUtilization 백분율 최소값, 최대값, 평균값 Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M 아니오
프로비전된 관리 사용률 V2

프로비저닝된 관리형 배포의 사용률%(사용된 CPU/배포된 CPU) x 100으로 계산됩니다. 사용률이 100%보다 크거나 같으면 호출이 제한되고 오류 코드 429가 반환됩니다. 이 메트릭을 분석하려면 필터를 추가하거나 ModelDeploymentName, ModelName, ModelVersion 및 StreamType(스트리밍 및 비 스트리밍 요청) 차원으로 분할을 적용할 수 있습니다.
AzureOpenAIProvisionedManagedUtilizationV2 백분율 최소값, 최대값, 평균값 Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M 아니오
처리된 FineTuned 학습 시간

OpenAI FineTuned 모델에서 처리된 학습 시간 수
FineTunedTrainingHours 수량 합계(총합) ApiName, ModelDeploymentName, FeatureName, UsageChannelRegion PT1M
생성된 완료 토큰

OpenAI 모델에서 생성된 토큰 수(출력)입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. 이 메트릭을 분석하려면 필터를 추가하거나 ModelDeploymentName 및 ModelName 차원으로 분할을 적용할 수 있습니다.
GeneratedTokens 수량 합계(총합) ApiName, ModelDeploymentName, FeatureName, UsageChannel, RegionModelVersion PT1M
처리된 프롬프트 토큰

OpenAI 모델에서 처리된 프롬프트 토큰(입력)의 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. 이 메트릭을 분석하려면 필터를 추가하거나 ModelDeploymentName 및 ModelName 차원으로 분할을 적용할 수 있습니다.
ProcessedPromptTokens 수량 합계(총합) ApiName, ModelDeploymentName, FeatureName, UsageChannel, RegionModelVersion PT1M
실시간 API 초 사용

RealtimeAPI 사용 시간(초)
RealtimeUsageTime 수량 합계(총합) Region, ModelDeploymentName PT1M
처리된 유추 토큰

OpenAI 모델에서 처리된 유추 토큰 수입니다. 프롬프트 토큰(입력)과 생성된 토큰(출력)으로 계산됩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다. 이 메트릭을 분석하려면 필터를 추가하거나 ModelDeploymentName 및 ModelName 차원으로 분할을 적용할 수 있습니다.
TokenTransaction 수량 합계(총합) ApiName, ModelDeploymentName, FeatureName, UsageChannel, RegionModelVersion PT1M

범주: Cognitive Services - HTTP 요청

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
차단된 호출

요금 또는 할당량 한도를 초과한 호출 수입니다. Azure OpenAI service 사용하지 마세요.
BlockedCalls 수량 합계(총합) ApiName, OperationName, , Region, RatelimitKey PT1M
클라이언트 오류

클라이언트 쪽 오류(HTTP 응답 코드 4xx)가 있는 호출 수입니다. Azure OpenAI service 사용하지 마세요.
ClientErrors 수량 합계(총합) ApiName, OperationName, , Region, RatelimitKey PT1M
데이터 입력

들어오는 데이터 크기(바이트)입니다. Azure OpenAI service 사용하지 마세요.
DataIn 바이트 합계(총합) ApiName, , OperationNameRegion PT1M
데이터 출력

나가는 데이터 크기(바이트)입니다. Azure OpenAI service 사용하지 마세요.
DataOut 바이트 합계(총합) ApiName, , OperationNameRegion PT1M
Latency

대기 시간(밀리초)입니다. Azure OpenAI service 사용하지 마세요.
Latency 밀리초 Average ApiName, OperationName, , Region, RatelimitKey PT1M
Ratelimit

ratelimit 키의 현재 속도 제한입니다. Azure OpenAI service 사용하지 마세요.
Ratelimit 수량 합계(총합) Region, RatelimitKey PT1M
서버 오류

서비스 내부 오류(HTTP 응답 코드 5xx)가 있는 호출 수입니다. Azure OpenAI service 사용하지 마세요.
ServerErrors 수량 합계(총합) ApiName, OperationName, , Region, RatelimitKey PT1M
성공한 호출

성공한 호출 수입니다. Azure OpenAI service 사용하지 마세요.
SuccessfulCalls 수량 합계(총합) ApiName, OperationName, , Region, RatelimitKey PT1M
총 호출 수

총 호출 수. Azure OpenAI service 사용하지 마세요.
TotalCalls 수량 합계(총합) ApiName, OperationName, , Region, RatelimitKey PT1M
총 오류 수

오류 응답(HTTP 응답 코드 4xx 또는 5xx)이 있는 총 호출 수입니다. Azure OpenAI service 사용하지 마세요.
TotalErrors 수량 합계(총합) ApiName, OperationName, , Region, RatelimitKey PT1M
총 토큰 호출 수

총 토큰 호출 수입니다.
TotalTokenCalls 수량 합계(총합) ApiName, , OperationNameRegion PT1M

범주: 인지 서비스 - SLI

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
AvailabilityRate

다음 계산을 사용한 가용성 비율: (총 호출 - 서버 오류)/총 호출 수입니다. 서버 오류에는 HTTP 응답 >=500이 포함됩니다. Azure OpenAI service 사용하지 마세요.
SuccessRate 백분율 최소값, 최대값, 평균값 ApiName, OperationName, , Region, RatelimitKey PT1M 아니오

범주: ContentSafety - 위험 및 안전

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
잠재적으로 악의적인 사용자 수

일정 기간 동안 검색된 잠재적으로 악의적인 사용자 수입니다. 필터를 추가하거나 ModelDeploymentName 차원으로 분할을 적용할 수 있습니다.
RAIAbusiveUsersCount 수량 합계(총합) Region, ModelDeploymentName PT1M
유해한 볼륨이 감지됨

OpenAI API를 Azure 기간 동안 적용된 콘텐츠 필터에 의해 유해(블록 모델 및 주석 달기 모드 모두)로 검색된 호출 수입니다. 필터를 추가하거나 ModelDeploymentName, ModelName 및 TextType 차원별로 분할을 적용할 수 있습니다.
RAIHarmfulRequests 수량 합계(총합) Region, ModelDeploymentName, ModelName, ModelVersion, ApiName, TextType, CategorySeverity PT1M
차단된 볼륨

Azure OpenAI API를 호출하고 일정 기간 동안 적용된 콘텐츠 필터에 의해 거부된 횟수입니다. 필터를 추가하거나 ModelDeploymentName, ModelName 및 TextType 차원별로 분할을 적용할 수 있습니다.
RAIRejectedRequests 수량 합계(총합) Region, ModelDeploymentName, ModelName, ModelVersion, ApiName, TextTypeCategory PT1M
안전 시스템 이벤트

위험 및 안전 모니터링에 대한 시스템 이벤트입니다. 필터를 추가하거나 EventType 차원으로 분할을 적용할 수 있습니다.
RAISystemEvent 수량 Average Region, EventType PT1M
안전 확인을 위해 전송된 총 볼륨

OpenAI API를 Azure 일정 기간 동안 적용된 콘텐츠 필터에 의해 검색된 호출 수입니다. 필터를 추가하거나 ModelDeploymentName, ModelName 차원별로 분할을 적용할 수 있습니다.
RAITotalRequests 수량 합계(총합) Region, ModelDeploymentName, ModelName, ModelVersionApiName PT1M

범주: 콘텐츠 안전 - 사용

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
이미지 조정에 대한 호출 수

이미지 조정에 대한 호출 수입니다.
ContentSafetyImageAnalyzeRequestCount 수량 합계(총합) ApiVersion PT1M
텍스트 조정에 대한 호출 수

텍스트 조정에 대한 호출 수입니다.
ContentSafetyTextAnalyzeRequestCount 수량 합계(총합) ApiVersion PT1M

범주: 예측

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
기준 임의 이벤트 수

초기 계획 임의 이벤트 수에 대한 예측입니다.
BaselineRandomEventCount 수량 합계(총합) Mode, RunId PT1M
기준 임의 보상

기준 임의 보상에 대한 예측입니다.
BaselineRandomReward 수량 합계(총합) Mode, RunId PT1M
온라인 이벤트 수

온라인 이벤트 수에 대한 예측입니다.
OnlineEventCount 수량 합계(총합) Mode, RunId PT1M
온라인 보상

온라인 보상에 대한 예측입니다.
OnlineReward 수량 합계(총합) Mode, RunId PT1M
사용자 기준 이벤트 수

사용자 정의 기준 이벤트 수에 대한 예측입니다.
UserBaselineEventCount 수량 합계(총합) Mode, RunId PT1M
사용자 기준 보상

사용자 정의 기준 보상에 대한 예측입니다.
UserBaselineReward 수량 합계(총합) Mode, RunId PT1M

범주: 기능 발생 빈도

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
작업 기능 발생

각 작업 기능이 표시되는 횟수입니다.
ActionFeatureIdOccurrences 수량 합계(총합) FeatureId, , ModeRunId PT1M
컨텍스트 기능 출현

각 컨텍스트 기능이 표시되는 횟수입니다.
ContextFeatureIdOccurrences 수량 합계(총합) FeatureId, , ModeRunId PT1M
슬롯 기능 발생

각 슬롯 기능이 표시되는 횟수입니다.
SlotFeatureIdOccurrences 수량 합계(총합) FeatureId, , ModeRunId PT1M

범주: FeatureCardinality

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
작업 기반 기능 카디널리티

작업 기반 기능 카디널리티입니다.
FeatureCardinality_Action 수량 Average FeatureId, , ModeRunId PT1M
컨텍스트 기반 기능 카디널리티

컨텍스트 기반 기능 카디널리티입니다.
FeatureCardinality_Context 수량 Average FeatureId, , ModeRunId PT1M
슬롯 기반 기능 카디널리티

슬롯 기반 기능 카디널리티입니다.
FeatureCardinality_Slot 수량 Average FeatureId, , ModeRunId PT1M

범주: 이벤트당 기능

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
이벤트당 작업 기능

이벤트당 평균 작업 기능 수입니다.
ActionFeaturesPerEvent 수량 Average Mode, RunId PT1M
이벤트당 컨텍스트 기능

이벤트당 컨텍스트 기능 수입니다.
ContextFeaturesPerEvent 수량 Average Mode, RunId PT1M
이벤트당 슬롯 기능

이벤트당 슬롯 기능의 평균 수입니다.
SlotFeaturesPerEvent 수량 Average Mode, RunId PT1M

범주: 언어 - 작업

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
작업 기간(미리 보기)

참고: 이 값은 입력 크기, 문서 수 및 작업의 복잡성에 따라 크게 달라집니다. 이는 모든 작업 작업의 집계 값입니다.
JobDuration 밀리초 최소값, 최대값, 평균값 JobStatus, JobType PT1M

범주: 모델 - HTTP 요청

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
모델 가용성 속도

다음 계산을 사용한 가용성 비율: (총 호출 - 서버 오류)/총 호출 수입니다. 서버 오류에는 HTTP 응답 >=500이 포함됩니다.
ModelAvailabilityRate 백분율 최소값, 최대값, 평균값 Region, ModelDeploymentName, , ModelName, ModelVersion PT1M 아니오
모델 요청

일정 기간 동안 모델 API에 대한 호출 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
ModelRequests 수량 합계(총합) ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersion, StatusCodeIsSpillover, ServiceTierRequestServiceTierResponse PT1M

범주: 모델 - 대기 시간

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
토큰 간 시간

스트리밍 요청의 경우 모델 토큰 생성 속도(밀리초 단위)입니다. PTU 및 PTU 관리형 배포에 적용됩니다.
NormalizedTimeBetweenTokens 밀리초 최대, 최소, 평균 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M
정규화된 첫 번째 바이트 시간

스트리밍 및 비 스트리밍 요청의 경우 모델에서 요청을 수행한 후 응답 데이터의 첫 번째 바이트를 수신하는 데 걸리는 시간이며 토큰별로 정규화됩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
NormalizedTimeToFirstToken 밀리초 최대, 최소, 평균 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M
마지막 바이트까지의 시간

스트리밍 및 비 스트리밍 요청의 경우 모델에서 요청을 수행한 후 응답 데이터의 마지막 바이트가 수신되는 데 걸리는 시간입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
TimeToLastByte 밀리초 최대, 최소, 평균 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M
응답 시간

스트리밍 요청에 권장되는 대기 시간(응답성) 측정입니다. PTU 및 PTU 관리형 배포에 적용됩니다. API 게이트웨이에서 측정한 대로 사용자가 프롬프트를 보낸 후 첫 번째 응답이 표시되는 데 걸린 시간으로 계산됩니다. 이 숫자는 프롬프트 크기가 증가하거나 캐시 적중 크기가 감소함에 따라 증가합니다. 응답 메트릭에 대한 시간을 분석하기 위해 필터를 추가하거나 ModelDeploymentName, ModelName 및 ModelVersion 차원으로 분할을 적용할 수 있습니다.

참고: 측정된 대기 시간은 동시 호출 및 전체 워크로드 패턴을 포함한 여러 요소에 크게 의존하므로 이 메트릭은 근사치입니다. 또한 클라이언트와 API 엔드포인트 사이에 있을 수 있는 클라이언트 쪽 대기 시간을 고려하지 않습니다. 최적의 대기 시간 추적을 위해서는 자체 로깅을 참조하세요.
TimeToResponse 밀리초 최소값, 최대값, 평균값 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, ModelVersionStatusCode PT1M
초당 토큰 수

지정된 모델 응답의 생성 속도를 열거합니다. 생성된 총 토큰은 토큰을 생성하는 시간(초)으로 나뉩니다. PTU 및 PTU 관리형 배포에 적용됩니다.
TokensPerSecond 수량 최대, 최소, 평균 ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelNameModelVersion PT1M

범주: 모델 - 사용량

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
주석이 추가된 페이지

주석으로 처리된 총 페이지 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
AnnotatedPages 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M
오디오 입력 토큰

OpenAI 모델에서 처리된 오디오 프롬프트 토큰(입력)의 수입니다. PTU 관리형 모델 배포에 적용됩니다.
AudioInputTokens 수량 합계(총합) ModelDeploymentName, ModelName, , ModelVersion, Region PT1M
오디오 출력 토큰

OpenAI 모델에서 생성된 오디오 프롬프트 토큰(출력) 수입니다. PTU 관리형 모델 배포에 적용됩니다.
AudioOutputTokens 수량 합계(총합) ModelDeploymentName, ModelName, , ModelVersion, Region PT1M
캐시에서 읽은 프롬프트 토큰

캐시에서 읽은 총 토큰 수입니다. Anthropic 모델 배포에 적용됩니다. 응답 사용 섹션에 다음과 같이 표시됨 cache_read_input_tokens
cacheReadInputTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelName, ModelVersionContextLength PT1M
캐시에 기록된 프롬프트 토큰(1시간 TTL)

1시간 항목을 만드는 데 사용되는 프롬프트 토큰의 수입니다. Anthropic 모델 배포에 적용됩니다. 응답 사용 섹션에 다음과 같이 표시됨 cache_creation.ephemeral_1h_input_tokens
ephemeral1hInputTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelName, ModelVersionContextLength PT1M
캐시에 기록된 프롬프트 토큰(5분 TTL)

5분 캐시 항목을 만드는 데 사용되는 프롬프트 토큰의 수입니다. Anthropic 모델 배포에 적용됩니다. 응답 사용 섹션에 다음과 같이 표시됨 cache_creation.ephemeral_5m_input_tokens
ephemeral5mInputTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelName, ModelVersionContextLength PT1M
생성된 이미지

생성된 총 이미지 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
GeneratedImages 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M
입력 토큰

모델에서 처리된 프롬프트 토큰(입력)의 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
InputTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M
출력 토큰

OpenAI 모델에서 생성된 토큰 수(출력)입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
OutputTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M
프로비전된 사용률

프로비저닝된 관리형 배포의 사용률%(사용된 CPU/배포된 CPU) x 100으로 계산됩니다. 사용률이 100%보다 크거나 같으면 호출이 제한되고 오류 코드 429가 반환됩니다.
ProvisionedUtilization 백분율 최소값, 최대값, 평균값 Region, ModelDeploymentName, , ModelName, ModelVersion PT1M 아니오
총 페이지 수

처리된 총 페이지 수입니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
TotalPages 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M
총 토큰

모델에서 처리된 유추 토큰 수입니다. 프롬프트 토큰(입력)과 생성된 토큰(출력)으로 계산됩니다. PTU, PTU 관리형 및 종량제 배포에 적용됩니다.
TotalTokens 수량 합계(총합) ApiName, Region, ModelDeploymentName, ModelNameModelVersion PT1M

범주: 이벤트당 네임스페이스

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
이벤트당 작업 네임스페이스

이벤트당 평균 작업 네임스페이스 수입니다.
ActionNamespacesPerEvent 수량 Average Mode, RunId PT1M
이벤트당 컨텍스트 네임스페이스

이벤트당 컨텍스트 네임스페이스 수입니다.
ContextNamespacesPerEvent 수량 Average Mode, RunId PT1M
이벤트당 슬롯 네임스페이스

이벤트당 슬롯 네임스페이스의 평균 수입니다.
SlotNamespacesPerEvent 수량 Average Mode, RunId PT1M

범주: 보상

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
이벤트당 평균 보상

이벤트당 평균 보상입니다.
Reward 수량 Average BaselineAction, ChosenActionId, MatchesBaseline, NonDefaultReward, ModeRunId PT1M
슬롯 보상

슬롯당 보상입니다.
SlotReward 수량 Average BaselineActionId, ChosenActionId, MatchesBaseline, NonDefaultReward, SlotId, SlotIndex, ModeRunId PT1M

범주: 슬롯

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
기준 추정기 전체 보상

기준 예측 도구 전체 보상입니다.
BaselineEstimatorOverallReward 수량 Average Mode, RunId PT1M
기준 예측 도구 슬롯 보상

슬롯별 기초 추정 보상입니다.
BaselineEstimatorSlotReward 수량 Average SlotId, SlotIndex, , Mode, RunId PT1M
기준 임의 예측 도구 전체 보상

기준 임의 예측 도구 전체 보상입니다.
BaselineRandomEstimatorOverallReward 수량 Average Mode, RunId PT1M
기준 임의 예측 도구 슬롯 보상

기준 임의 예측 도구 슬롯별 보상입니다.
BaselineRandomEstimatorSlotReward 수량 Average SlotId, SlotIndex, , Mode, RunId PT1M
슬롯

이벤트당 슬롯 수입니다.
NumberOfSlots 수량 Average Mode, RunId PT1M
온라인 추정기 전체 보상

온라인 예측 도구 전체 보상입니다.
OnlineEstimatorOverallReward 수량 Average Mode, RunId PT1M
온라인 예측 도구 슬롯 보상

온라인 예측 도구 슬롯별 보상입니다.
OnlineEstimatorSlotReward 수량 Average SlotId, SlotIndex, , Mode, RunId PT1M
슬롯 발생 횟수

각 슬롯이 나타나는 횟수입니다.
SlotIdOccurrences 수량 합계(총합) SlotId, SlotIndex, , Mode, RunId PT1M

범주: SpeechServices - 사용량

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
오디오 초 일괄 처리 전사

기록된 일괄 처리 시간(초)
AudioSecondsBatchTranscribed 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
오디오 초 일괄 처리 위스퍼 전사

기록된 일괄 처리 속삭임 수(초)
AudioSecondsBatchWhisperTranscribed 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
오디오 초 빠른 전사

기록된 빠른 시간(초)
AudioSecondsFastTranscribed 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
오디오 초 빠른 속삭임 전사

기록된 빠른 속삭임 수(초)
AudioSecondsFastWhisperTranscribed 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
전사된 오디오 초

전사된 시간(초)
AudioSecondsTranscribed 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
번역된 오디오 초

번역된 시간(초)
AudioSecondsTranslated 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
아바타 모델 호스팅 초

초의 수
AvatarModelHostingSeconds 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
아바타 모델 훈련 시간 (초)

초의 수
AvatarModelTrainingSeconds 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
발표자 프로필 수

등록된 화자 프로필의 수입니다. 시간당 비례 배분됩니다.
NumberofSpeakerProfiles 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
화자 인식 거래

화자 인식 트랜잭션 수
SpeakerRecognitionTransactions 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 모델 호스팅 시간

음성 모델 호스트 시간 수
SpeechModelHostingHours 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
합성 문자

문자 수
SynthesizedCharacters 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
비디오 초 합성

합성된 시간(초)
VideoSecondsSynthesized 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 라이브 오디오 입력 토큰

캐시된 토큰을 제외한 오디오 입력 토큰 수입니다.
VoiceLiveAudioInputTokens 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 라이브 오디오 출력 토큰

오디오 출력 토큰 수입니다.
VoiceLiveAudioOutputTokens 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 라이브 캐시된 오디오 입력 토큰

캐시된 오디오 입력 토큰의 수입니다.
VoiceLiveCachedAudioInputTokens 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 라이브 캐시된 텍스트 입력 토큰

캐시된 텍스트 입력 토큰의 수입니다.
VoiceLiveCachedTextInputTokens 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 라이브 텍스트 입력 토큰

캐시된 토큰을 제외한 텍스트 입력 토큰의 수입니다.
VoiceLiveTextInputTokens 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 라이브 텍스트 출력 토큰

텍스트 출력 토큰의 수입니다.
VoiceLiveTextOutputTokens 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 모델 호스팅 시간

시간의 수
VoiceModelHostingHours 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 모델 학습 시간(분)

시간(분)
VoiceModelTrainingMinutes 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M

범주: Translator 서비스 - 사용량

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
학습된 문자(사용되지 않음)

학습된 총 문자 수
CharactersTrained 수량 합계(총합) ApiName, , OperationNameRegion PT1M
번역된 문자(사용되지 않음)

들어오는 텍스트 요청에 있는 문자의 총 수입니다.
CharactersTranslated 수량 합계(총합) ApiName, , OperationNameRegion PT1M
번역된 문서 문자

문서 번역 요청의 문자 수입니다.
DocumentCharactersTranslated 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
번역된 문서 사용자 지정 문자

사용자 지정 문서 번역 요청의 문자 수입니다.
DocumentCustomCharactersTranslated 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
번역된 문서 동기화 문자

문서 번역(동기) 요청의 문자 수입니다.
OneDocumentCharactersTranslated 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
번역된 문서 동기화 사용자 지정 문자

사용자 지정 문서 번역(동기) 요청의 문자 수입니다.
OneDocumentCustomCharactersTranslated 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
번역된 텍스트 문자

수신 텍스트 번역 요청의 문자 수입니다.
TextCharactersTranslated 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
번역된 텍스트 사용자 지정 문자

수신 사용자 지정 텍스트 번역 요청의 문자 수입니다.
TextCustomCharactersTranslated 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
텍스트로 훈련된 문자

텍스트 번역을 사용하여 학습된 문자 수입니다.
TextTrainedCharacters 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
Translator Pro 앱 초

Translator Pro 앱 사용 시간(초)입니다.
TranslatorProAppSeconds 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M

범주: 사용량

Metric REST API의 이름 단위 Aggregation 치수 시간 입자 DS 데이터 내보내기
유추 횟수

Carnegie Frontdoor 서비스의 유추 수
CarnegieInferenceCount 수량 합계(총합) Region, Modality, Category, Language, SeverityLevelUseCustomList PT1M
Computer Vision 트랜잭션

Computer Vision 트랜잭션 수
ComputerVisionTransactions 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
Custom Vision 학습 시간

Custom Vision 학습 시간
CustomVisionTrainingTime 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
Custom Vision 트랜잭션

Custom Vision 예측 트랜잭션 수
CustomVisionTransactions 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
학습된 얼굴 이미지

학습된 이미지 수 학습된 이미지는 트랜잭션당 1,000개입니다.
FaceImagesTrained 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
저장된 얼굴

저장된 얼굴의 일일 비례 배분 수입니다. 저장된 얼굴 수는 매일 보고됩니다.
FacesStored 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
얼굴 트랜잭션

Face 서비스에 대한 API 호출 수
FaceTransactions 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
저장된 이미지

저장된 Custom Vision 이미지 수입니다.
ImagesStored 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
학습된 이벤트

학습한 이벤트 수
LearnedEvents 수량 합계(총합) IsMatchBaseline, , ModeRunId PT1M
LUIS 음성 요청

LUIS 음성을 통한 의도 이해 요청 횟수
LUISSpeechRequests 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
LUIS 텍스트 요청

LUIS 텍스트 요청 수
LUISTextRequests 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
일치하는 보상

일치하는 보상 수
MatchedRewards 수량 합계(총합) Mode, RunId PT1M
활성화되지 않은 이벤트

건너뛴 이벤트 수입니다.
NonActivatedEvents 수량 합계(총합) Mode, RunId PT1M
관찰된 보상

관찰된 보상 수입니다.
ObservedRewards 수량 합계(총합) Mode, RunId PT1M
처리된 문자

Immersive Reader 처리된 문자 수입니다.
ProcessedCharacters 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
처리된 상태 텍스트 레코드

처리된 건강 텍스트 레코드 수
ProcessedHealthTextRecords 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
처리된 이미지

처리된 이미지 수
ProcessedImages 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
처리된 페이지

처리된 페이지 수
ProcessedPages 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
처리된 텍스트 레코드

텍스트 레코드 수
ProcessedTextRecords 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
QA 텍스트 레코드

처리된 텍스트 레코드 수
QuestionAnsweringTextRecords 수량 합계(총합) ApiName, FeatureName, , UsageChannel, Region PT1M
음성 세션 기간(사용되지 않음)

음성 세션의 총 기간(초)입니다.
SpeechSessionDuration 합계(총합) ApiName, , OperationNameRegion PT1M
총 이벤트

이벤트 수입니다.
TotalEvents 수량 합계(총합) Mode, RunId PT1M
총 트랜잭션(사용되지 않음)

총 트랜잭션 수입니다.
TotalTransactions 수량 합계(총합) <없음> PT1M

메트릭 차원

메트릭 차원에 대한 자세한 내용은 Multi 차원 메트릭 참조하세요.

이 서비스에는 메트릭과 관련된 다음과 같은 차원이 있습니다.

  • ApiName
  • 기능이름
  • ModelDeploymentName
  • 모델네임
  • 모델 버전
  • 작전이름
  • 지역
  • 상태 코드
  • 스트림 유형
  • UsageChannel

리소스 로그

이 섹션에는 이 서비스에 대해 모을 수 있는 리소스 로그 유형이 나열되어 있습니다. 이 섹션은 Azure Monitor 지원되는 all 리소스 로그 범주 유형 목록에서 가져옵니다.

Microsoft.CognitiveServices/계정에 대해 지원되는 리소스 로그

카테고리 범주 표시 이름 로그 테이블 기본 로그 계획 수집 시간 변환을 지원합니다 예제 쿼리 내보낼 비용
Audit 감사 로그 AzureDiagnostics

여러 Azure 리소스의 로그입니다.

아니오 아니오 아니오
AzureOpenAIRequestUsage OpenAI 요청 사용량 Azure AzureDiagnostics

여러 Azure 리소스의 로그입니다.

아니오 아니오
RequestResponse 요청 및 응답 로그 AzureDiagnostics

여러 Azure 리소스의 로그입니다.

아니오 아니오 아니오
Trace 추적 로그 AzureDiagnostics

여러 Azure 리소스의 로그입니다.

아니오 아니오 아니오

로그 테이블 모니터링 Azure

이 섹션에서는 Kusto 쿼리를 사용하여 Log Analytics에서 쿼리할 수 있는 이 서비스와 관련된 Azure Monitor 로그 테이블을 나열합니다. 테이블에는 리소스 로그 데이터가 포함되며 수집 및 라우팅되는 항목에 따라 더 많은 데이터가 포함될 수 있습니다.

OpenAI microsoft.cognitiveservices/accounts Azure

활동 로그

연결된 테이블에는 이 서비스의 활동 로그에 기록할 수 있는 작업이 나열되어 있습니다. 이러한 작업은 활동 로그에서 가능한 리소스 공급자 작업 하위 집합입니다.

활동 로그 항목의 스키마에 대한 자세한 내용은 Activity Log 스키마 참조하세요.