你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 监控数据参考

本文包含本服务的所有监测参考信息。

有关可在 Microsoft Foundry 模型中为 Azure OpenAI 收集的数据以及如何使用它的详细信息,请参阅 Monitor Azure OpenAI

Metrics

本节列出了该服务所有自动收集的平台指标。 这些指标也是Azure Monitor支持的全球所有平台指标列表的一部分。

有关度量保留的信息,请参见 Azure Monitor 度量概览

支持的Microsoft指标。认知服务/账户

监视 Azure OpenAI 最重要的指标。 本文稍后会找到此命名空间中所有可用指标的较长列表,其中包含有关此较短列表中指标的更多详细信息。 有关最 up-to日期信息,请参阅以下列表。 Azure团队正在努力刷新以下部分中的表。

Important

不要将本节中的指标与本文后面“Latency”下列出的遗留指标混淆。 遗留的Latency指标并非为Azure OpenAI工作负载设计,且在诊断Azure OpenAI延迟时会产生误导性结果。 对于Azure OpenAI延迟监控,可以使用响应时间)、最后一个字节的时间 (c)、标记间时间),或归一化到第一个字节)。 关于如何解读这些指标,请参见 性能与延迟

  • Azure OpenAI 请求
  • 活动令牌
  • 生成的完成代币
  • 处理精细调优培训小时数
  • 处理推理令牌
  • 处理中的提示令牌
  • 配置管理利用 V2
  • 提示令牌缓存匹配率
  • 是时候应对了
  • 标记间隔时间
  • 最后一个字节的时间
  • 归一化到第一个字节的时间
  • 每秒代币数

还可以监视其他相关服务使用的内容安全指标。

  • 阻止的卷
  • 检测到有害体积
  • 潜在滥用用户计数
  • 安全系统事件
  • 送去安全检查的总体积

注释

配置 管理的利用 率指标现已弃用,不再推荐使用。 此指标由 预配管理的利用率 V2 指标替换。 令牌每秒、响应时间和令牌之间的时间目前不适用于标准部署。

快速参考:按用例划分的关键指标

使用此表找到针对特定监测目标的正确指标。 关于解读这些指标的端到端指导,请参见 性能与延迟

我想监控...... 使用这个指标 REST API 名称
整体响应时间 最后一个字节的时间 AzureOpenAITTLTInMS
首令牌响应性(流式) 是时候应对了 AzureOpenAITimeToResponse
令牌生成速度 标记间隔时间 AzureOpenAINormalizedTBTInMS
首令牌效率以提示大小归一化 归一化到第一个字节的时间 AzureOpenAINormalizedTTFTInMS
每个请求输出令牌量 生成的完成代币 GeneratedTokens
每个请求的输入令牌量 处理中的提示令牌 ProcessedPromptTokens
PTU容量利用率 配置管理利用 V2 AzureOpenAIProvisionedManagedUtilizationV2
请求量与错误 Azure OpenAI 请求 AzureOpenAIRequests

Tip

始终将延迟指标与令牌计数指标配对。 延迟增加而代币增加可能说明存在真正的问题。 延迟增加伴随着令牌的比例增加是预期行为。

Warning

本文后面提到的认知服务 - HTTP 请求中的指标是遗留的认知服务指标,并非为Azure OpenAI工作负载设计的。 特别是,该类别中的Latency指标与Azure OpenAI延迟指标不同(响应时间、最后字节时间、令牌间隔时间、归一化至第一个字节时间)。 使用旧有的Latency指标进行Azure OpenAI 故障排除会产生误导性的结果。 请使用本节列出的Azure OpenAI指标。

下表列出了Microsoft可用的指标。CognitiveServices/账户资源类型。

  • 并非所有列都存在于每个表格中。
  • 有些列可能超出页面的视野范围。 选择 “展开表格 ”以查看所有可用列。

表标题

  • 类别 ——指标组或分类。
  • 公制 - 公制显示名称,显示在Azure门户中。
  • REST API 中的名称 ——REST API 中引用的度量名称。
  • 单位——计量单位。
  • 聚合 ——默认聚 类型。 有效数值:平均值(平均)、最小值(最小值)、最大值(最大值)、总值(总和)、计数。
  • 尺寸 - 度量的可用维度
  • 时间粒 - 度规被采样的区间。 例如,表示 PT1M 指标每分钟 PT30M 、每30分钟、 PT1H 每小时采样一次,依此类推。
  • DS 导出 - 指标是否可以通过诊断设置导出到 Azure Monitor 日志。 有关指标导出的信息,请参见在Azure Monitor创建诊断设置。

类别:操作

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
操作出现次数

每个动作出现的次数。
ActionIdOccurrences Count 总计(总和) ActionIdModeRunId PT1M 是的
每个事件的动作

每个事件的行动数。
ActionsPerEvent Count Average ModeRunId PT1M 是的

分类:Azure OpenAI - HTTP 请求

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
Azure OpenAI AvailabilityRate

可用率百分比计算如下:(总通话 - 服务器错误)/总通话数。 服务器错误包括任何HTTP响应 >=500。
AzureOpenAIAvailabilityRate 百分比 最低、最高、平均 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelName, , ModelVersion PT1M
Azure OpenAI 请求

在一段时间内调用 Azure OpenAI API 的次数。 适用于PTU、PTU-Managed 和按需付费部署。 为了拆分 API 请求,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName、ModelVersion、StatusCode(成功、clienterrors、server errors)、用于溢出信息的 IsSpillover、ServiceTier、StreamType(流式请求与非流式请求)以及操作。
AzureOpenAIRequests Count 总计(总和) ApiName、、OperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode、、IsSpillover、、 ServiceTierRequestServiceTierResponse PT1M 是的

类别:Azure OpenAI - 延迟

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
代币间隔时间

对于流媒体请求;模型代币生成率,以毫秒为单位测量。 适用于PTU、PTU管理和按使用付费部署。
AzureOpenAINormalizedTBTInMS MilliSeconds 最大、最小、平均 RegionModelDeploymentName, , ModelNameModelVersion PT1M 是的
归一化到第一个字节的时间

无论是流媒体还是非流媒体请求;模型请求后收到第一个响应数据字节所需的时间,并按令牌进行规范化。 适用于PTU、PTU管理和按使用付费部署。
AzureOpenAINormalizedTTFTInMS MilliSeconds 最大、最小、平均 RegionModelDeploymentName, , ModelNameModelVersion PT1M 是的
是时候应对了

推荐的流媒体请求延迟(响应性)指标。 适用于PTU、PTU管理和按使用付费部署。 计算为用户发送提示后首次响应出现的时间,由API网关测量。 随着提示词大小和/或缓存命中量减少,这个数字会增加。 为了将响应时间与指标细分,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 ModelVersion。

注意:该指标仅为近似值,因为测量延迟高度依赖于多个因素,包括并发通话和整体工作负载模式。 此外,它不考虑客户端与API端点之间可能存在的任何延迟。 请参考您自己的日志以获得最佳延迟跟踪。
AzureOpenAITimeToResponse MilliSeconds 最低、最高、平均 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelName, , ModelVersionStatusCode PT1M 是的
每秒代币数

枚举给定 Azure OpenAI 模型响应的生成速度。 生成的代币总数除以生成代币的时间,单位为秒。 适用于PTU、PTU管理和按使用付费部署。
AzureOpenAITokenPerSecond Count 最大、最小、平均 RegionModelDeploymentName, , ModelNameModelVersion PT1M 是的
最后一个字节的时间

无论是流媒体还是非流媒体请求;模型发出请求后,响应数据最后一个字节被接收所需的时间。 适用于PTU、PTU管理和按使用付费部署。
AzureOpenAITTLTInMS MilliSeconds 最大、最小、平均 RegionModelDeploymentName, , ModelNameModelVersion PT1M 是的

类别:Azure OpenAI - 使用

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
有效令牌

总令牌数减去一段时间内缓存的令牌数。 适用于PTU及其管理部署。 利用这个指标了解你基于TPS或TPM的PTU利用率,并与你当前场景的目标TPS或TPM基准进行对比。 为了拆分 API 请求,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 ModelVersion。
ActiveTokens Count 最小值、最大值、平均值、总数(和) RegionModelDeploymentName, , ModelNameModelVersion PT1M 是的
音频完成令牌

OpenAI模型上生成(输出)的音频提示词数量。 适用于PTU管理和按使用付费模式的部署。
AudioCompletionTokens Count 总计(总和) ModelDeploymentNameModelName, , ModelVersionRegion PT1M 是的
音频提示令牌

OpenAI 模型上处理(输入)的音频提示令牌数量。 适用于PTU管理和按使用付费模式的部署。
AudioPromptTokens Count 总计(总和) ModelDeploymentNameModelName, , ModelVersionRegion PT1M 是的
提示令牌缓存匹配率

触发缓存的提示令牌百分比。 适用于PTU及其管理部署。
AzureOpenAIContextTokensCacheMatchRate 百分比 最低、最高、平均 RegionModelDeploymentName, , ModelNameModelVersion PT1M
配置管理利用(已弃用)

利用率 % 为预定管理部署,计算为(消耗的PTU数/部署的PTU数)乘以100。 当利用率大于或等于100%时,呼叫会被限速并返回错误代码429。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName、ModelVersion 和 StreamType(流式与非流式请求)
AzureOpenAIProvisionedManagedUtilization 百分比 最低、最高、平均 RegionStreamTypeModelDeploymentNameModelNameModelVersion PT1M
配置管理利用 V2

利用率 % 为预定管理部署,计算为(消耗的PTU数/部署的PTU数)乘以100。 当利用率大于或等于100%时,呼叫会被限速并返回错误代码429。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName、ModelVersion 和 StreamType(流式与非流式请求)
AzureOpenAIProvisionedManagedUtilizationV2 百分比 最低、最高、平均 RegionStreamTypeModelDeploymentNameModelNameModelVersion PT1M
处理精细调优培训小时数

OpenAI微调模型处理的训练小时数
FineTunedTrainingHours Count 总计(总和) ApiNameModelDeploymentNameFeatureNameUsageChannelRegion PT1M 是的
生成的完成代币

OpenAI模型生成(输出)的代币数量。 适用于PTU、PTU管理和按使用付费部署。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName 和 ModelName。
GeneratedTokens Count 总计(总和) ApiNameModelDeploymentNameFeatureNameUsageChannelRegionModelVersion PT1M 是的
处理中的提示令牌

OpenAI模型中处理(输入)的提示令牌数量。 适用于PTU、PTU管理和按使用付费部署。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName 和 ModelName。
ProcessedPromptTokens Count 总计(总和) ApiNameModelDeploymentNameFeatureNameUsageChannelRegionModelVersion PT1M 是的
使用的实时API秒数

实时API使用的秒数
RealtimeUsageTime Count 总计(总和) RegionModelDeploymentName PT1M 是的
处理推理令牌

OpenAI模型上处理的推理代币数量。 计算方式为提示令牌(输入)加上生成令牌(输出)。 适用于PTU、PTU管理和按使用付费部署。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName 和 ModelName。
TokenTransaction Count 总计(总和) ApiNameModelDeploymentNameFeatureNameUsageChannelRegionModelVersion PT1M 是的

分类:认知服务 - HTTP 请求

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
被阻止的电话

超过费率或配额限制的呼叫数量。 不要用于Azure OpenAI服务。
BlockedCalls Count 总计(总和) ApiNameOperationName, , RegionRatelimitKey PT1M 是的
客户端错误

客户端错误呼叫次数(HTTP响应代码4xx)。 不要用于Azure OpenAI服务。
ClientErrors Count 总计(总和) ApiNameOperationName, , RegionRatelimitKey PT1M 是的
数据输入

输入数据的大小(字节单位)。 不要用于Azure OpenAI服务。
DataIn 字节 总计(总和) ApiNameOperationNameRegion PT1M 是的
数据输出

输出数据的大小(字节单位)。 不要用于Azure OpenAI服务。
DataOut 字节 总计(总和) ApiNameOperationNameRegion PT1M 是的
延迟

延迟以毫秒计。 不要用于Azure OpenAI服务。
Latency MilliSeconds Average ApiNameOperationName, , RegionRatelimitKey PT1M 是的
Ratelimit

当前速率限制键。 不要用于Azure OpenAI服务。
Ratelimit Count 总计(总和) RegionRatelimitKey PT1M 是的
服务器错误

服务内部错误调用次数(HTTP响应代码5xx)。 不要用于Azure OpenAI服务。
ServerErrors Count 总计(总和) ApiNameOperationName, , RegionRatelimitKey PT1M 是的
成功调用

成功通话次数。 不要用于Azure OpenAI服务。
SuccessfulCalls Count 总计(总和) ApiNameOperationName, , RegionRatelimitKey PT1M 是的
呼叫总数

通话总数。 不要用于Azure OpenAI服务。
TotalCalls Count 总计(总和) ApiNameOperationName, , RegionRatelimitKey PT1M 是的
错误总数

错误响应调用总数(HTTP响应代码4xx或5xx)。 不要用于Azure OpenAI服务。
TotalErrors Count 总计(总和) ApiNameOperationName, , RegionRatelimitKey PT1M 是的
总令牌调用数

代币调用总数。
TotalTokenCalls Count 总计(总和) ApiNameOperationNameRegion PT1M 是的

分类:认知服务 - SLI

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
AvailabilityRate

可用率百分比计算如下:(总通话 - 服务器错误)/总通话数。 服务器错误包括任何HTTP响应 >=500。 不要用于Azure OpenAI服务。
SuccessRate 百分比 最低、最高、平均 ApiNameOperationName, , RegionRatelimitKey PT1M

分类:内容理解 - 使用情况

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
人脸交易

对面服务调用的API次数
FaceApiTransactions Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
处理过的音频会议记录

处理中的几分钟音频
ProcessedAudioMinutes Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
处理的页面

处理文档页数
ProcessedDocumentPages Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
已处理的图像

处理图像数量
ProcessedImageCount Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
处理过的视频分钟数

处理过的视频分钟数
ProcessedVideoMinutes Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
令 牌

消耗的代币数量
Tokens Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的

分类:内容安全 - 风险与安全

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
潜在的滥用用户数量

在一段时间内被发现的潜在滥用用户数量。 你可以添加过滤器,或按以下维度进行拆分:ModelDeploymentName。
RAIAbusiveUsersCount Count 总计(总和) RegionModelDeploymentName PT1M 是的
检测到有害体积

在一段时间内,通过内容过滤器检测出对Azure OpenAI API的访问次数(包括块模型和注释模式)。 你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 TextType。
RAIHarmfulRequests Count 总计(总和) RegionModelDeploymentNameModelNameModelVersionApiNameTextType, , CategorySeverity PT1M 是的
阻止的量

在一段时间内,调用Azure OpenAI API并被内容过滤器拒绝的次数。 你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 TextType。
RAIRejectedRequests Count 总计(总和) RegionModelDeploymentNameModelNameModelVersionApiNameTextType, , Category PT1M 是的
安全系统事件

用于风险和安全监控的系统事件。 你可以添加过滤器或按以下维度进行拆分:EventType。
RAISystemEvent Count Average RegionEventType PT1M 是的
送去安全检查的总体积

在一段时间内,调用Azure OpenAI API并被内容过滤器检测的次数。 你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName。
RAITotalRequests Count 总计(总和) RegionModelDeploymentNameModelNameModelVersionApiName PT1M 是的

分类:内容安全 - 使用情况

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
图像审核的呼叫计数

关于图片审核的电话数量。
ContentSafetyImageAnalyzeRequestCount Count 总计(总和) ApiVersion PT1M 是的
短信审核的来电计数

短信审核的电话数量。
ContentSafetyTextAnalyzeRequestCount Count 总计(总和) ApiVersion PT1M 是的

类别:估计

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
基线随机事件计数

基线随机事件计数估计。
BaselineRandomEventCount Count 总计(总和) ModeRunId PT1M 是的
基线随机奖励

基础随机奖励的估计。
BaselineRandomReward Count 总计(总和) ModeRunId PT1M 是的
在线活动计数

在线活动数量估计。
OnlineEventCount Count 总计(总和) ModeRunId PT1M 是的
联机奖励

在线奖励估算。
OnlineReward Count 总计(总和) ModeRunId PT1M 是的
用户基线事件计数

用户定义的基线事件计数估计。
UserBaselineEventCount Count 总计(总和) ModeRunId PT1M 是的
用户基线奖励

用户定义的基线奖励估计。
UserBaselineReward Count 总计(总和) ModeRunId PT1M 是的

分类:特征出现

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
动作特征出现

每个动作特征出现的次数。
ActionFeatureIdOccurrences Count 总计(总和) FeatureIdModeRunId PT1M 是的
上下文特征出现

每个上下文特征出现的次数。
ContextFeatureIdOccurrences Count 总计(总和) FeatureIdModeRunId PT1M 是的
老虎机特征出现

每个老虎机功能出现的次数。
SlotFeatureIdOccurrences Count 总计(总和) FeatureIdModeRunId PT1M 是的

类别:FeatureCardinality

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
特征基数通过作用

基于动作的特征基数。
FeatureCardinality_Action Count Average FeatureIdModeRunId PT1M 是的
按上下文计算特征基数

基于上下文的特征基数。
FeatureCardinality_Context Count Average FeatureIdModeRunId PT1M 是的
按时段划分的特征基数

基于老虎机的特征基数。
FeatureCardinality_Slot Count Average FeatureIdModeRunId PT1M 是的

类别:各事件特色

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
每个事件的动作特征

每个事件的平均动作特征数量。
ActionFeaturesPerEvent Count Average ModeRunId PT1M 是的
每个事件的上下文特征

每个事件的上下文特征数量。
ContextFeaturesPerEvent Count Average ModeRunId PT1M 是的
每个活动的老虎机特性

每个活动的平均老虎机功能数量。
SlotFeaturesPerEvent Count Average ModeRunId PT1M 是的

分类:语言 - 工作

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
作业持续时间(预览)

注意:该值高度依赖于输入大小、文档数量及任务复杂度。 这是所有工作任务的总数值。
JobDuration MilliSeconds 最低、最高、平均 JobStatusJobType PT1M 是的

类别:模型 - HTTP 请求

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
模型可用性率

可用率百分比计算如下:(总通话 - 服务器错误)/总通话数。 服务器错误包括任何HTTP响应 >=500。
ModelAvailabilityRate 百分比 最低、最高、平均 RegionModelDeploymentName, , ModelNameModelVersion PT1M
模型请求

在一段时间内调用模型 API 的次数。 适用于PTU、PTU-Managed 和按需付费部署。
ModelRequests Count 总计(总和) ApiName、、OperationNameRegionStreamTypeModelDeploymentNameModelNameModelVersionStatusCode、、IsSpillover、、 ServiceTierRequestServiceTierResponse PT1M 是的

类别:型号 - 延迟

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
标记间隔时间

模型代币生成率,以毫秒为单位。 适用于PTU及其管理部署。 对于非流媒体请求,这个数值只是估计值。
NormalizedTimeBetweenTokens MilliSeconds 最大、最小、平均 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelName, , ModelVersion PT1M 是的
归一化到第一个字节的时间

模型提出请求后,响应数据的第一个字节被接收所需的时间,并以令牌进行规范化。 适用于PTU、PTU管理和按使用付费部署。 对于非流媒体请求,这个数值只是估计值。
NormalizedTimeToFirstToken MilliSeconds 最大、最小、平均 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelName, , ModelVersion PT1M 是的
最后一个字节的时间

模型请求后,响应数据最后一个字节被接收所需的时间。 适用于PTU、PTU管理和按使用付费部署。 对于非流媒体请求,这个数值只是估计值。
TimeToLastByte MilliSeconds 最大、最小、平均 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelName, , ModelVersion PT1M 是的
是时候应对了

推荐的延迟(响应性)指标。 适用于PTU及其管理部署。 计算为用户发送提示后首次响应出现的时间,由API网关测量。 随着提示词大小和/或缓存命中量减少,这个数字会增加。 为了将响应时间与指标细分,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 ModelVersion。

注意:该指标仅为近似值,因为测量延迟高度依赖于多个因素,包括并发通话和整体工作负载模式。 此外,它不考虑客户端与API端点之间可能存在的任何延迟。 对于非流媒体请求,这个数值只是估计值。 请参考您自己的日志以获得最佳延迟跟踪。
TimeToResponse MilliSeconds 最低、最高、平均 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelName, , ModelVersionStatusCode PT1M 是的
每秒代币数

枚举给定模型响应的生成速度。 生成的代币总数除以生成代币的时间,单位为秒。 适用于PTU及其管理部署。 对于非流媒体请求,这个数值只是估计值。
TokensPerSecond Count 最大、最小、平均 ApiNameOperationNameRegionStreamTypeModelDeploymentNameModelName, , ModelVersion PT1M 是的

类别:型号 - 使用情况

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
带批注的页面

带注释处理的总页数。 适用于PTU、PTU-Managed 和按需付费部署。
AnnotatedPages Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的
音频输入令牌

OpenAI 模型上处理(输入)的音频提示令牌数量。 适用于PTU管理的模型部署。
AudioInputTokens Count 总计(总和) ModelDeploymentNameModelName, , ModelVersionRegion PT1M 是的
音频输出令牌

OpenAI模型上生成(输出)的音频提示词数量。 适用于PTU管理的模型部署。
AudioOutputTokens Count 总计(总和) ModelDeploymentNameModelName, , ModelVersionRegion PT1M 是的
从缓存中读取提示令牌

缓存中读取的代币总数。 适用于Anthropic模型的部署。 在响应用法部分中出现为 cache_read_input_tokens
cacheReadInputTokens Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersionContextLength PT1M 是的
写入缓存的提示令牌(1小时TTL)

用于创建1小时条目所需的提示代币数量。 适用于Anthropic模型的部署。 在响应用法部分中出现为 cache_creation.ephemeral_1h_input_tokens
ephemeral1hInputTokens Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersionContextLength PT1M 是的
写入缓存的提示令牌(5分钟TTL)

用于创建5分钟缓存条目的提示令牌数量。 适用于Anthropic模型的部署。 在响应用法部分中出现为 cache_creation.ephemeral_5m_input_tokens
ephemeral5mInputTokens Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersionContextLength PT1M 是的
生成的映像

生成的图像总数。 适用于PTU、PTU-Managed 和按需付费部署。
GeneratedImages Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的
输入令牌

模型上处理(输入)的提示令牌数量。 适用于PTU、PTU-Managed 和按需付费部署。
InputTokens Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的
输出令牌

OpenAI模型生成(输出)的代币数量。 适用于PTU、PTU-Managed 和按需付费部署。
OutputTokens Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的
预配利用率

利用率 % 为预定管理部署,计算为(消耗的PTU数/部署的PTU数)乘以100。 当利用率大于或等于100%时,呼叫会被限速并返回错误代码429。
ProvisionedUtilization 百分比 最低、最高、平均 RegionModelDeploymentName, , ModelNameModelVersion PT1M
总页数

处理的总页数。 适用于PTU、PTU-Managed 和按需付费部署。
TotalPages Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的
令牌总数

模型上处理的推理令牌数量。 计算方式为提示令牌(输入)加上生成令牌(输出)。 适用于PTU、PTU-Managed 和按需付费部署。
TotalTokens Count 总计(总和) ApiNameRegionModelDeploymentNameModelNameModelVersion PT1M 是的

类别:每个事件命名空间

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
每个事件的动作命名空间

每个事件的平均动作命名空间数。
ActionNamespacesPerEvent Count Average ModeRunId PT1M 是的
每个事件的上下文命名空间

每个事件的上下文命名空间数量。
ContextNamespacesPerEvent Count Average ModeRunId PT1M 是的
每个事件的槽位命名空间

每个事件的平均插槽命名空间数。
SlotNamespacesPerEvent Count Average ModeRunId PT1M 是的

类别:奖励

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
每场活动的平均奖励

每个活动的平均奖励。
Reward Count Average BaselineActionChosenActionIdMatchesBaselineNonDefaultRewardModeRunId PT1M 是的
老虎机奖励

每个栏位的奖励。
SlotReward Count Average BaselineActionIdChosenActionIdMatchesBaselineNonDefaultRewardSlotIdSlotIndex, , ModeRunId PT1M 是的

类别:槽

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
基线估计器总体奖励

基线估算器总体奖励。
BaselineEstimatorOverallReward Count Average ModeRunId PT1M 是的
基线估计槽额奖励

按槽位划分的基线估计奖励。
BaselineEstimatorSlotReward Count Average SlotIdSlotIndex, , ModeRunId PT1M 是的
基线随机估计器总体奖励

基础随机估算器总体奖励。
BaselineRandomEstimatorOverallReward Count Average ModeRunId PT1M 是的
基线随机估计槽奖励

按老虎机分配的基础随机估算奖励。
BaselineRandomEstimatorSlotReward Count Average SlotIdSlotIndex, , ModeRunId PT1M 是的
插槽

每个项目的名额数。
NumberOfSlots Count Average ModeRunId PT1M 是的
在线估算器总体奖励

在线估价师总体奖励。
OnlineEstimatorOverallReward Count Average ModeRunId PT1M 是的
在线估价员老虎机奖励

在线估价器按老虎机奖励。
OnlineEstimatorSlotReward Count Average SlotIdSlotIndex, , ModeRunId PT1M 是的
槽出现次数

每个槽位出现的次数。
SlotIdOccurrences Count 总计(总和) SlotIdSlotIndex, , ModeRunId PT1M 是的

分类:语音服务 - 用途

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
音频秒数批量转录

转录的批次秒数
AudioSecondsBatchTranscribed Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
音频秒数 批量耳语转录

批量耳语转录的秒数
AudioSecondsBatchWhisperTranscribed Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
音频秒速转录

快速转录的秒数
AudioSecondsFastTranscribed Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
音频秒速 低语 转录

快速低语转录的秒数
AudioSecondsFastWhisperTranscribed Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
音频秒数转录

转录的秒数
AudioSecondsTranscribed Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
音频秒数翻译

翻译的秒数
AudioSecondsTranslated Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
Avatar Model 托管 Seconds

秒数。
AvatarModelHostingSeconds Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
阿凡达模型训练秒

秒数。
AvatarModelTrainingSeconds Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
演讲者档案数量

报名演讲者人数。 每小时按比例计算。
NumberofSpeakerProfiles Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
演讲嘉宾表彰交易

演讲者识别交易次数
SpeakerRecognitionTransactions Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
演讲模特主持时段

语音模型主持小时数
SpeechModelHostingHours Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
合成字符

角色数。
SynthesizedCharacters Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
合成视频秒

合成的秒数
VideoSecondsSynthesized Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
语音实时音频输入令牌

音频输入标记数量,不包括缓存标记。
VoiceLiveAudioInputTokens Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
语音实时音频输出令牌

音频输出标记的数量。
VoiceLiveAudioOutputTokens Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
语音实时缓存音频输入令牌

缓存的音频输入标记数量。
VoiceLiveCachedAudioInputTokens Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
语音实时缓存文本输入令牌

缓存的文本输入标记数量。
VoiceLiveCachedTextInputTokens Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
语音实时文本输入令牌

文本输入令牌数,不包括缓存令牌。
VoiceLiveTextInputTokens Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
语音实时文本输出令牌

文本输出令牌数量。
VoiceLiveTextOutputTokens Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
语音模型主持时间

工作时数。
VoiceModelHostingHours Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
语音模型训练分钟

分钟数。
VoiceModelTrainingMinutes Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的

分类:翻译服务 - 用途

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
已训练的角色(已弃用)

训练角色总数。
CharactersTrained Count 总计(总和) ApiNameOperationNameRegion PT1M 是的
已翻译(已弃用)角色

输入文本请求的字符总数。
CharactersTranslated Count 总计(总和) ApiNameOperationNameRegion PT1M 是的
文档字符翻译

文档翻译请求中的字符数。
DocumentCharactersTranslated Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
文档自定义字符翻译

自定义文档翻译请求中的字符数。
DocumentCustomCharactersTranslated Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
文档同步字符翻译

文档翻译请求中的字符数(同步)。
OneDocumentCharactersTranslated Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
文档同步 自定义字符翻译

自定义文档翻译(同步)请求中的字符数。
OneDocumentCustomCharactersTranslated Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
文本字符翻译

输入文本翻译请求中的字符数。
TextCharactersTranslated Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
文本自定义字符翻译

输入的自定义文本翻译请求字符数。
TextCustomCharactersTranslated Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
文本训练字符

使用文本翻译训练的字符数。
TextTrainedCharacters Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
翻译器专业应用 Seconds

Translator Pro 应用使用秒数。
TranslatorProAppSeconds 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的

类别:使用情况

Metric REST API 中的名称 单位 集合体 尺寸 时间粒度 DS 导出
推理计数

卡内基前门服务的推断计数
CarnegieInferenceCount Count 总计(总和) RegionModalityCategoryLanguageSeverityLevelUseCustomList PT1M 是的
计算机视觉 交易

计算机视觉 交易数量
ComputerVisionTransactions Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
定制视觉培训时间

定制视觉培训时间
CustomVisionTrainingTime 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
定制愿景交易

自定义视觉预测交易数量
CustomVisionTransactions Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
面部图像训练

训练的图像数量。 每笔交易训练1000张图片。
FaceImagesTrained Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
存储的人脸

每天按比例计算存储的面孔数量。 每天报告存储的面孔数量。
FacesStored Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
人脸交易

对面服务调用的API次数
FaceTransactions Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
存储的图像

存储的自定义视觉图像数量。
ImagesStored Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
已了解的事件数

学习事件数量。
LearnedEvents Count 总计(总和) IsMatchBaselineModeRunId PT1M 是的
LUIS演讲请求

LUIS语音到意图理解请求的数量
LUISSpeechRequests Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
LUIS 文本请求

LUIS文本请求数量
LUISTextRequests Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
匹配的奖励数

匹配奖励数量。
MatchedRewards Count 总计(总和) ModeRunId PT1M 是的
未激活事件

跳过的活动数量。
NonActivatedEvents Count 总计(总和) ModeRunId PT1M 是的
观察到的奖励数

观察到的奖励数量。
ObservedRewards Count 总计(总和) ModeRunId PT1M 是的
已处理的字符数

沉浸式阅读器 处理的字符数。
ProcessedCharacters Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
处理过的健康文本记录

处理的健康文本记录数量
ProcessedHealthTextRecords Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
已处理的图像

处理图像数量
ProcessedImages Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
处理的页面

处理页面数量
ProcessedPages Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
处理后的文本记录

文本记录数量。
ProcessedTextRecords Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
QA文本记录

处理的文本记录数量
QuestionAnsweringTextRecords Count 总计(总和) ApiNameFeatureName, , UsageChannelRegion PT1M 是的
演讲时长(已废止)

演讲会话的总时长以秒计。
SpeechSessionDuration 总计(总和) ApiNameOperationNameRegion PT1M 是的
事件总数

活动数量。
TotalEvents Count 总计(总和) ModeRunId PT1M 是的
总交易量(已弃用)

交易总数。
TotalTransactions Count 总计(总和) <没有> PT1M 是的

度量尺寸

关于度量维度的信息,请参见 多维度量

该服务具有以下与其指标相关的维度。

  • ApiName
  • 功能名称
  • ModelDeploymentName
  • 模型名
  • ModelVersion
  • 操作名称
  • Region
  • 状态码
  • StreamType
  • UsageChannel

资源日志

本节列出了您可以为该服务收集的资源日志类型。 本节从Azure Monitor支持的所有资源日志类别类型列表中提取。

支持Microsoft资源日志。认知服务/账户

类别 类别显示名称 日志表 支持基本的日志规划 支持摄取时间转换 示例查询 出口成本
Audit 审核日志 AzureDiagnostics

来自多个 Azure 资源的日志。

AzureOpenAIRequestUsage Azure OpenAI 请求使用情况 AzureDiagnostics

来自多个 Azure 资源的日志。

是的
RequestResponse 请求与响应日志 AzureDiagnostics

来自多个 Azure 资源的日志。

Trace 跟踪日志 AzureDiagnostics

来自多个 Azure 资源的日志。

Azure Monitor 日志表

本节列出了与该服务相关的 Azure Monitor 日志表,这些表可通过 Log Analytics 通过 Kusto 查询查询。 这些表包含资源日志数据,可能还会根据收集和路由到它们的数据而增加。

Azure OpenAI microsoft.cognitiveservices/accounts

活动日志

链表列出了该服务活动日志中可记录的操作。 这些操作是 活动日志中所有可能的资源提供者操作的一个子集。

有关活动日志条目的模式的更多信息,请参见 活动日志模式