你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure OpenAI 监控数据参考

本文包含本服务的所有监测参考信息。

有关可在 Microsoft Foundry 模型中为 Azure OpenAI 收集的数据以及如何使用它的详细信息，请参阅 Monitor Azure OpenAI。

Metrics

本节列出了该服务所有自动收集的平台指标。这些指标也是Azure Monitor支持的全球所有平台指标列表的一部分。

有关度量保留的信息，请参见 Azure Monitor 度量概览。

支持的Microsoft指标。认知服务/账户

监视 Azure OpenAI 最重要的指标。本文稍后会找到此命名空间中所有可用指标的较长列表，其中包含有关此较短列表中指标的更多详细信息。 有关最 up-to日期信息，请参阅以下列表。 Azure团队正在努力刷新以下部分中的表。

Important

不要将本节中的指标与本文后面“Latency”下列出的遗留指标混淆。遗留的Latency指标并非为Azure OpenAI工作负载设计，且在诊断Azure OpenAI延迟时会产生误导性结果。对于Azure OpenAI延迟监控，可以使用响应时间（）、最后一个字节的时间（c）、标记间时间（），或归一化到第一个字节（）。关于如何解读这些指标，请参见性能与延迟。

Azure OpenAI 请求
活动令牌
生成的完成代币
处理精细调优培训小时数
处理推理令牌
处理中的提示令牌
配置管理利用 V2
提示令牌缓存匹配率
是时候应对了
标记间隔时间
最后一个字节的时间
归一化到第一个字节的时间
每秒代币数

还可以监视其他相关服务使用的内容安全指标。

阻止的卷
检测到有害体积
潜在滥用用户计数
安全系统事件
送去安全检查的总体积

注释

配置 管理的利用 率指标现已弃用，不再推荐使用。此指标由 预配管理的利用率 V2 指标替换。令牌每秒、响应时间和令牌之间的时间目前不适用于标准部署。

快速参考：按用例划分的关键指标

使用此表找到针对特定监测目标的正确指标。关于解读这些指标的端到端指导，请参见性能与延迟。

我想监控......	使用这个指标	REST API 名称
整体响应时间	最后一个字节的时间	`AzureOpenAITTLTInMS`
首令牌响应性（流式）	是时候应对了	`AzureOpenAITimeToResponse`
令牌生成速度	标记间隔时间	`AzureOpenAINormalizedTBTInMS`
首令牌效率以提示大小归一化	归一化到第一个字节的时间	`AzureOpenAINormalizedTTFTInMS`
每个请求输出令牌量	生成的完成代币	`GeneratedTokens`
每个请求的输入令牌量	处理中的提示令牌	`ProcessedPromptTokens`
PTU容量利用率	配置管理利用 V2	`AzureOpenAIProvisionedManagedUtilizationV2`
请求量与错误	Azure OpenAI 请求	`AzureOpenAIRequests`

Tip

始终将延迟指标与令牌计数指标配对。延迟增加而代币增加可能说明存在真正的问题。延迟增加伴随着令牌的比例增加是预期行为。

Warning

本文后面提到的认知服务 - HTTP 请求中的指标是遗留的认知服务指标，并非为Azure OpenAI工作负载设计的。特别是，该类别中的Latency指标与Azure OpenAI延迟指标不同（响应时间、最后字节时间、令牌间隔时间、归一化至第一个字节时间）。使用旧有的Latency指标进行Azure OpenAI 故障排除会产生误导性的结果。请使用本节列出的Azure OpenAI指标。

下表列出了Microsoft可用的指标。CognitiveServices/账户资源类型。

并非所有列都存在于每个表格中。
有些列可能超出页面的视野范围。选择 “展开表格 ”以查看所有可用列。

表标题

类别 ——指标组或分类。
公制 - 公制显示名称，显示在Azure门户中。
REST API 中的名称 ——REST API 中引用的度量名称。
单位——计量单位。
聚合 ——默认聚合类型。有效数值：平均值（平均）、最小值（最小值）、最大值（最大值）、总值（总和）、计数。
尺寸 - 度量的可用维度。
时间粒 - 度规被采样的区间。例如，表示 PT1M 指标每分钟 PT30M 、每30分钟、 PT1H 每小时采样一次，依此类推。
DS 导出 - 指标是否可以通过诊断设置导出到 Azure Monitor 日志。有关指标导出的信息，请参见在Azure Monitor创建诊断设置。

类别：操作

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
操作出现次数每个动作出现的次数。	`ActionIdOccurrences`	Count	总计（总和）	`ActionId`， `Mode`， `RunId`	PT1M	是的
每个事件的动作每个事件的行动数。	`ActionsPerEvent`	Count	Average	`Mode`、`RunId`	PT1M	是的

分类：Azure OpenAI - HTTP 请求

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
Azure OpenAI AvailabilityRate 可用率百分比计算如下：（总通话 - 服务器错误）/总通话数。服务器错误包括任何HTTP响应 >=500。	`AzureOpenAIAvailabilityRate`	百分比	最低、最高、平均	`ApiName`， `OperationName`， `Region`， `StreamType`， `ModelDeploymentName`， `ModelName`，， `ModelVersion`	PT1M	否
Azure OpenAI 请求在一段时间内调用 Azure OpenAI API 的次数。适用于PTU、PTU-Managed 和按需付费部署。为了拆分 API 请求，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName、ModelVersion、StatusCode（成功、clienterrors、server errors）、用于溢出信息的 IsSpillover、ServiceTier、StreamType（流式请求与非流式请求）以及操作。	`AzureOpenAIRequests`	Count	总计（总和）	`ApiName`、、`OperationName`、`RegionStreamType`、`ModelDeploymentName`、`ModelName`、`ModelVersionStatusCode`、、`IsSpillover`、、 `ServiceTierRequestServiceTierResponse`	PT1M	是的

类别：Azure OpenAI - 延迟

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
代币间隔时间对于流媒体请求;模型代币生成率，以毫秒为单位测量。适用于PTU、PTU管理和按使用付费部署。	`AzureOpenAINormalizedTBTInMS`	MilliSeconds	最大、最小、平均	`Region`， `ModelDeploymentName`，， `ModelNameModelVersion`	PT1M	是的
归一化到第一个字节的时间无论是流媒体还是非流媒体请求;模型请求后收到第一个响应数据字节所需的时间，并按令牌进行规范化。适用于PTU、PTU管理和按使用付费部署。	`AzureOpenAINormalizedTTFTInMS`	MilliSeconds	最大、最小、平均	`Region`， `ModelDeploymentName`，， `ModelNameModelVersion`	PT1M	是的
是时候应对了推荐的流媒体请求延迟（响应性）指标。适用于PTU、PTU管理和按使用付费部署。计算为用户发送提示后首次响应出现的时间，由API网关测量。随着提示词大小和/或缓存命中量减少，这个数字会增加。为了将响应时间与指标细分，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName 和 ModelVersion。注意：该指标仅为近似值，因为测量延迟高度依赖于多个因素，包括并发通话和整体工作负载模式。此外，它不考虑客户端与API端点之间可能存在的任何延迟。请参考您自己的日志以获得最佳延迟跟踪。	`AzureOpenAITimeToResponse`	MilliSeconds	最低、最高、平均	`ApiName`， `OperationName`， `Region`， `StreamType`， `ModelDeploymentNameModelName`，， `ModelVersion`，`StatusCode`	PT1M	是的
每秒代币数枚举给定 Azure OpenAI 模型响应的生成速度。生成的代币总数除以生成代币的时间，单位为秒。适用于PTU、PTU管理和按使用付费部署。	`AzureOpenAITokenPerSecond`	Count	最大、最小、平均	`Region`， `ModelDeploymentName`，， `ModelNameModelVersion`	PT1M	是的
最后一个字节的时间无论是流媒体还是非流媒体请求;模型发出请求后，响应数据最后一个字节被接收所需的时间。适用于PTU、PTU管理和按使用付费部署。	`AzureOpenAITTLTInMS`	MilliSeconds	最大、最小、平均	`Region`， `ModelDeploymentName`，， `ModelNameModelVersion`	PT1M	是的

类别：Azure OpenAI - 使用

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
有效令牌总令牌数减去一段时间内缓存的令牌数。适用于PTU及其管理部署。利用这个指标了解你基于TPS或TPM的PTU利用率，并与你当前场景的目标TPS或TPM基准进行对比。为了拆分 API 请求，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName 和 ModelVersion。	`ActiveTokens`	Count	最小值、最大值、平均值、总数（和）	`Region`， `ModelDeploymentName`，， `ModelNameModelVersion`	PT1M	是的
音频完成令牌 OpenAI模型上生成（输出）的音频提示词数量。适用于PTU管理和按使用付费模式的部署。	`AudioCompletionTokens`	Count	总计（总和）	`ModelDeploymentName`， `ModelName`，， `ModelVersionRegion`	PT1M	是的
音频提示令牌 OpenAI 模型上处理（输入）的音频提示令牌数量。适用于PTU管理和按使用付费模式的部署。	`AudioPromptTokens`	Count	总计（总和）	`ModelDeploymentName`， `ModelName`，， `ModelVersionRegion`	PT1M	是的
提示令牌缓存匹配率触发缓存的提示令牌百分比。适用于PTU及其管理部署。	`AzureOpenAIContextTokensCacheMatchRate`	百分比	最低、最高、平均	`Region`， `ModelDeploymentName`，， `ModelNameModelVersion`	PT1M	否
配置管理利用（已弃用）利用率 % 为预定管理部署，计算为（消耗的PTU数/部署的PTU数）乘以100。当利用率大于或等于100%时，呼叫会被限速并返回错误代码429。为了分解该指标，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName、ModelVersion 和 StreamType（流式与非流式请求）	`AzureOpenAIProvisionedManagedUtilization`	百分比	最低、最高、平均	`Region`， `StreamType`， `ModelDeploymentName`， `ModelName`， `ModelVersion`	PT1M	否
配置管理利用 V2 利用率 % 为预定管理部署，计算为（消耗的PTU数/部署的PTU数）乘以100。当利用率大于或等于100%时，呼叫会被限速并返回错误代码429。为了分解该指标，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName、ModelVersion 和 StreamType（流式与非流式请求）	`AzureOpenAIProvisionedManagedUtilizationV2`	百分比	最低、最高、平均	`Region`， `StreamType`， `ModelDeploymentName`， `ModelName`， `ModelVersion`	PT1M	否
处理精细调优培训小时数 OpenAI微调模型处理的训练小时数	`FineTunedTrainingHours`	Count	总计（总和）	`ApiName`， `ModelDeploymentName`， `FeatureName`， `UsageChannel`， `Region`	PT1M	是的
生成的完成代币 OpenAI模型生成（输出）的代币数量。适用于PTU、PTU管理和按使用付费部署。为了分解该指标，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName 和 ModelName。	`GeneratedTokens`	Count	总计（总和）	`ApiName`， `ModelDeploymentName`， `FeatureName`， `UsageChannel`， `Region`， `ModelVersion`	PT1M	是的
处理中的提示令牌 OpenAI模型中处理（输入）的提示令牌数量。适用于PTU、PTU管理和按使用付费部署。为了分解该指标，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName 和 ModelName。	`ProcessedPromptTokens`	Count	总计（总和）	`ApiName`， `ModelDeploymentName`， `FeatureName`， `UsageChannel`， `Region`， `ModelVersion`	PT1M	是的
使用的实时API秒数实时API使用的秒数	`RealtimeUsageTime`	Count	总计（总和）	`Region`、`ModelDeploymentName`	PT1M	是的
处理推理令牌 OpenAI模型上处理的推理代币数量。计算方式为提示令牌（输入）加上生成令牌（输出）。适用于PTU、PTU管理和按使用付费部署。为了分解该指标，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName 和 ModelName。	`TokenTransaction`	Count	总计（总和）	`ApiName`， `ModelDeploymentName`， `FeatureName`， `UsageChannel`， `Region`， `ModelVersion`	PT1M	是的

分类：认知服务 - HTTP 请求

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
被阻止的电话超过费率或配额限制的呼叫数量。不要用于Azure OpenAI服务。	`BlockedCalls`	Count	总计（总和）	`ApiName`， `OperationName`，， `RegionRatelimitKey`	PT1M	是的
客户端错误客户端错误呼叫次数（HTTP响应代码4xx）。不要用于Azure OpenAI服务。	`ClientErrors`	Count	总计（总和）	`ApiName`， `OperationName`，， `RegionRatelimitKey`	PT1M	是的
数据输入输入数据的大小（字节单位）。不要用于Azure OpenAI服务。	`DataIn`	字节	总计（总和）	`ApiName`， `OperationName`， `Region`	PT1M	是的
数据输出输出数据的大小（字节单位）。不要用于Azure OpenAI服务。	`DataOut`	字节	总计（总和）	`ApiName`， `OperationName`， `Region`	PT1M	是的
延迟延迟以毫秒计。不要用于Azure OpenAI服务。	`Latency`	MilliSeconds	Average	`ApiName`， `OperationName`，， `RegionRatelimitKey`	PT1M	是的
Ratelimit 当前速率限制键。不要用于Azure OpenAI服务。	`Ratelimit`	Count	总计（总和）	`Region`、`RatelimitKey`	PT1M	是的
服务器错误服务内部错误调用次数（HTTP响应代码5xx）。不要用于Azure OpenAI服务。	`ServerErrors`	Count	总计（总和）	`ApiName`， `OperationName`，， `RegionRatelimitKey`	PT1M	是的
成功调用成功通话次数。不要用于Azure OpenAI服务。	`SuccessfulCalls`	Count	总计（总和）	`ApiName`， `OperationName`，， `RegionRatelimitKey`	PT1M	是的
呼叫总数通话总数。不要用于Azure OpenAI服务。	`TotalCalls`	Count	总计（总和）	`ApiName`， `OperationName`，， `RegionRatelimitKey`	PT1M	是的
错误总数错误响应调用总数（HTTP响应代码4xx或5xx）。不要用于Azure OpenAI服务。	`TotalErrors`	Count	总计（总和）	`ApiName`， `OperationName`，， `RegionRatelimitKey`	PT1M	是的
总令牌调用数代币调用总数。	`TotalTokenCalls`	Count	总计（总和）	`ApiName`， `OperationName`， `Region`	PT1M	是的

分类：认知服务 - SLI

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
AvailabilityRate 可用率百分比计算如下：（总通话 - 服务器错误）/总通话数。服务器错误包括任何HTTP响应 >=500。不要用于Azure OpenAI服务。	`SuccessRate`	百分比	最低、最高、平均	`ApiName`， `OperationName`，， `RegionRatelimitKey`	PT1M	否

分类：内容理解 - 使用情况

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
人脸交易对面服务调用的API次数	`FaceApiTransactions`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
处理过的音频会议记录处理中的几分钟音频	`ProcessedAudioMinutes`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
处理的页面处理文档页数	`ProcessedDocumentPages`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
已处理的图像处理图像数量	`ProcessedImageCount`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
处理过的视频分钟数处理过的视频分钟数	`ProcessedVideoMinutes`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
令牌消耗的代币数量	`Tokens`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的

分类：内容安全 - 风险与安全

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
潜在的滥用用户数量在一段时间内被发现的潜在滥用用户数量。你可以添加过滤器，或按以下维度进行拆分：ModelDeploymentName。	`RAIAbusiveUsersCount`	Count	总计（总和）	`Region`、`ModelDeploymentName`	PT1M	是的
检测到有害体积在一段时间内，通过内容过滤器检测出对Azure OpenAI API的访问次数（包括块模型和注释模式）。你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName 和 TextType。	`RAIHarmfulRequests`	Count	总计（总和）	`Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`， `ApiNameTextType`，， `Category`，`Severity`	PT1M	是的
阻止的量在一段时间内，调用Azure OpenAI API并被内容过滤器拒绝的次数。你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName 和 TextType。	`RAIRejectedRequests`	Count	总计（总和）	`Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`， `ApiName`， `TextType`，， `Category`	PT1M	是的
安全系统事件用于风险和安全监控的系统事件。你可以添加过滤器或按以下维度进行拆分：EventType。	`RAISystemEvent`	Count	Average	`Region`、`EventType`	PT1M	是的
送去安全检查的总体积在一段时间内，调用Azure OpenAI API并被内容过滤器检测的次数。你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName。	`RAITotalRequests`	Count	总计（总和）	`Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`， `ApiName`	PT1M	是的

分类：内容安全 - 使用情况

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
图像审核的呼叫计数关于图片审核的电话数量。	`ContentSafetyImageAnalyzeRequestCount`	Count	总计（总和）	`ApiVersion`	PT1M	是的
短信审核的来电计数短信审核的电话数量。	`ContentSafetyTextAnalyzeRequestCount`	Count	总计（总和）	`ApiVersion`	PT1M	是的

类别：估计

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
基线随机事件计数基线随机事件计数估计。	`BaselineRandomEventCount`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
基线随机奖励基础随机奖励的估计。	`BaselineRandomReward`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
在线活动计数在线活动数量估计。	`OnlineEventCount`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
联机奖励在线奖励估算。	`OnlineReward`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
用户基线事件计数用户定义的基线事件计数估计。	`UserBaselineEventCount`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
用户基线奖励用户定义的基线奖励估计。	`UserBaselineReward`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的

分类：特征出现

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
动作特征出现每个动作特征出现的次数。	`ActionFeatureIdOccurrences`	Count	总计（总和）	`FeatureId`， `Mode`， `RunId`	PT1M	是的
上下文特征出现每个上下文特征出现的次数。	`ContextFeatureIdOccurrences`	Count	总计（总和）	`FeatureId`， `Mode`， `RunId`	PT1M	是的
老虎机特征出现每个老虎机功能出现的次数。	`SlotFeatureIdOccurrences`	Count	总计（总和）	`FeatureId`， `Mode`， `RunId`	PT1M	是的

类别：FeatureCardinality

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
特征基数通过作用基于动作的特征基数。	`FeatureCardinality_Action`	Count	Average	`FeatureId`， `Mode`， `RunId`	PT1M	是的
按上下文计算特征基数基于上下文的特征基数。	`FeatureCardinality_Context`	Count	Average	`FeatureId`， `Mode`， `RunId`	PT1M	是的
按时段划分的特征基数基于老虎机的特征基数。	`FeatureCardinality_Slot`	Count	Average	`FeatureId`， `Mode`， `RunId`	PT1M	是的

类别：各事件特色

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
每个事件的动作特征每个事件的平均动作特征数量。	`ActionFeaturesPerEvent`	Count	Average	`Mode`、`RunId`	PT1M	是的
每个事件的上下文特征每个事件的上下文特征数量。	`ContextFeaturesPerEvent`	Count	Average	`Mode`、`RunId`	PT1M	是的
每个活动的老虎机特性每个活动的平均老虎机功能数量。	`SlotFeaturesPerEvent`	Count	Average	`Mode`、`RunId`	PT1M	是的

分类：语言 - 工作

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
作业持续时间（预览）注意：该值高度依赖于输入大小、文档数量及任务复杂度。这是所有工作任务的总数值。	`JobDuration`	MilliSeconds	最低、最高、平均	`JobStatus`、`JobType`	PT1M	是的

类别：模型 - HTTP 请求

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
模型可用性率可用率百分比计算如下：（总通话 - 服务器错误）/总通话数。服务器错误包括任何HTTP响应 >=500。	`ModelAvailabilityRate`	百分比	最低、最高、平均	`Region`， `ModelDeploymentName`，， `ModelNameModelVersion`	PT1M	否
模型请求在一段时间内调用模型 API 的次数。适用于PTU、PTU-Managed 和按需付费部署。	`ModelRequests`	Count	总计（总和）	`ApiName`、、`OperationName`、`RegionStreamType`、`ModelDeploymentName`、`ModelName`、`ModelVersionStatusCode`、、`IsSpillover`、、 `ServiceTierRequestServiceTierResponse`	PT1M	是的

类别：型号 - 延迟

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
标记间隔时间模型代币生成率，以毫秒为单位。适用于PTU及其管理部署。对于非流媒体请求，这个数值只是估计值。	`NormalizedTimeBetweenTokens`	MilliSeconds	最大、最小、平均	`ApiName`， `OperationName`， `Region`， `StreamType`， `ModelDeploymentName`， `ModelName`，， `ModelVersion`	PT1M	是的
归一化到第一个字节的时间模型提出请求后，响应数据的第一个字节被接收所需的时间，并以令牌进行规范化。适用于PTU、PTU管理和按使用付费部署。对于非流媒体请求，这个数值只是估计值。	`NormalizedTimeToFirstToken`	MilliSeconds	最大、最小、平均	`ApiName`， `OperationName`， `Region`， `StreamType`， `ModelDeploymentName`， `ModelName`，， `ModelVersion`	PT1M	是的
最后一个字节的时间模型请求后，响应数据最后一个字节被接收所需的时间。适用于PTU、PTU管理和按使用付费部署。对于非流媒体请求，这个数值只是估计值。	`TimeToLastByte`	MilliSeconds	最大、最小、平均	`ApiName`， `OperationName`， `Region`， `StreamType`， `ModelDeploymentName`， `ModelName`，， `ModelVersion`	PT1M	是的
是时候应对了推荐的延迟（响应性）指标。适用于PTU及其管理部署。计算为用户发送提示后首次响应出现的时间，由API网关测量。随着提示词大小和/或缓存命中量减少，这个数字会增加。为了将响应时间与指标细分，你可以添加过滤器或按以下维度进行拆分：ModelDeploymentName、ModelName 和 ModelVersion。注意：该指标仅为近似值，因为测量延迟高度依赖于多个因素，包括并发通话和整体工作负载模式。此外，它不考虑客户端与API端点之间可能存在的任何延迟。对于非流媒体请求，这个数值只是估计值。请参考您自己的日志以获得最佳延迟跟踪。	`TimeToResponse`	MilliSeconds	最低、最高、平均	`ApiName`， `OperationName`， `Region`， `StreamType`， `ModelDeploymentNameModelName`，， `ModelVersion`，`StatusCode`	PT1M	是的
每秒代币数枚举给定模型响应的生成速度。生成的代币总数除以生成代币的时间，单位为秒。适用于PTU及其管理部署。对于非流媒体请求，这个数值只是估计值。	`TokensPerSecond`	Count	最大、最小、平均	`ApiName`， `OperationName`， `Region`， `StreamType`， `ModelDeploymentName`， `ModelName`，， `ModelVersion`	PT1M	是的

类别：型号 - 使用情况

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
带批注的页面带注释处理的总页数。适用于PTU、PTU-Managed 和按需付费部署。	`AnnotatedPages`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`	PT1M	是的
音频输入令牌 OpenAI 模型上处理（输入）的音频提示令牌数量。适用于PTU管理的模型部署。	`AudioInputTokens`	Count	总计（总和）	`ModelDeploymentName`， `ModelName`，， `ModelVersionRegion`	PT1M	是的
音频输出令牌 OpenAI模型上生成（输出）的音频提示词数量。适用于PTU管理的模型部署。	`AudioOutputTokens`	Count	总计（总和）	`ModelDeploymentName`， `ModelName`，， `ModelVersionRegion`	PT1M	是的
从缓存中读取提示令牌缓存中读取的代币总数。适用于Anthropic模型的部署。在响应用法部分中出现为 `cache_read_input_tokens`	`cacheReadInputTokens`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`， `ContextLength`	PT1M	是的
写入缓存的提示令牌（1小时TTL）用于创建1小时条目所需的提示代币数量。适用于Anthropic模型的部署。在响应用法部分中出现为 `cache_creation.ephemeral_1h_input_tokens`	`ephemeral1hInputTokens`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`， `ContextLength`	PT1M	是的
写入缓存的提示令牌（5分钟TTL）用于创建5分钟缓存条目的提示令牌数量。适用于Anthropic模型的部署。在响应用法部分中出现为 `cache_creation.ephemeral_5m_input_tokens`	`ephemeral5mInputTokens`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`， `ContextLength`	PT1M	是的
生成的映像生成的图像总数。适用于PTU、PTU-Managed 和按需付费部署。	`GeneratedImages`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`	PT1M	是的
输入令牌模型上处理（输入）的提示令牌数量。适用于PTU、PTU-Managed 和按需付费部署。	`InputTokens`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`	PT1M	是的
输出令牌 OpenAI模型生成（输出）的代币数量。适用于PTU、PTU-Managed 和按需付费部署。	`OutputTokens`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`	PT1M	是的
预配利用率利用率 % 为预定管理部署，计算为（消耗的PTU数/部署的PTU数）乘以100。当利用率大于或等于100%时，呼叫会被限速并返回错误代码429。	`ProvisionedUtilization`	百分比	最低、最高、平均	`Region`， `ModelDeploymentName`，， `ModelNameModelVersion`	PT1M	否
总页数处理的总页数。适用于PTU、PTU-Managed 和按需付费部署。	`TotalPages`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`	PT1M	是的
令牌总数模型上处理的推理令牌数量。计算方式为提示令牌（输入）加上生成令牌（输出）。适用于PTU、PTU-Managed 和按需付费部署。	`TotalTokens`	Count	总计（总和）	`ApiName`， `Region`， `ModelDeploymentName`， `ModelName`， `ModelVersion`	PT1M	是的

类别：每个事件命名空间

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
每个事件的动作命名空间每个事件的平均动作命名空间数。	`ActionNamespacesPerEvent`	Count	Average	`Mode`、`RunId`	PT1M	是的
每个事件的上下文命名空间每个事件的上下文命名空间数量。	`ContextNamespacesPerEvent`	Count	Average	`Mode`、`RunId`	PT1M	是的
每个事件的槽位命名空间每个事件的平均插槽命名空间数。	`SlotNamespacesPerEvent`	Count	Average	`Mode`、`RunId`	PT1M	是的

类别：奖励

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
每场活动的平均奖励每个活动的平均奖励。	`Reward`	Count	Average	`BaselineAction`， `ChosenActionId`， `MatchesBaseline`， `NonDefaultReward`， `Mode`， `RunId`	PT1M	是的
老虎机奖励每个栏位的奖励。	`SlotReward`	Count	Average	`BaselineActionId`， `ChosenActionId`， `MatchesBaseline`， `NonDefaultReward`， `SlotIdSlotIndex`，， `Mode`，`RunId`	PT1M	是的

类别：槽

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
基线估计器总体奖励基线估算器总体奖励。	`BaselineEstimatorOverallReward`	Count	Average	`Mode`、`RunId`	PT1M	是的
基线估计槽额奖励按槽位划分的基线估计奖励。	`BaselineEstimatorSlotReward`	Count	Average	`SlotId`， `SlotIndex`，， `ModeRunId`	PT1M	是的
基线随机估计器总体奖励基础随机估算器总体奖励。	`BaselineRandomEstimatorOverallReward`	Count	Average	`Mode`、`RunId`	PT1M	是的
基线随机估计槽奖励按老虎机分配的基础随机估算奖励。	`BaselineRandomEstimatorSlotReward`	Count	Average	`SlotId`， `SlotIndex`，， `ModeRunId`	PT1M	是的
插槽每个项目的名额数。	`NumberOfSlots`	Count	Average	`Mode`、`RunId`	PT1M	是的
在线估算器总体奖励在线估价师总体奖励。	`OnlineEstimatorOverallReward`	Count	Average	`Mode`、`RunId`	PT1M	是的
在线估价员老虎机奖励在线估价器按老虎机奖励。	`OnlineEstimatorSlotReward`	Count	Average	`SlotId`， `SlotIndex`，， `ModeRunId`	PT1M	是的
槽出现次数每个槽位出现的次数。	`SlotIdOccurrences`	Count	总计（总和）	`SlotId`， `SlotIndex`，， `ModeRunId`	PT1M	是的

分类：语音服务 - 用途

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
音频秒数批量转录转录的批次秒数	`AudioSecondsBatchTranscribed`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
音频秒数批量耳语转录批量耳语转录的秒数	`AudioSecondsBatchWhisperTranscribed`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
音频秒速转录快速转录的秒数	`AudioSecondsFastTranscribed`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
音频秒速低语转录快速低语转录的秒数	`AudioSecondsFastWhisperTranscribed`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
音频秒数转录转录的秒数	`AudioSecondsTranscribed`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
音频秒数翻译翻译的秒数	`AudioSecondsTranslated`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
Avatar Model 托管 Seconds 秒数。	`AvatarModelHostingSeconds`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
阿凡达模型训练秒秒数。	`AvatarModelTrainingSeconds`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
演讲者档案数量报名演讲者人数。每小时按比例计算。	`NumberofSpeakerProfiles`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
演讲嘉宾表彰交易演讲者识别交易次数	`SpeakerRecognitionTransactions`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
演讲模特主持时段语音模型主持小时数	`SpeechModelHostingHours`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
合成字符角色数。	`SynthesizedCharacters`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
合成视频秒合成的秒数	`VideoSecondsSynthesized`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
语音实时音频输入令牌音频输入标记数量，不包括缓存标记。	`VoiceLiveAudioInputTokens`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
语音实时音频输出令牌音频输出标记的数量。	`VoiceLiveAudioOutputTokens`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
语音实时缓存音频输入令牌缓存的音频输入标记数量。	`VoiceLiveCachedAudioInputTokens`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
语音实时缓存文本输入令牌缓存的文本输入标记数量。	`VoiceLiveCachedTextInputTokens`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
语音实时文本输入令牌文本输入令牌数，不包括缓存令牌。	`VoiceLiveTextInputTokens`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
语音实时文本输出令牌文本输出令牌数量。	`VoiceLiveTextOutputTokens`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
语音模型主持时间工作时数。	`VoiceModelHostingHours`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
语音模型训练分钟分钟数。	`VoiceModelTrainingMinutes`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的

分类：翻译服务 - 用途

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
已训练的角色（已弃用）训练角色总数。	`CharactersTrained`	Count	总计（总和）	`ApiName`， `OperationName`， `Region`	PT1M	是的
已翻译（已弃用）角色输入文本请求的字符总数。	`CharactersTranslated`	Count	总计（总和）	`ApiName`， `OperationName`， `Region`	PT1M	是的
文档字符翻译文档翻译请求中的字符数。	`DocumentCharactersTranslated`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
文档自定义字符翻译自定义文档翻译请求中的字符数。	`DocumentCustomCharactersTranslated`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
文档同步字符翻译文档翻译请求中的字符数（同步）。	`OneDocumentCharactersTranslated`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
文档同步自定义字符翻译自定义文档翻译（同步）请求中的字符数。	`OneDocumentCustomCharactersTranslated`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
文本字符翻译输入文本翻译请求中的字符数。	`TextCharactersTranslated`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
文本自定义字符翻译输入的自定义文本翻译请求字符数。	`TextCustomCharactersTranslated`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
文本训练字符使用文本翻译训练的字符数。	`TextTrainedCharacters`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
翻译器专业应用 Seconds Translator Pro 应用使用秒数。	`TranslatorProAppSeconds`	秒	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的

类别：使用情况

Metric	REST API 中的名称	单位	集合体	尺寸	时间粒度	DS 导出
推理计数卡内基前门服务的推断计数	`CarnegieInferenceCount`	Count	总计（总和）	`Region`， `Modality`， `Category`， `Language`， `SeverityLevel`， `UseCustomList`	PT1M	是的
计算机视觉交易计算机视觉交易数量	`ComputerVisionTransactions`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
定制视觉培训时间定制视觉培训时间	`CustomVisionTrainingTime`	秒	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
定制愿景交易自定义视觉预测交易数量	`CustomVisionTransactions`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
面部图像训练训练的图像数量。每笔交易训练1000张图片。	`FaceImagesTrained`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
存储的人脸每天按比例计算存储的面孔数量。每天报告存储的面孔数量。	`FacesStored`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
人脸交易对面服务调用的API次数	`FaceTransactions`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
存储的图像存储的自定义视觉图像数量。	`ImagesStored`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
已了解的事件数学习事件数量。	`LearnedEvents`	Count	总计（总和）	`IsMatchBaseline`， `Mode`， `RunId`	PT1M	是的
LUIS演讲请求 LUIS语音到意图理解请求的数量	`LUISSpeechRequests`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
LUIS 文本请求 LUIS文本请求数量	`LUISTextRequests`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
匹配的奖励数匹配奖励数量。	`MatchedRewards`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
未激活事件跳过的活动数量。	`NonActivatedEvents`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
观察到的奖励数观察到的奖励数量。	`ObservedRewards`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
已处理的字符数沉浸式阅读器处理的字符数。	`ProcessedCharacters`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
处理过的健康文本记录处理的健康文本记录数量	`ProcessedHealthTextRecords`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
已处理的图像处理图像数量	`ProcessedImages`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
处理的页面处理页面数量	`ProcessedPages`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
处理后的文本记录文本记录数量。	`ProcessedTextRecords`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
QA文本记录处理的文本记录数量	`QuestionAnsweringTextRecords`	Count	总计（总和）	`ApiName`， `FeatureName`，， `UsageChannelRegion`	PT1M	是的
演讲时长（已废止）演讲会话的总时长以秒计。	`SpeechSessionDuration`	秒	总计（总和）	`ApiName`， `OperationName`， `Region`	PT1M	是的
事件总数活动数量。	`TotalEvents`	Count	总计（总和）	`Mode`、`RunId`	PT1M	是的
总交易量（已弃用）交易总数。	`TotalTransactions`	Count	总计（总和）	<没有>	PT1M	是的

度量尺寸

关于度量维度的信息，请参见多维度量。

该服务具有以下与其指标相关的维度。

ApiName
功能名称
ModelDeploymentName
模型名
ModelVersion
操作名称
Region
状态码
StreamType
UsageChannel

资源日志

本节列出了您可以为该服务收集的资源日志类型。本节从Azure Monitor支持的所有资源日志类别类型列表中提取。

支持Microsoft资源日志。认知服务/账户

类别	类别显示名称	日志表	支持基本的日志规划	支持摄取时间转换	出口成本
`Audit`	审核日志	AzureDiagnostics 来自多个 Azure 资源的日志。	否	否	否
`AzureOpenAIRequestUsage`	Azure OpenAI 请求使用情况	AzureDiagnostics 来自多个 Azure 资源的日志。	否	否	是的
`RequestResponse`	请求与响应日志	AzureDiagnostics 来自多个 Azure 资源的日志。	否	否	否
`Trace`	跟踪日志	AzureDiagnostics 来自多个 Azure 资源的日志。	否	否	否

Azure Monitor 日志表

本节列出了与该服务相关的 Azure Monitor 日志表，这些表可通过 Log Analytics 通过 Kusto 查询查询。这些表包含资源日志数据，可能还会根据收集和路由到它们的数据而增加。

Azure OpenAI microsoft.cognitiveservices/accounts

活动日志

链表列出了该服务活动日志中可记录的操作。这些操作是活动日志中所有可能的资源提供者操作的一个子集。

有关活动日志条目的模式的更多信息，请参见活动日志模式。

AI + 机器学习资源提供者运营

有关监视 Azure OpenAI 的说明，请参阅 Monitor Azure OpenAI。
有关监视Azure资源的详细信息，请参阅 Monitor Azure Azure Monitor 的资源。

反馈

此页面是否有帮助？

Last updated on 2026-05-20