你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文包含本服务的所有监测参考信息。
有关可在 Microsoft Foundry 模型中为 Azure OpenAI 收集的数据以及如何使用它的详细信息,请参阅 Monitor Azure OpenAI。
Metrics
本节列出了该服务所有自动收集的平台指标。 这些指标也是Azure Monitor支持的全球
有关度量保留的信息,请参见 Azure Monitor 度量概览。
支持的Microsoft指标。认知服务/账户
监视 Azure OpenAI 最重要的指标。 本文稍后会找到此命名空间中所有可用指标的较长列表,其中包含有关此较短列表中指标的更多详细信息。 有关最 up-to日期信息,请参阅以下列表。 Azure团队正在努力刷新以下部分中的表。
Important
不要将本节中的指标与本文后面“Latency”下列出的遗留指标混淆。 遗留的Latency指标并非为Azure OpenAI工作负载设计,且在诊断Azure OpenAI延迟时会产生误导性结果。 对于Azure OpenAI延迟监控,可以使用
- Azure OpenAI 请求
- 活动令牌
- 生成的完成代币
- 处理精细调优培训小时数
- 处理推理令牌
- 处理中的提示令牌
- 配置管理利用 V2
- 提示令牌缓存匹配率
- 是时候应对了
- 标记间隔时间
- 最后一个字节的时间
- 归一化到第一个字节的时间
- 每秒代币数
还可以监视其他相关服务使用的内容安全指标。
- 阻止的卷
- 检测到有害体积
- 潜在滥用用户计数
- 安全系统事件
- 送去安全检查的总体积
注释
配置 管理的利用 率指标现已弃用,不再推荐使用。 此指标由 预配管理的利用率 V2 指标替换。 令牌每秒、响应时间和令牌之间的时间目前不适用于标准部署。
快速参考:按用例划分的关键指标
使用此表找到针对特定监测目标的正确指标。 关于解读这些指标的端到端指导,请参见 性能与延迟。
| 我想监控...... | 使用这个指标 | REST API 名称 |
|---|---|---|
| 整体响应时间 | 最后一个字节的时间 | AzureOpenAITTLTInMS |
| 首令牌响应性(流式) | 是时候应对了 | AzureOpenAITimeToResponse |
| 令牌生成速度 | 标记间隔时间 | AzureOpenAINormalizedTBTInMS |
| 首令牌效率以提示大小归一化 | 归一化到第一个字节的时间 | AzureOpenAINormalizedTTFTInMS |
| 每个请求输出令牌量 | 生成的完成代币 | GeneratedTokens |
| 每个请求的输入令牌量 | 处理中的提示令牌 | ProcessedPromptTokens |
| PTU容量利用率 | 配置管理利用 V2 | AzureOpenAIProvisionedManagedUtilizationV2 |
| 请求量与错误 | Azure OpenAI 请求 | AzureOpenAIRequests |
Tip
始终将延迟指标与令牌计数指标配对。 延迟增加而代币增加可能说明存在真正的问题。 延迟增加伴随着令牌的比例增加是预期行为。
Warning
本文后面提到的认知服务 - HTTP 请求中的指标是遗留的认知服务指标,并非为Azure OpenAI工作负载设计的。 特别是,该类别中的Latency指标与Azure OpenAI延迟指标不同(响应时间、最后字节时间、令牌间隔时间、归一化至第一个字节时间)。 使用旧有的Latency指标进行Azure OpenAI 故障排除会产生误导性的结果。 请使用本节列出的Azure OpenAI指标。
下表列出了Microsoft可用的指标。CognitiveServices/账户资源类型。
- 并非所有列都存在于每个表格中。
- 有些列可能超出页面的视野范围。 选择 “展开表格 ”以查看所有可用列。
表标题
- 类别 ——指标组或分类。
- 公制 - 公制显示名称,显示在Azure门户中。
- REST API 中的名称 ——REST API 中引用的度量名称。
- 单位——计量单位。
- 聚合 ——默认聚 合 类型。 有效数值:平均值(平均)、最小值(最小值)、最大值(最大值)、总值(总和)、计数。
- 尺寸 - 度量的可用维度。
-
时间粒 - 度规被采样的区间。 例如,表示
PT1M指标每分钟PT30M、每30分钟、PT1H每小时采样一次,依此类推。 - DS 导出 - 指标是否可以通过诊断设置导出到 Azure Monitor 日志。 有关指标导出的信息,请参见在Azure Monitor创建诊断设置。
类别:操作
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
操作出现次数 每个动作出现的次数。 |
ActionIdOccurrences |
Count | 总计(总和) |
ActionId, Mode, RunId |
PT1M | 是的 |
|
每个事件的动作 每个事件的行动数。 |
ActionsPerEvent |
Count | Average |
Mode、RunId |
PT1M | 是的 |
分类:Azure OpenAI - HTTP 请求
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
Azure OpenAI AvailabilityRate 可用率百分比计算如下:(总通话 - 服务器错误)/总通话数。 服务器错误包括任何HTTP响应 >=500。 |
AzureOpenAIAvailabilityRate |
百分比 | 最低、最高、平均 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion |
PT1M | 否 |
|
Azure OpenAI 请求 在一段时间内调用 Azure OpenAI API 的次数。 适用于PTU、PTU-Managed 和按需付费部署。 为了拆分 API 请求,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName、ModelVersion、StatusCode(成功、clienterrors、server errors)、用于溢出信息的 IsSpillover、ServiceTier、StreamType(流式请求与非流式请求)以及操作。 |
AzureOpenAIRequests |
Count | 总计(总和) |
ApiName、、OperationName、RegionStreamType、ModelDeploymentName、ModelName、ModelVersionStatusCode、、IsSpillover、、 ServiceTierRequestServiceTierResponse |
PT1M | 是的 |
类别:Azure OpenAI - 延迟
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
代币间隔时间 对于流媒体请求;模型代币生成率,以毫秒为单位测量。 适用于PTU、PTU管理和按使用付费部署。 |
AzureOpenAINormalizedTBTInMS |
MilliSeconds | 最大、最小、平均 |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | 是的 |
|
归一化到第一个字节的时间 无论是流媒体还是非流媒体请求;模型请求后收到第一个响应数据字节所需的时间,并按令牌进行规范化。 适用于PTU、PTU管理和按使用付费部署。 |
AzureOpenAINormalizedTTFTInMS |
MilliSeconds | 最大、最小、平均 |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | 是的 |
|
是时候应对了 推荐的流媒体请求延迟(响应性)指标。 适用于PTU、PTU管理和按使用付费部署。 计算为用户发送提示后首次响应出现的时间,由API网关测量。 随着提示词大小和/或缓存命中量减少,这个数字会增加。 为了将响应时间与指标细分,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 ModelVersion。 注意:该指标仅为近似值,因为测量延迟高度依赖于多个因素,包括并发通话和整体工作负载模式。 此外,它不考虑客户端与API端点之间可能存在的任何延迟。 请参考您自己的日志以获得最佳延迟跟踪。 |
AzureOpenAITimeToResponse |
MilliSeconds | 最低、最高、平均 |
ApiName, OperationName, Region, StreamType, ModelDeploymentNameModelName, , ModelVersion,StatusCode |
PT1M | 是的 |
|
每秒代币数 枚举给定 Azure OpenAI 模型响应的生成速度。 生成的代币总数除以生成代币的时间,单位为秒。 适用于PTU、PTU管理和按使用付费部署。 |
AzureOpenAITokenPerSecond |
Count | 最大、最小、平均 |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | 是的 |
|
最后一个字节的时间 无论是流媒体还是非流媒体请求;模型发出请求后,响应数据最后一个字节被接收所需的时间。 适用于PTU、PTU管理和按使用付费部署。 |
AzureOpenAITTLTInMS |
MilliSeconds | 最大、最小、平均 |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | 是的 |
类别:Azure OpenAI - 使用
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
有效令牌 总令牌数减去一段时间内缓存的令牌数。 适用于PTU及其管理部署。 利用这个指标了解你基于TPS或TPM的PTU利用率,并与你当前场景的目标TPS或TPM基准进行对比。 为了拆分 API 请求,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 ModelVersion。 |
ActiveTokens |
Count | 最小值、最大值、平均值、总数(和) |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | 是的 |
|
音频完成令牌 OpenAI模型上生成(输出)的音频提示词数量。 适用于PTU管理和按使用付费模式的部署。 |
AudioCompletionTokens |
Count | 总计(总和) |
ModelDeploymentName, ModelName, , ModelVersionRegion |
PT1M | 是的 |
|
音频提示令牌 OpenAI 模型上处理(输入)的音频提示令牌数量。 适用于PTU管理和按使用付费模式的部署。 |
AudioPromptTokens |
Count | 总计(总和) |
ModelDeploymentName, ModelName, , ModelVersionRegion |
PT1M | 是的 |
|
提示令牌缓存匹配率 触发缓存的提示令牌百分比。 适用于PTU及其管理部署。 |
AzureOpenAIContextTokensCacheMatchRate |
百分比 | 最低、最高、平均 |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | 否 |
|
配置管理利用(已弃用) 利用率 % 为预定管理部署,计算为(消耗的PTU数/部署的PTU数)乘以100。 当利用率大于或等于100%时,呼叫会被限速并返回错误代码429。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName、ModelVersion 和 StreamType(流式与非流式请求) |
AzureOpenAIProvisionedManagedUtilization |
百分比 | 最低、最高、平均 |
Region, StreamType, ModelDeploymentName, ModelName, ModelVersion |
PT1M | 否 |
|
配置管理利用 V2 利用率 % 为预定管理部署,计算为(消耗的PTU数/部署的PTU数)乘以100。 当利用率大于或等于100%时,呼叫会被限速并返回错误代码429。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName、ModelVersion 和 StreamType(流式与非流式请求) |
AzureOpenAIProvisionedManagedUtilizationV2 |
百分比 | 最低、最高、平均 |
Region, StreamType, ModelDeploymentName, ModelName, ModelVersion |
PT1M | 否 |
|
处理精细调优培训小时数 OpenAI微调模型处理的训练小时数 |
FineTunedTrainingHours |
Count | 总计(总和) |
ApiName, ModelDeploymentName, FeatureName, UsageChannel, Region |
PT1M | 是的 |
|
生成的完成代币 OpenAI模型生成(输出)的代币数量。 适用于PTU、PTU管理和按使用付费部署。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName 和 ModelName。 |
GeneratedTokens |
Count | 总计(总和) |
ApiName, ModelDeploymentName, FeatureName, UsageChannel, Region, ModelVersion |
PT1M | 是的 |
|
处理中的提示令牌 OpenAI模型中处理(输入)的提示令牌数量。 适用于PTU、PTU管理和按使用付费部署。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName 和 ModelName。 |
ProcessedPromptTokens |
Count | 总计(总和) |
ApiName, ModelDeploymentName, FeatureName, UsageChannel, Region, ModelVersion |
PT1M | 是的 |
|
使用的实时API秒数 实时API使用的秒数 |
RealtimeUsageTime |
Count | 总计(总和) |
Region、ModelDeploymentName |
PT1M | 是的 |
|
处理推理令牌 OpenAI模型上处理的推理代币数量。 计算方式为提示令牌(输入)加上生成令牌(输出)。 适用于PTU、PTU管理和按使用付费部署。 为了分解该指标,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName 和 ModelName。 |
TokenTransaction |
Count | 总计(总和) |
ApiName, ModelDeploymentName, FeatureName, UsageChannel, Region, ModelVersion |
PT1M | 是的 |
分类:认知服务 - HTTP 请求
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
被阻止的电话 超过费率或配额限制的呼叫数量。 不要用于Azure OpenAI服务。 |
BlockedCalls |
Count | 总计(总和) |
ApiName, OperationName, , RegionRatelimitKey |
PT1M | 是的 |
|
客户端错误 客户端错误呼叫次数(HTTP响应代码4xx)。 不要用于Azure OpenAI服务。 |
ClientErrors |
Count | 总计(总和) |
ApiName, OperationName, , RegionRatelimitKey |
PT1M | 是的 |
|
数据输入 输入数据的大小(字节单位)。 不要用于Azure OpenAI服务。 |
DataIn |
字节 | 总计(总和) |
ApiName, OperationName, Region |
PT1M | 是的 |
|
数据输出 输出数据的大小(字节单位)。 不要用于Azure OpenAI服务。 |
DataOut |
字节 | 总计(总和) |
ApiName, OperationName, Region |
PT1M | 是的 |
|
延迟 延迟以毫秒计。 不要用于Azure OpenAI服务。 |
Latency |
MilliSeconds | Average |
ApiName, OperationName, , RegionRatelimitKey |
PT1M | 是的 |
|
Ratelimit 当前速率限制键。 不要用于Azure OpenAI服务。 |
Ratelimit |
Count | 总计(总和) |
Region、RatelimitKey |
PT1M | 是的 |
|
服务器错误 服务内部错误调用次数(HTTP响应代码5xx)。 不要用于Azure OpenAI服务。 |
ServerErrors |
Count | 总计(总和) |
ApiName, OperationName, , RegionRatelimitKey |
PT1M | 是的 |
|
成功调用 成功通话次数。 不要用于Azure OpenAI服务。 |
SuccessfulCalls |
Count | 总计(总和) |
ApiName, OperationName, , RegionRatelimitKey |
PT1M | 是的 |
|
呼叫总数 通话总数。 不要用于Azure OpenAI服务。 |
TotalCalls |
Count | 总计(总和) |
ApiName, OperationName, , RegionRatelimitKey |
PT1M | 是的 |
|
错误总数 错误响应调用总数(HTTP响应代码4xx或5xx)。 不要用于Azure OpenAI服务。 |
TotalErrors |
Count | 总计(总和) |
ApiName, OperationName, , RegionRatelimitKey |
PT1M | 是的 |
|
总令牌调用数 代币调用总数。 |
TotalTokenCalls |
Count | 总计(总和) |
ApiName, OperationName, Region |
PT1M | 是的 |
分类:认知服务 - SLI
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
AvailabilityRate 可用率百分比计算如下:(总通话 - 服务器错误)/总通话数。 服务器错误包括任何HTTP响应 >=500。 不要用于Azure OpenAI服务。 |
SuccessRate |
百分比 | 最低、最高、平均 |
ApiName, OperationName, , RegionRatelimitKey |
PT1M | 否 |
分类:内容理解 - 使用情况
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
人脸交易 对面服务调用的API次数 |
FaceApiTransactions |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
处理过的音频会议记录 处理中的几分钟音频 |
ProcessedAudioMinutes |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
处理的页面 处理文档页数 |
ProcessedDocumentPages |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
已处理的图像 处理图像数量 |
ProcessedImageCount |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
处理过的视频分钟数 处理过的视频分钟数 |
ProcessedVideoMinutes |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
令 牌 消耗的代币数量 |
Tokens |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
分类:内容安全 - 风险与安全
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
潜在的滥用用户数量 在一段时间内被发现的潜在滥用用户数量。 你可以添加过滤器,或按以下维度进行拆分:ModelDeploymentName。 |
RAIAbusiveUsersCount |
Count | 总计(总和) |
Region、ModelDeploymentName |
PT1M | 是的 |
|
检测到有害体积 在一段时间内,通过内容过滤器检测出对Azure OpenAI API的访问次数(包括块模型和注释模式)。 你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 TextType。 |
RAIHarmfulRequests |
Count | 总计(总和) |
Region, ModelDeploymentName, ModelName, ModelVersion, ApiNameTextType, , Category,Severity |
PT1M | 是的 |
|
阻止的量 在一段时间内,调用Azure OpenAI API并被内容过滤器拒绝的次数。 你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 TextType。 |
RAIRejectedRequests |
Count | 总计(总和) |
Region, ModelDeploymentName, ModelName, ModelVersion, ApiName, TextType, , Category |
PT1M | 是的 |
|
安全系统事件 用于风险和安全监控的系统事件。 你可以添加过滤器或按以下维度进行拆分:EventType。 |
RAISystemEvent |
Count | Average |
Region、EventType |
PT1M | 是的 |
|
送去安全检查的总体积 在一段时间内,调用Azure OpenAI API并被内容过滤器检测的次数。 你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName。 |
RAITotalRequests |
Count | 总计(总和) |
Region, ModelDeploymentName, ModelName, ModelVersion, ApiName |
PT1M | 是的 |
分类:内容安全 - 使用情况
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
图像审核的呼叫计数 关于图片审核的电话数量。 |
ContentSafetyImageAnalyzeRequestCount |
Count | 总计(总和) | ApiVersion |
PT1M | 是的 |
|
短信审核的来电计数 短信审核的电话数量。 |
ContentSafetyTextAnalyzeRequestCount |
Count | 总计(总和) | ApiVersion |
PT1M | 是的 |
类别:估计
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
基线随机事件计数 基线随机事件计数估计。 |
BaselineRandomEventCount |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
基线随机奖励 基础随机奖励的估计。 |
BaselineRandomReward |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
在线活动计数 在线活动数量估计。 |
OnlineEventCount |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
联机奖励 在线奖励估算。 |
OnlineReward |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
用户基线事件计数 用户定义的基线事件计数估计。 |
UserBaselineEventCount |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
用户基线奖励 用户定义的基线奖励估计。 |
UserBaselineReward |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
分类:特征出现
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
动作特征出现 每个动作特征出现的次数。 |
ActionFeatureIdOccurrences |
Count | 总计(总和) |
FeatureId, Mode, RunId |
PT1M | 是的 |
|
上下文特征出现 每个上下文特征出现的次数。 |
ContextFeatureIdOccurrences |
Count | 总计(总和) |
FeatureId, Mode, RunId |
PT1M | 是的 |
|
老虎机特征出现 每个老虎机功能出现的次数。 |
SlotFeatureIdOccurrences |
Count | 总计(总和) |
FeatureId, Mode, RunId |
PT1M | 是的 |
类别:FeatureCardinality
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
特征基数通过作用 基于动作的特征基数。 |
FeatureCardinality_Action |
Count | Average |
FeatureId, Mode, RunId |
PT1M | 是的 |
|
按上下文计算特征基数 基于上下文的特征基数。 |
FeatureCardinality_Context |
Count | Average |
FeatureId, Mode, RunId |
PT1M | 是的 |
|
按时段划分的特征基数 基于老虎机的特征基数。 |
FeatureCardinality_Slot |
Count | Average |
FeatureId, Mode, RunId |
PT1M | 是的 |
类别:各事件特色
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
每个事件的动作特征 每个事件的平均动作特征数量。 |
ActionFeaturesPerEvent |
Count | Average |
Mode、RunId |
PT1M | 是的 |
|
每个事件的上下文特征 每个事件的上下文特征数量。 |
ContextFeaturesPerEvent |
Count | Average |
Mode、RunId |
PT1M | 是的 |
|
每个活动的老虎机特性 每个活动的平均老虎机功能数量。 |
SlotFeaturesPerEvent |
Count | Average |
Mode、RunId |
PT1M | 是的 |
分类:语言 - 工作
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
作业持续时间(预览) 注意:该值高度依赖于输入大小、文档数量及任务复杂度。 这是所有工作任务的总数值。 |
JobDuration |
MilliSeconds | 最低、最高、平均 |
JobStatus、JobType |
PT1M | 是的 |
类别:模型 - HTTP 请求
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
模型可用性率 可用率百分比计算如下:(总通话 - 服务器错误)/总通话数。 服务器错误包括任何HTTP响应 >=500。 |
ModelAvailabilityRate |
百分比 | 最低、最高、平均 |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | 否 |
|
模型请求 在一段时间内调用模型 API 的次数。 适用于PTU、PTU-Managed 和按需付费部署。 |
ModelRequests |
Count | 总计(总和) |
ApiName、、OperationName、RegionStreamType、ModelDeploymentName、ModelName、ModelVersionStatusCode、、IsSpillover、、 ServiceTierRequestServiceTierResponse |
PT1M | 是的 |
类别:型号 - 延迟
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
标记间隔时间 模型代币生成率,以毫秒为单位。 适用于PTU及其管理部署。 对于非流媒体请求,这个数值只是估计值。 |
NormalizedTimeBetweenTokens |
MilliSeconds | 最大、最小、平均 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion |
PT1M | 是的 |
|
归一化到第一个字节的时间 模型提出请求后,响应数据的第一个字节被接收所需的时间,并以令牌进行规范化。 适用于PTU、PTU管理和按使用付费部署。 对于非流媒体请求,这个数值只是估计值。 |
NormalizedTimeToFirstToken |
MilliSeconds | 最大、最小、平均 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion |
PT1M | 是的 |
|
最后一个字节的时间 模型请求后,响应数据最后一个字节被接收所需的时间。 适用于PTU、PTU管理和按使用付费部署。 对于非流媒体请求,这个数值只是估计值。 |
TimeToLastByte |
MilliSeconds | 最大、最小、平均 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion |
PT1M | 是的 |
|
是时候应对了 推荐的延迟(响应性)指标。 适用于PTU及其管理部署。 计算为用户发送提示后首次响应出现的时间,由API网关测量。 随着提示词大小和/或缓存命中量减少,这个数字会增加。 为了将响应时间与指标细分,你可以添加过滤器或按以下维度进行拆分:ModelDeploymentName、ModelName 和 ModelVersion。 注意:该指标仅为近似值,因为测量延迟高度依赖于多个因素,包括并发通话和整体工作负载模式。 此外,它不考虑客户端与API端点之间可能存在的任何延迟。 对于非流媒体请求,这个数值只是估计值。 请参考您自己的日志以获得最佳延迟跟踪。 |
TimeToResponse |
MilliSeconds | 最低、最高、平均 |
ApiName, OperationName, Region, StreamType, ModelDeploymentNameModelName, , ModelVersion,StatusCode |
PT1M | 是的 |
|
每秒代币数 枚举给定模型响应的生成速度。 生成的代币总数除以生成代币的时间,单位为秒。 适用于PTU及其管理部署。 对于非流媒体请求,这个数值只是估计值。 |
TokensPerSecond |
Count | 最大、最小、平均 |
ApiName, OperationName, Region, StreamType, ModelDeploymentName, ModelName, , ModelVersion |
PT1M | 是的 |
类别:型号 - 使用情况
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
带批注的页面 带注释处理的总页数。 适用于PTU、PTU-Managed 和按需付费部署。 |
AnnotatedPages |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion |
PT1M | 是的 |
|
音频输入令牌 OpenAI 模型上处理(输入)的音频提示令牌数量。 适用于PTU管理的模型部署。 |
AudioInputTokens |
Count | 总计(总和) |
ModelDeploymentName, ModelName, , ModelVersionRegion |
PT1M | 是的 |
|
音频输出令牌 OpenAI模型上生成(输出)的音频提示词数量。 适用于PTU管理的模型部署。 |
AudioOutputTokens |
Count | 总计(总和) |
ModelDeploymentName, ModelName, , ModelVersionRegion |
PT1M | 是的 |
|
从缓存中读取提示令牌 缓存中读取的代币总数。 适用于Anthropic模型的部署。 在响应用法部分中出现为 cache_read_input_tokens |
cacheReadInputTokens |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion, ContextLength |
PT1M | 是的 |
|
写入缓存的提示令牌(1小时TTL) 用于创建1小时条目所需的提示代币数量。 适用于Anthropic模型的部署。 在响应用法部分中出现为 cache_creation.ephemeral_1h_input_tokens |
ephemeral1hInputTokens |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion, ContextLength |
PT1M | 是的 |
|
写入缓存的提示令牌(5分钟TTL) 用于创建5分钟缓存条目的提示令牌数量。 适用于Anthropic模型的部署。 在响应用法部分中出现为 cache_creation.ephemeral_5m_input_tokens |
ephemeral5mInputTokens |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion, ContextLength |
PT1M | 是的 |
|
生成的映像 生成的图像总数。 适用于PTU、PTU-Managed 和按需付费部署。 |
GeneratedImages |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion |
PT1M | 是的 |
|
输入令牌 模型上处理(输入)的提示令牌数量。 适用于PTU、PTU-Managed 和按需付费部署。 |
InputTokens |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion |
PT1M | 是的 |
|
输出令牌 OpenAI模型生成(输出)的代币数量。 适用于PTU、PTU-Managed 和按需付费部署。 |
OutputTokens |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion |
PT1M | 是的 |
|
预配利用率 利用率 % 为预定管理部署,计算为(消耗的PTU数/部署的PTU数)乘以100。 当利用率大于或等于100%时,呼叫会被限速并返回错误代码429。 |
ProvisionedUtilization |
百分比 | 最低、最高、平均 |
Region, ModelDeploymentName, , ModelNameModelVersion |
PT1M | 否 |
|
总页数 处理的总页数。 适用于PTU、PTU-Managed 和按需付费部署。 |
TotalPages |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion |
PT1M | 是的 |
|
令牌总数 模型上处理的推理令牌数量。 计算方式为提示令牌(输入)加上生成令牌(输出)。 适用于PTU、PTU-Managed 和按需付费部署。 |
TotalTokens |
Count | 总计(总和) |
ApiName, Region, ModelDeploymentName, ModelName, ModelVersion |
PT1M | 是的 |
类别:每个事件命名空间
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
每个事件的动作命名空间 每个事件的平均动作命名空间数。 |
ActionNamespacesPerEvent |
Count | Average |
Mode、RunId |
PT1M | 是的 |
|
每个事件的上下文命名空间 每个事件的上下文命名空间数量。 |
ContextNamespacesPerEvent |
Count | Average |
Mode、RunId |
PT1M | 是的 |
|
每个事件的槽位命名空间 每个事件的平均插槽命名空间数。 |
SlotNamespacesPerEvent |
Count | Average |
Mode、RunId |
PT1M | 是的 |
类别:奖励
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
每场活动的平均奖励 每个活动的平均奖励。 |
Reward |
Count | Average |
BaselineAction, ChosenActionId, MatchesBaseline, NonDefaultReward, Mode, RunId |
PT1M | 是的 |
|
老虎机奖励 每个栏位的奖励。 |
SlotReward |
Count | Average |
BaselineActionId, ChosenActionId, MatchesBaseline, NonDefaultReward, SlotIdSlotIndex, , Mode,RunId |
PT1M | 是的 |
类别:槽
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
基线估计器总体奖励 基线估算器总体奖励。 |
BaselineEstimatorOverallReward |
Count | Average |
Mode、RunId |
PT1M | 是的 |
|
基线估计槽额奖励 按槽位划分的基线估计奖励。 |
BaselineEstimatorSlotReward |
Count | Average |
SlotId, SlotIndex, , ModeRunId |
PT1M | 是的 |
|
基线随机估计器总体奖励 基础随机估算器总体奖励。 |
BaselineRandomEstimatorOverallReward |
Count | Average |
Mode、RunId |
PT1M | 是的 |
|
基线随机估计槽奖励 按老虎机分配的基础随机估算奖励。 |
BaselineRandomEstimatorSlotReward |
Count | Average |
SlotId, SlotIndex, , ModeRunId |
PT1M | 是的 |
|
插槽 每个项目的名额数。 |
NumberOfSlots |
Count | Average |
Mode、RunId |
PT1M | 是的 |
|
在线估算器总体奖励 在线估价师总体奖励。 |
OnlineEstimatorOverallReward |
Count | Average |
Mode、RunId |
PT1M | 是的 |
|
在线估价员老虎机奖励 在线估价器按老虎机奖励。 |
OnlineEstimatorSlotReward |
Count | Average |
SlotId, SlotIndex, , ModeRunId |
PT1M | 是的 |
|
槽出现次数 每个槽位出现的次数。 |
SlotIdOccurrences |
Count | 总计(总和) |
SlotId, SlotIndex, , ModeRunId |
PT1M | 是的 |
分类:语音服务 - 用途
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
音频秒数批量转录 转录的批次秒数 |
AudioSecondsBatchTranscribed |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
音频秒数 批量耳语转录 批量耳语转录的秒数 |
AudioSecondsBatchWhisperTranscribed |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
音频秒速转录 快速转录的秒数 |
AudioSecondsFastTranscribed |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
音频秒速 低语 转录 快速低语转录的秒数 |
AudioSecondsFastWhisperTranscribed |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
音频秒数转录 转录的秒数 |
AudioSecondsTranscribed |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
音频秒数翻译 翻译的秒数 |
AudioSecondsTranslated |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
Avatar Model 托管 Seconds 秒数。 |
AvatarModelHostingSeconds |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
阿凡达模型训练秒 秒数。 |
AvatarModelTrainingSeconds |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
演讲者档案数量 报名演讲者人数。 每小时按比例计算。 |
NumberofSpeakerProfiles |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
演讲嘉宾表彰交易 演讲者识别交易次数 |
SpeakerRecognitionTransactions |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
演讲模特主持时段 语音模型主持小时数 |
SpeechModelHostingHours |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
| 合成字符 角色数。 |
SynthesizedCharacters |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
合成视频秒 合成的秒数 |
VideoSecondsSynthesized |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
语音实时音频输入令牌 音频输入标记数量,不包括缓存标记。 |
VoiceLiveAudioInputTokens |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
语音实时音频输出令牌 音频输出标记的数量。 |
VoiceLiveAudioOutputTokens |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
语音实时缓存音频输入令牌 缓存的音频输入标记数量。 |
VoiceLiveCachedAudioInputTokens |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
语音实时缓存文本输入令牌 缓存的文本输入标记数量。 |
VoiceLiveCachedTextInputTokens |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
语音实时文本输入令牌 文本输入令牌数,不包括缓存令牌。 |
VoiceLiveTextInputTokens |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
语音实时文本输出令牌 文本输出令牌数量。 |
VoiceLiveTextOutputTokens |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
语音模型主持时间 工作时数。 |
VoiceModelHostingHours |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
语音模型训练分钟 分钟数。 |
VoiceModelTrainingMinutes |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
分类:翻译服务 - 用途
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
已训练的角色(已弃用) 训练角色总数。 |
CharactersTrained |
Count | 总计(总和) |
ApiName, OperationName, Region |
PT1M | 是的 |
|
已翻译(已弃用)角色 输入文本请求的字符总数。 |
CharactersTranslated |
Count | 总计(总和) |
ApiName, OperationName, Region |
PT1M | 是的 |
|
文档字符翻译 文档翻译请求中的字符数。 |
DocumentCharactersTranslated |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
文档自定义字符翻译 自定义文档翻译请求中的字符数。 |
DocumentCustomCharactersTranslated |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
文档同步字符翻译 文档翻译请求中的字符数(同步)。 |
OneDocumentCharactersTranslated |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
文档同步 自定义字符翻译 自定义文档翻译(同步)请求中的字符数。 |
OneDocumentCustomCharactersTranslated |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
文本字符翻译 输入文本翻译请求中的字符数。 |
TextCharactersTranslated |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
文本自定义字符翻译 输入的自定义文本翻译请求字符数。 |
TextCustomCharactersTranslated |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
文本训练字符 使用文本翻译训练的字符数。 |
TextTrainedCharacters |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
翻译器专业应用 Seconds Translator Pro 应用使用秒数。 |
TranslatorProAppSeconds |
秒 | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
类别:使用情况
| Metric | REST API 中的名称 | 单位 | 集合体 | 尺寸 | 时间粒度 | DS 导出 |
|---|---|---|---|---|---|---|
|
推理计数 卡内基前门服务的推断计数 |
CarnegieInferenceCount |
Count | 总计(总和) |
Region, Modality, Category, Language, SeverityLevel, UseCustomList |
PT1M | 是的 |
|
计算机视觉 交易 计算机视觉 交易数量 |
ComputerVisionTransactions |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
定制视觉培训时间 定制视觉培训时间 |
CustomVisionTrainingTime |
秒 | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
定制愿景交易 自定义视觉预测交易数量 |
CustomVisionTransactions |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
面部图像训练 训练的图像数量。 每笔交易训练1000张图片。 |
FaceImagesTrained |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
存储的人脸 每天按比例计算存储的面孔数量。 每天报告存储的面孔数量。 |
FacesStored |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
人脸交易 对面服务调用的API次数 |
FaceTransactions |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
存储的图像 存储的自定义视觉图像数量。 |
ImagesStored |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
| 已了解的事件数 学习事件数量。 |
LearnedEvents |
Count | 总计(总和) |
IsMatchBaseline, Mode, RunId |
PT1M | 是的 |
|
LUIS演讲请求 LUIS语音到意图理解请求的数量 |
LUISSpeechRequests |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
LUIS 文本请求 LUIS文本请求数量 |
LUISTextRequests |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
| 匹配的奖励数 匹配奖励数量。 |
MatchedRewards |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
未激活事件 跳过的活动数量。 |
NonActivatedEvents |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
观察到的奖励数 观察到的奖励数量。 |
ObservedRewards |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
已处理的字符数 沉浸式阅读器 处理的字符数。 |
ProcessedCharacters |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
处理过的健康文本记录 处理的健康文本记录数量 |
ProcessedHealthTextRecords |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
已处理的图像 处理图像数量 |
ProcessedImages |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
处理的页面 处理页面数量 |
ProcessedPages |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
处理后的文本记录 文本记录数量。 |
ProcessedTextRecords |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
QA文本记录 处理的文本记录数量 |
QuestionAnsweringTextRecords |
Count | 总计(总和) |
ApiName, FeatureName, , UsageChannelRegion |
PT1M | 是的 |
|
演讲时长(已废止) 演讲会话的总时长以秒计。 |
SpeechSessionDuration |
秒 | 总计(总和) |
ApiName, OperationName, Region |
PT1M | 是的 |
|
事件总数 活动数量。 |
TotalEvents |
Count | 总计(总和) |
Mode、RunId |
PT1M | 是的 |
|
总交易量(已弃用) 交易总数。 |
TotalTransactions |
Count | 总计(总和) | <没有> | PT1M | 是的 |
度量尺寸
关于度量维度的信息,请参见 多维度量。
该服务具有以下与其指标相关的维度。
- ApiName
- 功能名称
- ModelDeploymentName
- 模型名
- ModelVersion
- 操作名称
- Region
- 状态码
- StreamType
- UsageChannel
资源日志
本节列出了您可以为该服务收集的资源日志类型。 本节从Azure Monitor支持的
支持Microsoft资源日志。认知服务/账户
| 类别 | 类别显示名称 | 日志表 | 支持基本的日志规划 | 支持摄取时间转换 | 示例查询 | 出口成本 |
|---|---|---|---|---|---|---|
Audit |
审核日志 |
AzureDiagnostics 来自多个 Azure 资源的日志。 |
否 | 否 | 否 | |
AzureOpenAIRequestUsage |
Azure OpenAI 请求使用情况 |
AzureDiagnostics 来自多个 Azure 资源的日志。 |
否 | 否 | 是的 | |
RequestResponse |
请求与响应日志 |
AzureDiagnostics 来自多个 Azure 资源的日志。 |
否 | 否 | 否 | |
Trace |
跟踪日志 |
AzureDiagnostics 来自多个 Azure 资源的日志。 |
否 | 否 | 否 |
Azure Monitor 日志表
本节列出了与该服务相关的 Azure Monitor 日志表,这些表可通过 Log Analytics 通过 Kusto 查询查询。 这些表包含资源日志数据,可能还会根据收集和路由到它们的数据而增加。
Azure OpenAI microsoft.cognitiveservices/accounts
活动日志
链表列出了该服务活动日志中可记录的操作。 这些操作是 活动日志中所有可能的资源提供者操作的一个子集。
有关活动日志条目的模式的更多信息,请参见 活动日志模式。
相关内容
- 有关监视 Azure OpenAI 的说明,请参阅 Monitor Azure OpenAI。
- 有关监视Azure资源的详细信息,请参阅 Monitor Azure Azure Monitor 的资源。