Online Deployments - List
列出推理端点部署。
GET https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.MachineLearningServices/workspaces/{workspaceName}/onlineEndpoints/{endpointName}/deployments?api-version=2025-12-01
GET https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.MachineLearningServices/workspaces/{workspaceName}/onlineEndpoints/{endpointName}/deployments?api-version=2025-12-01&$orderBy={$orderBy}&$top={$top}&$skip={$skip}
URI 参数
| 名称 | 在 | 必需 | 类型 | 说明 |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
联机终结点名称。 |
|
resource
|
path | True |
string minLength: 1maxLength: 90 |
资源组的名称。 此名称不区分大小写。 |
|
subscription
|
path | True |
string minLength: 1 |
目标订阅的 ID。 |
|
workspace
|
path | True |
string pattern: ^[a-zA-Z0-9][a-zA-Z0-9_-]{2,32}$ |
Azure 机器学习工作区名称 |
|
api-version
|
query | True |
string minLength: 1 |
要用于此操作的 API 版本。 |
|
$order
|
query |
string |
列表排序。 |
|
|
$skip
|
query |
string |
分页的延续标记。 |
|
|
$top
|
query |
integer (int32) |
列表顶部。 |
响应
| 名称 | 类型 | 说明 |
|---|---|---|
| 200 OK |
Azure作已成功完成。 |
|
| Other Status Codes |
意外错误响应。 |
安全性
azure_auth
Azure Active Directory OAuth2 流。
类型:
oauth2
流向:
implicit
授权 URL:
https://login.microsoftonline.com/common/oauth2/authorize
作用域
| 名称 | 说明 |
|---|---|
| user_impersonation | 模拟用户帐户 |
示例
List Online Deployments.
示例请求
GET https://management.azure.com/subscriptions/00000000-1111-2222-3333-444444444444/resourceGroups/test-rg/providers/Microsoft.MachineLearningServices/workspaces/my-aml-workspace/onlineEndpoints/testEndpointName/deployments?api-version=2025-12-01&$orderBy=string&$top=1
示例响应
{
"nextLink": "https://management.azure.com/subscriptions/34adfa4f-cedf-4dc0-ba29-b6d1a69ab345/resourceGroups/testrg123/providers/Microsoft.MachineLearningServices/workspaces/my-aml-workspace/onlineEndpoints/testEndpointName/deployments?api-version=2025-07-01-preview&$skip=2",
"value": [
{
"name": "string",
"type": "string",
"id": "string",
"identity": {
"type": "SystemAssigned",
"principalId": "00000000-1111-2222-3333-444444444444",
"tenantId": "00000000-1111-2222-3333-444444444444",
"userAssignedIdentities": {
"string": {
"clientId": "00000000-1111-2222-3333-444444444444",
"principalId": "00000000-1111-2222-3333-444444444444"
}
}
},
"kind": "string",
"location": "string",
"properties": {
"description": "string",
"appInsightsEnabled": false,
"codeConfiguration": {
"codeId": "string",
"scoringScript": "string"
},
"containerResourceRequirements": {
"containerResourceLimits": {
"cpu": "\"1\"",
"gpu": "\"1\"",
"memory": "\"2Gi\""
},
"containerResourceRequests": {
"cpu": "\"1\"",
"gpu": "\"1\"",
"memory": "\"2Gi\""
}
},
"endpointComputeType": "Kubernetes",
"environmentId": "string",
"environmentVariables": {
"string": "string"
},
"instanceType": "string",
"livenessProbe": {
"failureThreshold": 1,
"initialDelay": "PT5M",
"period": "PT5M",
"successThreshold": 1,
"timeout": "PT5M"
},
"model": "string",
"modelMountPath": "string",
"properties": {
"string": "string"
},
"provisioningState": "Creating",
"requestSettings": {
"maxConcurrentRequestsPerInstance": 1,
"maxQueueWait": "PT5M",
"requestTimeout": "PT5M"
},
"scaleSettings": {
"scaleType": "Default"
}
},
"sku": {
"name": "string",
"capacity": 1,
"family": "string",
"size": "string",
"tier": "Free"
},
"systemData": {
"createdAt": "2020-01-01T12:34:56.999Z",
"createdBy": "string",
"createdByType": "User",
"lastModifiedAt": "2020-01-01T12:34:56.999Z",
"lastModifiedBy": "string",
"lastModifiedByType": "User"
},
"tags": {}
}
]
}
定义
| 名称 | 说明 |
|---|---|
|
Code |
评分代码资产的配置。 |
| Collection | |
|
Container |
联机部署中每个容器实例的资源要求。 |
|
Container |
|
|
created |
创建资源的标识的类型。 |
|
Data |
启用或禁用数据收集。 |
|
Data |
|
|
Default |
|
|
Deployment |
DeploymentProvisioningState 的可能值。 |
|
Egress |
枚举,用于确定 PublicNetworkAccess 是针对部署的出口启用还是禁用。 |
|
Endpoint |
用于确定终结点计算类型的枚举。 |
|
Error |
资源管理错误附加信息。 |
|
Error |
错误详细信息。 |
|
Error |
错误响应 |
|
Kubernetes |
特定于 KubernetesOnlineDeployment 的属性。 |
|
Managed |
特定于 ManagedOnlineDeployment 的属性。 |
|
Managed |
托管服务标识(系统分配和/或用户分配的标识) |
|
Managed |
托管服务标识的类型(其中允许 SystemAssigned 和 UserAssigned 类型)。 |
|
Online |
具体跟踪的资源类型可以通过使用特定属性类型将此类型别名创建。 |
|
Online |
OnlineDeployment 实体的分页列表。 |
|
Online |
联机部署评分请求配置。 |
|
Probe |
部署容器生存度/就绪情况探测配置。 |
|
Request |
|
|
Rolling |
将模型数据收集到 Blob 存储时,我们需要将数据滚动到不同的路径,以避免在单个 Blob 文件中记录所有这些数据。 如果滚动速率为小时,则会在 blob 路径 /yy/MM/dd/HH/ 中收集所有数据。 如果是当天,将在 blob 路径 /yyyy/MM/dd/ 中收集所有数据。 滚动路径的另一个好处是模型监视 ui 能够非常快速地选择时间范围的数据。 |
|
Scale |
|
| Sku |
表示 SKU 的资源模型定义 |
|
Sku |
如果服务具有多个层,但在 PUT 上不需要,则需要资源提供程序实现此字段。 |
|
system |
与创建和上次修改资源相关的元数据。 |
|
Target |
|
|
User |
用户分配的标识属性 |
CodeConfiguration
评分代码资产的配置。
| 名称 | 类型 | 说明 |
|---|---|---|
| codeId |
string |
代码资产的 ARM 资源 ID。 |
| scoringScript |
string minLength: 1pattern: [a-zA-Z0-9_] |
[必需]在启动时执行的脚本。 eg. "score.py" |
Collection
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| clientId |
string |
用于收集 Blob 存储日志记录的 msi 客户端 ID。 如果为 null,后端将选取已注册的终结点标识以进行身份验证。 |
|
| dataCollectionMode | Disabled |
启用或禁用数据收集。 |
|
| dataId |
string |
数据资产 arm 资源 ID。客户端将确保数据资产指向 Blob 存储,后端将收集数据到 Blob 存储。 |
|
| samplingRate |
number (double) |
1 |
收集的采样率。 采样率 1.0 表示我们默认收集 100% 数据。 |
ContainerResourceRequirements
联机部署中每个容器实例的资源要求。
| 名称 | 类型 | 说明 |
|---|---|---|
| containerResourceLimits |
容器资源限制信息: |
|
| containerResourceRequests |
容器资源请求信息: |
ContainerResourceSettings
| 名称 | 类型 | 说明 |
|---|---|---|
| cpu |
string |
容器的 vCPU 请求/限制数。 详细信息:https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/ |
| gpu |
string |
容器的 Nvidia GPU 卡请求/限制数。 详细信息:https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/ |
| memory |
string |
容器的内存大小请求/限制。 详细信息:https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/ |
createdByType
创建资源的标识的类型。
| 值 | 说明 |
|---|---|
| User | |
| Application | |
| ManagedIdentity | |
| Key |
DataCollectionMode
启用或禁用数据收集。
| 值 | 说明 |
|---|---|
| Enabled | |
| Disabled |
DataCollector
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| collections |
<string, Collection> |
[必需]集合配置。 每个集合都有自己的配置来收集模型数据,集合的名称可以是任意字符串。 模型数据收集器可用于有效负载日志记录或自定义日志记录或这两种日志记录。 收集请求和响应保留用于有效负载日志记录,其他请求用于自定义日志记录。 |
|
| requestLogging |
mdc 的请求日志记录配置包括所有集合的高级日志记录设置。 这是可选的。 |
||
| rollingRate | Hour |
将模型数据收集到 Blob 存储时,我们需要将数据滚动到不同的路径,以避免在单个 Blob 文件中记录所有这些数据。 如果滚动速率为小时,则会在 blob 路径 /yy/MM/dd/HH/ 中收集所有数据。 如果是当天,将在 blob 路径 /yyyy/MM/dd/ 中收集所有数据。 滚动路径的另一个好处是模型监视 ui 能够非常快速地选择时间范围的数据。 |
DefaultScaleSettings
| 名称 | 类型 | 说明 |
|---|---|---|
| scaleType |
string:
Default |
[必需]部署缩放算法的类型 |
DeploymentProvisioningState
DeploymentProvisioningState 的可能值。
| 值 | 说明 |
|---|---|
| Creating | |
| Deleting | |
| Scaling | |
| Updating | |
| Succeeded | |
| Failed | |
| Canceled |
EgressPublicNetworkAccessType
枚举,用于确定 PublicNetworkAccess 是针对部署的出口启用还是禁用。
| 值 | 说明 |
|---|---|
| Enabled | |
| Disabled |
EndpointComputeType
用于确定终结点计算类型的枚举。
| 值 | 说明 |
|---|---|
| Managed | |
| Kubernetes | |
| AzureMLCompute |
ErrorAdditionalInfo
资源管理错误附加信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| info |
object |
其他信息。 |
| type |
string |
其他信息类型。 |
ErrorDetail
错误详细信息。
| 名称 | 类型 | 说明 |
|---|---|---|
| additionalInfo |
错误附加信息。 |
|
| code |
string |
错误代码。 |
| details |
错误详细信息。 |
|
| message |
string |
错误消息。 |
| target |
string |
错误目标。 |
ErrorResponse
错误响应
| 名称 | 类型 | 说明 |
|---|---|---|
| error |
错误对象。 |
KubernetesOnlineDeployment
特定于 KubernetesOnlineDeployment 的属性。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| appInsightsEnabled |
boolean |
False |
如果为 true,则启用 Application Insights 日志记录。 |
| codeConfiguration |
终结点部署的代码配置。 |
||
| containerResourceRequirements |
容器的资源要求(cpu 和内存)。 |
||
| dataCollector |
mdc 配置,在 mdc 为 null 时禁用 mdc。 |
||
| description |
string |
终结点部署的说明。 |
|
| egressPublicNetworkAccess | Enabled |
枚举,用于确定 PublicNetworkAccess 是针对部署的出口启用还是禁用。 |
|
| endpointComputeType |
string:
Kubernetes |
[必需]终结点的计算类型。 |
|
| environmentId |
string |
终结点部署的环境规范的 ARM 资源 ID 或 AssetId。 |
|
| environmentVariables |
object |
部署的环境变量配置。 |
|
| instanceType |
string |
Standard_F4s_v2 |
计算实例类型。 默认值:Standard_F4s_v2。 |
| livenessProbe |
运行情况探测会定期监视容器的运行状况。 |
||
| model |
string |
模型的 URI 路径。 |
|
| modelMountPath |
string |
在自定义容器中装载模型的路径。 |
|
| properties |
object |
属性字典。 可以添加属性,但不能删除或更改属性。 |
|
| provisioningState |
终结点部署的预配状态。 |
||
| readinessProbe |
就绪情况探测会验证容器是否准备好为流量提供服务。 属性和默认值与实时探测相同。 |
||
| requestSettings |
请求部署设置。 |
||
| scaleSettings | OnlineScaleSettings: |
部署的规模设置。 如果为 null 或未提供,则 KubernetesOnlineDeployment 的默认为 TargetUtilizationScaleSettings,ManagedOnlineDeployment 的默认为 DefaultScaleSettings。 |
|
| startupProbe |
启动探测验证容器中的应用程序是否已成功启动。 |
ManagedOnlineDeployment
特定于 ManagedOnlineDeployment 的属性。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| appInsightsEnabled |
boolean |
False |
如果为 true,则启用 Application Insights 日志记录。 |
| codeConfiguration |
终结点部署的代码配置。 |
||
| dataCollector |
mdc 配置,在 mdc 为 null 时禁用 mdc。 |
||
| description |
string |
终结点部署的说明。 |
|
| egressPublicNetworkAccess | Enabled |
枚举,用于确定 PublicNetworkAccess 是针对部署的出口启用还是禁用。 |
|
| endpointComputeType |
string:
Managed |
[必需]终结点的计算类型。 |
|
| environmentId |
string |
终结点部署的环境规范的 ARM 资源 ID 或 AssetId。 |
|
| environmentVariables |
object |
部署的环境变量配置。 |
|
| instanceType |
string |
Standard_F4s_v2 |
计算实例类型。 默认值:Standard_F4s_v2。 |
| livenessProbe |
运行情况探测会定期监视容器的运行状况。 |
||
| model |
string |
模型的 URI 路径。 |
|
| modelMountPath |
string |
在自定义容器中装载模型的路径。 |
|
| properties |
object |
属性字典。 可以添加属性,但不能删除或更改属性。 |
|
| provisioningState |
终结点部署的预配状态。 |
||
| readinessProbe |
就绪情况探测会验证容器是否准备好为流量提供服务。 属性和默认值与实时探测相同。 |
||
| requestSettings |
请求部署设置。 |
||
| scaleSettings | OnlineScaleSettings: |
部署的规模设置。 如果为 null 或未提供,则 KubernetesOnlineDeployment 的默认为 TargetUtilizationScaleSettings,ManagedOnlineDeployment 的默认为 DefaultScaleSettings。 |
|
| startupProbe |
启动探测验证容器中的应用程序是否已成功启动。 |
ManagedServiceIdentity
托管服务标识(系统分配和/或用户分配的标识)
| 名称 | 类型 | 说明 |
|---|---|---|
| principalId |
string (uuid) |
系统分配标识的服务主体 ID。 此属性仅针对系统分配的标识提供。 |
| tenantId |
string (uuid) |
系统分配标识的租户 ID。 此属性仅针对系统分配的标识提供。 |
| type |
托管服务标识的类型(其中允许 SystemAssigned 和 UserAssigned 类型)。 |
|
| userAssignedIdentities |
<string,
User |
User-Assigned 标识 |
ManagedServiceIdentityType
托管服务标识的类型(其中允许 SystemAssigned 和 UserAssigned 类型)。
| 值 | 说明 |
|---|---|
| None | |
| SystemAssigned | |
| UserAssigned | |
| SystemAssigned,UserAssigned |
OnlineDeployment
具体跟踪的资源类型可以通过使用特定属性类型将此类型别名创建。
| 名称 | 类型 | 说明 |
|---|---|---|
| id |
string |
资源的完全限定资源 ID。 示例 - /subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/{resourceProviderNamespace}/{resourceType}/{resourceName} |
| identity |
托管服务标识(系统分配和/或用户分配的标识) |
|
| kind |
string |
门户/工具等用于为相同类型的资源呈现不同的 UX 体验的元数据。 |
| location |
string |
资源所在的地理位置 |
| name |
string |
资源的名称 |
| properties | OnlineDeploymentProperties: |
[必需]实体的其他属性。 |
| sku |
用于自动缩放的 ARM 协定所需的 SKU 详细信息。 |
|
| systemData |
包含 createdBy 和 modifiedBy 信息的 Azure 资源管理器元数据。 |
|
| tags |
object |
资源标记。 |
| type |
string |
资源类型。 例如“Microsoft.Compute/virtualMachines”或“Microsoft.Storage/storageAccounts” |
OnlineDeploymentTrackedResourceArmPaginatedResult
OnlineDeployment 实体的分页列表。
| 名称 | 类型 | 说明 |
|---|---|---|
| nextLink |
string (uri) |
指向下一页项的链接 |
| value |
本页上的在线部署项目 |
OnlineRequestSettings
联机部署评分请求配置。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| maxConcurrentRequestsPerInstance |
integer (int32) |
1 |
每个部署允许的每个节点的最大并发请求数。 默认值为 1。 |
| maxQueueWait |
string (duration) |
PT0.5S |
(已弃用托管联机终结点)请求以 ISO 8601 格式保持队列的最大时间。
默认值为 500 毫秒。
(现在增加 |
| requestTimeout |
string (duration) |
PT5S |
ISO 8601 格式的评分超时。 默认值为 5000 毫秒。 |
ProbeSettings
部署容器生存度/就绪情况探测配置。
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| failureThreshold |
integer (int32) |
30 |
返回不正常状态之前允许的失败数。 |
| initialDelay |
string (duration) |
ISO 8601 格式的第一个探测之前的延迟。 |
|
| period |
string (duration) |
PT10S |
ISO 8601 格式的探测之间的时间长度。 |
| successThreshold |
integer (int32) |
1 |
返回正常状态之前成功的探测数。 |
| timeout |
string (duration) |
PT2S |
ISO 8601 格式的探测超时。 |
RequestLogging
| 名称 | 类型 | 说明 |
|---|---|---|
| captureHeaders |
string[] |
对于有效负载日志记录,我们默认仅收集有效负载。 如果客户还想要收集指定的标头,他们可以在 captureHeaders 中设置它们,以便后端将收集这些标头以及有效负载。 |
RollingRateType
将模型数据收集到 Blob 存储时,我们需要将数据滚动到不同的路径,以避免在单个 Blob 文件中记录所有这些数据。 如果滚动速率为小时,则会在 blob 路径 /yy/MM/dd/HH/ 中收集所有数据。 如果是当天,将在 blob 路径 /yyyy/MM/dd/ 中收集所有数据。 滚动路径的另一个好处是模型监视 ui 能够非常快速地选择时间范围的数据。
| 值 | 说明 |
|---|---|
| Year | |
| Month | |
| Day | |
| Hour | |
| Minute |
ScaleType
| 值 | 说明 |
|---|---|
| Default | |
| TargetUtilization |
Sku
表示 SKU 的资源模型定义
| 名称 | 类型 | 说明 |
|---|---|---|
| capacity |
integer (int32) |
如果 SKU 支持横向扩展/缩减,则应包含容量整数。 如果资源无法横向扩展/缩小,则可能会省略此范围。 |
| family |
string |
如果服务具有不同代的硬件(对于同一 SKU,则可以在此处捕获)。 |
| name |
string |
SKU 的名称。 例 - P3。 它通常是字母+数字代码 |
| size |
string |
SKU 大小。 当名称字段是层和其他一些值的组合时,这将是独立的代码。 |
| tier |
如果服务具有多个层,但在 PUT 上不需要,则需要资源提供程序实现此字段。 |
SkuTier
如果服务具有多个层,但在 PUT 上不需要,则需要资源提供程序实现此字段。
| 值 | 说明 |
|---|---|
| Free | |
| Basic | |
| Standard | |
| Premium |
systemData
与创建和上次修改资源相关的元数据。
| 名称 | 类型 | 说明 |
|---|---|---|
| createdAt |
string (date-time) |
资源创建时间戳(UTC)。 |
| createdBy |
string |
创建资源的标识。 |
| createdByType |
创建资源的标识的类型。 |
|
| lastModifiedAt |
string (date-time) |
资源上次修改的时间戳 (UTC) |
| lastModifiedBy |
string |
上次修改资源的标识。 |
| lastModifiedByType |
上次修改资源的标识的类型。 |
TargetUtilizationScaleSettings
| 名称 | 类型 | 默认值 | 说明 |
|---|---|---|---|
| maxInstances |
integer (int32) |
1 |
部署可缩放到的最大实例数。 配额将保留给max_instances。 |
| minInstances |
integer (int32) |
1 |
要始终存在的最小实例数。 |
| pollingInterval |
string (duration) |
PT1S |
ISO 8691 格式的轮询间隔。 仅支持精度为秒的持续时间。 |
| scaleType |
string:
Target |
[必需]部署缩放算法的类型 |
|
| targetUtilizationPercentage |
integer (int32) |
70 |
自动缩放程序的目标 CPU 使用率。 |
UserAssignedIdentity
用户分配的标识属性
| 名称 | 类型 | 说明 |
|---|---|---|
| clientId |
string (uuid) |
分配的标识的客户端 ID。 |
| principalId |
string (uuid) |
已分配标识的主体 ID。 |