通过


你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Online Deployments - List

列出推理端点部署。

GET https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.MachineLearningServices/workspaces/{workspaceName}/onlineEndpoints/{endpointName}/deployments?api-version=2025-12-01
GET https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.MachineLearningServices/workspaces/{workspaceName}/onlineEndpoints/{endpointName}/deployments?api-version=2025-12-01&$orderBy={$orderBy}&$top={$top}&$skip={$skip}

URI 参数

名称 必需 类型 说明
endpointName
path True

string

联机终结点名称。

resourceGroupName
path True

string

minLength: 1
maxLength: 90

资源组的名称。 此名称不区分大小写。

subscriptionId
path True

string

minLength: 1

目标订阅的 ID。

workspaceName
path True

string

pattern: ^[a-zA-Z0-9][a-zA-Z0-9_-]{2,32}$

Azure 机器学习工作区名称

api-version
query True

string

minLength: 1

要用于此操作的 API 版本。

$orderBy
query

string

列表排序。

$skip
query

string

分页的延续标记。

$top
query

integer (int32)

列表顶部。

响应

名称 类型 说明
200 OK

OnlineDeploymentTrackedResourceArmPaginatedResult

Azure作已成功完成。

Other Status Codes

ErrorResponse

意外错误响应。

安全性

azure_auth

Azure Active Directory OAuth2 流。

类型: oauth2
流向: implicit
授权 URL: https://login.microsoftonline.com/common/oauth2/authorize

作用域

名称 说明
user_impersonation 模拟用户帐户

示例

List Online Deployments.

示例请求

GET https://management.azure.com/subscriptions/00000000-1111-2222-3333-444444444444/resourceGroups/test-rg/providers/Microsoft.MachineLearningServices/workspaces/my-aml-workspace/onlineEndpoints/testEndpointName/deployments?api-version=2025-12-01&$orderBy=string&$top=1

示例响应

{
  "nextLink": "https://management.azure.com/subscriptions/34adfa4f-cedf-4dc0-ba29-b6d1a69ab345/resourceGroups/testrg123/providers/Microsoft.MachineLearningServices/workspaces/my-aml-workspace/onlineEndpoints/testEndpointName/deployments?api-version=2025-07-01-preview&$skip=2",
  "value": [
    {
      "name": "string",
      "type": "string",
      "id": "string",
      "identity": {
        "type": "SystemAssigned",
        "principalId": "00000000-1111-2222-3333-444444444444",
        "tenantId": "00000000-1111-2222-3333-444444444444",
        "userAssignedIdentities": {
          "string": {
            "clientId": "00000000-1111-2222-3333-444444444444",
            "principalId": "00000000-1111-2222-3333-444444444444"
          }
        }
      },
      "kind": "string",
      "location": "string",
      "properties": {
        "description": "string",
        "appInsightsEnabled": false,
        "codeConfiguration": {
          "codeId": "string",
          "scoringScript": "string"
        },
        "containerResourceRequirements": {
          "containerResourceLimits": {
            "cpu": "\"1\"",
            "gpu": "\"1\"",
            "memory": "\"2Gi\""
          },
          "containerResourceRequests": {
            "cpu": "\"1\"",
            "gpu": "\"1\"",
            "memory": "\"2Gi\""
          }
        },
        "endpointComputeType": "Kubernetes",
        "environmentId": "string",
        "environmentVariables": {
          "string": "string"
        },
        "instanceType": "string",
        "livenessProbe": {
          "failureThreshold": 1,
          "initialDelay": "PT5M",
          "period": "PT5M",
          "successThreshold": 1,
          "timeout": "PT5M"
        },
        "model": "string",
        "modelMountPath": "string",
        "properties": {
          "string": "string"
        },
        "provisioningState": "Creating",
        "requestSettings": {
          "maxConcurrentRequestsPerInstance": 1,
          "maxQueueWait": "PT5M",
          "requestTimeout": "PT5M"
        },
        "scaleSettings": {
          "scaleType": "Default"
        }
      },
      "sku": {
        "name": "string",
        "capacity": 1,
        "family": "string",
        "size": "string",
        "tier": "Free"
      },
      "systemData": {
        "createdAt": "2020-01-01T12:34:56.999Z",
        "createdBy": "string",
        "createdByType": "User",
        "lastModifiedAt": "2020-01-01T12:34:56.999Z",
        "lastModifiedBy": "string",
        "lastModifiedByType": "User"
      },
      "tags": {}
    }
  ]
}

定义

名称 说明
CodeConfiguration

评分代码资产的配置。

Collection
ContainerResourceRequirements

联机部署中每个容器实例的资源要求。

ContainerResourceSettings
createdByType

创建资源的标识的类型。

DataCollectionMode

启用或禁用数据收集。

DataCollector
DefaultScaleSettings
DeploymentProvisioningState

DeploymentProvisioningState 的可能值。

EgressPublicNetworkAccessType

枚举,用于确定 PublicNetworkAccess 是针对部署的出口启用还是禁用。

EndpointComputeType

用于确定终结点计算类型的枚举。

ErrorAdditionalInfo

资源管理错误附加信息。

ErrorDetail

错误详细信息。

ErrorResponse

错误响应

KubernetesOnlineDeployment

特定于 KubernetesOnlineDeployment 的属性。

ManagedOnlineDeployment

特定于 ManagedOnlineDeployment 的属性。

ManagedServiceIdentity

托管服务标识(系统分配和/或用户分配的标识)

ManagedServiceIdentityType

托管服务标识的类型(其中允许 SystemAssigned 和 UserAssigned 类型)。

OnlineDeployment

具体跟踪的资源类型可以通过使用特定属性类型将此类型别名创建。

OnlineDeploymentTrackedResourceArmPaginatedResult

OnlineDeployment 实体的分页列表。

OnlineRequestSettings

联机部署评分请求配置。

ProbeSettings

部署容器生存度/就绪情况探测配置。

RequestLogging
RollingRateType

将模型数据收集到 Blob 存储时,我们需要将数据滚动到不同的路径,以避免在单个 Blob 文件中记录所有这些数据。 如果滚动速率为小时,则会在 blob 路径 /yy/MM/dd/HH/ 中收集所有数据。 如果是当天,将在 blob 路径 /yyyy/MM/dd/ 中收集所有数据。 滚动路径的另一个好处是模型监视 ui 能够非常快速地选择时间范围的数据。

ScaleType
Sku

表示 SKU 的资源模型定义

SkuTier

如果服务具有多个层,但在 PUT 上不需要,则需要资源提供程序实现此字段。

systemData

与创建和上次修改资源相关的元数据。

TargetUtilizationScaleSettings
UserAssignedIdentity

用户分配的标识属性

CodeConfiguration

评分代码资产的配置。

名称 类型 说明
codeId

string

代码资产的 ARM 资源 ID。

scoringScript

string

minLength: 1
pattern: [a-zA-Z0-9_]

[必需]在启动时执行的脚本。 eg. "score.py"

Collection

名称 类型 默认值 说明
clientId

string

用于收集 Blob 存储日志记录的 msi 客户端 ID。 如果为 null,后端将选取已注册的终结点标识以进行身份验证。

dataCollectionMode

DataCollectionMode

Disabled

启用或禁用数据收集。

dataId

string

数据资产 arm 资源 ID。客户端将确保数据资产指向 Blob 存储,后端将收集数据到 Blob 存储。

samplingRate

number (double)

1

收集的采样率。 采样率 1.0 表示我们默认收集 100% 数据。

ContainerResourceRequirements

联机部署中每个容器实例的资源要求。

名称 类型 说明
containerResourceLimits

ContainerResourceSettings

容器资源限制信息:

containerResourceRequests

ContainerResourceSettings

容器资源请求信息:

ContainerResourceSettings

名称 类型 说明
cpu

string

容器的 vCPU 请求/限制数。 详细信息:https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/

gpu

string

容器的 Nvidia GPU 卡请求/限制数。 详细信息:https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/

memory

string

容器的内存大小请求/限制。 详细信息:https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/

createdByType

创建资源的标识的类型。

说明
User
Application
ManagedIdentity
Key

DataCollectionMode

启用或禁用数据收集。

说明
Enabled
Disabled

DataCollector

名称 类型 默认值 说明
collections

<string,  Collection>

[必需]集合配置。 每个集合都有自己的配置来收集模型数据,集合的名称可以是任意字符串。 模型数据收集器可用于有效负载日志记录或自定义日志记录或这两种日志记录。 收集请求和响应保留用于有效负载日志记录,其他请求用于自定义日志记录。

requestLogging

RequestLogging

mdc 的请求日志记录配置包括所有集合的高级日志记录设置。 这是可选的。

rollingRate

RollingRateType

Hour

将模型数据收集到 Blob 存储时,我们需要将数据滚动到不同的路径,以避免在单个 Blob 文件中记录所有这些数据。 如果滚动速率为小时,则会在 blob 路径 /yy/MM/dd/HH/ 中收集所有数据。 如果是当天,将在 blob 路径 /yyyy/MM/dd/ 中收集所有数据。 滚动路径的另一个好处是模型监视 ui 能够非常快速地选择时间范围的数据。

DefaultScaleSettings

名称 类型 说明
scaleType string:

Default

[必需]部署缩放算法的类型

DeploymentProvisioningState

DeploymentProvisioningState 的可能值。

说明
Creating
Deleting
Scaling
Updating
Succeeded
Failed
Canceled

EgressPublicNetworkAccessType

枚举,用于确定 PublicNetworkAccess 是针对部署的出口启用还是禁用。

说明
Enabled
Disabled

EndpointComputeType

用于确定终结点计算类型的枚举。

说明
Managed
Kubernetes
AzureMLCompute

ErrorAdditionalInfo

资源管理错误附加信息。

名称 类型 说明
info

object

其他信息。

type

string

其他信息类型。

ErrorDetail

错误详细信息。

名称 类型 说明
additionalInfo

ErrorAdditionalInfo[]

错误附加信息。

code

string

错误代码。

details

ErrorDetail[]

错误详细信息。

message

string

错误消息。

target

string

错误目标。

ErrorResponse

错误响应

名称 类型 说明
error

ErrorDetail

错误对象。

KubernetesOnlineDeployment

特定于 KubernetesOnlineDeployment 的属性。

名称 类型 默认值 说明
appInsightsEnabled

boolean

False

如果为 true,则启用 Application Insights 日志记录。

codeConfiguration

CodeConfiguration

终结点部署的代码配置。

containerResourceRequirements

ContainerResourceRequirements

容器的资源要求(cpu 和内存)。

dataCollector

DataCollector

mdc 配置,在 mdc 为 null 时禁用 mdc。

description

string

终结点部署的说明。

egressPublicNetworkAccess

EgressPublicNetworkAccessType

Enabled

枚举,用于确定 PublicNetworkAccess 是针对部署的出口启用还是禁用。

endpointComputeType string:

Kubernetes

[必需]终结点的计算类型。

environmentId

string

终结点部署的环境规范的 ARM 资源 ID 或 AssetId。

environmentVariables

object

部署的环境变量配置。

instanceType

string

Standard_F4s_v2

计算实例类型。 默认值:Standard_F4s_v2。

livenessProbe

ProbeSettings

运行情况探测会定期监视容器的运行状况。

model

string

模型的 URI 路径。

modelMountPath

string

在自定义容器中装载模型的路径。

properties

object

属性字典。 可以添加属性,但不能删除或更改属性。

provisioningState

DeploymentProvisioningState

终结点部署的预配状态。

readinessProbe

ProbeSettings

就绪情况探测会验证容器是否准备好为流量提供服务。 属性和默认值与实时探测相同。

requestSettings

OnlineRequestSettings

请求部署设置。

scaleSettings OnlineScaleSettings:

部署的规模设置。 如果为 null 或未提供,则 KubernetesOnlineDeployment 的默认为 TargetUtilizationScaleSettings,ManagedOnlineDeployment 的默认为 DefaultScaleSettings。

startupProbe

ProbeSettings

启动探测验证容器中的应用程序是否已成功启动。

ManagedOnlineDeployment

特定于 ManagedOnlineDeployment 的属性。

名称 类型 默认值 说明
appInsightsEnabled

boolean

False

如果为 true,则启用 Application Insights 日志记录。

codeConfiguration

CodeConfiguration

终结点部署的代码配置。

dataCollector

DataCollector

mdc 配置,在 mdc 为 null 时禁用 mdc。

description

string

终结点部署的说明。

egressPublicNetworkAccess

EgressPublicNetworkAccessType

Enabled

枚举,用于确定 PublicNetworkAccess 是针对部署的出口启用还是禁用。

endpointComputeType string:

Managed

[必需]终结点的计算类型。

environmentId

string

终结点部署的环境规范的 ARM 资源 ID 或 AssetId。

environmentVariables

object

部署的环境变量配置。

instanceType

string

Standard_F4s_v2

计算实例类型。 默认值:Standard_F4s_v2。

livenessProbe

ProbeSettings

运行情况探测会定期监视容器的运行状况。

model

string

模型的 URI 路径。

modelMountPath

string

在自定义容器中装载模型的路径。

properties

object

属性字典。 可以添加属性,但不能删除或更改属性。

provisioningState

DeploymentProvisioningState

终结点部署的预配状态。

readinessProbe

ProbeSettings

就绪情况探测会验证容器是否准备好为流量提供服务。 属性和默认值与实时探测相同。

requestSettings

OnlineRequestSettings

请求部署设置。

scaleSettings OnlineScaleSettings:

部署的规模设置。 如果为 null 或未提供,则 KubernetesOnlineDeployment 的默认为 TargetUtilizationScaleSettings,ManagedOnlineDeployment 的默认为 DefaultScaleSettings。

startupProbe

ProbeSettings

启动探测验证容器中的应用程序是否已成功启动。

ManagedServiceIdentity

托管服务标识(系统分配和/或用户分配的标识)

名称 类型 说明
principalId

string (uuid)

系统分配标识的服务主体 ID。 此属性仅针对系统分配的标识提供。

tenantId

string (uuid)

系统分配标识的租户 ID。 此属性仅针对系统分配的标识提供。

type

ManagedServiceIdentityType

托管服务标识的类型(其中允许 SystemAssigned 和 UserAssigned 类型)。

userAssignedIdentities

<string,  UserAssignedIdentity>

User-Assigned 标识
与资源关联的用户分配标识集。 userAssignedIdentities 字典密钥将为 ARM 资源 ID,格式为“/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.ManagedIdentity/userAssignedIdentities/{identityName}”。 字典值可以是请求中的空对象({})。

ManagedServiceIdentityType

托管服务标识的类型(其中允许 SystemAssigned 和 UserAssigned 类型)。

说明
None
SystemAssigned
UserAssigned
SystemAssigned,UserAssigned

OnlineDeployment

具体跟踪的资源类型可以通过使用特定属性类型将此类型别名创建。

名称 类型 说明
id

string

资源的完全限定资源 ID。 示例 - /subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/{resourceProviderNamespace}/{resourceType}/{resourceName}

identity

ManagedServiceIdentity

托管服务标识(系统分配和/或用户分配的标识)

kind

string

门户/工具等用于为相同类型的资源呈现不同的 UX 体验的元数据。

location

string

资源所在的地理位置

name

string

资源的名称

properties OnlineDeploymentProperties:

[必需]实体的其他属性。

sku

Sku

用于自动缩放的 ARM 协定所需的 SKU 详细信息。

systemData

systemData

包含 createdBy 和 modifiedBy 信息的 Azure 资源管理器元数据。

tags

object

资源标记。

type

string

资源类型。 例如“Microsoft.Compute/virtualMachines”或“Microsoft.Storage/storageAccounts”

OnlineDeploymentTrackedResourceArmPaginatedResult

OnlineDeployment 实体的分页列表。

名称 类型 说明
nextLink

string (uri)

指向下一页项的链接

value

OnlineDeployment[]

本页上的在线部署项目

OnlineRequestSettings

联机部署评分请求配置。

名称 类型 默认值 说明
maxConcurrentRequestsPerInstance

integer (int32)

1

每个部署允许的每个节点的最大并发请求数。 默认值为 1。

maxQueueWait

string (duration)

PT0.5S

(已弃用托管联机终结点)请求以 ISO 8601 格式保持队列的最大时间。 默认值为 500 毫秒。 (现在增加 request_timeout_ms 以考虑任何网络/队列延迟)

requestTimeout

string (duration)

PT5S

ISO 8601 格式的评分超时。 默认值为 5000 毫秒。

ProbeSettings

部署容器生存度/就绪情况探测配置。

名称 类型 默认值 说明
failureThreshold

integer (int32)

30

返回不正常状态之前允许的失败数。

initialDelay

string (duration)

ISO 8601 格式的第一个探测之前的延迟。

period

string (duration)

PT10S

ISO 8601 格式的探测之间的时间长度。

successThreshold

integer (int32)

1

返回正常状态之前成功的探测数。

timeout

string (duration)

PT2S

ISO 8601 格式的探测超时。

RequestLogging

名称 类型 说明
captureHeaders

string[]

对于有效负载日志记录,我们默认仅收集有效负载。 如果客户还想要收集指定的标头,他们可以在 captureHeaders 中设置它们,以便后端将收集这些标头以及有效负载。

RollingRateType

将模型数据收集到 Blob 存储时,我们需要将数据滚动到不同的路径,以避免在单个 Blob 文件中记录所有这些数据。 如果滚动速率为小时,则会在 blob 路径 /yy/MM/dd/HH/ 中收集所有数据。 如果是当天,将在 blob 路径 /yyyy/MM/dd/ 中收集所有数据。 滚动路径的另一个好处是模型监视 ui 能够非常快速地选择时间范围的数据。

说明
Year
Month
Day
Hour
Minute

ScaleType

说明
Default
TargetUtilization

Sku

表示 SKU 的资源模型定义

名称 类型 说明
capacity

integer (int32)

如果 SKU 支持横向扩展/缩减,则应包含容量整数。 如果资源无法横向扩展/缩小,则可能会省略此范围。

family

string

如果服务具有不同代的硬件(对于同一 SKU,则可以在此处捕获)。

name

string

SKU 的名称。 例 - P3。 它通常是字母+数字代码

size

string

SKU 大小。 当名称字段是层和其他一些值的组合时,这将是独立的代码。

tier

SkuTier

如果服务具有多个层,但在 PUT 上不需要,则需要资源提供程序实现此字段。

SkuTier

如果服务具有多个层,但在 PUT 上不需要,则需要资源提供程序实现此字段。

说明
Free
Basic
Standard
Premium

systemData

与创建和上次修改资源相关的元数据。

名称 类型 说明
createdAt

string (date-time)

资源创建时间戳(UTC)。

createdBy

string

创建资源的标识。

createdByType

createdByType

创建资源的标识的类型。

lastModifiedAt

string (date-time)

资源上次修改的时间戳 (UTC)

lastModifiedBy

string

上次修改资源的标识。

lastModifiedByType

createdByType

上次修改资源的标识的类型。

TargetUtilizationScaleSettings

名称 类型 默认值 说明
maxInstances

integer (int32)

1

部署可缩放到的最大实例数。 配额将保留给max_instances。

minInstances

integer (int32)

1

要始终存在的最小实例数。

pollingInterval

string (duration)

PT1S

ISO 8691 格式的轮询间隔。 仅支持精度为秒的持续时间。

scaleType string:

TargetUtilization

[必需]部署缩放算法的类型

targetUtilizationPercentage

integer (int32)

70

自动缩放程序的目标 CPU 使用率。

UserAssignedIdentity

用户分配的标识属性

名称 类型 说明
clientId

string (uuid)

分配的标识的客户端 ID。

principalId

string (uuid)

已分配标识的主体 ID。