Online Deployments - List
Listar implantações de endpoint de inferência.
GET https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.MachineLearningServices/workspaces/{workspaceName}/onlineEndpoints/{endpointName}/deployments?api-version=2025-12-01
GET https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.MachineLearningServices/workspaces/{workspaceName}/onlineEndpoints/{endpointName}/deployments?api-version=2025-12-01&$orderBy={$orderBy}&$top={$top}&$skip={$skip}
Parâmetros de URI
| Nome | Em | Obrigatório | Tipo | Description |
|---|---|---|---|---|
|
endpoint
|
path | True |
string |
Nome do ponto de extremidade online. |
|
resource
|
path | True |
string minLength: 1maxLength: 90 |
O nome do grupo de recursos. O nome não diferencia maiúsculas de minúsculas. |
|
subscription
|
path | True |
string minLength: 1 |
A ID da assinatura de destino. |
|
workspace
|
path | True |
string pattern: ^[a-zA-Z0-9][a-zA-Z0-9_-]{2,32}$ |
Nome do workspace do Azure Machine Learning |
|
api-version
|
query | True |
string minLength: 1 |
A versão da API a ser usada para esta operação. |
|
$order
|
query |
string |
Ordenação de lista. |
|
|
$skip
|
query |
string |
Token de continuação para paginação. |
|
|
$top
|
query |
integer (int32) |
No topo da lista. |
Respostas
| Nome | Tipo | Description |
|---|---|---|
| 200 OK |
A operação do Azure foi concluída com êxito. |
|
| Other Status Codes |
Uma resposta de erro inesperada. |
Segurança
azure_auth
Fluxo OAuth2 do Azure Active Directory.
Tipo:
oauth2
Flow:
implicit
URL de Autorização:
https://login.microsoftonline.com/common/oauth2/authorize
Escopos
| Nome | Description |
|---|---|
| user_impersonation | Personificar sua conta de usuário |
Exemplos
List Online Deployments.
Solicitação de exemplo
GET https://management.azure.com/subscriptions/00000000-1111-2222-3333-444444444444/resourceGroups/test-rg/providers/Microsoft.MachineLearningServices/workspaces/my-aml-workspace/onlineEndpoints/testEndpointName/deployments?api-version=2025-12-01&$orderBy=string&$top=1
Resposta de exemplo
{
"nextLink": "https://management.azure.com/subscriptions/34adfa4f-cedf-4dc0-ba29-b6d1a69ab345/resourceGroups/testrg123/providers/Microsoft.MachineLearningServices/workspaces/my-aml-workspace/onlineEndpoints/testEndpointName/deployments?api-version=2025-07-01-preview&$skip=2",
"value": [
{
"name": "string",
"type": "string",
"id": "string",
"identity": {
"type": "SystemAssigned",
"principalId": "00000000-1111-2222-3333-444444444444",
"tenantId": "00000000-1111-2222-3333-444444444444",
"userAssignedIdentities": {
"string": {
"clientId": "00000000-1111-2222-3333-444444444444",
"principalId": "00000000-1111-2222-3333-444444444444"
}
}
},
"kind": "string",
"location": "string",
"properties": {
"description": "string",
"appInsightsEnabled": false,
"codeConfiguration": {
"codeId": "string",
"scoringScript": "string"
},
"containerResourceRequirements": {
"containerResourceLimits": {
"cpu": "\"1\"",
"gpu": "\"1\"",
"memory": "\"2Gi\""
},
"containerResourceRequests": {
"cpu": "\"1\"",
"gpu": "\"1\"",
"memory": "\"2Gi\""
}
},
"endpointComputeType": "Kubernetes",
"environmentId": "string",
"environmentVariables": {
"string": "string"
},
"instanceType": "string",
"livenessProbe": {
"failureThreshold": 1,
"initialDelay": "PT5M",
"period": "PT5M",
"successThreshold": 1,
"timeout": "PT5M"
},
"model": "string",
"modelMountPath": "string",
"properties": {
"string": "string"
},
"provisioningState": "Creating",
"requestSettings": {
"maxConcurrentRequestsPerInstance": 1,
"maxQueueWait": "PT5M",
"requestTimeout": "PT5M"
},
"scaleSettings": {
"scaleType": "Default"
}
},
"sku": {
"name": "string",
"capacity": 1,
"family": "string",
"size": "string",
"tier": "Free"
},
"systemData": {
"createdAt": "2020-01-01T12:34:56.999Z",
"createdBy": "string",
"createdByType": "User",
"lastModifiedAt": "2020-01-01T12:34:56.999Z",
"lastModifiedBy": "string",
"lastModifiedByType": "User"
},
"tags": {}
}
]
}
Definições
| Nome | Description |
|---|---|
|
Code |
Configuração para um ativo de código de pontuação. |
| Collection | |
|
Container |
Requisitos de recursos para cada instância de contêiner em uma implantação online. |
|
Container |
|
|
created |
O tipo de identidade que criou o recurso. |
|
Data |
Habilitar ou desabilitar a coleta de dados. |
|
Data |
|
|
Default |
|
|
Deployment |
Valores possíveis para DeploymentProvisioningState. |
|
Egress |
Enumeração para determinar se PublicNetworkAccess está Habilitado ou Desabilitado para saída de uma implantação. |
|
Endpoint |
Enumerar para determinar o tipo de computação de ponto de extremidade. |
|
Error |
As informações adicionais do erro de gerenciamento de recursos. |
|
Error |
O detalhe do erro. |
|
Error |
Resposta de erro |
|
Kubernetes |
Propriedades específicas de um KubernetesOnlineDeployment. |
|
Managed |
Propriedades específicas de um ManagedOnlineDeployment. |
|
Managed |
Identidade de serviço gerenciada (identidades atribuídas pelo sistema e/ou pelo usuário) |
|
Managed |
Tipo de identidade de serviço gerenciado (em que os tipos SystemAssigned e UserAssigned são permitidos). |
|
Online |
Tipos concretos de recursos rastreados podem ser criados com o alias desse tipo usando um tipo de propriedade específico. |
|
Online |
Uma lista paginada de entidades OnlineDeployment. |
|
Online |
Configuração de solicitações de pontuação de implantação online. |
|
Probe |
Configuração de investigação de disponibilidade/preparação do contêiner de implantação. |
|
Request |
|
|
Rolling |
Quando os dados do modelo são coletados no armazenamento de blobs, precisamos rolar os dados para um caminho diferente para evitar o registro em log de todos eles em um único arquivo de blob. Se a taxa de rolagem for de hora, todos os dados serão coletados no caminho do blob /yyyy/MM/dd/HH/. Se for dia, todos os dados serão coletados no caminho do blob /yyy/MM/dd/. O outro benefício do caminho sem interrupção é que a interface do usuário de monitoramento de modelo é capaz de selecionar um intervalo de tempo de dados muito rapidamente. |
|
Scale |
|
| Sku |
A definição do modelo de recurso que representa o SKU |
|
Sku |
Esse campo deverá ser implementado pelo Provedor de Recursos se o serviço tiver mais de uma camada, mas não for necessário em um PUT. |
|
system |
Metadados relativos à criação e última modificação do recurso. |
|
Target |
|
|
User |
Propriedades de identidade atribuídas pelo usuário |
CodeConfiguration
Configuração para um ativo de código de pontuação.
| Nome | Tipo | Description |
|---|---|---|
| codeId |
string |
ID do recurso ARM do ativo de código. |
| scoringScript |
string minLength: 1pattern: [a-zA-Z0-9_] |
[Obrigatório] O script a ser executado na inicialização. eg. "score.py" |
Collection
| Nome | Tipo | Valor padrão | Description |
|---|---|---|---|
| clientId |
string |
A ID do cliente msi usada para coletar o registro em log no armazenamento de blobs. Se for nulo, o back-end escolherá uma identidade de ponto de extremidade registrada para autenticação. |
|
| dataCollectionMode | Disabled |
Habilitar ou desabilitar a coleta de dados. |
|
| dataId |
string |
A ID do recurso do braço do ativo de dados. O lado do cliente garantirá que o ativo de dados esteja apontando para o armazenamento de blobs e o back-end coletará dados para o armazenamento de blobs. |
|
| samplingRate |
number (double) |
1 |
A taxa de amostragem da coleção. A taxa de amostragem 1,0 significa que coletamos 100% de dados por padrão. |
ContainerResourceRequirements
Requisitos de recursos para cada instância de contêiner em uma implantação online.
| Nome | Tipo | Description |
|---|---|---|
| containerResourceLimits |
Informações de limite de recursos de contêiner: |
|
| containerResourceRequests |
Informações de solicitação de recurso de contêiner: |
ContainerResourceSettings
| Nome | Tipo | Description |
|---|---|---|
| cpu |
string |
Número de solicitações/limite de vCPUs para contêiner. Mais informações: https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/ |
| gpu |
string |
Número de solicitações/limite de cartões GPU Nvidia para contêiner. Mais informações: https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/ |
| memory |
string |
Solicitação/limite de tamanho de memória para contêiner. Mais informações: https://kubernetes.io/docs/concepts/configuration/manage-compute-resources-container/ |
createdByType
O tipo de identidade que criou o recurso.
| Valor | Description |
|---|---|
| User | |
| Application | |
| ManagedIdentity | |
| Key |
DataCollectionMode
Habilitar ou desabilitar a coleta de dados.
| Valor | Description |
|---|---|
| Enabled | |
| Disabled |
DataCollector
| Nome | Tipo | Valor padrão | Description |
|---|---|---|---|
| collections |
<string, Collection> |
[Obrigatório] A configuração da coleção. Cada coleção tem sua própria configuração para coletar dados de modelo e o nome da coleção pode ser uma cadeia de caracteres arbitrária. O coletor de dados de modelo pode ser usado para registro em log de conteúdo ou registro em log personalizado ou ambos. A solicitação e a resposta da coleção são reservadas para registro em log de conteúdo, outras são para registro em log personalizado. |
|
| requestLogging |
A configuração de registro em log de solicitação para mdc inclui configurações avançadas de log para todas as coleções. É opcional. |
||
| rollingRate | Hour |
Quando os dados do modelo são coletados no armazenamento de blobs, precisamos rolar os dados para um caminho diferente para evitar o registro em log de todos eles em um único arquivo de blob. Se a taxa de rolagem for de hora, todos os dados serão coletados no caminho do blob /yyyy/MM/dd/HH/. Se for dia, todos os dados serão coletados no caminho do blob /yyy/MM/dd/. O outro benefício do caminho sem interrupção é que a interface do usuário de monitoramento de modelo é capaz de selecionar um intervalo de tempo de dados muito rapidamente. |
DefaultScaleSettings
| Nome | Tipo | Description |
|---|---|---|
| scaleType |
string:
Default |
[Obrigatório] Tipo de algoritmo de dimensionamento de implantação |
DeploymentProvisioningState
Valores possíveis para DeploymentProvisioningState.
| Valor | Description |
|---|---|
| Creating | |
| Deleting | |
| Scaling | |
| Updating | |
| Succeeded | |
| Failed | |
| Canceled |
EgressPublicNetworkAccessType
Enumeração para determinar se PublicNetworkAccess está Habilitado ou Desabilitado para saída de uma implantação.
| Valor | Description |
|---|---|
| Enabled | |
| Disabled |
EndpointComputeType
Enumerar para determinar o tipo de computação de ponto de extremidade.
| Valor | Description |
|---|---|
| Managed | |
| Kubernetes | |
| AzureMLCompute |
ErrorAdditionalInfo
As informações adicionais do erro de gerenciamento de recursos.
| Nome | Tipo | Description |
|---|---|---|
| info |
object |
As informações adicionais. |
| type |
string |
O tipo de informação adicional. |
ErrorDetail
O detalhe do erro.
| Nome | Tipo | Description |
|---|---|---|
| additionalInfo |
As informações adicionais do erro. |
|
| code |
string |
O código de erro. |
| details |
Os detalhes do erro. |
|
| message |
string |
A mensagem de erro. |
| target |
string |
O destino do erro. |
ErrorResponse
Resposta de erro
| Nome | Tipo | Description |
|---|---|---|
| error |
O objeto de erro. |
KubernetesOnlineDeployment
Propriedades específicas de um KubernetesOnlineDeployment.
| Nome | Tipo | Valor padrão | Description |
|---|---|---|---|
| appInsightsEnabled |
boolean |
False |
Se for true, habilitará o registro em log do Application Insights. |
| codeConfiguration |
Configuração de código para a implantação do ponto de extremidade. |
||
| containerResourceRequirements |
Os requisitos de recurso para o contêiner (cpu e memória). |
||
| dataCollector |
A configuração do mdc desabilitaremos o mdc quando ele for nulo. |
||
| description |
string |
Descrição da implantação do ponto de extremidade. |
|
| egressPublicNetworkAccess | Enabled |
Enumeração para determinar se PublicNetworkAccess está Habilitado ou Desabilitado para saída de uma implantação. |
|
| endpointComputeType |
string:
Kubernetes |
[Obrigatório] O tipo de computação do ponto de extremidade. |
|
| environmentId |
string |
ID de recurso do ARM ou AssetId da especificação de ambiente para a implantação do ponto de extremidade. |
|
| environmentVariables |
object |
Configuração de variáveis de ambiente para a implantação. |
|
| instanceType |
string |
Standard_F4s_v2 |
Tipo de instância de computação. Padrão: Standard_F4s_v2. |
| livenessProbe |
A investigação de atividade monitora a integridade do contêiner regularmente. |
||
| model |
string |
O caminho de URI para o modelo. |
|
| modelMountPath |
string |
O caminho para montar o modelo no contêiner personalizado. |
|
| properties |
object |
Dicionário de propriedades. As propriedades podem ser adicionadas, mas não removidas ou alteradas. |
|
| provisioningState |
Estado de provisionamento para a implantação do ponto de extremidade. |
||
| readinessProbe |
A investigação de preparação valida se o contêiner está pronto para atender ao tráfego. As propriedades e os padrões são os mesmos que a investigação de atividade. |
||
| requestSettings |
Solicitar configurações para a implantação. |
||
| scaleSettings | OnlineScaleSettings: |
Configurações de escala para a implantação. Se for nulo ou não for fornecido, o padrão será TargetUtilizationScaleSettings para KubernetesOnlineDeployment e DefaultScaleSettings para ManagedOnlineDeployment. |
|
| startupProbe |
A investigação de inicialização verifica se um aplicativo em um contêiner foi iniciado com êxito. |
ManagedOnlineDeployment
Propriedades específicas de um ManagedOnlineDeployment.
| Nome | Tipo | Valor padrão | Description |
|---|---|---|---|
| appInsightsEnabled |
boolean |
False |
Se for true, habilitará o registro em log do Application Insights. |
| codeConfiguration |
Configuração de código para a implantação do ponto de extremidade. |
||
| dataCollector |
A configuração do mdc desabilitaremos o mdc quando ele for nulo. |
||
| description |
string |
Descrição da implantação do ponto de extremidade. |
|
| egressPublicNetworkAccess | Enabled |
Enumeração para determinar se PublicNetworkAccess está Habilitado ou Desabilitado para saída de uma implantação. |
|
| endpointComputeType |
string:
Managed |
[Obrigatório] O tipo de computação do ponto de extremidade. |
|
| environmentId |
string |
ID de recurso do ARM ou AssetId da especificação de ambiente para a implantação do ponto de extremidade. |
|
| environmentVariables |
object |
Configuração de variáveis de ambiente para a implantação. |
|
| instanceType |
string |
Standard_F4s_v2 |
Tipo de instância de computação. Padrão: Standard_F4s_v2. |
| livenessProbe |
A investigação de atividade monitora a integridade do contêiner regularmente. |
||
| model |
string |
O caminho de URI para o modelo. |
|
| modelMountPath |
string |
O caminho para montar o modelo no contêiner personalizado. |
|
| properties |
object |
Dicionário de propriedades. As propriedades podem ser adicionadas, mas não removidas ou alteradas. |
|
| provisioningState |
Estado de provisionamento para a implantação do ponto de extremidade. |
||
| readinessProbe |
A investigação de preparação valida se o contêiner está pronto para atender ao tráfego. As propriedades e os padrões são os mesmos que a investigação de atividade. |
||
| requestSettings |
Solicitar configurações para a implantação. |
||
| scaleSettings | OnlineScaleSettings: |
Configurações de escala para a implantação. Se for nulo ou não for fornecido, o padrão será TargetUtilizationScaleSettings para KubernetesOnlineDeployment e DefaultScaleSettings para ManagedOnlineDeployment. |
|
| startupProbe |
A investigação de inicialização verifica se um aplicativo em um contêiner foi iniciado com êxito. |
ManagedServiceIdentity
Identidade de serviço gerenciada (identidades atribuídas pelo sistema e/ou pelo usuário)
| Nome | Tipo | Description |
|---|---|---|
| principalId |
string (uuid) |
A ID da entidade de serviço da identidade atribuída pelo sistema. Essa propriedade será fornecida apenas para uma identidade atribuída pelo sistema. |
| tenantId |
string (uuid) |
A ID do locatário da identidade atribuída pelo sistema. Essa propriedade será fornecida apenas para uma identidade atribuída pelo sistema. |
| type |
Tipo de identidade de serviço gerenciado (em que os tipos SystemAssigned e UserAssigned são permitidos). |
|
| userAssignedIdentities |
<string,
User |
Identidades de User-Assigned |
ManagedServiceIdentityType
Tipo de identidade de serviço gerenciado (em que os tipos SystemAssigned e UserAssigned são permitidos).
| Valor | Description |
|---|---|
| None | |
| SystemAssigned | |
| UserAssigned | |
| SystemAssigned,UserAssigned |
OnlineDeployment
Tipos concretos de recursos rastreados podem ser criados com o alias desse tipo usando um tipo de propriedade específico.
| Nome | Tipo | Description |
|---|---|---|
| id |
string |
ID de recurso totalmente qualificada para o recurso. Ex - /subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/{resourceProviderNamespace}/{resourceType}/{resourceName} |
| identity |
Identidade de serviço gerenciada (identidades atribuídas pelo sistema e/ou pelo usuário) |
|
| kind |
string |
Metadados usados pelo portal/ferramentas/etc para renderizar diferentes experiências de experiência de experiência de usuário para recursos do mesmo tipo. |
| location |
string |
A localização geográfica onde o recurso reside |
| name |
string |
O nome do recurso |
| properties | OnlineDeploymentProperties: |
[Obrigatório] Atributos adicionais da entidade. |
| sku |
Detalhes de SKU necessários para o contrato do ARM para dimensionamento automático. |
|
| systemData |
Metadados do Azure Resource Manager que contêm informações createdBy e modifiedBy. |
|
| tags |
object |
Tags de recursos. |
| type |
string |
O tipo do recurso. Por exemplo, "Microsoft.Compute/virtualMachines" ou "Microsoft.Storage/storageAccounts" |
OnlineDeploymentTrackedResourceArmPaginatedResult
Uma lista paginada de entidades OnlineDeployment.
| Nome | Tipo | Description |
|---|---|---|
| nextLink |
string (uri) |
O link para a próxima página de itens |
| value |
Os itens do OnlineDeployment nesta página |
OnlineRequestSettings
Configuração de solicitações de pontuação de implantação online.
| Nome | Tipo | Valor padrão | Description |
|---|---|---|---|
| maxConcurrentRequestsPerInstance |
integer (int32) |
1 |
O número máximo de solicitações simultâneas por nó permitido por implantação. O padrão é 1. |
| maxQueueWait |
string (duration) |
PT0.5S |
(Preterido para pontos de extremidade online gerenciados) O tempo máximo que uma solicitação permanecerá na fila no formato ISO 8601.
O padrão é 500ms.
(Agora aumente |
| requestTimeout |
string (duration) |
PT5S |
O tempo limite de pontuação no formato ISO 8601. O padrão é 5000ms. |
ProbeSettings
Configuração de investigação de disponibilidade/preparação do contêiner de implantação.
| Nome | Tipo | Valor padrão | Description |
|---|---|---|---|
| failureThreshold |
integer (int32) |
30 |
O número de falhas a serem permitidos antes de retornar um status não íntegro. |
| initialDelay |
string (duration) |
O atraso antes da primeira investigação no formato ISO 8601. |
|
| period |
string (duration) |
PT10S |
O período de tempo entre investigações no formato ISO 8601. |
| successThreshold |
integer (int32) |
1 |
O número de investigações bem-sucedidas antes de retornar um status íntegro. |
| timeout |
string (duration) |
PT2S |
O tempo limite da investigação no formato ISO 8601. |
RequestLogging
| Nome | Tipo | Description |
|---|---|---|
| captureHeaders |
string[] |
Para o registro em log de carga, coletamos conteúdo por padrão. Se os clientes também quiserem coletar os cabeçalhos especificados, eles poderão defini-los em captureHeaders para que o back-end colete esses cabeçalhos junto com o conteúdo. |
RollingRateType
Quando os dados do modelo são coletados no armazenamento de blobs, precisamos rolar os dados para um caminho diferente para evitar o registro em log de todos eles em um único arquivo de blob. Se a taxa de rolagem for de hora, todos os dados serão coletados no caminho do blob /yyyy/MM/dd/HH/. Se for dia, todos os dados serão coletados no caminho do blob /yyy/MM/dd/. O outro benefício do caminho sem interrupção é que a interface do usuário de monitoramento de modelo é capaz de selecionar um intervalo de tempo de dados muito rapidamente.
| Valor | Description |
|---|---|
| Year | |
| Month | |
| Day | |
| Hour | |
| Minute |
ScaleType
| Valor | Description |
|---|---|
| Default | |
| TargetUtilization |
Sku
A definição do modelo de recurso que representa o SKU
| Nome | Tipo | Description |
|---|---|---|
| capacity |
integer (int32) |
Se o SKU der suporte a expansão/entrada, o inteiro de capacidade deverá ser incluído. Se a escala horizontal/in não for possível para o recurso, isso poderá ser omitido. |
| family |
string |
Se o serviço tiver diferentes gerações de hardware, para a mesma SKU, isso poderá ser capturado aqui. |
| name |
string |
O nome da SKU. Ex - P3. Normalmente, é um código letter+number |
| size |
string |
O tamanho da SKU. Quando o campo de nome é a combinação de camada e algum outro valor, esse seria o código autônomo. |
| tier |
Esse campo deverá ser implementado pelo Provedor de Recursos se o serviço tiver mais de uma camada, mas não for necessário em um PUT. |
SkuTier
Esse campo deverá ser implementado pelo Provedor de Recursos se o serviço tiver mais de uma camada, mas não for necessário em um PUT.
| Valor | Description |
|---|---|
| Free | |
| Basic | |
| Standard | |
| Premium |
systemData
Metadados relativos à criação e última modificação do recurso.
| Nome | Tipo | Description |
|---|---|---|
| createdAt |
string (date-time) |
O carimbo de data/hora da criação de recursos (UTC). |
| createdBy |
string |
A identidade que criou o recurso. |
| createdByType |
O tipo de identidade que criou o recurso. |
|
| lastModifiedAt |
string (date-time) |
O carimbo de data/hora da última modificação do recurso (UTC) |
| lastModifiedBy |
string |
A identidade que modificou o recurso pela última vez. |
| lastModifiedByType |
O tipo de identidade que modificou o recurso pela última vez. |
TargetUtilizationScaleSettings
| Nome | Tipo | Valor padrão | Description |
|---|---|---|---|
| maxInstances |
integer (int32) |
1 |
O número máximo de instâncias para as quais a implantação pode ser dimensionada. A cota será reservada para max_instances. |
| minInstances |
integer (int32) |
1 |
O número mínimo de instâncias a serem sempre presentes. |
| pollingInterval |
string (duration) |
PT1S |
O intervalo de sondagem no formato ISO 8691. Só dá suporte à duração com precisão tão baixa quanto Segundos. |
| scaleType |
string:
Target |
[Obrigatório] Tipo de algoritmo de dimensionamento de implantação |
|
| targetUtilizationPercentage |
integer (int32) |
70 |
Uso de CPU de destino para o dimensionador automático. |
UserAssignedIdentity
Propriedades de identidade atribuídas pelo usuário
| Nome | Tipo | Description |
|---|---|---|
| clientId |
string (uuid) |
A ID do cliente da identidade atribuída. |
| principalId |
string (uuid) |
A ID da entidade de segurança da identidade atribuída. |