CLI (v2) Azure Arc-enabled Kubernetes implementação on-line YAML schema

APLICA-SE A:Extensão Azure CLI ml v2 (corrente)

A fonte do esquema JSON pode ser encontrada em https://azuremlschemas.azureedge.net/latest/kubernetesOnlineDeployment.schema.json.

Nota

A sintaxe YAML detalhada neste documento baseia-se no esquema JSON para a versão mais recente da extensão ML CLI v2. Esta sintaxe é garantida apenas para funcionar com a versão mais recente da extensão ML CLI v2. Pode encontrar os esquemas para versões de extensão mais antigas em https://azuremlschemasprod.azureedge.net/.

Sintaxe YAML

Chave Tipo Description Valores permitidos Valor predefinido
$schema string O esquema yaml. Se utilizar a extensão do Código VS de Aprendizagem de Máquinas Azure para autor do ficheiro YAML, incluindo $schema na parte superior do seu ficheiro, permite-lhe invocar esquemas e conclusões de recursos.
name string Obrigatório. O nome da implantação.

As regras de nomeação são definidas aqui.
description string Descrição da implantação.
tags objeto Dicionário de etiquetas para a implantação.
endpoint_name string Obrigatório. Nome do ponto final para criar a implantação sob.
model corda ou objeto O modelo a utilizar para a implantação. Este valor pode ser uma referência a um modelo de versão existente no espaço de trabalho ou a uma especificação de modelo inline.

Para fazer referência a um modelo existente, utilize a azureml:<model-name>:<model-version> sintaxe.

Para definir um modelo em linha, siga o esquema do Modelo.

Como uma melhor prática para cenários de produção, você deve criar o modelo separadamente e faz referência aqui.

Este campo é opcional para cenários de implantação de contentores personalizados .
model_mount_path string O caminho para montar o modelo num recipiente personalizado. Aplicável apenas para cenários de implantação de contentores personalizados . Se o model campo for especificado, é montado neste caminho no contentor.
code_configuration objeto Configuração para a lógica do código de pontuação.

Este campo é opcional para cenários de implantação de contentores personalizados .
code_configuration.code string Caminho local para o diretório de código fonte para marcar o modelo.
code_configuration.scoring_script string Caminho relativo para o ficheiro de pontuação no diretório de código fonte.
environment_variables objeto Dicionário de pares de valor-chave variáveis do ambiente para definir no recipiente de implantação. Pode aceder a estas variáveis ambientais a partir dos seus scripts de pontuação.
environment corda ou objeto Obrigatório. O ambiente a ser usado para a implantação. Este valor pode ser uma referência a um ambiente versado existente no espaço de trabalho ou uma especificação de ambiente em linha.

Para fazer referência a um ambiente existente, utilize a azureml:<environment-name>:<environment-version> sintaxe.

Para definir um ambiente em linha, siga o esquema do Ambiente.

Como uma melhor prática para cenários de produção, você deve criar o ambiente separadamente e faz referência aqui.
instance_type string O tipo de instância usado para colocar a carga de trabalho de inferência. Se omitida, a carga de trabalho de inferência será colocada no tipo de instância padrão do cluster Kubernetes especificado no campo do compute ponto final. Se especificado, a carga de trabalho de inferência será colocada nesse tipo de instância selecionado.

O conjunto de tipos de exemplo para um cluster Kubernetes é configurado através da definição de recursos personalizados do cluster Kubernetes (CRD), portanto, eles não fazem parte do esquema Azure ML YAML para anexar o cálculo kubernetes. Para obter mais informações, consulte Criar e selecionar tipos de instâncias Kubernetes.
instance_count número inteiro O número de casos a utilizar para a implantação. Especifique o valor com base na carga de trabalho que espera. Este campo só é necessário se estiver a utilizar o default tipo de balança (scale_settings.type: default).

instance_count pode ser atualizado após a criação de implantação usando az ml online-deployment update o comando.
app_insights_enabled boolean Quer permitir a integração com o Aplicação Azure caso Insights associado ao seu espaço de trabalho. false
scale_settings objeto As definições de escala para a implantação. Os dois tipos de regulações de escala suportadas são o tipo de default escala e o tipo de target_utilization escala.

Com o tipo de default escala (scale_settings.type: default), pode escalar manualmente a contagem de ocorrências para cima e para baixo após a criação da implementação, atualizando o instance_count imóvel.

Para configurar o tipo de target_utilization escala (scale_settings.type: target_utilization), consulte TargetUtilizationScaleSettings para o conjunto de propriedades configuráveis.
scale_settings.type string O tipo de escala. default, target_utilization target_utilization
request_settings objeto Marcar as definições de pedido para a implantação. Consulte o Conjunto de Pedidos para o conjunto de propriedades configuráveis.
liveness_probe objeto As definições da sonda liveness para monitorizar regularmente a saúde do recipiente. Consulte o ProbeSettings para obter o conjunto de propriedades configuráveis.
readiness_probe objeto Definições de sonda de preparação para validação se o recipiente estiver pronto para servir o tráfego. Consulte o ProbeSettings para obter o conjunto de propriedades configuráveis.
resources objeto Requisitos de recursos de contentores.
resources.requests objeto Pedidos de recursos para o contentor. Consulte o ContainerResourceRequests para obter o conjunto de propriedades configuráveis.
resources.limits objeto Limites de recursos para o recipiente. Consulte ContainerResourceLimits para obter o conjunto de propriedades configuráveis.

SolicitaçõesS

Chave Tipo Descrição Valor predefinido
request_timeout_ms número inteiro O tempo limite de pontuação em milissegundos. 5000
max_concurrent_requests_per_instance número inteiro O número máximo de pedidos simultâneos por exemplo permitiu a implantação.

Não altere esta definição a partir do valor predefinido a menos que seja instruído pelo Microsoft Technical Support ou por um membro da equipa Azure ML.
1
max_queue_wait_ms número inteiro O tempo máximo em milissegundos um pedido permanecerá na fila. 500

Sondas

Chave Tipo Descrição Valor predefinido
period número inteiro Com que frequência (em segundos) para executar a sonda. 10
initial_delay número inteiro O número de segundos após o início do recipiente antes da sonda ser iniciada. O valor mínimo é 1. 10
timeout número inteiro O número de segundos após o qual a sonda se esgotar. O valor mínimo é 1. 2
success_threshold número inteiro Os mínimos sucessos consecutivos para a sonda ser considerado bem-sucedido depois de ter falhado. O valor mínimo é 1. 1
failure_threshold número inteiro Quando uma sonda falha, o sistema tentará failure_threshold os tempos antes de desistir. Desistir no caso de uma sonda de vida significa que o recipiente será reiniciado. No caso de uma sonda de prontidão, o recipiente será marcado Unready. O valor mínimo é 1. 30

TargetUtilizationScaleSettings

Chave Tipo Descrição Valor predefinido
type const O tipo de escala target_utilization
min_instances número inteiro O número mínimo de casos a utilizar. 1
max_instances número inteiro O número máximo de ocorrências para escalar para. 1
target_utilization_percentage número inteiro O uso do CPU-alvo para o autoescalador. 70
polling_interval número inteiro Com que frequência o autoescalador deve tentar escalar a colocação, em segundos. 1

ResourceRequests de Contentores

Chave Tipo Description
cpu cadeia (de carateres) O número de núcleos de CPU solicitados para o contentor.
memory string O tamanho da memória solicitado para o recipiente
nvidia.com/gpu string O número de cartões GPU da Nvidia solicitados para o contentor

ContainerResourceLimits

Chave Tipo Description
cpu cadeia (de carateres) O limite para o número de núcleos de CPU para o recipiente.
memory string O limite para o tamanho da memória do recipiente.
nvidia.com/gpu string O limite para o número de cartões GPU da Nvidia para o contentor

Observações

Os az ml online-deployment comandos podem ser usados para gerir implementações online da Azure Machine Learning Kubernetes.

Exemplos

Exemplos estão disponíveis nos exemplos do repositório GitHub.

Passos seguintes