Compartilhar via


AksEndpoint Classe

Observação

Esta é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Representa uma coleção de versões de serviço Web por trás do mesmo ponto de extremidade em execução no Serviço de Kubernetes do Azure.

Enquanto um AksWebservice implanta um único serviço com um único ponto de extremidade de pontuação, a classe AksEndpoint permite implantar várias versões de serviço Web atrás do mesmo ponto de extremidade de pontuação. Cada versão do serviço Web pode ser configurada para atender a uma porcentagem do tráfego para que você possa implantar modelos de forma controlada, por exemplo, para testes A/B. O AksEndpoint permite a implantação de um objeto de modelo semelhante ao AksWebservice.

Inicialize a instância do Webservice.

O construtor do Webservice recupera uma representação na nuvem de um objeto webservice associado ao workspace fornecido. Ele retornará uma instância de uma classe filho correspondente ao tipo específico do objeto webservice recuperado.

Construtor

AksEndpoint(workspace, name)

Parâmetros

Nome Description
workspace
Obrigatório

O objeto de workspace que contém o objeto Webservice a ser recuperado.

name
Obrigatório
str

O nome do objeto webservice a ser recuperado.

Variáveis

Nome Description
versions

Um dicionário de nome de versão para objeto de versão. Contém todas as versões implantadas como parte deste ponto de extremidade.

Métodos

create_version

Adicione uma nova versão em um Ponto de Extremidade com as propriedades fornecidas.

delete_version

Exclua uma versão em um ponto de extremidade.

deploy_configuration

Crie um objeto de configuração para implantar em um destino de computação do AKS.

serialize

Converta esse serviço Web em um dicionário serializado JSON.

update

Atualize o Ponto de Extremidade com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados neste ponto de extremidade

update_version

Atualize uma versão existente em um Ponto de Extremidade com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados nesta versão.

create_version

Adicione uma nova versão em um Ponto de Extremidade com as propriedades fornecidas.

create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Nome Description
version_name
Obrigatório
str

O nome da versão a ser adicionada em um ponto de extremidade.

autoscale_enabled

Se deseja ou não habilitar o dimensionamento automático para esta versão em um ponto de extremidade. O padrão é True se num_replicas for None.

Valor padrão: None
autoscale_min_replicas
int

O número mínimo de contêineres a serem usados ao dimensionar automaticamente essa versão em um ponto de extremidade. O padrão é 1

Valor padrão: None
autoscale_max_replicas
int

O número máximo de contêineres a serem usados ao dimensionar automaticamente essa versão em um ponto de extremidade. O padrão é 10

Valor padrão: None
autoscale_refresh_seconds
int

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O padrão é 1

Valor padrão: None
autoscale_target_utilization
int

A utilização de destino (em porcentagem de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O padrão é 70

Valor padrão: None
collect_model_data

Se deseja ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão

Valor padrão: None
cpu_cores

O número de núcleos de CPU a serem alocados para essa versão em um ponto de extremidade. Pode ser um decimal. O padrão é 0.1

Valor padrão: None
memory_gb

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O padrão é 0,5

Valor padrão: None
scoring_timeout_ms
int

Um tempo limite a ser aplicado para a pontuação de chamadas para esta versão em um ponto de extremidade. O padrão é 60000.

Valor padrão: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere essa configuração do valor padrão de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Valor padrão: None
max_request_wait_time
int

O tempo máximo que uma solicitação permanecerá na fila (em milissegundos) antes de retornar um erro 503. O padrão é 500.

Valor padrão: None
num_replicas
int

O número de contêineres a serem alocados para essa versão em um ponto de extremidade. Sem padrão, se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

Valor padrão: None
tags

Dicionário de marcas de valor de chave para fornecer esse ponto de extremidade.

Valor padrão: None
properties

Dicionário de propriedades de valor de chave para fornecer esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de valor de chave podem ser adicionados.

Valor padrão: None
description
str

Uma descrição para dar esse ponto de extremidade.

Valor padrão: None
models

Uma lista de objetos Model a serem empacotados com o serviço atualizado.

Valor padrão: None
inference_config

Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.

Valor padrão: None
gpu_cores
int

O número de núcleos de GPU a serem alocados para essa versão em um ponto de extremidade. O valor padrão é 0.

Valor padrão: None
period_seconds
int

A frequência (em segundos) para realizar a investigação de atividade. Padrão para 10 segundos. O valor mínimo é 1.

Valor padrão: None
initial_delay_seconds
int

O número de segundos após o início do contêiner antes do início das investigações de vida. O padrão é 310.

Valor padrão: None
timeout_seconds
int

O número de segundos após o qual a investigação de vida atinge o tempo limite. O padrão é 2 segundos. O valor mínimo é 1.

Valor padrão: None
success_threshold
int

Os mínimos sucessos consecutivos para que a investigação de vida seja considerada bem-sucedida após ter falhado. O valor padrão é 1. O valor mínimo é 1.

Valor padrão: None
failure_threshold
int

Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará o failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.

Valor padrão: None
traffic_percentile

A quantidade de tráfego que a versão usa em um ponto de extremidade.

Valor padrão: None
is_default

Se deseja ou não tornar essa versão como versão padrão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
is_control_version_type

Se essa versão deve ou não ser usada como versão de controle em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
cpu_cores_limit

O número máximo de núcleos de cpu que este serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None
memory_gb_limit

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None

Exceções

Tipo Description

delete_version

Exclua uma versão em um ponto de extremidade.

delete_version(version_name)

Parâmetros

Nome Description
version_name
Obrigatório
str

O nome da versão em um ponto de extremidade a ser excluído.

Exceções

Tipo Description

deploy_configuration

Crie um objeto de configuração para implantar em um destino de computação do AKS.

static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Nome Description
autoscale_enabled

Se deseja ou não habilitar o dimensionamento automático para esta versão em um ponto de extremidade. O padrão é True se num_replicas for None.

Valor padrão: None
autoscale_min_replicas
int

O número mínimo de contêineres a serem usados ao dimensionar automaticamente essa versão em um ponto de extremidade. O valor padrão é 1.

Valor padrão: None
autoscale_max_replicas
int

O número máximo de contêineres a serem usados ao dimensionar automaticamente essa versão em um ponto de extremidade. O padrão é 10.

Valor padrão: None
autoscale_refresh_seconds
int

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1.

Valor padrão: None
autoscale_target_utilization
int

A utilização de destino (em porcentagem de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O padrão é 70.

Valor padrão: None
collect_model_data

Se deseja ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
auth_enabled

Se deseja ou não habilitar a autenticação de chave para esta versão em um ponto de extremidade. O padrão é True.

Valor padrão: None
cpu_cores

O número de núcleos de cpu a serem alocados para essa versão em um ponto de extremidade. Pode ser um decimal. O padrão é 0.1

Valor padrão: None
memory_gb

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O padrão é 0,5

Valor padrão: None
enable_app_insights

Se deseja ou não habilitar o registro em log do ApplicationInsights para esta versão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
scoring_timeout_ms
int

Um tempo limite para impor chamadas de pontuação a esta versão em um ponto de extremidade. O padrão é 60000

Valor padrão: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere essa configuração do valor padrão de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Valor padrão: None
max_request_wait_time
int

O tempo máximo que uma solicitação permanecerá na fila (em milissegundos) antes de retornar um erro 503. O padrão é 500.

Valor padrão: None
num_replicas
int

O número de contêineres a serem alocados para essa versão em um ponto de extremidade. Sem padrão, se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

Valor padrão: None
primary_key
str

Uma chave de autenticação primária a ser usada para este ponto de extremidade.

Valor padrão: None
secondary_key
str

Uma chave de autenticação secundária a ser usada para este ponto de extremidade.

Valor padrão: None
tags

Dicionário de marcas de valor de chave para fornecer esse ponto de extremidade.

Valor padrão: None
properties

Dicionário de propriedades de valor de chave para fornecer esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de valor de chave podem ser adicionados

Valor padrão: None
description
str

Uma descrição para dar esse ponto de extremidade.

Valor padrão: None
gpu_cores
int

O número de núcleos de GPU a serem alocados para essa versão em um ponto de extremidade. O valor padrão é 0.

Valor padrão: None
period_seconds
int

A frequência (em segundos) para realizar a investigação de atividade. Padrão para 10 segundos. O valor mínimo é 1.

Valor padrão: None
initial_delay_seconds
int

Número de segundos após o início do contêiner antes do início das investigações de atividade. O padrão é 310.

Valor padrão: None
timeout_seconds
int

Número de segundos após o qual a investigação de vida atinge o tempo limite. O padrão é 2 segundos. O valor mínimo é 1.

Valor padrão: None
success_threshold
int

O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.

Valor padrão: None
failure_threshold
int

Quando um Pod é iniciado e a investigação de atividade falha, o Kubernetes tentará failureThreshold horários antes de desistir. O valor padrão é 3. O valor mínimo é 1.

Valor padrão: None
namespace
str

O namespace do Kubernetes no qual implantar este ponto de extremidade: até 63 caracteres alfanuméricos minúsculos ('a'-'z', '0'-'9') e hífen ('-'). O primeiro e o último caracteres não podem ser hifens.

Valor padrão: None
token_auth_enabled

Se deseja ou não habilitar a autenticação de token para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse ponto de extremidade buscando o token de acesso usando suas credenciais do Azure Active Directory. Usa False como padrão.

Valor padrão: None
version_name
str

O nome da versão em um ponto de extremidade.

Valor padrão: None
traffic_percentile

a quantidade de tráfego que a versão usa em um ponto de extremidade.

Valor padrão: None
compute_target_name
str

O nome do destino de computação para o qual implantar

Valor padrão: None
cpu_cores_limit

O número máximo de núcleos de cpu que este serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None
memory_gb_limit

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None

Retornos

Tipo Description

Exceções

Tipo Description

serialize

Converta esse serviço Web em um dicionário serializado JSON.

serialize()

Retornos

Tipo Description

A representação JSON deste serviço Web.

update

Atualize o Ponto de Extremidade com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados neste ponto de extremidade

update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)

Parâmetros

Nome Description
auth_enabled

Se deseja ou não habilitar a autenticação de chave para esta versão em um ponto de extremidade. O padrão é True.

Valor padrão: None
token_auth_enabled

Se deseja ou não habilitar a autenticação de token para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse ponto de extremidade buscando o token de acesso usando suas credenciais do Azure Active Directory. Usa False como padrão.

Valor padrão: None
enable_app_insights

Se deseja ou não habilitar o registro em log do Application Insights para esta versão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
description
str

Uma descrição para dar esse ponto de extremidade.

Valor padrão: None
tags

Dicionário de marcas de valor de chave para fornecer esse ponto de extremidade.

Valor padrão: None
properties

Dicionário de propriedades de valor de chave para fornecer esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de valor de chave podem ser adicionados.

Valor padrão: None

Exceções

Tipo Description

update_version

Atualize uma versão existente em um Ponto de Extremidade com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados nesta versão.

update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

Nome Description
version_name
Obrigatório
str

O nome da versão em um ponto de extremidade.

autoscale_enabled

Se deseja ou não habilitar o dimensionamento automático para esta versão em um ponto de extremidade. O padrão será True se num_replicas for None.

Valor padrão: None
autoscale_min_replicas
int

O número mínimo de contêineres a serem usados ao dimensionar automaticamente essa versão em um ponto de extremidade. O valor padrão é 1.

Valor padrão: None
autoscale_max_replicas
int

O número máximo de contêineres a serem usados ao dimensionar automaticamente essa versão em um ponto de extremidade. O padrão é 10.

Valor padrão: None
autoscale_refresh_seconds
int

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O padrão é 1

Valor padrão: None
autoscale_target_utilization
int

A utilização de destino (em porcentagem de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O padrão é 70.

Valor padrão: None
collect_model_data

Se deseja ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
cpu_cores

O número de núcleos de cpu a serem alocados para essa versão em um ponto de extremidade. Pode ser um decimal. O padrão é 0.1

Valor padrão: None
memory_gb

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O padrão é 0,5

Valor padrão: None
scoring_timeout_ms
int

Um tempo limite a ser aplicado para a pontuação de chamadas para esta versão em um ponto de extremidade. O padrão é 60000.

Valor padrão: None
replica_max_concurrent_requests
int

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere essa configuração do valor padrão de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

Valor padrão: None
max_request_wait_time
int

O tempo máximo que uma solicitação permanecerá na fila (em milissegundos) antes de retornar um erro 503. O padrão é 500.

Valor padrão: None
num_replicas
int

O número de contêineres a serem alocados para essa versão em um ponto de extremidade. Sem padrão, se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

Valor padrão: None
tags

Dicionário de marcas de valor de chave para fornecer esse ponto de extremidade.

Valor padrão: None
properties

Dicionário de propriedades de valor de chave para fornecer esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de valor de chave podem ser adicionados.

Valor padrão: None
description
str

Uma descrição para dar a este ponto de extremidade

Valor padrão: None
models

Uma lista de objetos Model a serem empacotados com o serviço atualizado

Valor padrão: None
inference_config

Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.

Valor padrão: None
gpu_cores
int

O número de núcleos de GPU a serem alocados para essa versão em um ponto de extremidade. O valor padrão é 0.

Valor padrão: None
period_seconds
int

A frequência (em segundos) para realizar a investigação de atividade. Padrão para 10 segundos. O valor mínimo é 1.

Valor padrão: None
initial_delay_seconds
int

O número de segundos após o início do contêiner antes do início das investigações de vida. O padrão é 310.

Valor padrão: None
timeout_seconds
int

O número de segundos após o qual a investigação de vida atinge o tempo limite. O padrão é 2 segundos. O valor mínimo é 1.

Valor padrão: None
success_threshold
int

Os mínimos sucessos consecutivos para que a investigação de vida seja considerada bem-sucedida após ter falhado. O valor padrão é 1. O valor mínimo é 1.

Valor padrão: None
failure_threshold
int

Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará o failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.

Valor padrão: None
traffic_percentile

A quantidade de tráfego que a versão usa em um ponto de extremidade.

Valor padrão: None
is_default

Se deseja ou não tornar essa versão como versão padrão em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
is_control_version_type

Se essa versão deve ou não ser usada como versão de controle em um ponto de extremidade. Usa False como padrão.

Valor padrão: None
cpu_cores_limit

O número máximo de núcleos de cpu que este serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None
memory_gb_limit

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Valor padrão: None

Exceções

Tipo Description