Compartilhar via


AksEndpoint Classe

Observação

Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Representa uma coleção de versões de serviço Web por trás do mesmo ponto de extremidade em execução no Serviço de Kubernetes do Azure.

Enquanto um AksWebservice implanta apenas um serviço com apenas um ponto de extremidade de pontuação, a classe AksEndpoint permite implantar várias versões de serviço Web no mesmo ponto de extremidade de pontuação. Cada versão de serviço Web pode ser configurada para atender a uma porcentagem do tráfego para que você possa implantar modelos de maneira controlada, por exemplo, para testes A/B. O AksEndpoint permite a implantação de um objeto de modelo semelhante ao AksWebservice.

Inicialize a instância de serviço Web.

O construtor de serviço Web recupera uma representação na nuvem de um objeto de serviço Web associado ao workspace fornecido. Ele retornará uma instância de uma classe filho correspondente ao tipo específico do objeto de serviço Web recuperado.

Herança
AksEndpoint

Construtor

AksEndpoint(workspace, name)

Parâmetros

workspace
Workspace
Obrigatório

O objeto de workspace que contém o objeto de serviço Web a ser recuperado.

name
str
Obrigatório

O nome do objeto de serviço Web a ser recuperado.

Variáveis

versions
dict[str, AksWebservice]

Um dicionário do nome da versão para o objeto de versão. Contém todas as versões implantadas como parte desse ponto de extremidade.

Métodos

create_version

Adiciona uma nova versão em um ponto de extremidade com as propriedades fornecidas.

delete_version

Exclui uma versão em um ponto de extremidade.

deploy_configuration

Cria um objeto de configuração para implantação em um destino de computação do AKS.

serialize

Converte esse serviço Web em um dicionário serializado JSON.

update

Atualiza o ponto de extremidade com as propriedades fornecidas.

Os valores deixados como None permanecerão inalterados neste ponto de extremidade

update_version

Atualiza uma versão existente em um ponto de extremidade com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados nesta versão.

create_version

Adiciona uma nova versão em um ponto de extremidade com as propriedades fornecidas.

create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

version_name
str
Obrigatório

O nome da versão a ser acrescentada em um ponto de extremidade.

autoscale_enabled
bool
valor padrão: None

Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade. O padrão será True se num_replicas for Nenhum.

autoscale_min_replicas
int
valor padrão: None

O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1

autoscale_max_replicas
int
valor padrão: None

O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10

autoscale_refresh_seconds
int
valor padrão: None

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1

autoscale_target_utilization
int
valor padrão: None

A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70

collect_model_data
bool
valor padrão: None

Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão

cpu_cores
float
valor padrão: None

O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1

memory_gb
float
valor padrão: None

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5

scoring_timeout_ms
int
valor padrão: None

Um tempo de execução para impor a pontuação de chamadas para essa versão em um ponto de extremidade. O valor padrão é 60000.

replica_max_concurrent_requests
int
valor padrão: None

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

max_request_wait_time
int
valor padrão: None

A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.

num_replicas
int
valor padrão: None

O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

tags
dict[str, str]
valor padrão: None

Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.

properties
dict[str, str]
valor padrão: None

Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.

description
str
valor padrão: None

Uma descrição para dar a esse ponto de extremidade.

models
list[Model]
valor padrão: None

Uma lista de objetos Modelo para pacote com o serviço atualizado.

inference_config
InferenceConfig
valor padrão: None

Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.

gpu_cores
int
valor padrão: None

O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.

period_seconds
int
valor padrão: None

A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.

initial_delay_seconds
int
valor padrão: None

O número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.

timeout_seconds
int
valor padrão: None

O número de segundos após os quais a investigação de atividade atinge o tempo limite. O valor padrão é 2 segundos. O valor mínimo é 1.

success_threshold
int
valor padrão: None

O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.

failure_threshold
int
valor padrão: None

Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará o failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.

traffic_percentile
float
valor padrão: None

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

is_default
bool
valor padrão: None

Se esta versão deve ou não ser a versão padrão em um ponto de extremidade. Usa False como padrão.

is_control_version_type
bool
valor padrão: None

Se esta versão deve ou não ser uma versão de controle em um ponto de extremidade. Usa False como padrão.

cpu_cores_limit
float
valor padrão: None

O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.

memory_gb_limit
float
valor padrão: None

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Exceções

delete_version

Exclui uma versão em um ponto de extremidade.

delete_version(version_name)

Parâmetros

version_name
str
Obrigatório

O nome da versão em um ponto de extremidade a ser excluído.

Exceções

deploy_configuration

Cria um objeto de configuração para implantação em um destino de computação do AKS.

static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

autoscale_enabled
bool
valor padrão: None

Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade. O padrão será True se num_replicas for Nenhum.

autoscale_min_replicas
int
valor padrão: None

O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1.

autoscale_max_replicas
int
valor padrão: None

O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10.

autoscale_refresh_seconds
int
valor padrão: None

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1.

autoscale_target_utilization
int
valor padrão: None

A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70.

collect_model_data
bool
valor padrão: None

Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão.

auth_enabled
bool
valor padrão: None

Se deve ou não habilitar a autenticação de chave para esta versão em um ponto de extremidade. O padrão é True.

cpu_cores
float
valor padrão: None

O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1

memory_gb
float
valor padrão: None

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5

enable_app_insights
bool
valor padrão: None

Se deve ou não habilitar o log do ApplicationInsights para esta versão em um ponto de extremidade. Usa False como padrão.

scoring_timeout_ms
int
valor padrão: None

Um tempo de vida para impor chamadas de pontuação a essa versão em um ponto de extremidade. O valor padrão é 60000

replica_max_concurrent_requests
int
valor padrão: None

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

max_request_wait_time
int
valor padrão: None

A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.

num_replicas
int
valor padrão: None

O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

primary_key
str
valor padrão: None

Uma chave de autenticação primária a ser usada para este ponto de extremidade.

secondary_key
str
valor padrão: None

Uma chave de autenticação secundária a ser usada para este ponto de extremidade.

tags
dict[str, str]
valor padrão: None

Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.

properties
dict[str, str]
valor padrão: None

Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados

description
str
valor padrão: None

Uma descrição para dar a esse ponto de extremidade.

gpu_cores
int
valor padrão: None

O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.

period_seconds
int
valor padrão: None

A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.

initial_delay_seconds
int
valor padrão: None

Número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.

timeout_seconds
int
valor padrão: None

Número de segundos após os quais a investigação de atividade expira. O valor padrão é 2 segundo. O valor mínimo é 1.

success_threshold
int
valor padrão: None

O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.

failure_threshold
int
valor padrão: None

Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.

namespace
str
valor padrão: None

O namespace do Kubernetes no qual implantar este Ponto de extremidade: até 63 caracteres alfanuméricos minúsculos ('a'-'z', '0'-'9') e hífen ('-'). O primeiro e o último caracteres não podem ser hifens.

token_auth_enabled
bool
valor padrão: None

Se deve ou não habilitar a autenticação de Token para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse ponto de extremidade buscando o token de acesso usando suas credenciais do Azure Active Directory. Usa False como padrão.

version_name
str
valor padrão: None

O nome da versão em um ponto de extremidade.

traffic_percentile
float
valor padrão: None

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

compute_target_name
str
valor padrão: None

O nome do destino de computação a ser implantado

cpu_cores_limit
float
valor padrão: None

O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.

memory_gb_limit
float
valor padrão: None

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Tipo de retorno

Exceções

serialize

Converte esse serviço Web em um dicionário serializado JSON.

serialize()

Retornos

A representação JSON desse serviço Web.

Tipo de retorno

Exceções

update

Atualiza o ponto de extremidade com as propriedades fornecidas.

Os valores deixados como None permanecerão inalterados neste ponto de extremidade

update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)

Parâmetros

auth_enabled
bool
valor padrão: None

Se deve ou não habilitar a autenticação de chave para esta versão em um ponto de extremidade. O padrão é True.

token_auth_enabled
bool
valor padrão: None

Se deve ou não habilitar a autenticação de Token para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse ponto de extremidade buscando o token de acesso usando suas credenciais do Azure Active Directory. Usa False como padrão.

enable_app_insights
bool
valor padrão: None

Se deve ou não habilitar o log do Application Insights para esta versão em um ponto de extremidade. Usa False como padrão.

description
str
valor padrão: None

Uma descrição para dar a esse ponto de extremidade.

tags
dict[str, str]
valor padrão: None

Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.

properties
dict[str, str]
valor padrão: None

Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.

Exceções

update_version

Atualiza uma versão existente em um ponto de extremidade com as propriedades fornecidas.

Os valores deixados como Nenhum permanecerão inalterados nesta versão.

update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parâmetros

version_name
str
Obrigatório

O nome da versão em um ponto de extremidade.

autoscale_enabled
bool
valor padrão: None

Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade. O valor padrão será True se num_replicas for None.

autoscale_min_replicas
int
valor padrão: None

O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1.

autoscale_max_replicas
int
valor padrão: None

O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10.

autoscale_refresh_seconds
int
valor padrão: None

Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1

autoscale_target_utilization
int
valor padrão: None

A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70.

collect_model_data
bool
valor padrão: None

Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão.

cpu_cores
float
valor padrão: None

O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1

memory_gb
float
valor padrão: None

A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5

scoring_timeout_ms
int
valor padrão: None

Um tempo de execução para impor a pontuação de chamadas para essa versão em um ponto de extremidade. O valor padrão é 60000.

replica_max_concurrent_requests
int
valor padrão: None

O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.

max_request_wait_time
int
valor padrão: None

A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.

num_replicas
int
valor padrão: None

O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.

tags
dict[str, str]
valor padrão: None

Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.

properties
dict[str, str]
valor padrão: None

Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.

description
str
valor padrão: None

Uma descrição para dar a esse ponto de extremidade

models
list[Model]
valor padrão: None

Uma lista de objetos Modelo para pacote com o serviço atualizado

inference_config
InferenceConfig
valor padrão: None

Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.

gpu_cores
int
valor padrão: None

O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.

period_seconds
int
valor padrão: None

A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.

initial_delay_seconds
int
valor padrão: None

O número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.

timeout_seconds
int
valor padrão: None

O número de segundos após os quais a investigação de atividade atinge o tempo limite. O valor padrão é 2 segundos. O valor mínimo é 1.

success_threshold
int
valor padrão: None

O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.

failure_threshold
int
valor padrão: None

Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará o failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.

traffic_percentile
float
valor padrão: None

A quantidade de tráfego que a versão recebe em um ponto de extremidade.

is_default
bool
valor padrão: None

Se esta versão deve ou não ser a versão padrão em um ponto de extremidade. Usa False como padrão.

is_control_version_type
bool
valor padrão: None

Se esta versão deve ou não ser uma versão de controle em um ponto de extremidade. Usa False como padrão.

cpu_cores_limit
float
valor padrão: None

O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.

memory_gb_limit
float
valor padrão: None

A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.

Exceções