AksEndpoint Classe
Observação
Essa é uma classe experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.
Representa uma coleção de versões de serviço Web por trás do mesmo ponto de extremidade em execução no Serviço de Kubernetes do Azure.
Enquanto um AksWebservice implanta apenas um serviço com apenas um ponto de extremidade de pontuação, a classe AksEndpoint permite implantar várias versões de serviço Web no mesmo ponto de extremidade de pontuação. Cada versão de serviço Web pode ser configurada para atender a uma porcentagem do tráfego para que você possa implantar modelos de maneira controlada, por exemplo, para testes A/B. O AksEndpoint permite a implantação de um objeto de modelo semelhante ao AksWebservice.
Inicialize a instância de serviço Web.
O construtor de serviço Web recupera uma representação na nuvem de um objeto de serviço Web associado ao workspace fornecido. Ele retornará uma instância de uma classe filho correspondente ao tipo específico do objeto de serviço Web recuperado.
- Herança
-
AksEndpoint
Construtor
AksEndpoint(workspace, name)
Parâmetros
- workspace
- Workspace
O objeto de workspace que contém o objeto de serviço Web a ser recuperado.
Variáveis
- versions
- dict[str, AksWebservice]
Um dicionário do nome da versão para o objeto de versão. Contém todas as versões implantadas como parte desse ponto de extremidade.
Métodos
create_version |
Adiciona uma nova versão em um ponto de extremidade com as propriedades fornecidas. |
delete_version |
Exclui uma versão em um ponto de extremidade. |
deploy_configuration |
Cria um objeto de configuração para implantação em um destino de computação do AKS. |
serialize |
Converte esse serviço Web em um dicionário serializado JSON. |
update |
Atualiza o ponto de extremidade com as propriedades fornecidas. Os valores deixados como None permanecerão inalterados neste ponto de extremidade |
update_version |
Atualiza uma versão existente em um ponto de extremidade com as propriedades fornecidas. Os valores deixados como Nenhum permanecerão inalterados nesta versão. |
create_version
Adiciona uma nova versão em um ponto de extremidade com as propriedades fornecidas.
create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)
Parâmetros
- autoscale_enabled
- bool
Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade.
O padrão será True se num_replicas
for Nenhum.
- autoscale_min_replicas
- int
O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1
- autoscale_max_replicas
- int
O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10
- autoscale_refresh_seconds
- int
Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1
- autoscale_target_utilization
- int
A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70
- collect_model_data
- bool
Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão
- cpu_cores
- float
O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1
- memory_gb
- float
A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5
- scoring_timeout_ms
- int
Um tempo de execução para impor a pontuação de chamadas para essa versão em um ponto de extremidade. O valor padrão é 60000.
- replica_max_concurrent_requests
- int
O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.
- max_request_wait_time
- int
A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.
- num_replicas
- int
O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.
Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.
Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.
Uma lista de objetos Modelo para pacote com o serviço atualizado.
- inference_config
- InferenceConfig
Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.
- gpu_cores
- int
O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.
- period_seconds
- int
A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.
- initial_delay_seconds
- int
O número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.
- timeout_seconds
- int
O número de segundos após os quais a investigação de atividade atinge o tempo limite. O valor padrão é 2 segundos. O valor mínimo é 1.
- success_threshold
- int
O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.
- failure_threshold
- int
Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará o failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.
- traffic_percentile
- float
A quantidade de tráfego que a versão recebe em um ponto de extremidade.
- is_default
- bool
Se esta versão deve ou não ser a versão padrão em um ponto de extremidade. Usa False como padrão.
- is_control_version_type
- bool
Se esta versão deve ou não ser uma versão de controle em um ponto de extremidade. Usa False como padrão.
- cpu_cores_limit
- float
O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.
- memory_gb_limit
- float
A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.
Exceções
delete_version
Exclui uma versão em um ponto de extremidade.
delete_version(version_name)
Parâmetros
Exceções
deploy_configuration
Cria um objeto de configuração para implantação em um destino de computação do AKS.
static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)
Parâmetros
- autoscale_enabled
- bool
Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade.
O padrão será True se num_replicas
for Nenhum.
- autoscale_min_replicas
- int
O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1.
- autoscale_max_replicas
- int
O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10.
- autoscale_refresh_seconds
- int
Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1.
- autoscale_target_utilization
- int
A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70.
- collect_model_data
- bool
Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão.
- auth_enabled
- bool
Se deve ou não habilitar a autenticação de chave para esta versão em um ponto de extremidade. O padrão é True.
- cpu_cores
- float
O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1
- memory_gb
- float
A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5
- enable_app_insights
- bool
Se deve ou não habilitar o log do ApplicationInsights para esta versão em um ponto de extremidade. Usa False como padrão.
- scoring_timeout_ms
- int
Um tempo de vida para impor chamadas de pontuação a essa versão em um ponto de extremidade. O valor padrão é 60000
- replica_max_concurrent_requests
- int
O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.
- max_request_wait_time
- int
A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.
- num_replicas
- int
O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.
- primary_key
- str
Uma chave de autenticação primária a ser usada para este ponto de extremidade.
- secondary_key
- str
Uma chave de autenticação secundária a ser usada para este ponto de extremidade.
Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.
Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados
- gpu_cores
- int
O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.
- period_seconds
- int
A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.
- initial_delay_seconds
- int
Número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.
- timeout_seconds
- int
Número de segundos após os quais a investigação de atividade expira. O valor padrão é 2 segundo. O valor mínimo é 1.
- success_threshold
- int
O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.
- failure_threshold
- int
Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará failureThreshold
vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.
- namespace
- str
O namespace do Kubernetes no qual implantar este Ponto de extremidade: até 63 caracteres alfanuméricos minúsculos ('a'-'z', '0'-'9') e hífen ('-'). O primeiro e o último caracteres não podem ser hifens.
- token_auth_enabled
- bool
Se deve ou não habilitar a autenticação de Token para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse ponto de extremidade buscando o token de acesso usando suas credenciais do Azure Active Directory. Usa False como padrão.
- traffic_percentile
- float
A quantidade de tráfego que a versão recebe em um ponto de extremidade.
- cpu_cores_limit
- float
O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.
- memory_gb_limit
- float
A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.
Tipo de retorno
Exceções
serialize
Converte esse serviço Web em um dicionário serializado JSON.
serialize()
Retornos
A representação JSON desse serviço Web.
Tipo de retorno
Exceções
update
Atualiza o ponto de extremidade com as propriedades fornecidas.
Os valores deixados como None permanecerão inalterados neste ponto de extremidade
update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)
Parâmetros
- auth_enabled
- bool
Se deve ou não habilitar a autenticação de chave para esta versão em um ponto de extremidade. O padrão é True.
- token_auth_enabled
- bool
Se deve ou não habilitar a autenticação de Token para este ponto de extremidade. Se isso estiver habilitado, os usuários poderão acessar esse ponto de extremidade buscando o token de acesso usando suas credenciais do Azure Active Directory. Usa False como padrão.
- enable_app_insights
- bool
Se deve ou não habilitar o log do Application Insights para esta versão em um ponto de extremidade. Usa False como padrão.
Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.
Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.
Exceções
update_version
Atualiza uma versão existente em um ponto de extremidade com as propriedades fornecidas.
Os valores deixados como Nenhum permanecerão inalterados nesta versão.
update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)
Parâmetros
- autoscale_enabled
- bool
Se deve ou não habilitar o cálculo automático para esta versão em um ponto de extremidade. O valor padrão será True se num_replicas for None.
- autoscale_min_replicas
- int
O número mínimo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 1.
- autoscale_max_replicas
- int
O número máximo de contêineres a ser usado ao fazer o cálculo automático dessa versão em um ponto de extremidade. O valor padrão é 10.
- autoscale_refresh_seconds
- int
Com que frequência o dimensionador automático deve tentar dimensionar essa versão em um ponto de extremidade. O valor padrão é 1
- autoscale_target_utilization
- int
A utilização de destino (em percentual de 100) que o dimensionador automático deve tentar manter para essa versão em um ponto de extremidade. O valor padrão é 70.
- collect_model_data
- bool
Se deve ou não habilitar a coleta de dados de modelo para esta versão em um ponto de extremidade. Usa False como padrão.
- cpu_cores
- float
O número de núcleos de CPU a alocar para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,1
- memory_gb
- float
A quantidade de memória (em GB) a ser alocada para essa versão em um ponto de extremidade. Pode ser um decimal. O valor padrão é 0,5
- scoring_timeout_ms
- int
Um tempo de execução para impor a pontuação de chamadas para essa versão em um ponto de extremidade. O valor padrão é 60000.
- replica_max_concurrent_requests
- int
O número máximo de solicitações simultâneas por réplica para permitir essa versão em um ponto de extremidade. O valor padrão é 1. Não altere o valor padrão 1 dessa configuração, a menos que seja instruído pelo suporte técnico da Microsoft ou por um membro da equipe do Azure Machine Learning.
- max_request_wait_time
- int
A quantidade máxima de tempo que uma solicitação permanece na fila (em milissegundos) antes de retornar um erro 503. O valor padrão é 500.
- num_replicas
- int
O número de contêineres a alocar para essa versão em um ponto de extremidade. Não há valor padrão. Se esse parâmetro não for definido, o dimensionador automático será habilitado por padrão.
Dicionário de marcas de valor de chave para dar a esse ponto de extremidade.
Dicionário de propriedades de valor de chave para dar a esse ponto de extremidade. Essas propriedades não podem ser alteradas após a implantação, no entanto, novos pares de chave/valor podem ser adicionados.
Uma lista de objetos Modelo para pacote com o serviço atualizado
- inference_config
- InferenceConfig
Um objeto InferenceConfig usado para fornecer as propriedades de implantação de modelo necessárias.
- gpu_cores
- int
O número de núcleos de GPU a alocar para essa versão em um ponto de extremidade. Assume o padrão de 0.
- period_seconds
- int
A frequência (em segundos) para realizar a investigação de atividade. O padrão é 10 segundos. O valor mínimo é 1.
- initial_delay_seconds
- int
O número de segundos depois que o contêiner é iniciado antes que as investigações de atividade sejam iniciadas. O valor padrão é 310.
- timeout_seconds
- int
O número de segundos após os quais a investigação de atividade atinge o tempo limite. O valor padrão é 2 segundos. O valor mínimo é 1.
- success_threshold
- int
O mínimo de sucessos consecutivos para que a investigação de atividade seja considerada bem-sucedida após apresentar falha. O valor padrão é 1. O valor mínimo é 1.
- failure_threshold
- int
Quando um pod for iniciado e a investigação de atividade falhar, o Kubernetes tentará o failureThreshold vezes antes de desistir. O valor padrão é 3. O valor mínimo é 1.
- traffic_percentile
- float
A quantidade de tráfego que a versão recebe em um ponto de extremidade.
- is_default
- bool
Se esta versão deve ou não ser a versão padrão em um ponto de extremidade. Usa False como padrão.
- is_control_version_type
- bool
Se esta versão deve ou não ser uma versão de controle em um ponto de extremidade. Usa False como padrão.
- cpu_cores_limit
- float
O número máximo de núcleos de CPU que esse serviço Web tem permissão para usar. Pode ser um decimal.
- memory_gb_limit
- float
A quantidade máxima de memória (em GB) que esse serviço Web tem permissão para usar. Pode ser um decimal.
Exceções
Comentários
https://aka.ms/ContentUserFeedback.
Em breve: Ao longo de 2024, eliminaremos os problemas do GitHub como o mecanismo de comentários para conteúdo e o substituiremos por um novo sistema de comentários. Para obter mais informações, consulteEnviar e exibir comentários de