AksEndpoint Classe
Nota
Esta é uma classe experimental e pode mudar em qualquer altura. Para obter mais informações, veja https://aka.ms/azuremlexperimental.
Representa uma coleção de versões de serviço Web por trás do mesmo ponto final em execução no Azure Kubernetes Service.
Enquanto um AksWebservice implementa um único serviço com um único ponto final de classificação, a classe AksEndpoint permite-lhe implementar várias versões de serviço Web atrás do mesmo ponto final de classificação. Cada versão do serviço Web pode ser configurada para servir uma percentagem do tráfego para que possa implementar modelos de forma controlada, por exemplo, para testes A/B. O AksEndpoint permite a implementação a partir de um objeto de modelo semelhante ao AksWebservice.
Inicialize a instância do Webservice.
O construtor webservice obtém uma representação na cloud de um objeto Webservice associado à área de trabalho fornecida. Devolverá uma instância de uma classe subordinada correspondente ao tipo específico do objeto Webservice obtido.
- Herança
-
AksEndpoint
Construtor
AksEndpoint(workspace, name)
Parâmetros
Variáveis
- versions
- dict[str, AksWebservice]
Um dicionário do nome da versão para o objeto de versão. Contém todas as versões implementadas como parte deste Ponto Final.
Métodos
create_version |
Adicione uma nova versão num Ponto Final com propriedades fornecidas. |
delete_version |
Eliminar uma versão num Ponto Final. |
deploy_configuration |
Crie um objeto de configuração para implementar num destino de computação do AKS. |
serialize |
Converta este Webservice num dicionário serializado JSON. |
update |
Atualize o Ponto Final com as propriedades fornecidas. Os valores deixados como Nenhum permanecerão inalterados neste Ponto Final |
update_version |
Atualize uma versão existente num Ponto Final com as propriedades fornecidas. Os valores deixados como Nenhum permanecerão inalterados nesta versão. |
create_version
Adicione uma nova versão num Ponto Final com propriedades fornecidas.
create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)
Parâmetros
- autoscale_enabled
- bool
Quer ative ou não o dimensionamento automático para esta versão num Ponto Final.
A predefinição é Verdadeiro se num_replicas
for Nenhuma.
- autoscale_min_replicas
- int
O número mínimo de contentores a utilizar ao dimensionar automaticamente esta versão num Ponto Final. Predefinições para 1
- autoscale_max_replicas
- int
O número máximo de contentores a utilizar ao dimensionar automaticamente esta versão num Ponto Final. Predefinições para 10
- autoscale_refresh_seconds
- int
Com que frequência o dimensionador automático deve tentar dimensionar esta versão num Ponto Final. Predefinições para 1
- autoscale_target_utilization
- int
A utilização de destino (em percentagem em 100) que o dimensionador automático deve tentar manter para esta versão num Ponto Final. Predefinições para 70
- collect_model_data
- bool
Quer ative ou não a recolha de dados de modelos para esta versão num Ponto Final. Predefinições para Falso
- cpu_cores
- float
O número de núcleos de CPU a alocar para esta versão num Ponto Final. Pode ser um decimal. Predefinições para 0.1
- memory_gb
- float
A quantidade de memória (em GB) a alocar para esta versão num Ponto Final. Pode ser um decimal. Predefinições para 0,5
- scoring_timeout_ms
- int
Um tempo limite para impor chamadas de classificação para esta versão num Ponto Final. A predefinição é 60000.
- replica_max_concurrent_requests
- int
O número máximo de pedidos simultâneos por réplica para permitir esta versão num Ponto Final. A predefinição é 1. Não altere esta definição do valor predefinido de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipa do Azure Machine Learning.
- max_request_wait_time
- int
A quantidade máxima de tempo que um pedido permanecerá na fila (em milissegundos) antes de devolver um erro 503. A predefinição é 500.
- num_replicas
- int
O número de contentores a alocar para esta versão num Ponto Final. Sem predefinição, se este parâmetro não estiver definido, o dimensionador automático está ativado por predefinição.
Dicionário de etiquetas de valor chave para dar este Ponto Final.
Dicionário de propriedades de valor chave para dar este Ponto Final. Estas propriedades não podem ser alteradas após a implementação, no entanto, podem ser adicionados novos pares de valores chave.
Uma lista de objetos de Modelo para empacotar com o serviço atualizado.
- inference_config
- InferenceConfig
Um objeto InferenceConfig utilizado para fornecer as propriedades de implementação do modelo necessárias.
- gpu_cores
- int
O número de núcleos gpu a alocar para esta versão num Ponto Final. A predefinição é 0.
- period_seconds
- int
Com que frequência (em segundos) executar a sonda liveness. Predefinição para 10 segundos. O valor mínimo é 1.
- initial_delay_seconds
- int
O número de segundos após o início do contentor antes de as sondas liveness serem iniciadas. A predefinição é 310.
- timeout_seconds
- int
O número de segundos após o qual a sonda de liveness excede o limite de tempo. A predefinição é de 2 segundos. O valor mínimo é 1.
- success_threshold
- int
Os êxitos mínimos consecutivos para a sonda de liveness serem considerados bem-sucedidos depois de terem falhado. A predefinição é 1. O valor mínimo é 1.
- failure_threshold
- int
Quando um Pod é iniciado e a sonda liveness falha, o Kubernetes tentará falharTestenha tempos antes de desistir. A predefinição é 3. O valor mínimo é 1.
- traffic_percentile
- float
A quantidade de tráfego que a versão utiliza num ponto final.
- is_default
- bool
Se pretende ou não tornar esta versão como versão predefinida num Ponto Final. Predefinições para Falso.
- is_control_version_type
- bool
Quer esta versão seja ou não uma versão de controlo num Ponto Final. Predefinições para Falso.
- cpu_cores_limit
- float
O número máximo de núcleos de cpu que este Webservice pode utilizar. Pode ser um decimal.
- memory_gb_limit
- float
A quantidade máxima de memória (em GB) que este Webservice pode utilizar. Pode ser um decimal.
Exceções
delete_version
Eliminar uma versão num Ponto Final.
delete_version(version_name)
Parâmetros
Exceções
deploy_configuration
Crie um objeto de configuração para implementar num destino de computação do AKS.
static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)
Parâmetros
- autoscale_enabled
- bool
Se pretende ativar ou não o dimensionamento automático para esta versão num Ponto Final.
A predefinição é Verdadeiro se num_replicas
for Nenhum.
- autoscale_min_replicas
- int
O número mínimo de contentores a utilizar ao dimensionar automaticamente esta versão num Ponto Final. A predefinição é 1.
- autoscale_max_replicas
- int
O número máximo de contentores a utilizar ao dimensionar automaticamente esta versão num Ponto Final. A predefinição é 10.
- autoscale_refresh_seconds
- int
Com que frequência o dimensionador automático deve tentar dimensionar esta versão num Ponto Final. A predefinição é 1.
- autoscale_target_utilization
- int
A utilização de destino (em percentagem de 100) que o dimensionador automático deve tentar manter para esta versão num Ponto Final. A predefinição é 70.
- collect_model_data
- bool
Ativar ou não a recolha de dados de modelos para esta versão num Ponto Final. A predefinição é Falso.
- auth_enabled
- bool
Se pretende ativar ou não a autenticação de chave para esta versão num Ponto Final. A predefinição é Verdadeiro.
- cpu_cores
- float
O número de núcleos de cpu a alocar para esta versão num Ponto Final. Pode ser um decimal. Predefinições para 0.1
- memory_gb
- float
A quantidade de memória (em GB) a alocar para esta versão num Ponto Final. Pode ser um decimal. Predefinições para 0,5
- enable_app_insights
- bool
Se pretende ativar ou não o registo do ApplicationInsights para esta versão num Ponto Final. A predefinição é Falso.
- scoring_timeout_ms
- int
Um tempo limite para impor chamadas de classificação para esta versão num Ponto Final. Predefinições para 60000
- replica_max_concurrent_requests
- int
O número máximo de pedidos simultâneos por réplica para permitir esta versão num Ponto Final. A predefinição é 1. Não altere esta definição do valor predefinido de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipa do Azure Machine Learning.
- max_request_wait_time
- int
A quantidade máxima de tempo que um pedido permanecerá na fila (em milissegundos) antes de devolver um erro 503. A predefinição é 500.
- num_replicas
- int
O número de contentores a alocar para esta versão num Ponto Final. Sem predefinição, se este parâmetro não estiver definido, o dimensionador automático está ativado por predefinição.
- primary_key
- str
Uma chave de autenticação primária a utilizar para este Ponto Final.
- secondary_key
- str
Uma chave de autenticação secundária a utilizar para este Ponto Final.
Dicionário de etiquetas de valor de chave para dar este Ponto Final.
Dicionário de propriedades de valor de chave para dar este Ponto Final. Estas propriedades não podem ser alteradas após a implementação, no entanto, podem ser adicionados novos pares de valores chave
- gpu_cores
- int
O número de núcleos de GPU a alocar para esta versão num Ponto Final. A predefinição é 0.
- period_seconds
- int
Com que frequência (em segundos) executar a sonda liveness. Predefinição para 10 segundos. O valor mínimo é 1.
- initial_delay_seconds
- int
Número de segundos após o início do contentor antes de as pesquisas de liveness serem iniciadas. A predefinição é 310.
- timeout_seconds
- int
Número de segundos após o qual a sonda de liveness excede o tempo limite. A predefinição é de 2 segundos. O valor mínimo é 1.
- success_threshold
- int
Êxitos mínimos consecutivos para que a sonda liveness seja considerada bem-sucedida depois de ter falhado. A predefinição é 1. O valor mínimo é 1.
- failure_threshold
- int
Quando um Pod é iniciado e a sonda liveness falha, o Kubernetes tenta failureThreshold
horas antes de desistir. A predefinição é 3. O valor mínimo é 1.
- namespace
- str
O espaço de nomes do Kubernetes no qual pretende implementar este Ponto Final: até 63 carateres alfanuméricos em minúsculas ('a'-'z', '0'-'9') e hífen ('-'). O primeiro e o último carateres não podem ser hífenes.
- token_auth_enabled
- bool
Quer ative ou não a autenticação do Token para este Ponto Final. Se esta opção estiver ativada, os utilizadores podem aceder a este Ponto Final ao obter o token de acesso com as respetivas credenciais do Azure Active Directory. A predefinição é Falso.
- traffic_percentile
- float
a quantidade de tráfego que a versão recebe num ponto final.
- cpu_cores_limit
- float
O número máximo de núcleos de cpu que este Webservice tem permissão para utilizar. Pode ser um decimal.
- memory_gb_limit
- float
A quantidade máxima de memória (em GB) que este Webservice tem permissão para utilizar. Pode ser um decimal.
Tipo de retorno
Exceções
serialize
Converta este Webservice num dicionário serializado JSON.
serialize()
Devoluções
A representação JSON deste Webservice.
Tipo de retorno
Exceções
update
Atualize o Ponto Final com as propriedades fornecidas.
Os valores deixados como Nenhum permanecerão inalterados neste Ponto Final
update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)
Parâmetros
- auth_enabled
- bool
Se pretende ativar ou não a autenticação de chave para esta versão num Ponto Final. A predefinição é Verdadeiro.
- token_auth_enabled
- bool
Quer ative ou não a autenticação do Token para este Ponto Final. Se esta opção estiver ativada, os utilizadores podem aceder a este Ponto Final ao obter o token de acesso com as respetivas credenciais do Azure Active Directory. A predefinição é Falso.
- enable_app_insights
- bool
Se pretende ativar ou não o registo do Application Insights para esta versão num Ponto Final. A predefinição é Falso.
Dicionário de etiquetas de valor de chave para dar este Ponto Final.
Dicionário de propriedades de valor de chave para dar este Ponto Final. Estas propriedades não podem ser alteradas após a implementação, no entanto, podem ser adicionados novos pares de valores chave.
Exceções
update_version
Atualize uma versão existente num Ponto Final com as propriedades fornecidas.
Os valores deixados como Nenhum permanecerão inalterados nesta versão.
update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)
Parâmetros
- autoscale_enabled
- bool
Se pretende ativar ou não o dimensionamento automático para esta versão num Ponto Final. A predefinição é Verdadeiro se num_replicas for Nenhum.
- autoscale_min_replicas
- int
O número mínimo de contentores a utilizar ao dimensionar automaticamente esta versão num Ponto Final. A predefinição é 1.
- autoscale_max_replicas
- int
O número máximo de contentores a utilizar ao dimensionar automaticamente esta versão num Ponto Final. A predefinição é 10.
- autoscale_refresh_seconds
- int
Com que frequência o dimensionador automático deve tentar dimensionar esta versão num Ponto Final. Predefinições para 1
- autoscale_target_utilization
- int
A utilização de destino (em percentagem de 100) que o dimensionador automático deve tentar manter para esta versão num Ponto Final. A predefinição é 70.
- collect_model_data
- bool
Ativar ou não a recolha de dados de modelos para esta versão num Ponto Final. A predefinição é Falso.
- cpu_cores
- float
O número de núcleos de cpu a alocar para esta versão num Ponto Final. Pode ser um decimal. Predefinições para 0.1
- memory_gb
- float
A quantidade de memória (em GB) a alocar para esta versão num Ponto Final. Pode ser um decimal. Predefinições para 0,5
- scoring_timeout_ms
- int
Um tempo limite para impor chamadas de classificação para esta versão num Ponto Final. A predefinição é 60000.
- replica_max_concurrent_requests
- int
O número máximo de pedidos simultâneos por réplica para permitir esta versão num Ponto Final. A predefinição é 1. Não altere esta definição do valor predefinido de 1, a menos que seja instruído pelo Suporte Técnico da Microsoft ou por um membro da equipa do Azure Machine Learning.
- max_request_wait_time
- int
A quantidade máxima de tempo que um pedido permanecerá na fila (em milissegundos) antes de devolver um erro 503. A predefinição é 500.
- num_replicas
- int
O número de contentores a alocar para esta versão num Ponto Final. Sem predefinição, se este parâmetro não estiver definido, o dimensionador automático está ativado por predefinição.
Dicionário de etiquetas de valor chave para dar este Ponto Final.
Dicionário de propriedades de valor chave para dar este Ponto Final. Estas propriedades não podem ser alteradas após a implementação, no entanto, podem ser adicionados novos pares de valores chave.
Uma lista de objetos de Modelo a empacotar com o serviço atualizado
- inference_config
- InferenceConfig
Um objeto InferenceConfig utilizado para fornecer as propriedades de implementação do modelo necessárias.
- gpu_cores
- int
O número de núcleos gpu a alocar para esta versão num Ponto Final. A predefinição é 0.
- period_seconds
- int
Com que frequência (em segundos) executar a sonda liveness. Predefinição para 10 segundos. O valor mínimo é 1.
- initial_delay_seconds
- int
O número de segundos após o início do contentor antes de as sondas liveness serem iniciadas. A predefinição é 310.
- timeout_seconds
- int
O número de segundos após o qual a sonda de liveness excede o limite de tempo. A predefinição é de 2 segundos. O valor mínimo é 1.
- success_threshold
- int
Os êxitos mínimos consecutivos para a sonda de liveness serem considerados bem-sucedidos depois de terem falhado. A predefinição é 1. O valor mínimo é 1.
- failure_threshold
- int
Quando um Pod é iniciado e a sonda liveness falha, o Kubernetes tentará falharTestenha tempos antes de desistir. A predefinição é 3. O valor mínimo é 1.
- traffic_percentile
- float
A quantidade de tráfego que a versão utiliza num ponto final.
- is_default
- bool
Se pretende ou não tornar esta versão como versão predefinida num Ponto Final. Predefinições para Falso.
- is_control_version_type
- bool
Quer esta versão seja ou não uma versão de controlo num Ponto Final. Predefinições para Falso.
- cpu_cores_limit
- float
O número máximo de núcleos de cpu que este Webservice pode utilizar. Pode ser um decimal.
- memory_gb_limit
- float
A quantidade máxima de memória (em GB) que este Webservice pode utilizar. Pode ser um decimal.
Exceções
Comentários
https://aka.ms/ContentUserFeedback.
Brevemente: Ao longo de 2024, vamos descontinuar progressivamente o GitHub Issues como mecanismo de feedback para conteúdos e substituí-lo por um novo sistema de feedback. Para obter mais informações, veja:Submeter e ver comentários