AksEndpoint Clase

Nota

Se trata de una clase experimental y puede cambiar en cualquier momento. Consulte https://aka.ms/azuremlexperimental para más información.

Representa una colección de versiones del servicio web detrás del mismo punto de conexión que se ejecuta en Azure Kubernetes Service.

Mientras que AksWebservice implementa un único servicio con un único punto de conexión de puntuación, la clase AksEndpoint permite implementar varias versiones del servicio web detrás del mismo punto de conexión de puntuación. Cada versión del servicio web se puede configurar para atender un porcentaje del tráfico para que pueda implementar modelos de forma controlada, por ejemplo, para las pruebas A/B. AksEndpoint permite la implementación desde un objeto de modelo similar a AksWebservice.

Inicialice la instancia del servicio web.

El constructor webservice recupera una representación en la nube de un objeto Webservice asociado al área de trabajo proporcionada. Devolverá una instancia de una clase secundaria correspondiente al tipo específico del objeto Webservice recuperado.

Herencia
AksEndpoint

Constructor

AksEndpoint(workspace, name)

Parámetros

workspace
Workspace
Requerido

Objeto Workspace que contiene el objeto Webservice que se va a recuperar.

name
str
Requerido

Nombre del objeto Webservice que se va a recuperar.

Variables

versions
dict[str, AksWebservice]

Diccionario de nombre de versión para el objeto de versión. Contiene todas las versiones implementadas como parte de este punto de conexión.

Métodos

create_version

Agrega una nueva versión en un punto de conexión con las propiedades proporcionadas.

delete_version

Elimine una versión de un punto de conexión.

deploy_configuration

Crea un objeto de configuración para la implementación en un destino de proceso de AKS.

serialize

Convierte este servicio web en un diccionario JSON serializado.

update

Actualiza el punto de conexión con las propiedades proporcionadas.

Los valores que se dejan como Ninguno permanecerán sin cambios en este punto de conexión.

update_version

Actualiza una versión existente en un punto de conexión con las propiedades proporcionadas.

Los valores que se dejan como Ninguno permanecerán sin cambios en esta versión.

create_version

Agrega una nueva versión en un punto de conexión con las propiedades proporcionadas.

create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parámetros

version_name
str
Requerido

Nombre de la versión que se va a agregar en un punto de conexión.

autoscale_enabled
bool
valor predeterminado: None

Indica si se habilita o no el escalado automático para esta versión en un punto de conexión. El valor predeterminado es True si num_replicas es Ninguno.

autoscale_min_replicas
int
valor predeterminado: None

Número mínimo de contenedores que se van a usar al escalar automáticamente esta versión en un punto de conexión. El valor predeterminado es 1.

autoscale_max_replicas
int
valor predeterminado: None

Número máximo de contenedores que se van a usar al escalar automáticamente esta versión en un punto de conexión. El valor predeterminado es 10.

autoscale_refresh_seconds
int
valor predeterminado: None

Frecuencia con la que el escalador automático debe intentar escalar esta versión en un punto de conexión. El valor predeterminado es 1.

autoscale_target_utilization
int
valor predeterminado: None

Uso objetivo (en un porcentaje de 100) que el escalador automático debe intentar mantener para esta versión en un punto de conexión. El valor predeterminado es 70.

collect_model_data
bool
valor predeterminado: None

Indica si se habilita o no la recopilación de datos del modelo para esta versión en un punto de conexión. El valor predeterminado es False.

cpu_cores
float
valor predeterminado: None

Número de núcleos de CPU que se asignarán para esta versión en un punto de conexión. Puede ser un decimal. El valor predeterminado es 0,1.

memory_gb
float
valor predeterminado: None

Cantidad de memoria (en GB) que se va a asignar para esta versión en un punto de conexión. Puede ser un decimal. El valor predeterminado es 0,5.

scoring_timeout_ms
int
valor predeterminado: None

Tiempo de espera que se aplica para puntuar las llamadas a esta versión en un punto de conexión. El valor predeterminado es 60 000.

replica_max_concurrent_requests
int
valor predeterminado: None

Número máximo de solicitudes simultáneas por réplica que se permitirán para esta versión en un punto de conexión. De manera predeterminada, su valor es 1. No cambie este valor a menos que se lo indique el soporte técnico de Microsoft o un miembro del equipo de Azure Machine Learning.

max_request_wait_time
int
valor predeterminado: None

Cantidad máxima de tiempo que permanecerá una solicitud en la cola (en milisegundos) antes de devolver un error 503. El valor predeterminado es 500.

num_replicas
int
valor predeterminado: None

Número de contenedores que se asignarán para esta versión en un punto de conexión. No tiene un valor predeterminado. Si no se establece este parámetro, el escalador automático se habilita de manera predeterminada.

tags
dict[str, str]
valor predeterminado: None

Diccionario de etiquetas de clave-valor que se va a proporcionar a este punto de conexión.

properties
dict[str, str]
valor predeterminado: None

Diccionario de propiedades de clave-valor que se va a proporcionar a este punto de conexión. Estas propiedades no se pueden cambiar después de la implementación, pero se pueden agregar nuevos pares clave-valor.

description
str
valor predeterminado: None

Descripción que se va a proporcionar a este punto de conexión.

models
list[Model]
valor predeterminado: None

Lista de objetos de modelo que se van a empaquetar con el servicio actualizado.

inference_config
InferenceConfig
valor predeterminado: None

Objeto InferenceConfig que se usa para proporcionar las propiedades de implementación del modelo necesarias.

gpu_cores
int
valor predeterminado: None

Número de núcleos de GPU que se asignarán para esta versión en un punto de conexión. El valor predeterminado es 0.

period_seconds
int
valor predeterminado: None

Frecuencia (en segundos) en que se ejecutará el sondeo de ejecución. El valor predeterminado es de 10 segundos. El valor mínimo es 1.

initial_delay_seconds
int
valor predeterminado: None

Número de segundos después de que se haya iniciado el contenedor antes de que se inicien los sondeos de ejecución. El valor predeterminado es 310.

timeout_seconds
int
valor predeterminado: None

Número de segundos tras los cuales el sondeo de ejecución agota el tiempo de espera. El valor predeterminado es de 2 segundos. El valor mínimo es 1.

success_threshold
int
valor predeterminado: None

Número mínimo de valores correctos consecutivos para que el sondeo de ejecución se considere correcto después de que se haya producido un error. De manera predeterminada, su valor es 1. El valor mínimo es 1.

failure_threshold
int
valor predeterminado: None

Cuando se inicie un pod y se produzca un error en el sondeo de ejecución, Kubernetes probará las veces especificadas en failureThreshold antes de abandonarlo. El valor predeterminado es 3. El valor mínimo es 1.

traffic_percentile
float
valor predeterminado: None

Cantidad de tráfico que toma la versión en un punto de conexión.

is_default
bool
valor predeterminado: None

Indica si se debe convertir o no esta versión como versión predeterminada en un punto de conexión. El valor predeterminado es False.

is_control_version_type
bool
valor predeterminado: None

Indica si se debe convertir o no esta versión como versión de control en un punto de conexión. El valor predeterminado es False.

cpu_cores_limit
float
valor predeterminado: None

Número máximo de núcleos de CPU que puede usar este servicio web. Puede ser un decimal.

memory_gb_limit
float
valor predeterminado: None

Cantidad máxima de memoria (en GB) que puede usar este objeto Webservice. Puede ser un decimal.

Excepciones

delete_version

Elimine una versión de un punto de conexión.

delete_version(version_name)

Parámetros

version_name
str
Requerido

Nombre de la versión de un punto de conexión que se va a eliminar.

Excepciones

deploy_configuration

Crea un objeto de configuración para la implementación en un destino de proceso de AKS.

static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)

Parámetros

autoscale_enabled
bool
valor predeterminado: None

Indica si se habilita o no el escalado automático para esta versión en un punto de conexión. El valor predeterminado es True si num_replicas es Ninguno.

autoscale_min_replicas
int
valor predeterminado: None

Número mínimo de contenedores que se van a usar al escalar automáticamente esta versión en un punto de conexión. De manera predeterminada, su valor es 1.

autoscale_max_replicas
int
valor predeterminado: None

Número máximo de contenedores que se van a usar al escalar automáticamente esta versión en un punto de conexión. El valor predeterminado es 10.

autoscale_refresh_seconds
int
valor predeterminado: None

Frecuencia con la que el escalador automático debe intentar escalar esta versión en un punto de conexión. De manera predeterminada, su valor es 1.

autoscale_target_utilization
int
valor predeterminado: None

Uso objetivo (en un porcentaje de 100) que el escalador automático debe intentar mantener para esta versión en un punto de conexión. El valor predeterminado es 70.

collect_model_data
bool
valor predeterminado: None

Indica si se habilita o no la recopilación de datos del modelo para esta versión en un punto de conexión. El valor predeterminado es False.

auth_enabled
bool
valor predeterminado: None

Indica si se habilita o no la autenticación de clave para esta versión en un punto de conexión. El valor predeterminado es True.

cpu_cores
float
valor predeterminado: None

Número de núcleos de CPU que se asignarán para esta versión en un punto de conexión. Puede ser un decimal. El valor predeterminado es 0,1.

memory_gb
float
valor predeterminado: None

Cantidad de memoria (en GB) que se va a asignar para esta versión en un punto de conexión. Puede ser un decimal. El valor predeterminado es 0,5.

enable_app_insights
bool
valor predeterminado: None

Indica si se habilita o no el registro de Application Insights para esta versión en un punto de conexión. El valor predeterminado es False.

scoring_timeout_ms
int
valor predeterminado: None

Tiempo de espera que se aplica para puntuar las llamadas a esta versión en un punto de conexión. El valor predeterminado es 60 000.

replica_max_concurrent_requests
int
valor predeterminado: None

Número máximo de solicitudes simultáneas por réplica que se permitirán para esta versión en un punto de conexión. De manera predeterminada, su valor es 1. No cambie este valor a menos que se lo indique el soporte técnico de Microsoft o un miembro del equipo de Azure Machine Learning.

max_request_wait_time
int
valor predeterminado: None

Cantidad máxima de tiempo que permanecerá una solicitud en la cola (en milisegundos) antes de devolver un error 503. El valor predeterminado es 500.

num_replicas
int
valor predeterminado: None

Número de contenedores que se asignarán para esta versión en un punto de conexión. No tiene un valor predeterminado. Si no se establece este parámetro, el escalador automático se habilita de manera predeterminada.

primary_key
str
valor predeterminado: None

Clave de autenticación principal que se usará para este punto de conexión.

secondary_key
str
valor predeterminado: None

Clave de autenticación secundaria que se usará para este punto de conexión.

tags
dict[str, str]
valor predeterminado: None

Diccionario de etiquetas de clave-valor que se va a proporcionar a este punto de conexión.

properties
dict[str, str]
valor predeterminado: None

Diccionario de propiedades de clave-valor que se va a proporcionar a este punto de conexión. Estas propiedades no se pueden cambiar después de la implementación, pero se pueden agregar nuevos pares clave-valor.

description
str
valor predeterminado: None

Descripción que se va a proporcionar a este punto de conexión.

gpu_cores
int
valor predeterminado: None

Número de núcleos de GPU que se asignarán para esta versión en un punto de conexión. El valor predeterminado es 0.

period_seconds
int
valor predeterminado: None

Frecuencia (en segundos) en que se ejecutará el sondeo de ejecución. El valor predeterminado es de 10 segundos. El valor mínimo es 1.

initial_delay_seconds
int
valor predeterminado: None

Número de segundos después de que se haya iniciado el contenedor antes de que se inicien los sondeos de ejecución. El valor predeterminado es 310.

timeout_seconds
int
valor predeterminado: None

Número de segundos tras los cuales el sondeo de ejecución agota el tiempo de espera. El valor predeterminado es de 2 segundos. El valor mínimo es 1.

success_threshold
int
valor predeterminado: None

Número mínimo de valores correctos consecutivos para que el sondeo de ejecución se considere correcto después de que se haya producido un error. De manera predeterminada, su valor es 1. El valor mínimo es 1.

failure_threshold
int
valor predeterminado: None

Cuando se inicie un pod y se produzca un error en el sondeo de ejecución, Kubernetes probará failureThreshold veces antes de abandonar. El valor predeterminado es 3. El valor mínimo es 1.

namespace
str
valor predeterminado: None

Espacio de nombres de Kubernetes en el que se va a implementar este punto de conexión: hasta 63 caracteres alfanuméricos en minúsculas ("a"-"z", "0"-"9") y guion ("-"). El primer y el último carácter no puede ser un guion.

token_auth_enabled
bool
valor predeterminado: None

Indica si se debe habilitar o no la autenticación de token para este punto de conexión. Si esta opción está habilitada, los usuarios pueden acceder a este punto de conexión mediante la recuperación de un token de acceso con sus credenciales de Azure Active Directory. El valor predeterminado es False.

version_name
str
valor predeterminado: None

Nombre de la versión de un punto de conexión.

traffic_percentile
float
valor predeterminado: None

Cantidad de tráfico que toma la versión en un punto de conexión.

compute_target_name
str
valor predeterminado: None

Nombre del destino de proceso en el que se implementará.

cpu_cores_limit
float
valor predeterminado: None

Número máximo de núcleos de CPU que puede usar este servicio web. Puede ser un decimal.

memory_gb_limit
float
valor predeterminado: None

Cantidad máxima de memoria (en GB) que puede usar este objeto Webservice. Puede ser un decimal.

Tipo de valor devuelto

Excepciones

serialize

Convierte este servicio web en un diccionario JSON serializado.

serialize()

Devoluciones

Representación JSON de este servicio web.

Tipo de valor devuelto

Excepciones

update

Actualiza el punto de conexión con las propiedades proporcionadas.

Los valores que se dejan como Ninguno permanecerán sin cambios en este punto de conexión.

update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)

Parámetros

auth_enabled
bool
valor predeterminado: None

Indica si se habilita o no la autenticación de clave para esta versión en un punto de conexión. El valor predeterminado es True.

token_auth_enabled
bool
valor predeterminado: None

Indica si se debe habilitar o no la autenticación de token para este punto de conexión. Si esta opción está habilitada, los usuarios pueden acceder a este punto de conexión mediante la recuperación de un token de acceso con sus credenciales de Azure Active Directory. El valor predeterminado es False.

enable_app_insights
bool
valor predeterminado: None

Indica si se habilita o no el registro de Application Insights para esta versión en un punto de conexión. El valor predeterminado es False.

description
str
valor predeterminado: None

Descripción que se va a proporcionar a este punto de conexión.

tags
dict[str, str]
valor predeterminado: None

Diccionario de etiquetas de clave-valor que se va a proporcionar a este punto de conexión.

properties
dict[str, str]
valor predeterminado: None

Diccionario de propiedades de clave-valor que se va a proporcionar a este punto de conexión. Estas propiedades no se pueden cambiar después de la implementación, pero se pueden agregar nuevos pares clave-valor.

Excepciones

update_version

Actualiza una versión existente en un punto de conexión con las propiedades proporcionadas.

Los valores que se dejan como Ninguno permanecerán sin cambios en esta versión.

update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parámetros

version_name
str
Requerido

Nombre de la versión de un punto de conexión.

autoscale_enabled
bool
valor predeterminado: None

Indica si se habilita o no el escalado automático para esta versión en un punto de conexión. El valor predeterminado es True si num_replicas es Ninguno.

autoscale_min_replicas
int
valor predeterminado: None

Número mínimo de contenedores que se van a usar al escalar automáticamente esta versión en un punto de conexión. De manera predeterminada, su valor es 1.

autoscale_max_replicas
int
valor predeterminado: None

Número máximo de contenedores que se van a usar al escalar automáticamente esta versión en un punto de conexión. El valor predeterminado es 10.

autoscale_refresh_seconds
int
valor predeterminado: None

Frecuencia con la que el escalador automático debe intentar escalar esta versión en un punto de conexión. El valor predeterminado es 1.

autoscale_target_utilization
int
valor predeterminado: None

Uso objetivo (en un porcentaje de 100) que el escalador automático debe intentar mantener para esta versión en un punto de conexión. El valor predeterminado es 70.

collect_model_data
bool
valor predeterminado: None

Indica si se habilita o no la recopilación de datos del modelo para esta versión en un punto de conexión. El valor predeterminado es False.

cpu_cores
float
valor predeterminado: None

Número de núcleos de CPU que se asignarán para esta versión en un punto de conexión. Puede ser un decimal. El valor predeterminado es 0,1.

memory_gb
float
valor predeterminado: None

Cantidad de memoria (en GB) que se va a asignar para esta versión en un punto de conexión. Puede ser un decimal. El valor predeterminado es 0,5.

scoring_timeout_ms
int
valor predeterminado: None

Tiempo de espera que se aplica para puntuar las llamadas a esta versión en un punto de conexión. El valor predeterminado es 60 000.

replica_max_concurrent_requests
int
valor predeterminado: None

Número máximo de solicitudes simultáneas por réplica que se permitirán para esta versión en un punto de conexión. De manera predeterminada, su valor es 1. No cambie este valor a menos que se lo indique el soporte técnico de Microsoft o un miembro del equipo de Azure Machine Learning.

max_request_wait_time
int
valor predeterminado: None

Cantidad máxima de tiempo que permanecerá una solicitud en la cola (en milisegundos) antes de devolver un error 503. El valor predeterminado es 500.

num_replicas
int
valor predeterminado: None

Número de contenedores que se asignarán para esta versión en un punto de conexión. No tiene un valor predeterminado. Si no se establece este parámetro, el escalador automático se habilita de manera predeterminada.

tags
dict[str, str]
valor predeterminado: None

Diccionario de etiquetas de clave-valor que se va a proporcionar a este punto de conexión.

properties
dict[str, str]
valor predeterminado: None

Diccionario de propiedades de clave-valor que se va a proporcionar a este punto de conexión. Estas propiedades no se pueden cambiar después de la implementación, pero se pueden agregar nuevos pares clave-valor.

description
str
valor predeterminado: None

Descripción que se va a proporcionar a este punto de conexión.

models
list[Model]
valor predeterminado: None

Lista de objetos de modelo que se van a empaquetar con el servicio actualizado.

inference_config
InferenceConfig
valor predeterminado: None

Objeto InferenceConfig que se usa para proporcionar las propiedades de implementación del modelo necesarias.

gpu_cores
int
valor predeterminado: None

Número de núcleos de GPU que se asignarán para esta versión en un punto de conexión. El valor predeterminado es 0.

period_seconds
int
valor predeterminado: None

Frecuencia (en segundos) en que se ejecutará el sondeo de ejecución. El valor predeterminado es de 10 segundos. El valor mínimo es 1.

initial_delay_seconds
int
valor predeterminado: None

Número de segundos después de que se haya iniciado el contenedor antes de que se inicien los sondeos de ejecución. El valor predeterminado es 310.

timeout_seconds
int
valor predeterminado: None

Número de segundos tras los cuales el sondeo de ejecución agota el tiempo de espera. El valor predeterminado es de 2 segundos. El valor mínimo es 1.

success_threshold
int
valor predeterminado: None

Número mínimo de valores correctos consecutivos para que el sondeo de ejecución se considere correcto después de que se haya producido un error. De manera predeterminada, su valor es 1. El valor mínimo es 1.

failure_threshold
int
valor predeterminado: None

Cuando se inicie un pod y se produzca un error en el sondeo de ejecución, Kubernetes probará las veces especificadas en failureThreshold antes de abandonarlo. El valor predeterminado es 3. El valor mínimo es 1.

traffic_percentile
float
valor predeterminado: None

Cantidad de tráfico que toma la versión en un punto de conexión.

is_default
bool
valor predeterminado: None

Indica si se debe convertir o no esta versión como versión predeterminada en un punto de conexión. El valor predeterminado es False.

is_control_version_type
bool
valor predeterminado: None

Indica si se debe convertir o no esta versión como versión de control en un punto de conexión. El valor predeterminado es False.

cpu_cores_limit
float
valor predeterminado: None

Número máximo de núcleos de CPU que puede usar este servicio web. Puede ser un decimal.

memory_gb_limit
float
valor predeterminado: None

Cantidad máxima de memoria (en GB) que puede usar este objeto Webservice. Puede ser un decimal.

Excepciones