Udostępnij za pośrednictwem


AksEndpoint Klasa

Uwaga

Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Reprezentuje kolekcję wersji usługi internetowej za tym samym punktem końcowym uruchomionym na Azure Kubernetes Service.

Podczas gdy jedna AksWebservice usługa wdraża pojedynczą usługę z pojedynczym punktem końcowym oceniania, klasa AksEndpoint umożliwia wdrożenie wielu wersji usług internetowych za tym samym punktem końcowym oceniania. Każdą wersję usługi internetowej można skonfigurować tak, aby obsługiwała procent ruchu, dzięki czemu można wdrażać modele w kontrolowany sposób, na przykład na potrzeby testowania A/B. Punkt AksEndpoint umożliwia wdrożenie z obiektu modelu podobnego do usługi AksWebservice.

Zainicjuj wystąpienie usługi internetowej.

Konstruktor usługi internetowej pobiera reprezentację chmury obiektu usługi internetowej skojarzonego z podanym obszarem roboczym. Zwróci wystąpienie klasy podrzędnej odpowiadające określonemu typowi pobranego obiektu usługi sieci Web.

Dziedziczenie
AksEndpoint

Konstruktor

AksEndpoint(workspace, name)

Parametry

workspace
Workspace
Wymagane

Obiekt obszaru roboczego zawierający obiekt usługi sieci Web do pobrania.

name
str
Wymagane

Nazwa obiektu usługi sieci Web do pobrania.

Zmienne

versions
dict[str, AksWebservice]

Słownik nazwy wersji do obiektu wersji. Zawiera wszystkie wersje wdrożone w ramach tego punktu końcowego.

Metody

create_version

Dodaj nową wersję w punkcie końcowym z podanymi właściwościami.

delete_version

Usuń wersję w punkcie końcowym.

deploy_configuration

Utwórz obiekt konfiguracji do wdrażania w docelowym obiekcie obliczeniowym usługi AKS.

serialize

Przekonwertuj tę usługę internetową na słownik serializacji JSON.

update

Zaktualizuj punkt końcowy przy użyciu podanych właściwości.

Wartości pozostawione jako Brak pozostaną niezmienione w tym punkcie końcowym

update_version

Zaktualizuj istniejącą wersję w punkcie końcowym z podanymi właściwościami.

Wartości pozostawione jako Brak pozostaną niezmienione w tej wersji.

create_version

Dodaj nową wersję w punkcie końcowym z podanymi właściwościami.

create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parametry

version_name
str
Wymagane

Nazwa wersji do dodania w punkcie końcowym.

autoscale_enabled
bool
wartość domyślna: None

Czy włączyć skalowanie automatyczne dla tej wersji w punkcie końcowym. Wartość domyślna to True, jeśli num_replicas ma wartość None.

autoscale_min_replicas
int
wartość domyślna: None

Minimalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 1

autoscale_max_replicas
int
wartość domyślna: None

Maksymalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 10

autoscale_refresh_seconds
int
wartość domyślna: None

Jak często autoskalator powinien próbować skalować tę wersję w punkcie końcowym. Wartość domyślna to 1

autoscale_target_utilization
int
wartość domyślna: None

Użycie docelowe (w procentach na 100) autoskalator powinien próbować zachować tę wersję w punkcie końcowym. Wartość domyślna to 70

collect_model_data
bool
wartość domyślna: None

Czy włączyć zbieranie danych modelu dla tej wersji w punkcie końcowym. Wartości domyślne to False

cpu_cores
float
wartość domyślna: None

Liczba rdzeni procesora CPU do przydzielenia dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0.1

memory_gb
float
wartość domyślna: None

Ilość pamięci (w GB) do przydzielenia dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0,5

scoring_timeout_ms
int
wartość domyślna: None

Limit czasu wymuszania wywołań oceniania do tej wersji w punkcie końcowym. Wartość domyślna to 60000.

replica_max_concurrent_requests
int
wartość domyślna: None

Liczba maksymalnie współbieżnych żądań na replikę, aby umożliwić korzystanie z tej wersji w punkcie końcowym. Wartość domyślna to 1. Nie zmieniaj tego ustawienia z wartości domyślnej 1, chyba że zostanie poinstruowany przez pomoc techniczną firmy Microsoft lub członek zespołu usługi Azure Machine Learning.

max_request_wait_time
int
wartość domyślna: None

Maksymalny czas, przez jaki żądanie pozostanie w kolejce (w milisekundach) przed zwróceniem błędu 503. Wartość domyślna to 500.

num_replicas
int
wartość domyślna: None

Liczba kontenerów do przydzielenia dla tej wersji w punkcie końcowym. Nie ma wartości domyślnej, jeśli ten parametr nie jest ustawiony, autoskalator jest domyślnie włączony.

tags
dict[str, str]
wartość domyślna: None

Słownik tagów wartości klucza, aby nadać ten punkt końcowy.

properties
dict[str, str]
wartość domyślna: None

Słownik właściwości wartości klucza, aby nadać ten punkt końcowy. Nie można zmienić tych właściwości po wdrożeniu, jednak można dodać nowe pary wartości klucza.

description
str
wartość domyślna: None

Opis do nadania temu punktowi końcowemu.

models
list[Model]
wartość domyślna: None

Lista obiektów modelu do spakowania za pomocą zaktualizowanej usługi.

inference_config
InferenceConfig
wartość domyślna: None

Obiekt InferenceConfig używany do udostępniania wymaganych właściwości wdrożenia modelu.

gpu_cores
int
wartość domyślna: None

Liczba rdzeni procesora GPU do przydzielenia dla tej wersji w punkcie końcowym. Wartość domyślna to 0.

period_seconds
int
wartość domyślna: None

Jak często (w sekundach) wykonać sondę liveness. Wartość domyślna to 10 sekund. Wartość minimalna to 1.

initial_delay_seconds
int
wartość domyślna: None

Liczba sekund po uruchomieniu kontenera przed zainicjowanymi sondami liveness. Wartość domyślna to 310.

timeout_seconds
int
wartość domyślna: None

Liczba sekund, po których upłynął limit czasu sondy liveness. Wartość domyślna to 2 sekundy. Wartość minimalna to 1.

success_threshold
int
wartość domyślna: None

Minimalna liczba kolejnych sukcesów dla sondy liveness, która ma zostać uznana za pomyślną po nieudanej awarii. Wartość domyślna to 1. Wartość minimalna to 1.

failure_threshold
int
wartość domyślna: None

Po uruchomieniu zasobnika i niepowodzeniu sondy liveness platforma Kubernetes spróbuje użyć czasu niepowodzeniaThreshold przed rezygnacją. Wartość domyślna to 3. Wartość minimalna to 1.

traffic_percentile
float
wartość domyślna: None

Ilość ruchu, który jest pobierana przez wersję w punkcie końcowym.

is_default
bool
wartość domyślna: None

Określa, czy ta wersja ma być wersją domyślną w punkcie końcowym. Wartość domyślna to False.

is_control_version_type
bool
wartość domyślna: None

Określa, czy ta wersja ma być wersją kontroli w punkcie końcowym. Wartość domyślna to False.

cpu_cores_limit
float
wartość domyślna: None

Maksymalna liczba rdzeni procesora cpu, z których może korzystać ta usługa sieci Web. Może to być liczba dziesiętna.

memory_gb_limit
float
wartość domyślna: None

Maksymalna ilość pamięci (w GB) dozwolonej przez tę usługę sieci Web. Może to być liczba dziesiętna.

Wyjątki

delete_version

Usuń wersję w punkcie końcowym.

delete_version(version_name)

Parametry

version_name
str
Wymagane

Nazwa wersji w punkcie końcowym do usunięcia.

Wyjątki

deploy_configuration

Utwórz obiekt konfiguracji do wdrażania w docelowym obiekcie obliczeniowym usługi AKS.

static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)

Parametry

autoscale_enabled
bool
wartość domyślna: None

Czy włączyć skalowanie automatyczne dla tej wersji w punkcie końcowym. Wartość domyślna to True, jeśli num_replicas ma wartość None.

autoscale_min_replicas
int
wartość domyślna: None

Minimalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 1.

autoscale_max_replicas
int
wartość domyślna: None

Maksymalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 10.

autoscale_refresh_seconds
int
wartość domyślna: None

Jak często autoskalator powinien próbować skalować tę wersję w punkcie końcowym. Wartość domyślna to 1.

autoscale_target_utilization
int
wartość domyślna: None

Użycie docelowe (w procentach na 100) autoskalator powinien próbować zachować tę wersję w punkcie końcowym. Wartość domyślna to 70.

collect_model_data
bool
wartość domyślna: None

Czy włączyć zbieranie danych modelu dla tej wersji w punkcie końcowym. Wartość domyślna to False.

auth_enabled
bool
wartość domyślna: None

Czy włączyć uwierzytelnianie klucza dla tej wersji w punkcie końcowym. Wartość domyślna to True.

cpu_cores
float
wartość domyślna: None

Liczba rdzeni procesora, które mają być przydzielane dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0.1

memory_gb
float
wartość domyślna: None

Ilość pamięci (w GB) do przydzielenia dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0,5

enable_app_insights
bool
wartość domyślna: None

Czy włączyć rejestrowanie usługi ApplicationInsights dla tej wersji w punkcie końcowym. Wartość domyślna to False.

scoring_timeout_ms
int
wartość domyślna: None

Limit czasu wymuszania wywołań oceniania do tej wersji w punkcie końcowym. Wartość domyślna to 60000

replica_max_concurrent_requests
int
wartość domyślna: None

Liczba maksymalnie współbieżnych żądań na replikę, aby umożliwić korzystanie z tej wersji w punkcie końcowym. Wartość domyślna to 1. Nie zmieniaj tego ustawienia z wartości domyślnej 1, chyba że zostanie poinstruowany przez pomoc techniczną firmy Microsoft lub członek zespołu usługi Azure Machine Learning.

max_request_wait_time
int
wartość domyślna: None

Maksymalny czas, przez jaki żądanie pozostanie w kolejce (w milisekundach) przed zwróceniem błędu 503. Wartość domyślna to 500.

num_replicas
int
wartość domyślna: None

Liczba kontenerów do przydzielenia dla tej wersji w punkcie końcowym. Nie ma wartości domyślnej, jeśli ten parametr nie jest ustawiony, autoskalator jest domyślnie włączony.

primary_key
str
wartość domyślna: None

Podstawowy klucz uwierzytelniania używany dla tego punktu końcowego.

secondary_key
str
wartość domyślna: None

Pomocniczy klucz uwierzytelniania do użycia dla tego punktu końcowego.

tags
dict[str, str]
wartość domyślna: None

Słownik tagów wartości klucza, aby nadać ten punkt końcowy.

properties
dict[str, str]
wartość domyślna: None

Słownik właściwości wartości klucza, aby nadać ten punkt końcowy. Nie można zmienić tych właściwości po wdrożeniu, jednak można dodać nowe pary wartości klucza

description
str
wartość domyślna: None

Opis do nadania temu punktowi końcowemu.

gpu_cores
int
wartość domyślna: None

Liczba rdzeni procesora GPU do przydzielenia dla tej wersji w punkcie końcowym. Wartość domyślna to 0.

period_seconds
int
wartość domyślna: None

Jak często (w sekundach) wykonać sondę liveness. Wartość domyślna to 10 sekund. Wartość minimalna to 1.

initial_delay_seconds
int
wartość domyślna: None

Liczba sekund po uruchomieniu kontenera przed zainicjowanymi sondami aktualności. Wartość domyślna to 310.

timeout_seconds
int
wartość domyślna: None

Liczba sekund, po których upłynął limit czasu sondy liveness. Wartość domyślna to 2 sekundy. Wartość minimalna to 1.

success_threshold
int
wartość domyślna: None

Minimalna liczba kolejnych sukcesów dla sondy liveness, która ma zostać uznana za pomyślną po nieudanej awarii. Wartość domyślna to 1. Wartość minimalna to 1.

failure_threshold
int
wartość domyślna: None

Gdy zasobnik zostanie uruchomiony, a sonda liveness zakończy się niepowodzeniem, platforma Kubernetes spróbuje failureThreshold kilka razy przed rezygnacją. Wartość domyślna to 3. Wartość minimalna to 1.

namespace
str
wartość domyślna: None

Przestrzeń nazw platformy Kubernetes, w której ma zostać wdrożony ten punkt końcowy: do 63 małych liter alfanumeryczne ('a'-'z', '0'-'9') i łącznika ('-'). Pierwsze i ostatnie znaki nie mogą być łącznikami.

token_auth_enabled
bool
wartość domyślna: None

Czy włączyć uwierzytelnianie tokenu dla tego punktu końcowego. Jeśli jest to włączone, użytkownicy mogą uzyskać dostęp do tego punktu końcowego, pobierając token dostępu przy użyciu poświadczeń usługi Azure Active Directory. Wartość domyślna to False.

version_name
str
wartość domyślna: None

Nazwa wersji w punkcie końcowym.

traffic_percentile
float
wartość domyślna: None

ilość ruchu, który wersja przyjmuje w punkcie końcowym.

compute_target_name
str
wartość domyślna: None

Nazwa docelowego obiektu obliczeniowego do wdrożenia

cpu_cores_limit
float
wartość domyślna: None

Maksymalna liczba rdzeni procesora cpu, z których może korzystać ta usługa sieci Web. Może to być liczba dziesiętna.

memory_gb_limit
float
wartość domyślna: None

Maksymalna ilość pamięci (w GB) dozwolonej przez tę usługę sieci Web. Może to być liczba dziesiętna.

Typ zwracany

Wyjątki

serialize

Przekonwertuj tę usługę internetową na słownik serializacji JSON.

serialize()

Zwraca

Reprezentacja JSON tej usługi sieci Web.

Typ zwracany

Wyjątki

update

Zaktualizuj punkt końcowy przy użyciu podanych właściwości.

Wartości pozostawione jako Brak pozostaną niezmienione w tym punkcie końcowym

update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)

Parametry

auth_enabled
bool
wartość domyślna: None

Czy włączyć uwierzytelnianie klucza dla tej wersji w punkcie końcowym. Wartość domyślna to True.

token_auth_enabled
bool
wartość domyślna: None

Czy włączyć uwierzytelnianie tokenu dla tego punktu końcowego. Jeśli jest to włączone, użytkownicy mogą uzyskać dostęp do tego punktu końcowego, pobierając token dostępu przy użyciu poświadczeń usługi Azure Active Directory. Wartość domyślna to False.

enable_app_insights
bool
wartość domyślna: None

Czy włączyć rejestrowanie usługi Application Insights dla tej wersji w punkcie końcowym. Wartość domyślna to False.

description
str
wartość domyślna: None

Opis do nadania temu punktowi końcowemu.

tags
dict[str, str]
wartość domyślna: None

Słownik tagów wartości klucza, aby nadać ten punkt końcowy.

properties
dict[str, str]
wartość domyślna: None

Słownik właściwości wartości klucza, aby nadać ten punkt końcowy. Nie można zmienić tych właściwości po wdrożeniu, jednak można dodać nowe pary wartości klucza.

Wyjątki

update_version

Zaktualizuj istniejącą wersję w punkcie końcowym z podanymi właściwościami.

Wartości pozostawione jako Brak pozostaną niezmienione w tej wersji.

update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)

Parametry

version_name
str
Wymagane

Nazwa wersji w punkcie końcowym.

autoscale_enabled
bool
wartość domyślna: None

Czy włączyć skalowanie automatyczne dla tej wersji w punkcie końcowym. Wartość domyślna to True, jeśli num_replicas ma wartość None.

autoscale_min_replicas
int
wartość domyślna: None

Minimalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 1.

autoscale_max_replicas
int
wartość domyślna: None

Maksymalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 10.

autoscale_refresh_seconds
int
wartość domyślna: None

Jak często autoskalator powinien próbować skalować tę wersję w punkcie końcowym. Wartość domyślna to 1

autoscale_target_utilization
int
wartość domyślna: None

Użycie docelowe (w procentach na 100) autoskalator powinien próbować zachować tę wersję w punkcie końcowym. Wartość domyślna to 70.

collect_model_data
bool
wartość domyślna: None

Czy włączyć zbieranie danych modelu dla tej wersji w punkcie końcowym. Wartość domyślna to False.

cpu_cores
float
wartość domyślna: None

Liczba rdzeni procesora, które mają być przydzielane dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0.1

memory_gb
float
wartość domyślna: None

Ilość pamięci (w GB) do przydzielenia dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0,5

scoring_timeout_ms
int
wartość domyślna: None

Limit czasu wymuszania wywołań oceniania do tej wersji w punkcie końcowym. Wartość domyślna to 60000.

replica_max_concurrent_requests
int
wartość domyślna: None

Liczba maksymalnie współbieżnych żądań na replikę, aby umożliwić korzystanie z tej wersji w punkcie końcowym. Wartość domyślna to 1. Nie zmieniaj tego ustawienia z wartości domyślnej 1, chyba że zostanie poinstruowany przez pomoc techniczną firmy Microsoft lub członek zespołu usługi Azure Machine Learning.

max_request_wait_time
int
wartość domyślna: None

Maksymalny czas, przez jaki żądanie pozostanie w kolejce (w milisekundach) przed zwróceniem błędu 503. Wartość domyślna to 500.

num_replicas
int
wartość domyślna: None

Liczba kontenerów do przydzielenia dla tej wersji w punkcie końcowym. Nie ma wartości domyślnej, jeśli ten parametr nie jest ustawiony, autoskalator jest domyślnie włączony.

tags
dict[str, str]
wartość domyślna: None

Słownik tagów wartości klucza, aby nadać ten punkt końcowy.

properties
dict[str, str]
wartość domyślna: None

Słownik właściwości wartości klucza, aby nadać ten punkt końcowy. Nie można zmienić tych właściwości po wdrożeniu, jednak można dodać nowe pary wartości klucza.

description
str
wartość domyślna: None

Opis umożliwiający nadanie temu punktowi końcowemu

models
list[Model]
wartość domyślna: None

Lista obiektów modelu do spakowania za pomocą zaktualizowanej usługi

inference_config
InferenceConfig
wartość domyślna: None

Obiekt InferenceConfig używany do udostępniania wymaganych właściwości wdrożenia modelu.

gpu_cores
int
wartość domyślna: None

Liczba rdzeni procesora GPU do przydzielenia dla tej wersji w punkcie końcowym. Wartość domyślna to 0.

period_seconds
int
wartość domyślna: None

Jak często (w sekundach) wykonać sondę liveness. Wartość domyślna to 10 sekund. Wartość minimalna to 1.

initial_delay_seconds
int
wartość domyślna: None

Liczba sekund po uruchomieniu kontenera przed zainicjowanymi sondami liveness. Wartość domyślna to 310.

timeout_seconds
int
wartość domyślna: None

Liczba sekund, po których upłynął limit czasu sondy liveness. Wartość domyślna to 2 sekundy. Wartość minimalna to 1.

success_threshold
int
wartość domyślna: None

Minimalna liczba kolejnych sukcesów dla sondy liveness, która ma zostać uznana za pomyślną po nieudanej awarii. Wartość domyślna to 1. Wartość minimalna to 1.

failure_threshold
int
wartość domyślna: None

Po uruchomieniu zasobnika i niepowodzeniu sondy liveness platforma Kubernetes spróbuje użyć czasu niepowodzeniaThreshold przed rezygnacją. Wartość domyślna to 3. Wartość minimalna to 1.

traffic_percentile
float
wartość domyślna: None

Ilość ruchu, który jest pobierana przez wersję w punkcie końcowym.

is_default
bool
wartość domyślna: None

Określa, czy ta wersja ma być wersją domyślną w punkcie końcowym. Wartość domyślna to False.

is_control_version_type
bool
wartość domyślna: None

Określa, czy ta wersja ma być wersją kontroli w punkcie końcowym. Wartość domyślna to False.

cpu_cores_limit
float
wartość domyślna: None

Maksymalna liczba rdzeni procesora cpu, z których może korzystać ta usługa sieci Web. Może to być liczba dziesiętna.

memory_gb_limit
float
wartość domyślna: None

Maksymalna ilość pamięci (w GB) dozwolonej przez tę usługę sieci Web. Może to być liczba dziesiętna.

Wyjątki