AksEndpoint Klasa
Uwaga
Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Reprezentuje kolekcję wersji usługi internetowej za tym samym punktem końcowym uruchomionym na Azure Kubernetes Service.
Podczas gdy jedna AksWebservice usługa wdraża pojedynczą usługę z pojedynczym punktem końcowym oceniania, klasa AksEndpoint umożliwia wdrożenie wielu wersji usług internetowych za tym samym punktem końcowym oceniania. Każdą wersję usługi internetowej można skonfigurować tak, aby obsługiwała procent ruchu, dzięki czemu można wdrażać modele w kontrolowany sposób, na przykład na potrzeby testowania A/B. Punkt AksEndpoint umożliwia wdrożenie z obiektu modelu podobnego do usługi AksWebservice.
Zainicjuj wystąpienie usługi internetowej.
Konstruktor usługi internetowej pobiera reprezentację chmury obiektu usługi internetowej skojarzonego z podanym obszarem roboczym. Zwróci wystąpienie klasy podrzędnej odpowiadające określonemu typowi pobranego obiektu usługi sieci Web.
- Dziedziczenie
-
AksEndpoint
Konstruktor
AksEndpoint(workspace, name)
Parametry
- workspace
- Workspace
Obiekt obszaru roboczego zawierający obiekt usługi sieci Web do pobrania.
Zmienne
- versions
- dict[str, AksWebservice]
Słownik nazwy wersji do obiektu wersji. Zawiera wszystkie wersje wdrożone w ramach tego punktu końcowego.
Metody
create_version |
Dodaj nową wersję w punkcie końcowym z podanymi właściwościami. |
delete_version |
Usuń wersję w punkcie końcowym. |
deploy_configuration |
Utwórz obiekt konfiguracji do wdrażania w docelowym obiekcie obliczeniowym usługi AKS. |
serialize |
Przekonwertuj tę usługę internetową na słownik serializacji JSON. |
update |
Zaktualizuj punkt końcowy przy użyciu podanych właściwości. Wartości pozostawione jako Brak pozostaną niezmienione w tym punkcie końcowym |
update_version |
Zaktualizuj istniejącą wersję w punkcie końcowym z podanymi właściwościami. Wartości pozostawione jako Brak pozostaną niezmienione w tej wersji. |
create_version
Dodaj nową wersję w punkcie końcowym z podanymi właściwościami.
create_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)
Parametry
- autoscale_enabled
- bool
Czy włączyć skalowanie automatyczne dla tej wersji w punkcie końcowym.
Wartość domyślna to True, jeśli num_replicas
ma wartość None.
- autoscale_min_replicas
- int
Minimalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 1
- autoscale_max_replicas
- int
Maksymalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 10
- autoscale_refresh_seconds
- int
Jak często autoskalator powinien próbować skalować tę wersję w punkcie końcowym. Wartość domyślna to 1
- autoscale_target_utilization
- int
Użycie docelowe (w procentach na 100) autoskalator powinien próbować zachować tę wersję w punkcie końcowym. Wartość domyślna to 70
- collect_model_data
- bool
Czy włączyć zbieranie danych modelu dla tej wersji w punkcie końcowym. Wartości domyślne to False
- cpu_cores
- float
Liczba rdzeni procesora CPU do przydzielenia dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0.1
- memory_gb
- float
Ilość pamięci (w GB) do przydzielenia dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0,5
- scoring_timeout_ms
- int
Limit czasu wymuszania wywołań oceniania do tej wersji w punkcie końcowym. Wartość domyślna to 60000.
- replica_max_concurrent_requests
- int
Liczba maksymalnie współbieżnych żądań na replikę, aby umożliwić korzystanie z tej wersji w punkcie końcowym. Wartość domyślna to 1. Nie zmieniaj tego ustawienia z wartości domyślnej 1, chyba że zostanie poinstruowany przez pomoc techniczną firmy Microsoft lub członek zespołu usługi Azure Machine Learning.
- max_request_wait_time
- int
Maksymalny czas, przez jaki żądanie pozostanie w kolejce (w milisekundach) przed zwróceniem błędu 503. Wartość domyślna to 500.
- num_replicas
- int
Liczba kontenerów do przydzielenia dla tej wersji w punkcie końcowym. Nie ma wartości domyślnej, jeśli ten parametr nie jest ustawiony, autoskalator jest domyślnie włączony.
Słownik tagów wartości klucza, aby nadać ten punkt końcowy.
Słownik właściwości wartości klucza, aby nadać ten punkt końcowy. Nie można zmienić tych właściwości po wdrożeniu, jednak można dodać nowe pary wartości klucza.
Lista obiektów modelu do spakowania za pomocą zaktualizowanej usługi.
- inference_config
- InferenceConfig
Obiekt InferenceConfig używany do udostępniania wymaganych właściwości wdrożenia modelu.
- gpu_cores
- int
Liczba rdzeni procesora GPU do przydzielenia dla tej wersji w punkcie końcowym. Wartość domyślna to 0.
- period_seconds
- int
Jak często (w sekundach) wykonać sondę liveness. Wartość domyślna to 10 sekund. Wartość minimalna to 1.
- initial_delay_seconds
- int
Liczba sekund po uruchomieniu kontenera przed zainicjowanymi sondami liveness. Wartość domyślna to 310.
- timeout_seconds
- int
Liczba sekund, po których upłynął limit czasu sondy liveness. Wartość domyślna to 2 sekundy. Wartość minimalna to 1.
- success_threshold
- int
Minimalna liczba kolejnych sukcesów dla sondy liveness, która ma zostać uznana za pomyślną po nieudanej awarii. Wartość domyślna to 1. Wartość minimalna to 1.
- failure_threshold
- int
Po uruchomieniu zasobnika i niepowodzeniu sondy liveness platforma Kubernetes spróbuje użyć czasu niepowodzeniaThreshold przed rezygnacją. Wartość domyślna to 3. Wartość minimalna to 1.
- traffic_percentile
- float
Ilość ruchu, który jest pobierana przez wersję w punkcie końcowym.
- is_default
- bool
Określa, czy ta wersja ma być wersją domyślną w punkcie końcowym. Wartość domyślna to False.
- is_control_version_type
- bool
Określa, czy ta wersja ma być wersją kontroli w punkcie końcowym. Wartość domyślna to False.
- cpu_cores_limit
- float
Maksymalna liczba rdzeni procesora cpu, z których może korzystać ta usługa sieci Web. Może to być liczba dziesiętna.
- memory_gb_limit
- float
Maksymalna ilość pamięci (w GB) dozwolonej przez tę usługę sieci Web. Może to być liczba dziesiętna.
Wyjątki
delete_version
Usuń wersję w punkcie końcowym.
delete_version(version_name)
Parametry
Wyjątki
deploy_configuration
Utwórz obiekt konfiguracji do wdrażania w docelowym obiekcie obliczeniowym usługi AKS.
static deploy_configuration(autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, auth_enabled=None, cpu_cores=None, memory_gb=None, enable_app_insights=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, primary_key=None, secondary_key=None, tags=None, properties=None, description=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, namespace=None, token_auth_enabled=None, version_name=None, traffic_percentile=None, compute_target_name=None, cpu_cores_limit=None, memory_gb_limit=None)
Parametry
- autoscale_enabled
- bool
Czy włączyć skalowanie automatyczne dla tej wersji w punkcie końcowym.
Wartość domyślna to True, jeśli num_replicas
ma wartość None.
- autoscale_min_replicas
- int
Minimalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 1.
- autoscale_max_replicas
- int
Maksymalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 10.
- autoscale_refresh_seconds
- int
Jak często autoskalator powinien próbować skalować tę wersję w punkcie końcowym. Wartość domyślna to 1.
- autoscale_target_utilization
- int
Użycie docelowe (w procentach na 100) autoskalator powinien próbować zachować tę wersję w punkcie końcowym. Wartość domyślna to 70.
- collect_model_data
- bool
Czy włączyć zbieranie danych modelu dla tej wersji w punkcie końcowym. Wartość domyślna to False.
- auth_enabled
- bool
Czy włączyć uwierzytelnianie klucza dla tej wersji w punkcie końcowym. Wartość domyślna to True.
- cpu_cores
- float
Liczba rdzeni procesora, które mają być przydzielane dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0.1
- memory_gb
- float
Ilość pamięci (w GB) do przydzielenia dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0,5
- enable_app_insights
- bool
Czy włączyć rejestrowanie usługi ApplicationInsights dla tej wersji w punkcie końcowym. Wartość domyślna to False.
- scoring_timeout_ms
- int
Limit czasu wymuszania wywołań oceniania do tej wersji w punkcie końcowym. Wartość domyślna to 60000
- replica_max_concurrent_requests
- int
Liczba maksymalnie współbieżnych żądań na replikę, aby umożliwić korzystanie z tej wersji w punkcie końcowym. Wartość domyślna to 1. Nie zmieniaj tego ustawienia z wartości domyślnej 1, chyba że zostanie poinstruowany przez pomoc techniczną firmy Microsoft lub członek zespołu usługi Azure Machine Learning.
- max_request_wait_time
- int
Maksymalny czas, przez jaki żądanie pozostanie w kolejce (w milisekundach) przed zwróceniem błędu 503. Wartość domyślna to 500.
- num_replicas
- int
Liczba kontenerów do przydzielenia dla tej wersji w punkcie końcowym. Nie ma wartości domyślnej, jeśli ten parametr nie jest ustawiony, autoskalator jest domyślnie włączony.
- primary_key
- str
Podstawowy klucz uwierzytelniania używany dla tego punktu końcowego.
- secondary_key
- str
Pomocniczy klucz uwierzytelniania do użycia dla tego punktu końcowego.
Słownik tagów wartości klucza, aby nadać ten punkt końcowy.
Słownik właściwości wartości klucza, aby nadać ten punkt końcowy. Nie można zmienić tych właściwości po wdrożeniu, jednak można dodać nowe pary wartości klucza
- gpu_cores
- int
Liczba rdzeni procesora GPU do przydzielenia dla tej wersji w punkcie końcowym. Wartość domyślna to 0.
- period_seconds
- int
Jak często (w sekundach) wykonać sondę liveness. Wartość domyślna to 10 sekund. Wartość minimalna to 1.
- initial_delay_seconds
- int
Liczba sekund po uruchomieniu kontenera przed zainicjowanymi sondami aktualności. Wartość domyślna to 310.
- timeout_seconds
- int
Liczba sekund, po których upłynął limit czasu sondy liveness. Wartość domyślna to 2 sekundy. Wartość minimalna to 1.
- success_threshold
- int
Minimalna liczba kolejnych sukcesów dla sondy liveness, która ma zostać uznana za pomyślną po nieudanej awarii. Wartość domyślna to 1. Wartość minimalna to 1.
- failure_threshold
- int
Gdy zasobnik zostanie uruchomiony, a sonda liveness zakończy się niepowodzeniem, platforma Kubernetes spróbuje failureThreshold
kilka razy przed rezygnacją. Wartość domyślna to 3. Wartość minimalna to 1.
- namespace
- str
Przestrzeń nazw platformy Kubernetes, w której ma zostać wdrożony ten punkt końcowy: do 63 małych liter alfanumeryczne ('a'-'z', '0'-'9') i łącznika ('-'). Pierwsze i ostatnie znaki nie mogą być łącznikami.
- token_auth_enabled
- bool
Czy włączyć uwierzytelnianie tokenu dla tego punktu końcowego. Jeśli jest to włączone, użytkownicy mogą uzyskać dostęp do tego punktu końcowego, pobierając token dostępu przy użyciu poświadczeń usługi Azure Active Directory. Wartość domyślna to False.
- traffic_percentile
- float
ilość ruchu, który wersja przyjmuje w punkcie końcowym.
- cpu_cores_limit
- float
Maksymalna liczba rdzeni procesora cpu, z których może korzystać ta usługa sieci Web. Może to być liczba dziesiętna.
- memory_gb_limit
- float
Maksymalna ilość pamięci (w GB) dozwolonej przez tę usługę sieci Web. Może to być liczba dziesiętna.
Typ zwracany
Wyjątki
serialize
Przekonwertuj tę usługę internetową na słownik serializacji JSON.
serialize()
Zwraca
Reprezentacja JSON tej usługi sieci Web.
Typ zwracany
Wyjątki
update
Zaktualizuj punkt końcowy przy użyciu podanych właściwości.
Wartości pozostawione jako Brak pozostaną niezmienione w tym punkcie końcowym
update(auth_enabled=None, token_auth_enabled=None, enable_app_insights=None, description=None, tags=None, properties=None)
Parametry
- auth_enabled
- bool
Czy włączyć uwierzytelnianie klucza dla tej wersji w punkcie końcowym. Wartość domyślna to True.
- token_auth_enabled
- bool
Czy włączyć uwierzytelnianie tokenu dla tego punktu końcowego. Jeśli jest to włączone, użytkownicy mogą uzyskać dostęp do tego punktu końcowego, pobierając token dostępu przy użyciu poświadczeń usługi Azure Active Directory. Wartość domyślna to False.
- enable_app_insights
- bool
Czy włączyć rejestrowanie usługi Application Insights dla tej wersji w punkcie końcowym. Wartość domyślna to False.
Słownik tagów wartości klucza, aby nadać ten punkt końcowy.
Słownik właściwości wartości klucza, aby nadać ten punkt końcowy. Nie można zmienić tych właściwości po wdrożeniu, jednak można dodać nowe pary wartości klucza.
Wyjątki
update_version
Zaktualizuj istniejącą wersję w punkcie końcowym z podanymi właściwościami.
Wartości pozostawione jako Brak pozostaną niezmienione w tej wersji.
update_version(version_name, autoscale_enabled=None, autoscale_min_replicas=None, autoscale_max_replicas=None, autoscale_refresh_seconds=None, autoscale_target_utilization=None, collect_model_data=None, cpu_cores=None, memory_gb=None, scoring_timeout_ms=None, replica_max_concurrent_requests=None, max_request_wait_time=None, num_replicas=None, tags=None, properties=None, description=None, models=None, inference_config=None, gpu_cores=None, period_seconds=None, initial_delay_seconds=None, timeout_seconds=None, success_threshold=None, failure_threshold=None, traffic_percentile=None, is_default=None, is_control_version_type=None, cpu_cores_limit=None, memory_gb_limit=None)
Parametry
- autoscale_enabled
- bool
Czy włączyć skalowanie automatyczne dla tej wersji w punkcie końcowym. Wartość domyślna to True, jeśli num_replicas ma wartość None.
- autoscale_min_replicas
- int
Minimalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 1.
- autoscale_max_replicas
- int
Maksymalna liczba kontenerów do użycia podczas automatycznego skalowania tej wersji w punkcie końcowym. Wartość domyślna to 10.
- autoscale_refresh_seconds
- int
Jak często autoskalator powinien próbować skalować tę wersję w punkcie końcowym. Wartość domyślna to 1
- autoscale_target_utilization
- int
Użycie docelowe (w procentach na 100) autoskalator powinien próbować zachować tę wersję w punkcie końcowym. Wartość domyślna to 70.
- collect_model_data
- bool
Czy włączyć zbieranie danych modelu dla tej wersji w punkcie końcowym. Wartość domyślna to False.
- cpu_cores
- float
Liczba rdzeni procesora, które mają być przydzielane dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0.1
- memory_gb
- float
Ilość pamięci (w GB) do przydzielenia dla tej wersji w punkcie końcowym. Może to być liczba dziesiętna. Wartość domyślna to 0,5
- scoring_timeout_ms
- int
Limit czasu wymuszania wywołań oceniania do tej wersji w punkcie końcowym. Wartość domyślna to 60000.
- replica_max_concurrent_requests
- int
Liczba maksymalnie współbieżnych żądań na replikę, aby umożliwić korzystanie z tej wersji w punkcie końcowym. Wartość domyślna to 1. Nie zmieniaj tego ustawienia z wartości domyślnej 1, chyba że zostanie poinstruowany przez pomoc techniczną firmy Microsoft lub członek zespołu usługi Azure Machine Learning.
- max_request_wait_time
- int
Maksymalny czas, przez jaki żądanie pozostanie w kolejce (w milisekundach) przed zwróceniem błędu 503. Wartość domyślna to 500.
- num_replicas
- int
Liczba kontenerów do przydzielenia dla tej wersji w punkcie końcowym. Nie ma wartości domyślnej, jeśli ten parametr nie jest ustawiony, autoskalator jest domyślnie włączony.
Słownik tagów wartości klucza, aby nadać ten punkt końcowy.
Słownik właściwości wartości klucza, aby nadać ten punkt końcowy. Nie można zmienić tych właściwości po wdrożeniu, jednak można dodać nowe pary wartości klucza.
Lista obiektów modelu do spakowania za pomocą zaktualizowanej usługi
- inference_config
- InferenceConfig
Obiekt InferenceConfig używany do udostępniania wymaganych właściwości wdrożenia modelu.
- gpu_cores
- int
Liczba rdzeni procesora GPU do przydzielenia dla tej wersji w punkcie końcowym. Wartość domyślna to 0.
- period_seconds
- int
Jak często (w sekundach) wykonać sondę liveness. Wartość domyślna to 10 sekund. Wartość minimalna to 1.
- initial_delay_seconds
- int
Liczba sekund po uruchomieniu kontenera przed zainicjowanymi sondami liveness. Wartość domyślna to 310.
- timeout_seconds
- int
Liczba sekund, po których upłynął limit czasu sondy liveness. Wartość domyślna to 2 sekundy. Wartość minimalna to 1.
- success_threshold
- int
Minimalna liczba kolejnych sukcesów dla sondy liveness, która ma zostać uznana za pomyślną po nieudanej awarii. Wartość domyślna to 1. Wartość minimalna to 1.
- failure_threshold
- int
Po uruchomieniu zasobnika i niepowodzeniu sondy liveness platforma Kubernetes spróbuje użyć czasu niepowodzeniaThreshold przed rezygnacją. Wartość domyślna to 3. Wartość minimalna to 1.
- traffic_percentile
- float
Ilość ruchu, który jest pobierana przez wersję w punkcie końcowym.
- is_default
- bool
Określa, czy ta wersja ma być wersją domyślną w punkcie końcowym. Wartość domyślna to False.
- is_control_version_type
- bool
Określa, czy ta wersja ma być wersją kontroli w punkcie końcowym. Wartość domyślna to False.
- cpu_cores_limit
- float
Maksymalna liczba rdzeni procesora cpu, z których może korzystać ta usługa sieci Web. Może to być liczba dziesiętna.
- memory_gb_limit
- float
Maksymalna ilość pamięci (w GB) dozwolonej przez tę usługę sieci Web. Może to być liczba dziesiętna.
Wyjątki
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla