ParallelRunConfig Klasa

Odwołanie

Definiuje konfigurację ParallelRunStep obiektu.

Przykład użycia metody ParallelRunStep można znaleźć w notesie https://aka.ms/batch-inference-notebooks.

Aby uzyskać informacje na temat rozwiązywania problemów, zobacz https://aka.ms/prstsg. Więcej odwołań można znaleźć w tym miejscu.

Zainicjuj obiekt konfiguracji.

Dziedziczenie: azureml.pipeline.core._parallel_run_config_base._ParallelRunConfigBase

ParallelRunConfig

Konstruktor

ParallelRunConfig(environment, entry_script, error_threshold, output_action, compute_target, node_count, process_count_per_node=None, mini_batch_size=None, source_directory=None, description=None, logging_level='INFO', run_invocation_timeout=60, run_max_try=3, append_row_file_name=None, allowed_failed_count=None, allowed_failed_percent=None, partition_keys=None, environment_variables=None)

Parametry

Nazwa	Opis
environment Wymagane	Environment Definicja środowiska, która konfiguruje środowisko języka Python. Można go skonfigurować tak, aby używać istniejącego środowiska języka Python lub skonfigurować środowisko tymczasowe dla eksperymentu. Definicja środowiska jest odpowiedzialna za definiowanie wymaganych zależności aplikacji, takich jak pakiety conda lub pip.
entry_script Wymagane	str Skrypt użytkownika, który będzie uruchamiany równolegle w wielu węzłach. Jest to określona jako ścieżka pliku lokalnego. Jeśli `source_directory` zostanie określony, `entry_script` to jest ścieżką względną wewnątrz katalogu. W przeciwnym razie może to być dowolna ścieżka dostępna na maszynie. Entry_script powinna zawierać dwie funkcje: `init()`: ta funkcja powinna być używana do jakichkolwiek kosztownych lub typowych przygotowań do kolejnych wnioskowań, np. deserializacji i ładowania modelu do obiektu globalnego. `run(mini_batch)`: metoda, która ma być zrównana. Każde wywołanie będzie miało jedną minisadę. "mini_batch": wnioskowanie wsadowe wywoła metodę uruchamiania i przekaże listę lub ramkę danych Biblioteki Pandas jako argument do metody. Każdy wpis w min_batch będzie ścieżką pliku, jeśli dane wejściowe to FileDataset, ramka danych Pandas, jeśli dane wejściowe są tabelarycznym zestawem danych. Metoda run() powinna zwrócić ramkę danych Biblioteki Pandas lub tablicę. W przypadku append_row output_action te zwrócone elementy są dołączane do wspólnego pliku wyjściowego. W przypadku summary_only zawartość elementów jest ignorowana. Dla wszystkich akcji wyjściowych każdy zwrócony element wyjściowy wskazuje jedną pomyślną wnioskowanie elementu wejściowego w minisadowej partii wejściowej. Każdy proces równoległego procesu roboczego będzie wywoływać wywołanie init raz, a następnie pętli przez funkcję run do momentu przetworzenia wszystkich minisadów.
error_threshold Wymagane	int Liczba niepowodzeń rekordów dla TabularDataset błędów i plików, FileDataset które powinny być ignorowane podczas przetwarzania. Jeśli liczba błędów przekroczy tę wartość, zadanie zostanie przerwane. Próg błędu dotyczy całej danych wejściowych, a nie dla poszczególnych minisadów wysłanych do metody run(). Zakres to [-1, int.max]. -1 wskazuje, że wszystkie błędy są ignorowane podczas przetwarzania.
output_action Wymagane	str Sposób organizowania danych wyjściowych. Bieżące obsługiwane wartości to "append_row" i "summary_only". "append_row" — wszystkie wartości wyjściowe metody run() zostaną zagregowane w jednym unikatowym pliku o nazwie parallel_run_step.txt, który jest tworzony w lokalizacji wyjściowej. "summary_only" — skrypt użytkownika powinien przechowywać dane wyjściowe. Wiersz wyjściowy jest nadal oczekiwany dla każdego pomyślnie przetworzonego elementu wejściowego. System używa tych danych wyjściowych tylko do obliczania progu błędu (ignorując rzeczywistą wartość wiersza).
compute_target Wymagane	AmlCompute lub str Obiekt docelowy obliczeniowy używany do wykonywania ParallelRunStep. Ten parametr może być określony jako obiekt docelowy obliczeniowy lub nazwa docelowego obiektu obliczeniowego w obszarze roboczym.
node_count Wymagane	int Liczba węzłów w docelowym obiekcie obliczeniowym używanym do uruchamiania elementu ParallelRunStep.
process_count_per_node	int Liczba procesów roboczych na węzeł do równoległego uruchamiania skryptu wprowadzania. W przypadku maszyny z procesorem GPU wartość domyślna to 1. W przypadku maszyny cpu wartość domyślna to liczba rdzeni. Proces roboczy będzie wywoływany `run()` wielokrotnie, przekazując minisadową partię. Całkowita liczba procesów roboczych w zadaniu to `process_count_per_node * node_count`, która decyduje o maksymalnej liczbie procesów `run()` do wykonania równolegle. wartość domyślna: None
mini_batch_size	Union[str, int] W przypadku danych wejściowych fileDataset to pole jest liczbą plików, które skrypt użytkownika może przetworzyć w jednym wywołaniu run(). W przypadku danych wejściowych TabularDataset to przybliżony rozmiar danych, które skrypt użytkownika może przetworzyć w jednym wywołaniu run(). Przykładowe wartości to 1024, 1024 KB, 10 MB i 1 GB. (opcjonalnie wartość domyślna to 10 plików dla zestawu plików i 1 MB dla zestawu tabularDataset). wartość domyślna: None
source_directory	str Ścieżka do folderu zawierającego `entry_script` pliki pomocnicze i używane do wykonywania w obiekcie docelowym obliczeniowym. wartość domyślna: None
description	str Opis umożliwiający nadanie usłudze wsadowej używanej do celów wyświetlania. wartość domyślna: None
logging_level	str Ciąg nazwy poziomu rejestrowania, który jest zdefiniowany w "rejestrowaniu". Możliwe wartości to "WARNING", "INFO" i "DEBUG". (opcjonalnie wartość domyślna to "INFO". wartość domyślna: INFO
run_invocation_timeout	int Limit czasu w sekundach dla każdej wywołania metody run(). (opcjonalnie wartość domyślna to 60). wartość domyślna: 60
run_max_try	int Maksymalna liczba prób dla minisadowej liczby prób zakończonych niepowodzeniem lub przekroczenia limitu czasu. Zakres to [1, int.max]. Wartość domyślna to 3. Minisadowa partia z liczbą dequeue większą niż ta nie zostanie ponownie przetworzona i zostanie usunięta bezpośrednio. wartość domyślna: 3
append_row_file_name	str Nazwa pliku wyjściowego, jeśli `output_action` jest to "append_row". (opcjonalnie, wartość domyślna to "parallel_run_step.txt" wartość domyślna: None
allowed_failed_count	int Liczba nieudanych minisadów, które powinny być ignorowane podczas przetwarzania. Jeśli liczba niepomyślnie przekroczy tę wartość, zadanie zostanie przerwane. Ten próg dotyczy całej danych wejściowych, a nie pojedynczej minisadowej wysłanej do metody run(). Zakres to [-1, int.max]. -1 wskazuje, że wszystkie błędy są ignorowane podczas przetwarzania. Minisadowa partia może zakończyć się niepowodzeniem przy pierwszym przetworzeniu, a następnie pomyślnym w drugiej próbie. Sprawdzanie między pierwszym i drugim razem będzie liczyć je jako nieudane. Sprawdzanie po raz drugi nie będzie liczyć go jako nieudanego. Argument –error_threshold, –allowed_failed_count i –allowed_failed_percent może współpracować. Jeśli zostanie określona więcej niż jedna, zadanie zostanie przerwane, jeśli zostanie przekroczone dowolne z nich. wartość domyślna: None
allowed_failed_percent	float Procent nieudanych minisadów, które powinny być ignorowane podczas przetwarzania. Jeśli procent niepowodzenia przekroczy tę wartość, zadanie zostanie przerwane. Ten próg dotyczy całej danych wejściowych, a nie pojedynczej minisadowej wysłanej do metody run(). Zakres to [0, 100]. Wartość 100 lub 100.0 wskazuje ignorowanie wszystkich błędów podczas przetwarzania. Sprawdzanie rozpoczyna się po zaplanowaniu wszystkich minisadów. Argument –error_threshold, –allowed_failed_count i –allowed_failed_percent może współpracować. Jeśli zostanie określona więcej niż jedna, zadanie zostanie przerwane, jeśli zostanie przekroczone dowolne z nich. wartość domyślna: None
partition_keys	List[str] Klucze używane do partycjonowania zestawu danych w minisadach. Jeśli zostanie określony, dane z tym samym kluczem zostaną podzielone na tę samą minisadę. Jeśli określono zarówno partition_keys, jak i mini_batch_size, zostanie zgłoszony błąd. Powinna to być lista elementów str, które są kluczem używanym do partycjonowania wejściowego zestawu danych. Jednak w przypadku podwyższenia poziomu do parametru PipelineParameter wartości domyślne powinny być ciągiem zrzutu json listy, ponieważ typ listy nie jest obecnie obsługiwany w potokuParameter. Dane wejściowe muszą być podzielone na partycje zestawy danych, a partition_keys musi być podzbiorem kluczy każdego wejściowego zestawu danych, aby to działało. wartość domyślna: None
environment_variables	Dict[str, str] Słownik nazw i wartości zmiennych środowiskowych. Te zmienne środowiskowe są ustawiane w procesie, w którym jest wykonywany skrypt użytkownika. wartość domyślna: None
environment Wymagane	Environment Definicja środowiska, która konfiguruje środowisko języka Python. Można go skonfigurować tak, aby używać istniejącego środowiska języka Python lub skonfigurować środowisko tymczasowe dla eksperymentu. Definicja środowiska jest odpowiedzialna za definiowanie wymaganych zależności aplikacji, takich jak pakiety conda lub pip.
entry_script Wymagane	str Skrypt użytkownika, który będzie uruchamiany równolegle w wielu węzłach. Jest to określone jako lokalna ścieżka pliku. Jeśli `source_directory` jest określona, `entry_script` jest ścieżką względną wewnątrz katalogu. W przeciwnym razie może to być dowolna ścieżka dostępna na maszynie. Entry_script powinna zawierać dwie funkcje: `init()`: ta funkcja powinna być używana do każdego kosztownego lub wspólnego przygotowania do kolejnych wnioskowań, np. deserializacji i załadowania modelu do obiektu globalnego. `run(mini_batch)`: metoda, która ma zostać zrównanana. Każde wywołanie będzie mieć jedną minisadę. "mini_batch": Wnioskowanie wsadowe wywoła metodę uruchamiania i przekaże listę lub obiekt DataFrame biblioteki Pandas jako argument do metody. Każdy wpis w min_batch będzie ścieżką pliku, jeśli dane wejściowe to FileDataset, ramka danych Pandas, jeśli dane wejściowe są tabelarycznym zestawem danych. Metoda run() powinna zwracać ramkę danych biblioteki Pandas lub tablicę. W przypadku append_row output_action zwracane elementy są dołączane do wspólnego pliku wyjściowego. W przypadku summary_only zawartość elementów jest ignorowana. Dla wszystkich akcji wyjściowych każdy zwrócony element wyjściowy wskazuje jeden pomyślny wnioskowanie elementu wejściowego w minisadowej partii wejściowej. Każdy proces równoległego procesu roboczego wywoła metodę init raz, a następnie zapętla funkcję run do momentu przetworzenia wszystkich minisadów.
error_threshold Wymagane	int Liczba niepowodzeń rekordów i TabularDataset błędów plików, FileDataset które należy zignorować podczas przetwarzania. Jeśli liczba błędów przekroczy tę wartość, zadanie zostanie przerwane. Próg błędu jest przeznaczony dla całego wejścia, a nie dla pojedynczych minisadów wysyłanych do metody run(). Zakres to [-1, int.max]. -1 wskazuje ignorować wszystkie błędy podczas przetwarzania.
output_action Wymagane	str Sposób organizowania danych wyjściowych. Bieżące obsługiwane wartości to "append_row" i "summary_only". "append_row" — wszystkie wartości wyjściowe wywołań metody run() zostaną zagregowane w jednym unikatowym pliku o nazwie parallel_run_step.txt, który jest tworzony w lokalizacji wyjściowej. "summary_only" — skrypt użytkownika powinien przechowywać dane wyjściowe. Wiersz danych wyjściowych jest nadal oczekiwany dla każdego przetworzonego pomyślnego elementu wejściowego. System używa tych danych wyjściowych tylko do obliczania progu błędu (ignorując rzeczywistą wartość wiersza).
compute_target Wymagane	AmlCompute lub str Docelowy obiekt obliczeniowy do użycia na potrzeby wykonywania ParallelRunStep. Ten parametr można określić jako obiekt docelowy obliczeniowy lub nazwę docelowego obiektu obliczeniowego w obszarze roboczym.
node_count Wymagane	int Liczba węzłów w docelowym obiekcie obliczeniowym używanym do uruchamiania elementu ParallelRunStep.
process_count_per_node Wymagane	int Liczba procesów roboczych na węzeł do równoległego uruchamiania skryptu wejściowego. W przypadku maszyny z procesorem GPU wartość domyślna to 1. W przypadku maszyny procesora CPU wartość domyślna to liczba rdzeni. Proces roboczy będzie wywoływany `run()` wielokrotnie, przekazując minisadową partię. Łączna liczba procesów roboczych w zadaniu to `process_count_per_node * node_count`, która decyduje o maksymalnej liczbie wykonywanych `run()` równolegle.
mini_batch_size Wymagane	str lub int W przypadku danych wejściowych fileDataset to pole jest liczbą plików, które skrypt użytkownika może przetworzyć w jednym wywołaniu run(). W przypadku danych wejściowych TabularDataset to przybliżony rozmiar danych, które skrypt użytkownika może przetworzyć w jednym wywołaniu run(). Przykładowe wartości to 1024, 1024 KB, 10 MB i 1 GB. (opcjonalnie wartość domyślna to 10 plików dla elementu FileDataset i 1 MB dla elementu TabularDataset).
source_directory Wymagane	str Ścieżka do folderu zawierającego `entry_script` pliki pomocnicze i używane do wykonywania na docelowym obiekcie obliczeniowym.
description Wymagane	str Opis umożliwiający przekazanie usługi wsadowej używanej do celów wyświetlania.
logging_level Wymagane	str Ciąg nazwy poziomu rejestrowania, który jest zdefiniowany w ciągu "rejestrowania". Możliwe wartości to "WARNING", "INFO" i "DEBUG". (opcjonalnie wartość domyślna to "INFO".
run_invocation_timeout Wymagane	int Limit czasu w sekundach dla każdej wywołania metody run(). (opcjonalnie wartość domyślna to 60).
run_max_try Wymagane	int Maksymalna liczba prób dla minisadowej partii zakończonych niepowodzeniem lub przekroczenia limitu czasu. Zakres to [1, int.max]. Wartość domyślna to 3. Mini batch z liczbą dequeue większą niż ta nie zostanie ponownie przetworzona i zostanie usunięta bezpośrednio.
append_row_file_name Wymagane	str Nazwa pliku wyjściowego, jeśli jest `output_action` to "append_row". (opcjonalnie wartość domyślna to "parallel_run_step.txt")
allowed_failed_count Wymagane	int Liczba nieudanych minisadów, które powinny być ignorowane podczas przetwarzania. Jeśli liczba niepomyślnie przekroczy tę wartość, zadanie zostanie przerwane. Ten próg dotyczy całej danych wejściowych, a nie pojedynczej minisadowej wysłanej do metody run(). Zakres to [-1, int.max]. -1 wskazuje ignorować wszystkie błędy podczas przetwarzania. Minisadowa partia może zakończyć się niepowodzeniem po pierwszym przetworzeniu, a następnie po pomyślnym zakończeniu drugiej próby. Sprawdzanie między pierwszym i drugim czasem będzie zliczane jako niepowodzenie. Sprawdzanie po raz drugi nie będzie zliczane jako nieudane. Argument –error_threshold, –allowed_failed_count i –allowed_failed_percent może współpracować. Jeśli zostanie określona więcej niż jedna, zadanie zostanie przerwane, jeśli przekroczy którykolwiek z nich.
allowed_failed_percent Wymagane	float Procent nieudanych minisadów, które powinny być ignorowane podczas przetwarzania. Jeśli procent niepowodzenia przekroczy tę wartość, zadanie zostanie przerwane. Ten próg dotyczy całej danych wejściowych, a nie pojedynczej minisadowej wysłanej do metody run(). Zakres to [0, 100]. Wartość 100 lub 100.0 wskazuje, że ignoruje wszystkie błędy podczas przetwarzania. Sprawdzanie rozpoczyna się po zaplanowaniu wszystkich minisadów. Argument –error_threshold, –allowed_failed_count i –allowed_failed_percent może współpracować. Jeśli zostanie określona więcej niż jedna, zadanie zostanie przerwane, jeśli przekroczy którykolwiek z nich.
partition_keys Wymagane	List[str] Klucze używane do partycjonowania zestawu danych w minisadach. Jeśli zostanie określony, dane z tym samym kluczem zostaną podzielone na tę samą minisadę. Jeśli określono zarówno partition_keys, jak i mini_batch_size, zostanie zgłoszony błąd. Powinna to być lista elementów str, z których każdy jest kluczem używanym do partycjonowania wejściowego zestawu danych. Jednak w przypadku podwyższenia poziomu do parametru PipelineParameter wartości domyślne powinny być ciągiem zrzutu json listy, ponieważ typ listy nie jest obecnie obsługiwany w parametrze PipelineParameter. Dane wejściowe muszą być partycjonowane, a partition_keys musi być podzbiorem kluczy każdego wejściowego zestawu danych, aby to działało.
environment_variables Wymagane	Dict[str, str] Słownik nazw i wartości zmiennych środowiskowych. Te zmienne środowiskowe są ustawiane w procesie wykonywania skryptu użytkownika.

Uwagi

Klasa ParallelRunConfig służy do zapewnienia konfiguracji dla ParallelRunStep klasy . ParallelRunConfig i ParallelRunStep mogą być używane razem do równoległego przetwarzania dużych ilości danych. Typowe przypadki użycia to trenowanie modelu uczenia maszynowego lub uruchamianie wnioskowania w trybie offline w celu generowania przewidywań na podstawie partii obserwacji. Działanie klasy ParallelRunStep polega na podziale danych na partie przetwarzane równolegle. Rozmiar partii, liczba węzłów i inne parametry dostrajania w celu przyspieszenia przetwarzania równoległego można kontrolować za ParallelRunConfig pomocą klasy . Element ParallelRunStep może pracować z danymi wejściowymi TabularDataset lub FileDataset .

Aby użyć klasy ParallelRunStep i ParallelRunConfig:

ParallelRunConfig Utwórz obiekt w celu określenia sposobu wykonywania przetwarzania wsadowego z parametrami służącymi do kontrolowania rozmiaru partii, liczby węzłów na docelowy obiekt obliczeniowy i odwołania do niestandardowego skryptu języka Python.
Utwórz obiekt ParallelRunStep, który używa obiektu ParallelRunConfig, definiuje dane wejściowe i wyjściowe dla kroku.
Użyj skonfigurowanego obiektu ParallelRunStep w taki sam sposób, jak w Pipeline przypadku innych typów kroków potoku.

Przykłady pracy z klasami ParallelRunStep i ParallelRunConfig na potrzeby wnioskowania wsadowego zostały omówione w następujących artykułach:

Samouczek: Tworzenie potoku usługi Azure Machine Learning na potrzeby wsadowego oceniania. W tym artykule przedstawiono sposób użycia tych dwóch klas do asynchronicznego oceniania wsadowego w potoku oraz sposób włączenia punktu końcowego REST w celu uruchomienia potoku.
Uruchamianie wnioskowania wsadowego dla dużych ilości danych za pomocą usługi Azure Machine Learning. W tym artykule pokazano, jak przetwarzać duże ilości danych asynchronicznie i równolegle za pomocą niestandardowego skryptu wnioskowania oraz wstępnie wytrenowanego modelu klasyfikacji obrazów na podstawie zestawu danych MNIST.


   from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",        # or partition_keys=["key1", "key2"], which is another way to partition the
                                   # input to mini-batches, refer to the parameter description for details
       error_threshold=10,         # Optional, allowed failed count on mini batch items
       allowed_failed_count=15,    # Optional, allowed failed count on mini batches
       allowed_failed_percent=10,  # Optional, allowed failed percent on mini batches
       run_max_try=3,
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       arguments=[ "--extra_arg", "example_value" ],
       allow_reuse=True
   )

Aby uzyskać więcej informacji na temat tego przykładu, zobacz notes https://aka.ms/batch-inference-notebooks.

Metody

load_yaml	Ładowanie równoległych danych konfiguracji uruchamiania z pliku YAML.
save_to_yaml	Eksportowanie równoległych danych konfiguracji uruchamiania do pliku YAML.

load_yaml

Ładowanie równoległych danych konfiguracji uruchamiania z pliku YAML.

static load_yaml(workspace, path)

Parametry

Nazwa	Opis
workspace Wymagane	Workspace Obszar roboczy do odczytywania danych konfiguracji.
path Wymagane	str Ścieżka do załadowania konfiguracji z.

save_to_yaml

Eksportowanie równoległych danych konfiguracji uruchamiania do pliku YAML.

save_to_yaml(path)

Parametry

Nazwa	Opis
path Wymagane	str Ścieżka do zapisania pliku.

Udostępnij za pośrednictwem

ParallelRunConfig Klasa

Konstruktor

Parametry

Uwagi

Metody

load_yaml

Parametry

save_to_yaml

Parametry

Opinia

Opinia

Dodatkowe zasoby