AdlaStep Klasa

Tworzy krok potoku usługi Azure ML w celu uruchomienia skryptu U-SQL przy użyciu usługi Azure Data Lake Analytics.

Aby zapoznać się z przykładem użycia tego elementu AdlaStep, zobacz notes https://aka.ms/pl-adla.

Utwórz krok potoku usługi Azure ML, aby uruchomić skrypt U-SQL przy użyciu usługi Azure Data Lake Analytics.

Dziedziczenie
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Konstruktor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parametry

script_name
str
Wymagane

[Wymagane] Nazwa skryptu U-SQL względem source_directory.

name
str
wartość domyślna: None

Nazwa kroku. Jeśli nie zostanie określona, script_name zostanie użyta.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
wartość domyślna: None

Lista powiązań portów wejściowych.

outputs
list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]]
wartość domyślna: None

Lista powiązań portów wyjściowych.

params
dict
wartość domyślna: None

Słownik par name-value.

degree_of_parallelism
int
wartość domyślna: None

Stopień równoległości do użycia dla tego zadania. Musi to być większe niż 0. Jeśli ustawiono wartość mniejszą niż 0, wartość domyślna to 1.

priority
int
wartość domyślna: None

Wartość priorytetu do użycia dla bieżącego zadania. Mniejsze liczby mają wyższy priorytet. Domyślnie zadanie ma priorytet 1000. Określona wartość musi być większa niż 0.

runtime_version
str
wartość domyślna: None

Wersja środowiska uruchomieniowego aparatu Data Lake Analytics.

compute_target
AdlaCompute, str
wartość domyślna: None

[Wymagane] Obliczenia usługi ADLA do użycia dla tego zadania.

source_directory
str
wartość domyślna: None

Folder zawierający skrypt, zestawy itp.

allow_reuse
bool
wartość domyślna: True

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszelkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

version
str
wartość domyślna: None

Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.

hash_paths
list
wartość domyślna: None

PRZESTARZAŁE: nie jest już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu source_directory jest skrótem z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

script_name
str
Wymagane

[Wymagane] Nazwa skryptu U-SQL względem source_directory.

name
str
Wymagane

Nazwa kroku. Jeśli nie zostanie określona, script_name zostanie użyta.

inputs
list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]]
Wymagane

Lista powiązań portów wejściowych

outputs
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Wymagane

Lista powiązań portów wyjściowych.

params
dict
Wymagane

Słownik par name-value.

degree_of_parallelism
int
Wymagane

Stopień równoległości do użycia dla tego zadania. Musi to być większe niż 0. Jeśli ustawiono wartość mniejszą niż 0, wartość domyślna to 1.

priority
int
Wymagane

Wartość priorytetu do użycia dla bieżącego zadania. Mniejsze liczby mają wyższy priorytet. Domyślnie zadanie ma priorytet 1000. Określona wartość musi być większa niż 0.

runtime_version
str
Wymagane

Wersja środowiska uruchomieniowego aparatu Data Lake Analytics.

compute_target
AdlaCompute, str
Wymagane

[Wymagane] Obliczenia usługi ADLA do użycia dla tego zadania.

source_directory
str
Wymagane

Folder zawierający skrypt, zestawy itp.

allow_reuse
bool
Wymagane

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszelkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

version
str
Wymagane

Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.

hash_paths
list
Wymagane

PRZESTARZAŁE: nie jest już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu source_directory jest skrótem z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

Uwagi

Składnia @@name@@ skryptu służy do odwoływania się do danych wejściowych, wyjściowych i parametrów.

  • jeśli nazwa jest nazwą powiązania portu wejściowego lub wyjściowego, wszelkie wystąpienia @@name@@ w skrycie są zastępowane rzeczywistą ścieżką danych odpowiedniego powiązania portu.

  • jeśli nazwa pasuje do dowolnego klucza w dyktach params , wszystkie wystąpienia @@name@@ zostaną zastąpione odpowiednią wartością w dykcie.

Aplikacja AdlaStep współpracuje tylko z danymi przechowywanymi w domyślnym Data Lake Storage konta Data Lake Analytics. Jeśli dane są w magazynie nie domyślnym, użyj elementu , DataTransferStep aby skopiować dane do domyślnego magazynu. Domyślny magazyn można znaleźć, otwierając konto Data Lake Analytics w Azure Portal, a następnie przechodząc do elementu "Źródła danych" w obszarze Ustawienia w okienku po lewej stronie.

W poniższym przykładzie pokazano, jak używać usługi AdlaStep w potoku usługi Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Pełna próbka jest dostępna z witryny https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Metody

create_node

Utwórz węzeł z kroku AdlaStep i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy.

create_node

Utwórz węzeł z kroku AdlaStep i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy.

create_node(graph, default_datastore, context)

Parametry

graph
Graph
Wymagane

Obiekt grafu.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Wymagane

Domyślny magazyn danych.

context
<xref:azureml.pipeline.core._GraphContext>
Wymagane

Kontekst grafu.

Zwraca

Obiekt węzła.

Typ zwracany