SynapseSparkStep Klasa

Uwaga

Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/acr/connected-registry.

Tworzy krok usługi Azure ML Synapse, który przesyła i wykonuje skrypt języka Python.

Utwórz krok potoku usługi Azure ML, który uruchamia zadanie platformy Spark w puli platformy Spark usługi Synapse.

Konstruktor

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Parametry

Nazwa	Opis
file Wymagane	str Nazwa skryptu synapse względem source_directory.
source_directory Wymagane	str Folder zawierający skrypt języka Python, env conda i inne zasoby używane w kroku.
compute_target Wymagane	SynapseCompute lub str Docelowy obiekt obliczeniowy do użycia.
driver_memory Wymagane	str Ilość pamięci do użycia w procesie sterownika.
driver_cores Wymagane	int Liczba rdzeni do użycia w procesie sterownika.
executor_memory Wymagane	str Ilość pamięci do użycia na proces funkcji wykonawczej.
executor_cores Wymagane	int Liczba rdzeni do użycia dla każdego modułu wykonawczego.
num_executors Wymagane	int Liczba funkcji wykonawczych do uruchomienia dla tej sesji.
name Wymagane	str Nazwa kroku. Jeśli nie określono, `file` jest używany.
app_name Wymagane	str Nazwa aplikacji używana do przesyłania zadania platformy Spark.
environment Wymagane	Environment Środowisko AML będzie obsługiwane w nowszej wersji.
arguments Wymagane	list Argumenty wiersza polecenia dla pliku skryptu usługi Synapse.
inputs Wymagane	list[DatasetConsumptionConfig] Lista danych wejściowych.
outputs Wymagane	list[HDFSOutputDatasetConfig] Lista danych wyjściowych.
conf Wymagane	dict Właściwości konfiguracji platformy Spark.
py_files Wymagane	list Pliki języka Python, które mają być używane w tej sesji, parametr interfejsu API usługi livy.
files Wymagane	list Pliki, które mają być używane w tej sesji, parametr interfejsu API usługi livy.
allow_reuse Wymagane	bool Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami.
version Wymagane	str Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.
file Wymagane	str Nazwa skryptu usługi Synapse względem `source_directory`.
source_directory Wymagane	str Folder zawierający skrypt języka Python, env conda i inne zasoby używane w kroku.
compute_target Wymagane	SynapseCompute lub str Docelowy obiekt obliczeniowy do użycia.
driver_memory Wymagane	str Ilość pamięci do użycia w procesie sterownika.
driver_cores Wymagane	int Liczba rdzeni do użycia w procesie sterownika.
executor_memory Wymagane	str Ilość pamięci do użycia na proces funkcji wykonawczej.
executor_cores Wymagane	int Liczba rdzeni do użycia dla każdego modułu wykonawczego.
num_executors Wymagane	int Liczba funkcji wykonawczych do uruchomienia dla tej sesji.
name Wymagane	str Nazwa kroku. Jeśli nie określono, `file` jest używany.
app_name Wymagane	str Nazwa aplikacji używana do przesyłania zadania platformy Apache Spark.
environment Wymagane	Environment Środowisko AML, które będzie używane w tym elemencie SynapseSparkStep.
arguments Wymagane	list Argumenty wiersza polecenia dla pliku skryptu usługi Synapse.
inputs Wymagane	list[DatasetConsumptionConfig] Lista danych wejściowych.
outputs Wymagane	list[HDFSOutputDatasetConfig] Lista danych wyjściowych.
conf Wymagane	dict Właściwości konfiguracji platformy Spark.
py_files Wymagane	list Pliki języka Python, które mają być używane w tej sesji, parametr interfejsu API usługi livy.
jars Wymagane	list Pliki Jar, które mają być używane w tej sesji, parametr interfejsu API usługi livy.
files Wymagane	list Pliki, które mają być używane w tej sesji, parametr interfejsu API usługi livy.
allow_reuse Wymagane	bool Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami.
version Wymagane	str Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.

Uwagi

Usługa SynapseSparkStep to podstawowy, wbudowany krok uruchamiania zadania platformy Spark w języku Python w pulach platformy Spark synapse. Przyjmuje ona nazwę pliku głównego i inne parametry opcjonalne, takie jak argumenty dla skryptu, docelowy obiekt obliczeniowy, dane wejściowe i wyjściowe.

Najlepszym rozwiązaniem do pracy z usługą SynapseSparkStep jest użycie oddzielnego folderu dla skryptów i wszelkich plików zależnych skojarzonych z krokiem oraz określenia tego folderu z parametrem source_directory . Zgodnie z tym najlepszym rozwiązaniem ma dwie korzyści. Najpierw pomaga zmniejszyć rozmiar migawki utworzonej dla kroku, ponieważ tylko to, co jest potrzebne do wykonania kroku, jest migawkowane. Po drugie, dane wyjściowe kroku z poprzedniego przebiegu można ponownie użyć, jeśli nie ma żadnych zmian w source_directory pliku, które wyzwoli ponowne przekazanie migawki.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

Polecenie SynapseSparkStep obsługuje tylko element DatasetConsumptionConfig jako dane wejściowe i HDFSOutputDatasetConfig jako dane wyjściowe.

Metody

create_node

Utwórz węzeł dla kroku skryptu usługi Synapse.

Ta metoda nie jest przeznaczona do bezpośredniego użycia. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pośrednictwem tej metody, aby można było dodać krok do grafu potoku reprezentującego przepływ pracy.

create_node

Utwórz węzeł dla kroku skryptu usługi Synapse.

create_node(graph, default_datastore, context)

Parametry

Nazwa	Opis
graph Wymagane	Graph Obiekt grafu, do który ma zostać dodany węzeł.
default_datastore Wymagane	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Domyślny magazyn danych.
context Wymagane	<xref:azureml.pipeline.core._GraphContext> Kontekst grafu.

Zwraca

Typ	Opis
Node	Utworzony węzeł.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Udostępnij przez

SynapseSparkStep Klasa

Konstruktor

Parametry

Uwagi

Metody

create_node

Parametry

Zwraca

Sprzężenie zwrotne