Udostępnij za pośrednictwem


SynapseSparkStep Klasa

Uwaga

Jest to klasa eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.

Tworzy krok usługi Azure ML Synapse, który przesyła i wykonuje skrypt języka Python.

Utwórz krok potoku usługi Azure ML, który uruchamia zadanie platformy Spark w puli zadań platformy Spark usługi Synapse.

Dziedziczenie
azureml.pipeline.core._synapse_spark_step_base._SynapseSparkStepBase
SynapseSparkStep

Konstruktor

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Parametry

Nazwa Opis
file
Wymagane
str

Nazwa skryptu synapse względem source_directory.

source_directory
Wymagane
str

Folder zawierający skrypt języka Python, env conda i inne zasoby używane w kroku.

compute_target
Wymagane

Docelowy obiekt obliczeniowy do użycia.

driver_memory
Wymagane
str

Ilość pamięci do użycia w procesie sterownika.

driver_cores
Wymagane
int

Liczba rdzeni do użycia w procesie sterownika.

executor_memory
Wymagane
str

Ilość pamięci do użycia na proces wykonywania.

executor_cores
Wymagane
int

Liczba rdzeni do użycia dla każdej funkcji wykonawczej.

num_executors
Wymagane
int

Liczba funkcji wykonawczych do uruchomienia dla tej sesji.

name
Wymagane
str

Nazwa kroku. Jeśli nie zostanie określona, file zostanie użyta.

app_name
Wymagane
str

Nazwa aplikacji używana do przesyłania zadania platformy Spark.

environment
Wymagane

Środowisko AML będzie obsługiwane w nowszej wersji.

arguments
Wymagane

Argumenty wiersza polecenia dla pliku skryptu usługi Synapse.

inputs
Wymagane

Lista danych wejściowych.

outputs
Wymagane

Lista danych wyjściowych.

conf
Wymagane

Właściwości konfiguracji platformy Spark.

py_files
Wymagane

Pliki języka Python, które mają być używane w tej sesji, parametr interfejsu API usługi livy.

files
Wymagane

Pliki, które mają być używane w tej sesji, parametr interfejsu API usługi livy.

allow_reuse
Wymagane

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami.

version
Wymagane
str

Opcjonalny tag wersji, aby oznaczyć zmianę funkcjonalności kroku.

file
Wymagane
str

Nazwa skryptu usługi Synapse względem .source_directory

source_directory
Wymagane
str

Folder zawierający skrypt języka Python, env conda i inne zasoby używane w kroku.

compute_target
Wymagane

Docelowy obiekt obliczeniowy do użycia.

driver_memory
Wymagane
str

Ilość pamięci do użycia w procesie sterownika.

driver_cores
Wymagane
int

Liczba rdzeni do użycia w procesie sterownika.

executor_memory
Wymagane
str

Ilość pamięci do użycia na proces wykonywania.

executor_cores
Wymagane
int

Liczba rdzeni do użycia dla każdej funkcji wykonawczej.

num_executors
Wymagane
int

Liczba funkcji wykonawczych do uruchomienia dla tej sesji.

name
Wymagane
str

Nazwa kroku. Jeśli nie zostanie określona, file zostanie użyta.

app_name
Wymagane
str

Nazwa aplikacji używana do przesyłania zadania platformy Apache Spark.

environment
Wymagane

Środowisko AML, które będzie używane w tym elemencie SynapseSparkStep.

arguments
Wymagane

Argumenty wiersza polecenia dla pliku skryptu usługi Synapse.

inputs
Wymagane

Lista danych wejściowych.

outputs
Wymagane

Lista danych wyjściowych.

conf
Wymagane

Właściwości konfiguracji platformy Spark.

py_files
Wymagane

Pliki języka Python, które mają być używane w tej sesji, parametr interfejsu API usługi livy.

jars
Wymagane

Pliki Jar, które mają być używane w tej sesji, parametr interfejsu API usługi livy.

files
Wymagane

Pliki, które mają być używane w tej sesji, parametr interfejsu API usługi livy.

allow_reuse
Wymagane

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami.

version
Wymagane
str

Opcjonalny tag wersji, aby oznaczyć zmianę funkcjonalności kroku.

Uwagi

Usługa SynapseSparkStep to podstawowy, wbudowany krok umożliwiający uruchomienie zadania platformy Spark w języku Python w pulach platformy Spark usługi Synapse. Przyjmuje on główną nazwę pliku i inne parametry opcjonalne, takie jak argumenty skryptu, docelowy obiekt obliczeniowy, dane wejściowe i wyjściowe.

Najlepszym rozwiązaniem do pracy z usługą SynapseSparkStep jest użycie oddzielnego folderu dla skryptów i wszelkich plików zależnych skojarzonych z krokiem, a następnie określenie tego folderu za pomocą parametru source_directory . Zgodnie z tym najlepszym rozwiązaniem ma dwie korzyści. Najpierw pomaga zmniejszyć rozmiar migawki utworzonej dla kroku, ponieważ tylko to, co jest potrzebne do wykonania kroku, jest migawek. Po drugie, dane wyjściowe kroku z poprzedniego przebiegu można ponownie użyć, jeśli nie ma żadnych zmian w source_directory pliku, które wyzwoliłoby ponowne przekazanie migawki.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

Polecenie SynapseSparkStep obsługuje tylko element DatasetConsumptionConfig jako dane wejściowe i hdFSOutputDatasetConfig jako dane wyjściowe.

Metody

create_node

Utwórz węzeł dla kroku skryptu usługi Synapse.

Ta metoda nie jest przeznaczona do bezpośredniego użycia. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje wymagane parametry za pośrednictwem tej metody, aby można było dodać krok do grafu potoku reprezentującego przepływ pracy.

create_node

Utwórz węzeł dla kroku skryptu usługi Synapse.

Ta metoda nie jest przeznaczona do bezpośredniego użycia. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje wymagane parametry za pośrednictwem tej metody, aby można było dodać krok do grafu potoku reprezentującego przepływ pracy.

create_node(graph, default_datastore, context)

Parametry

Nazwa Opis
graph
Wymagane

Obiekt grafu, do który ma zostać dodany węzeł.

default_datastore
Wymagane

Domyślny magazyn danych.

context
Wymagane
<xref:azureml.pipeline.core._GraphContext>

Kontekst grafu.

Zwraca

Typ Opis

Utworzony węzeł.