SynapseSparkStep Osztály

Referencia

Megjegyzés

Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Létrehoz egy Azure ML Synapse-lépést, amely Python-szkriptet küld el és hajt végre.

Hozzon létre egy Azure ML-folyamatlépést, amely Spark-feladatot futtat a Synapse Spark-készleten.

Öröklődés: azureml.pipeline.core._synapse_spark_step_base._SynapseSparkStepBase

SynapseSparkStep

Konstruktor

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Paraméterek

file: str

Kötelező

Egy synapse-szkript neve a source_directory viszonyítva.

source_directory: str

Kötelező

A lépésben használt Python-szkriptet, conda env-t és egyéb erőforrásokat tartalmazó mappa.

compute_target: SynapseCompute vagy str

Kötelező

A használni kívánt számítási cél.

driver_memory: str

Kötelező

Az illesztőprogram-folyamathoz használandó memória mennyisége.

driver_cores: int

Kötelező

Az illesztőfolyamathoz használandó magok száma.

executor_memory: str

Kötelező

A végrehajtói folyamatonként használandó memória mennyisége.

executor_cores: int

Kötelező

Az egyes végrehajtókhoz használandó magok száma.

num_executors: int

Kötelező

A munkamenethez indítandó végrehajtók száma.

name: str

Kötelező

A lépés neve. Ha nincs meghatározva, file akkor a függvényt használja.

app_name: str

Kötelező

A Spark-feladat elküldéséhez használt alkalmazásnév.

environment: Environment

Kötelező

Az AML-környezet a későbbi kiadásban is támogatott lesz.

arguments: list

Kötelező

A Synapse-szkriptfájl parancssori argumentumai.

inputs: list[DatasetConsumptionConfig]

Kötelező

A bemenetek listája.

outputs: list[HDFSOutputDatasetConfig]

Kötelező

A kimenetek listája.

conf: dict

Kötelező

Spark-konfigurációs tulajdonságok.

py_files: list

Kötelező

Az ebben a munkamenetben használandó Python-fájlok, a livy API paramétere.

files: list

Kötelező

Az ebben a munkamenetben használandó fájlok, a livy API paramétere.

allow_reuse: bool

Kötelező

Azt jelzi, hogy a lépésnek újra fel kell-e használnia a korábbi eredményeket, amikor ugyanazokkal a beállításokkal fut újra.

version: str

Kötelező

Nem kötelező verziócímke, amely a lépés funkcióváltozását jelzi.

file: str

Kötelező

Egy Synapse-szkript neve a következőhöz source_directoryviszonyítva: .

source_directory: str

Kötelező

A lépésben használt Python-szkriptet, conda env-t és egyéb erőforrásokat tartalmazó mappa.

compute_target: SynapseCompute vagy str

Kötelező

A használni kívánt számítási cél.

driver_memory: str

Kötelező

Az illesztőprogram-folyamathoz használandó memória mennyisége.

driver_cores: int

Kötelező

Az illesztőfolyamathoz használandó magok száma.

executor_memory: str

Kötelező

A végrehajtói folyamatonként használandó memória mennyisége.

executor_cores: int

Kötelező

Az egyes végrehajtókhoz használandó magok száma.

num_executors: int

Kötelező

A munkamenethez indítandó végrehajtók száma.

name: str

Kötelező

A lépés neve. Ha nincs meghatározva, file akkor a függvényt használja.

app_name: str

Kötelező

Az Apache Spark-feladat elküldéséhez használt alkalmazásnév.

environment: Environment

Kötelező

Az ebben a SynapseSparkStepben használható AML-környezet.

arguments: list

Kötelező

A Synapse-szkriptfájl parancssori argumentumai.

inputs: list[DatasetConsumptionConfig]

Kötelező

A bemenetek listája.

outputs: list[HDFSOutputDatasetConfig]

Kötelező

A kimenetek listája.

conf: dict

Kötelező

Spark-konfigurációs tulajdonságok.

py_files: list

Kötelező

Az ebben a munkamenetben használandó Python-fájlok, a livy API paramétere.

jars: list

Kötelező

Az ebben a munkamenetben használandó JAR-fájlok, a livy API paramétere.

files: list

Kötelező

Az ebben a munkamenetben használandó fájlok, a livy API paramétere.

allow_reuse: bool

Kötelező

Azt jelzi, hogy a lépésnek újra fel kell-e használnia a korábbi eredményeket, amikor ugyanazokkal a beállításokkal fut újra.

version: str

Kötelező

Nem kötelező verziócímke, amely a lépés funkcióváltozását jelzi.

Megjegyzések

A SynapseSparkStep egy alapszintű, beépített lépés egy Python Spark-feladat synapse Spark-készleteken való futtatásához. A fő fájlnevet és egyéb választható paramétereket, például a szkript argumentumait, a számítási célt, a bemeneteket és a kimeneteket veszi figyelembe.

A SynapseSparkStep használatához ajánlott egy külön mappát használni a szkriptekhez és a lépéshez társított függő fájlokhoz, és meg kell adni a mappát a source_directory paraméterrel. Ennek az ajánlott eljárásnak a követése két előnnyel jár. Először is segít csökkenteni a lépéshez létrehozott pillanatkép méretét, mert csak a lépéshez szükséges pillanatkép készül. Másodszor, a lépés előző futtatásból származó kimenete újra felhasználható, ha nincsenek olyan módosítások, source_directory amelyek elindítanák a pillanatkép újrafeltöltését.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

A SynapseSparkStep csak a DatasetConsumptionConfig bemenetként és a HDFSOutputDatasetConfig kimenetként való használatát támogatja.

Metódusok

create_node

Hozzon létre egy csomópontot a Synapse-szkriptlépéshez.

Ezt a módszert nem közvetlenül kell használni. Ha ezzel a lépéssel példányosít egy folyamatot, az Azure ML automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, hogy a lépés hozzáadható legyen a munkafolyamatot képviselő folyamatgráfhoz.

create_node

Hozzon létre egy csomópontot a Synapse-szkriptlépéshez.

create_node(graph, default_datastore, context)

Paraméterek

graph: Graph

Kötelező

A csomópontot hozzáadni kívánt gráfobjektum.

default_datastore: Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]

Kötelező

Az alapértelmezett adattár.

context: <xref:azureml.pipeline.core._GraphContext>

Kötelező

A gráfkörnyezet.

Válaszok

A létrehozott csomópont.

Visszatérési típus

Node

Megosztás a következőn keresztül:

SynapseSparkStep Osztály

Konstruktor

Paraméterek

Megjegyzések

Metódusok

create_node

Paraméterek

Válaszok

Visszatérési típus

Visszajelzés

Visszajelzés

További források