Megosztás a következőn keresztül:


SynapseSparkStep Osztály

Megjegyzés

Ez egy kísérleti osztály, és bármikor változhat. További információ: https://aka.ms/azuremlexperimental.

Létrehoz egy Azure ML Synapse-lépést, amely Python-szkriptet küld el és hajt végre.

Hozzon létre egy Azure ML-folyamatlépést, amely Spark-feladatot futtat a Synapse Spark-készleten.

Öröklődés
azureml.pipeline.core._synapse_spark_step_base._SynapseSparkStepBase
SynapseSparkStep

Konstruktor

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Paraméterek

file
str
Kötelező

Egy synapse-szkript neve a source_directory viszonyítva.

source_directory
str
Kötelező

A lépésben használt Python-szkriptet, conda env-t és egyéb erőforrásokat tartalmazó mappa.

compute_target
SynapseCompute vagy str
Kötelező

A használni kívánt számítási cél.

driver_memory
str
Kötelező

Az illesztőprogram-folyamathoz használandó memória mennyisége.

driver_cores
int
Kötelező

Az illesztőfolyamathoz használandó magok száma.

executor_memory
str
Kötelező

A végrehajtói folyamatonként használandó memória mennyisége.

executor_cores
int
Kötelező

Az egyes végrehajtókhoz használandó magok száma.

num_executors
int
Kötelező

A munkamenethez indítandó végrehajtók száma.

name
str
Kötelező

A lépés neve. Ha nincs meghatározva, file akkor a függvényt használja.

app_name
str
Kötelező

A Spark-feladat elküldéséhez használt alkalmazásnév.

environment
Environment
Kötelező

Az AML-környezet a későbbi kiadásban is támogatott lesz.

arguments
list
Kötelező

A Synapse-szkriptfájl parancssori argumentumai.

inputs
list[DatasetConsumptionConfig]
Kötelező

A bemenetek listája.

outputs
list[HDFSOutputDatasetConfig]
Kötelező

A kimenetek listája.

conf
dict
Kötelező

Spark-konfigurációs tulajdonságok.

py_files
list
Kötelező

Az ebben a munkamenetben használandó Python-fájlok, a livy API paramétere.

files
list
Kötelező

Az ebben a munkamenetben használandó fájlok, a livy API paramétere.

allow_reuse
bool
Kötelező

Azt jelzi, hogy a lépésnek újra fel kell-e használnia a korábbi eredményeket, amikor ugyanazokkal a beállításokkal fut újra.

version
str
Kötelező

Nem kötelező verziócímke, amely a lépés funkcióváltozását jelzi.

file
str
Kötelező

Egy Synapse-szkript neve a következőhöz source_directoryviszonyítva: .

source_directory
str
Kötelező

A lépésben használt Python-szkriptet, conda env-t és egyéb erőforrásokat tartalmazó mappa.

compute_target
SynapseCompute vagy str
Kötelező

A használni kívánt számítási cél.

driver_memory
str
Kötelező

Az illesztőprogram-folyamathoz használandó memória mennyisége.

driver_cores
int
Kötelező

Az illesztőfolyamathoz használandó magok száma.

executor_memory
str
Kötelező

A végrehajtói folyamatonként használandó memória mennyisége.

executor_cores
int
Kötelező

Az egyes végrehajtókhoz használandó magok száma.

num_executors
int
Kötelező

A munkamenethez indítandó végrehajtók száma.

name
str
Kötelező

A lépés neve. Ha nincs meghatározva, file akkor a függvényt használja.

app_name
str
Kötelező

Az Apache Spark-feladat elküldéséhez használt alkalmazásnév.

environment
Environment
Kötelező

Az ebben a SynapseSparkStepben használható AML-környezet.

arguments
list
Kötelező

A Synapse-szkriptfájl parancssori argumentumai.

inputs
list[DatasetConsumptionConfig]
Kötelező

A bemenetek listája.

outputs
list[HDFSOutputDatasetConfig]
Kötelező

A kimenetek listája.

conf
dict
Kötelező

Spark-konfigurációs tulajdonságok.

py_files
list
Kötelező

Az ebben a munkamenetben használandó Python-fájlok, a livy API paramétere.

jars
list
Kötelező

Az ebben a munkamenetben használandó JAR-fájlok, a livy API paramétere.

files
list
Kötelező

Az ebben a munkamenetben használandó fájlok, a livy API paramétere.

allow_reuse
bool
Kötelező

Azt jelzi, hogy a lépésnek újra fel kell-e használnia a korábbi eredményeket, amikor ugyanazokkal a beállításokkal fut újra.

version
str
Kötelező

Nem kötelező verziócímke, amely a lépés funkcióváltozását jelzi.

Megjegyzések

A SynapseSparkStep egy alapszintű, beépített lépés egy Python Spark-feladat synapse Spark-készleteken való futtatásához. A fő fájlnevet és egyéb választható paramétereket, például a szkript argumentumait, a számítási célt, a bemeneteket és a kimeneteket veszi figyelembe.

A SynapseSparkStep használatához ajánlott egy külön mappát használni a szkriptekhez és a lépéshez társított függő fájlokhoz, és meg kell adni a mappát a source_directory paraméterrel. Ennek az ajánlott eljárásnak a követése két előnnyel jár. Először is segít csökkenteni a lépéshez létrehozott pillanatkép méretét, mert csak a lépéshez szükséges pillanatkép készül. Másodszor, a lépés előző futtatásból származó kimenete újra felhasználható, ha nincsenek olyan módosítások, source_directory amelyek elindítanák a pillanatkép újrafeltöltését.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

A SynapseSparkStep csak a DatasetConsumptionConfig bemenetként és a HDFSOutputDatasetConfig kimenetként való használatát támogatja.

Metódusok

create_node

Hozzon létre egy csomópontot a Synapse-szkriptlépéshez.

Ezt a módszert nem közvetlenül kell használni. Ha ezzel a lépéssel példányosít egy folyamatot, az Azure ML automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, hogy a lépés hozzáadható legyen a munkafolyamatot képviselő folyamatgráfhoz.

create_node

Hozzon létre egy csomópontot a Synapse-szkriptlépéshez.

Ezt a módszert nem közvetlenül kell használni. Ha ezzel a lépéssel példányosít egy folyamatot, az Azure ML automatikusan átadja a szükséges paramétereket ezen a módszeren keresztül, hogy a lépés hozzáadható legyen a munkafolyamatot képviselő folyamatgráfhoz.

create_node(graph, default_datastore, context)

Paraméterek

graph
Graph
Kötelező

A csomópontot hozzáadni kívánt gráfobjektum.

default_datastore
Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Kötelező

Az alapértelmezett adattár.

context
<xref:azureml.pipeline.core._GraphContext>
Kötelező

A gráfkörnyezet.

Válaszok

A létrehozott csomópont.

Visszatérési típus