SynapseSparkStep Třída

Poznámka:

Jedná se o experimentální třídu a může se kdykoli změnit. Další informace najdete tady: https://aka.ms/acr/connected-registry.

Vytvoří krok Synapse Azure ML, který odešle a spustí skript Pythonu.

Vytvořte krok kanálu Azure ML, který spouští úlohu Sparku ve fondu synapse Spark.

Konstruktor

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Parametry

Name	Description
file Vyžadováno	str Název skriptu synapse vzhledem k source_directory.
source_directory Vyžadováno	str Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku.
compute_target Vyžadováno	SynapseCompute nebo str Cílový výpočetní objekt, který se má použít.
driver_memory Vyžadováno	str Množství paměti, které se má použít pro proces ovladače.
driver_cores Vyžadováno	int Počet jader, která se mají použít pro proces ovladače
executor_memory Vyžadováno	str Množství paměti, které se má použít pro každý proces exekutoru.
executor_cores Vyžadováno	int Počet jader,kterách
num_executors Vyžadováno	int Počet exekutorů, které se mají spustit pro tuto relaci
name Vyžadováno	str Název kroku. Pokud není zadáno, `file` použije se.
app_name Vyžadováno	str Název aplikace použitý k odeslání úlohy Sparku.
environment Vyžadováno	Environment Prostředí AML bude podporováno v pozdější verzi.
arguments Vyžadováno	list Argumenty příkazového řádku pro soubor skriptu Synapse
inputs Vyžadováno	list[DatasetConsumptionConfig] Seznamvstupůch
outputs Vyžadováno	list[HDFSOutputDatasetConfig] Seznamvýstupůch
conf Vyžadováno	dict Vlastnosti konfigurace Sparku
py_files Vyžadováno	list Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní LIvy API.
files Vyžadováno	list Soubory, které se mají použít v této relaci, parametr rozhraní LIvy API.
allow_reuse Vyžadováno	bool Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením.
version Vyžadováno	str Volitelná značka verze, která označuje změnu funkčnosti kroku.
file Vyžadováno	str Název skriptu Synapse vzhledem k `source_directory`.
source_directory Vyžadováno	str Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku.
compute_target Vyžadováno	SynapseCompute nebo str Cílový výpočetní objekt, který se má použít.
driver_memory Vyžadováno	str Množství paměti, které se má použít pro proces ovladače.
driver_cores Vyžadováno	int Počet jader, která se mají použít pro proces ovladače
executor_memory Vyžadováno	str Množství paměti, které se má použít pro každý proces exekutoru.
executor_cores Vyžadováno	int Počet jader,kterách
num_executors Vyžadováno	int Počet exekutorů, které se mají spustit pro tuto relaci
name Vyžadováno	str Název kroku. Pokud není zadáno, `file` použije se.
app_name Vyžadováno	str Název aplikace použitý k odeslání úlohy Apache Spark.
environment Vyžadováno	Environment Prostředí AML, které bude v tomto SynapseSparkStepu využívat.
arguments Vyžadováno	list Argumenty příkazového řádku pro soubor skriptu Synapse
inputs Vyžadováno	list[DatasetConsumptionConfig] Seznamvstupůch
outputs Vyžadováno	list[HDFSOutputDatasetConfig] Seznamvýstupůch
conf Vyžadováno	dict Vlastnosti konfigurace Sparku
py_files Vyžadováno	list Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní LIvy API.
jars Vyžadováno	list Soubory JAR, které se mají použít v této relaci, parametr rozhraní API livy.
files Vyžadováno	list Soubory, které se mají použít v této relaci, parametr rozhraní LIvy API.
allow_reuse Vyžadováno	bool Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením.
version Vyžadováno	str Volitelná značka verze, která označuje změnu funkčnosti kroku.

Poznámky

SynapseSparkStep je základní integrovaný krok pro spuštění úlohy Python Sparku ve fondech synapse Spark. Přebírá název hlavního souboru a další volitelné parametry, jako jsou argumenty pro skript, cílový výpočetní objekt, vstupy a výstupy.

Osvědčeným postupem pro práci se službou SynapseSparkStep je použít samostatnou složku pro skripty a všechny závislé soubory přidružené k kroku a určit tuto složku s parametrem source_directory . Následující osvědčený postup má dvě výhody. Za prvé pomáhá zmenšit velikost snímku vytvořeného pro tento krok, protože se snímek vyžaduje jenom v případě, že se tento krok potřebuje. Za druhé, výstup kroku z předchozího spuštění lze znovu použít, pokud nedojde k source_directory žádným změnám, které by aktivovaly opětovné nahrání snímku.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

SynapseSparkStep jako výstup podporuje pouze DatasetConsumptionConfig jako vstup a HDFSOutputDatasetConfig.

Metody

create_node

Vytvořte uzel pro krok skriptu Synapse.

Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předá parametry požadované touto metodou, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.

create_node

Vytvořte uzel pro krok skriptu Synapse.

create_node(graph, default_datastore, context)

Parametry

Name	Description
graph Vyžadováno	Graph Objekt grafu pro přidání uzlu.
default_datastore Vyžadováno	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Výchozí úložiště dat.
context Vyžadováno	<xref:azureml.pipeline.core._GraphContext> Kontext grafu

Návraty

Typ	Description
Node	Vytvořený uzel.

Váš názor

Byla tato stránka užitečná?

Sdílet prostřednictvím

SynapseSparkStep Třída

Konstruktor

Parametry

Poznámky

Metody

create_node

Parametry

Návraty

Váš názor