Sdílet prostřednictvím


SynapseSparkStep Třída

Poznámka:

Jedná se o experimentální třídu a může se kdykoli změnit. Další informace najdete tady: https://aka.ms/acr/connected-registry.

Vytvoří krok Synapse Azure ML, který odešle a spustí skript Pythonu.

Vytvořte krok kanálu Azure ML, který spouští úlohu Sparku ve fondu synapse Spark.

Konstruktor

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Parametry

Name Description
file
Vyžadováno
str

Název skriptu synapse vzhledem k source_directory.

source_directory
Vyžadováno
str

Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku.

compute_target
Vyžadováno

Cílový výpočetní objekt, který se má použít.

driver_memory
Vyžadováno
str

Množství paměti, které se má použít pro proces ovladače.

driver_cores
Vyžadováno
int

Počet jader, která se mají použít pro proces ovladače

executor_memory
Vyžadováno
str

Množství paměti, které se má použít pro každý proces exekutoru.

executor_cores
Vyžadováno
int

Počet jader,kterách

num_executors
Vyžadováno
int

Počet exekutorů, které se mají spustit pro tuto relaci

name
Vyžadováno
str

Název kroku. Pokud není zadáno, file použije se.

app_name
Vyžadováno
str

Název aplikace použitý k odeslání úlohy Sparku.

environment
Vyžadováno

Prostředí AML bude podporováno v pozdější verzi.

arguments
Vyžadováno

Argumenty příkazového řádku pro soubor skriptu Synapse

inputs
Vyžadováno

Seznamvstupůch

outputs
Vyžadováno

Seznamvýstupůch

conf
Vyžadováno

Vlastnosti konfigurace Sparku

py_files
Vyžadováno

Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní LIvy API.

files
Vyžadováno

Soubory, které se mají použít v této relaci, parametr rozhraní LIvy API.

allow_reuse
Vyžadováno

Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením.

version
Vyžadováno
str

Volitelná značka verze, která označuje změnu funkčnosti kroku.

file
Vyžadováno
str

Název skriptu Synapse vzhledem k source_directory.

source_directory
Vyžadováno
str

Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku.

compute_target
Vyžadováno

Cílový výpočetní objekt, který se má použít.

driver_memory
Vyžadováno
str

Množství paměti, které se má použít pro proces ovladače.

driver_cores
Vyžadováno
int

Počet jader, která se mají použít pro proces ovladače

executor_memory
Vyžadováno
str

Množství paměti, které se má použít pro každý proces exekutoru.

executor_cores
Vyžadováno
int

Počet jader,kterách

num_executors
Vyžadováno
int

Počet exekutorů, které se mají spustit pro tuto relaci

name
Vyžadováno
str

Název kroku. Pokud není zadáno, file použije se.

app_name
Vyžadováno
str

Název aplikace použitý k odeslání úlohy Apache Spark.

environment
Vyžadováno

Prostředí AML, které bude v tomto SynapseSparkStepu využívat.

arguments
Vyžadováno

Argumenty příkazového řádku pro soubor skriptu Synapse

inputs
Vyžadováno

Seznamvstupůch

outputs
Vyžadováno

Seznamvýstupůch

conf
Vyžadováno

Vlastnosti konfigurace Sparku

py_files
Vyžadováno

Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní LIvy API.

jars
Vyžadováno

Soubory JAR, které se mají použít v této relaci, parametr rozhraní API livy.

files
Vyžadováno

Soubory, které se mají použít v této relaci, parametr rozhraní LIvy API.

allow_reuse
Vyžadováno

Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením.

version
Vyžadováno
str

Volitelná značka verze, která označuje změnu funkčnosti kroku.

Poznámky

SynapseSparkStep je základní integrovaný krok pro spuštění úlohy Python Sparku ve fondech synapse Spark. Přebírá název hlavního souboru a další volitelné parametry, jako jsou argumenty pro skript, cílový výpočetní objekt, vstupy a výstupy.

Osvědčeným postupem pro práci se službou SynapseSparkStep je použít samostatnou složku pro skripty a všechny závislé soubory přidružené k kroku a určit tuto složku s parametrem source_directory . Následující osvědčený postup má dvě výhody. Za prvé pomáhá zmenšit velikost snímku vytvořeného pro tento krok, protože se snímek vyžaduje jenom v případě, že se tento krok potřebuje. Za druhé, výstup kroku z předchozího spuštění lze znovu použít, pokud nedojde k source_directory žádným změnám, které by aktivovaly opětovné nahrání snímku.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

SynapseSparkStep jako výstup podporuje pouze DatasetConsumptionConfig jako vstup a HDFSOutputDatasetConfig.

Metody

create_node

Vytvořte uzel pro krok skriptu Synapse.

Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předá parametry požadované touto metodou, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.

create_node

Vytvořte uzel pro krok skriptu Synapse.

Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předá parametry požadované touto metodou, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.

create_node(graph, default_datastore, context)

Parametry

Name Description
graph
Vyžadováno

Objekt grafu pro přidání uzlu.

default_datastore
Vyžadováno

Výchozí úložiště dat.

context
Vyžadováno
<xref:azureml.pipeline.core._GraphContext>

Kontext grafu

Návraty

Typ Description

Vytvořený uzel.