SynapseSparkStep Třída
Poznámka:
Jedná se o experimentální třídu a může se kdykoli změnit. Další informace najdete tady: https://aka.ms/acr/connected-registry.
Vytvoří krok Synapse Azure ML, který odešle a spustí skript Pythonu.
Vytvořte krok kanálu Azure ML, který spouští úlohu Sparku ve fondu synapse Spark.
Konstruktor
SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)
Parametry
| Name | Description |
|---|---|
|
file
Vyžadováno
|
Název skriptu synapse vzhledem k source_directory. |
|
source_directory
Vyžadováno
|
Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku. |
|
compute_target
Vyžadováno
|
SynapseCompute nebo
str
Cílový výpočetní objekt, který se má použít. |
|
driver_memory
Vyžadováno
|
Množství paměti, které se má použít pro proces ovladače. |
|
driver_cores
Vyžadováno
|
Počet jader, která se mají použít pro proces ovladače |
|
executor_memory
Vyžadováno
|
Množství paměti, které se má použít pro každý proces exekutoru. |
|
executor_cores
Vyžadováno
|
Počet jader,kterách |
|
num_executors
Vyžadováno
|
Počet exekutorů, které se mají spustit pro tuto relaci |
|
name
Vyžadováno
|
Název kroku. Pokud není zadáno, |
|
app_name
Vyžadováno
|
Název aplikace použitý k odeslání úlohy Sparku. |
|
environment
Vyžadováno
|
Prostředí AML bude podporováno v pozdější verzi. |
|
arguments
Vyžadováno
|
Argumenty příkazového řádku pro soubor skriptu Synapse |
|
inputs
Vyžadováno
|
Seznamvstupůch |
|
outputs
Vyžadováno
|
Seznamvýstupůch |
|
conf
Vyžadováno
|
Vlastnosti konfigurace Sparku |
|
py_files
Vyžadováno
|
Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní LIvy API. |
|
files
Vyžadováno
|
Soubory, které se mají použít v této relaci, parametr rozhraní LIvy API. |
|
allow_reuse
Vyžadováno
|
Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. |
|
version
Vyžadováno
|
Volitelná značka verze, která označuje změnu funkčnosti kroku. |
|
file
Vyžadováno
|
Název skriptu Synapse vzhledem k |
|
source_directory
Vyžadováno
|
Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku. |
|
compute_target
Vyžadováno
|
SynapseCompute nebo
str
Cílový výpočetní objekt, který se má použít. |
|
driver_memory
Vyžadováno
|
Množství paměti, které se má použít pro proces ovladače. |
|
driver_cores
Vyžadováno
|
Počet jader, která se mají použít pro proces ovladače |
|
executor_memory
Vyžadováno
|
Množství paměti, které se má použít pro každý proces exekutoru. |
|
executor_cores
Vyžadováno
|
Počet jader,kterách |
|
num_executors
Vyžadováno
|
Počet exekutorů, které se mají spustit pro tuto relaci |
|
name
Vyžadováno
|
Název kroku. Pokud není zadáno, |
|
app_name
Vyžadováno
|
Název aplikace použitý k odeslání úlohy Apache Spark. |
|
environment
Vyžadováno
|
Prostředí AML, které bude v tomto SynapseSparkStepu využívat. |
|
arguments
Vyžadováno
|
Argumenty příkazového řádku pro soubor skriptu Synapse |
|
inputs
Vyžadováno
|
Seznamvstupůch |
|
outputs
Vyžadováno
|
Seznamvýstupůch |
|
conf
Vyžadováno
|
Vlastnosti konfigurace Sparku |
|
py_files
Vyžadováno
|
Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní LIvy API. |
|
jars
Vyžadováno
|
Soubory JAR, které se mají použít v této relaci, parametr rozhraní API livy. |
|
files
Vyžadováno
|
Soubory, které se mají použít v této relaci, parametr rozhraní LIvy API. |
|
allow_reuse
Vyžadováno
|
Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. |
|
version
Vyžadováno
|
Volitelná značka verze, která označuje změnu funkčnosti kroku. |
Poznámky
SynapseSparkStep je základní integrovaný krok pro spuštění úlohy Python Sparku ve fondech synapse Spark. Přebírá název hlavního souboru a další volitelné parametry, jako jsou argumenty pro skript, cílový výpočetní objekt, vstupy a výstupy.
Osvědčeným postupem pro práci se službou SynapseSparkStep je použít samostatnou složku pro skripty a všechny závislé soubory přidružené k kroku a určit tuto složku s parametrem source_directory .
Následující osvědčený postup má dvě výhody. Za prvé pomáhá zmenšit velikost snímku vytvořeného pro tento krok, protože se snímek vyžaduje jenom v případě, že se tento krok potřebuje. Za druhé, výstup kroku z předchozího spuštění lze znovu použít, pokud nedojde k source_directory žádným změnám, které by aktivovaly opětovné nahrání snímku.
from azureml.core import Dataset
from azureml.pipeline.steps import SynapseSparkStep
from azureml.data import HDFSOutputDatasetConfig
# get input dataset
input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")
# register pipeline output as dataset
output_ds = HDFSOutputDatasetConfig("synapse_step_output",
destination=(ws.datastores['datastore'],"dir")
).register_on_complete(name="registered_dataset")
step_1 = SynapseSparkStep(
name = "synapse_step",
file = "pyspark_job.py",
source_directory="./script",
inputs=[input_ds],
outputs=[output_ds],
compute_target = "synapse",
driver_memory = "7g",
driver_cores = 4,
executor_memory = "7g",
executor_cores = 2,
num_executors = 1,
conf = {})
SynapseSparkStep jako výstup podporuje pouze DatasetConsumptionConfig jako vstup a HDFSOutputDatasetConfig.
Metody
| create_node |
Vytvořte uzel pro krok skriptu Synapse. Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předá parametry požadované touto metodou, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup. |
create_node
Vytvořte uzel pro krok skriptu Synapse.
Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předá parametry požadované touto metodou, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.
create_node(graph, default_datastore, context)
Parametry
| Name | Description |
|---|---|
|
graph
Vyžadováno
|
Objekt grafu pro přidání uzlu. |
|
default_datastore
Vyžadováno
|
Výchozí úložiště dat. |
|
context
Vyžadováno
|
<xref:azureml.pipeline.core._GraphContext>
Kontext grafu |
Návraty
| Typ | Description |
|---|---|
|
Vytvořený uzel. |