SynapseSparkStep Kelas

Referensi

Catatan

Ini adalah kelas eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Membuat langkah Azure ML Synapse yang mengirimkan dan menjalankan skrip Python.

Buat langkah Azure ML Pipeline yang menjalankan pekerjaan spark di kumpulan spark synapse.

Warisan: azureml.pipeline.core._synapse_spark_step_base._SynapseSparkStepBase

SynapseSparkStep

Konstruktor

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Parameter

file: str

Diperlukan

Nama skrip synapse relatif terhadap source_directory.

source_directory: str

Diperlukan

Folder yang berisi skrip Python, conda env, dan sumber daya lain yang digunakan dalam langkah tersebut.

compute_target: SynapseCompute atau str

Diperlukan

Target komputasi yang akan digunakan.

driver_memory: str

Diperlukan

Jumlah memori yang digunakan untuk proses driver.

driver_cores: int

Diperlukan

Jumlah inti yang digunakan untuk proses driver.

executor_memory: str

Diperlukan

Jumlah memori yang digunakan per proses pelaksana.

executor_cores: int

Diperlukan

Jumlah inti yang digunakan untuk setiap pelaksana.

num_executors: int

Diperlukan

Jumlah pelaksana yang akan diluncurkan untuk sesi ini.

name: str

Diperlukan

Nama langkah. Jika tidak ditentukan, file digunakan.

app_name: str

Diperlukan

Nama Aplikasi yang digunakan untuk mengirimkan pekerjaan spark.

environment: Environment

Diperlukan

Lingkungan AML akan didukung pada rilis selanjutnya.

arguments: list

Diperlukan

Argumen baris perintah untuk file skrip Synapse.

inputs: list[DatasetConsumptionConfig]

Diperlukan

Daftar input.

outputs: list[HDFSOutputDatasetConfig]

Diperlukan

Daftar output.

conf: dict

Diperlukan

Properti konfigurasi spark.

py_files: list

Diperlukan

File python yang akan digunakan dalam sesi ini, parameter livy API.

files: list

Diperlukan

File yang akan digunakan dalam sesi ini, parameter livy API.

allow_reuse: bool

Diperlukan

Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan kembali dengan pengaturan yang sama.

version: str

Diperlukan

Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut.

file: str

Diperlukan

Nama skrip Synapse relatif terhadap source_directory.

source_directory: str

Diperlukan

Folder yang berisi skrip Python, conda env, dan sumber daya lain yang digunakan dalam langkah tersebut.

compute_target: SynapseCompute atau str

Diperlukan

Target komputasi yang akan digunakan.

driver_memory: str

Diperlukan

Jumlah memori yang digunakan untuk proses driver.

driver_cores: int

Diperlukan

Jumlah inti yang digunakan untuk proses driver.

executor_memory: str

Diperlukan

Jumlah memori yang digunakan per proses pelaksana.

executor_cores: int

Diperlukan

Jumlah inti yang digunakan untuk setiap pelaksana.

num_executors: int

Diperlukan

Jumlah pelaksana yang akan diluncurkan untuk sesi ini.

name: str

Diperlukan

Nama langkah. Jika tidak ditentukan, file digunakan.

app_name: str

Diperlukan

Nama Aplikasi yang digunakan untuk mengirimkan pekerjaan Apache Spark.

environment: Environment

Diperlukan

Lingkungan AML yang akan dimanfaatkan dalam SynapseSparkStep ini.

arguments: list

Diperlukan

Argumen baris perintah untuk file skrip Synapse.

inputs: list[DatasetConsumptionConfig]

Diperlukan

Daftar input.

outputs: list[HDFSOutputDatasetConfig]

Diperlukan

Daftar output.

conf: dict

Diperlukan

Properti konfigurasi spark.

py_files: list

Diperlukan

File python yang akan digunakan dalam sesi ini, parameter livy API.

jars: list

Diperlukan

File jar yang akan digunakan dalam sesi ini, parameter API livy.

files: list

Diperlukan

File yang akan digunakan dalam sesi ini, parameter livy API.

allow_reuse: bool

Diperlukan

Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan kembali dengan pengaturan yang sama.

version: str

Diperlukan

Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut.

Keterangan

SynapseSparkStep adalah langkah dasar bawaan untuk menjalankan pekerjaan Python Spark pada kumpulan percikan synapse. Dibutuhkan nama file utama dan parameter opsional lainnya seperti argumen untuk skrip, target komputasi, input dan output.

Praktik terbaik untuk bekerja dengan SynapseSparkStep adalah menggunakan folder terpisah untuk skrip dan file dependen apa pun yang terkait dengan langkah tersebut, dan menentukan folder tersebut dengan parameter source_directory. Mengikuti praktik terbaik ini memiliki dua keuntungan. Pertama, ini membantu mengurangi ukuran snapshot yang dibuat untuk langkah tersebut karena yang perlu dilakukan hanyalah melakukan snapshot. Kedua, output langkah dari eksekusi sebelumnya dapat digunakan kembali jika tidak ada perubahan pada source_directory yang akan memicu unggahan ulang snapshot.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

SynapseSparkStep hanya mendukung DatasetConsumptionConfig sebagai input dan HDFSOutputDatasetConfig sebagai output.

Metode

create_node

Buat node untuk langkah skrip Synapse.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.

create_node

Buat node untuk langkah skrip Synapse.

create_node(graph, default_datastore, context)

Parameter

graph: Graph

Diperlukan

Objek grafik untuk menambahkan node.

default_datastore: Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]

Diperlukan

Datastore default.

context: <xref:azureml.pipeline.core._GraphContext>

Diperlukan

Konteks grafik.

Mengembalikan

Node yang dibuat.

Tipe hasil

Node

Bagikan melalui

SynapseSparkStep Kelas

Konstruktor

Parameter

Keterangan

Metode

create_node

Parameter

Mengembalikan

Tipe hasil

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: