SynapseSparkStep Kelas
Catatan
Ini adalah kelas eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Membuat langkah Azure ML Synapse yang mengirimkan dan menjalankan skrip Python.
Buat langkah Azure ML Pipeline yang menjalankan pekerjaan spark di kumpulan spark synapse.
- Warisan
-
azureml.pipeline.core._synapse_spark_step_base._SynapseSparkStepBaseSynapseSparkStep
Konstruktor
SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)
Parameter
- source_directory
- str
Folder yang berisi skrip Python, conda env, dan sumber daya lain yang digunakan dalam langkah tersebut.
- allow_reuse
- bool
Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan kembali dengan pengaturan yang sama.
- version
- str
Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut.
- source_directory
- str
Folder yang berisi skrip Python, conda env, dan sumber daya lain yang digunakan dalam langkah tersebut.
- environment
- Environment
Lingkungan AML yang akan dimanfaatkan dalam SynapseSparkStep ini.
- allow_reuse
- bool
Menunjukkan apakah langkah tersebut harus menggunakan kembali hasil sebelumnya saat dijalankan kembali dengan pengaturan yang sama.
- version
- str
Tag versi opsional untuk menunjukkan perubahan fungsionalitas untuk langkah tersebut.
Keterangan
SynapseSparkStep adalah langkah dasar bawaan untuk menjalankan pekerjaan Python Spark pada kumpulan percikan synapse. Dibutuhkan nama file utama dan parameter opsional lainnya seperti argumen untuk skrip, target komputasi, input dan output.
Praktik terbaik untuk bekerja dengan SynapseSparkStep adalah menggunakan folder terpisah untuk skrip dan file dependen apa pun yang terkait dengan langkah tersebut, dan menentukan folder tersebut dengan parameter source_directory
.
Mengikuti praktik terbaik ini memiliki dua keuntungan. Pertama, ini membantu mengurangi ukuran snapshot yang dibuat untuk langkah tersebut karena yang perlu dilakukan hanyalah melakukan snapshot. Kedua, output langkah dari eksekusi sebelumnya dapat digunakan kembali jika tidak ada perubahan pada source_directory
yang akan memicu unggahan ulang snapshot.
from azureml.core import Dataset
from azureml.pipeline.steps import SynapseSparkStep
from azureml.data import HDFSOutputDatasetConfig
# get input dataset
input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")
# register pipeline output as dataset
output_ds = HDFSOutputDatasetConfig("synapse_step_output",
destination=(ws.datastores['datastore'],"dir")
).register_on_complete(name="registered_dataset")
step_1 = SynapseSparkStep(
name = "synapse_step",
file = "pyspark_job.py",
source_directory="./script",
inputs=[input_ds],
outputs=[output_ds],
compute_target = "synapse",
driver_memory = "7g",
driver_cores = 4,
executor_memory = "7g",
executor_cores = 2,
num_executors = 1,
conf = {})
SynapseSparkStep hanya mendukung DatasetConsumptionConfig sebagai input dan HDFSOutputDatasetConfig sebagai output.
Metode
create_node |
Buat node untuk langkah skrip Synapse. Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja. |
create_node
Buat node untuk langkah skrip Synapse.
Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.
create_node(graph, default_datastore, context)
Parameter
- default_datastore
- Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore]
Datastore default.
- context
- <xref:azureml.pipeline.core._GraphContext>
Konteks grafik.
Mengembalikan
Node yang dibuat.
Tipe hasil
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk