ParallelRunStep Kelas

Membuat langkah Alur Azure Machine Learning untuk memproses data dalam jumlah besar secara asinkron dan paralel.

Untuk contoh penggunaan ParallelRunStep, lihat buku catatan https://aka.ms/batch-inference-notebooks.

Untuk panduan pemecahan masalah, lihat https://aka.ms/prstsg. Anda dapat menemukan lebih banyak referensi di sana.

Buat langkah Azure ML Pipeline untuk memproses data dalam jumlah besar secara asinkron dan paralel.

Untuk contoh penggunaan ParallelRunStep, lihat tautan https://aka.ms/batch-inference-notebooksnotebook .

Konstruktor

ParallelRunStep(name, parallel_run_config, inputs, output=None, side_inputs=None, arguments=None, allow_reuse=True)

Parameter

Nama	Deskripsi
name Diperlukan	str Nama langkah. Harus unik untuk ruang kerja, hanya terdiri dari huruf kecil, angka, atau tanda hubung, dimulai dengan huruf, dan panjangnya antara 3 dan 32 karakter.
parallel_run_config Diperlukan	ParallelRunConfig Objek ParallelRunConfig yang digunakan untuk menentukan properti eksekusi yang diperlukan.
inputs Diperlukan	list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]] Daftar himpunan data input. Semua himpunan data dalam daftar harus berjenis sama. Data input akan dipartisi untuk pemrosesan paralel. Setiap himpunan data dalam daftar dipartisi menjadi batch mini secara terpisah, dan masing-masing batch mini diperlakukan sama dalam pemrosesan paralel.
output	Union[PipelineData, OutputPortBinding, OutputDatasetConfig] Pengikatan port output, dapat digunakan oleh langkah-langkah alur selanjutnya. Nilai default: None
side_inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]] Daftar data referensi input samping. Input samping tidak akan dipartisi sebagai data input. Nilai default: None
arguments	list[str] Daftar argumen baris perintah untuk diteruskan ke entry_script Python. Nilai default: None
allow_reuse	bool Apakah langkah harus menggunakan kembali hasil sebelumnya saat dijalankan dengan pengaturan/input yang sama. Jika ini salah, eksekusi baru akan selalu dihasilkan untuk langkah ini selama eksekusi alur. Nilai default: True
name Diperlukan	str Nama langkah. Harus unik untuk ruang kerja, hanya terdiri dari huruf kecil, angka, atau tanda hubung, dimulai dengan huruf, dan panjangnya antara 3 dan 32 karakter.
parallel_run_config Diperlukan	ParallelRunConfig Objek ParallelRunConfig yang digunakan untuk menentukan properti eksekusi yang diperlukan.
inputs Diperlukan	list[Union[DatasetConsumptionConfig, PipelineOutputFileDataset, PipelineOutputTabularDataset]] Daftar himpunan data input. Semua himpunan data dalam daftar harus berjenis sama. Data input akan dipartisi untuk pemrosesan paralel. Setiap himpunan data dalam daftar dipartisi menjadi batch mini secara terpisah, dan masing-masing batch mini diperlakukan sama dalam pemrosesan paralel.
output Diperlukan	PipelineData, OutputPortBinding Pengikatan port output, dapat digunakan oleh langkah-langkah alur selanjutnya.
side_inputs Diperlukan	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData, PipelineOutputFileDataset, PipelineOutputTabularDataset, DatasetConsumptionConfig]] Daftar data referensi input samping. Input samping tidak akan dipartisi sebagai data input.
arguments Diperlukan	list[str] Daftar argumen baris perintah untuk diteruskan ke entry_script Python.
allow_reuse Diperlukan	bool Apakah langkah harus menggunakan kembali hasil sebelumnya saat dijalankan dengan pengaturan/input yang sama. Jika ini salah, eksekusi baru akan selalu dihasilkan untuk langkah ini selama eksekusi alur.

Keterangan

ParallelRunStep dapat digunakan untuk memproses data dalam jumlah besar secara paralel. Kasus penggunaan yang umum adalah saat melatih model ML atau menjalankan inferensi offline untuk menghasilkan prediksi pada suatu batch pengamatan. ParallelRunStep berfungsi dengan memecah data Anda menjadi sejumlah batch yang kemudian diproses secara paralel. Jumlah simpul ukuran batch, dan parameter lain yang dapat disetel untuk mempercepat pemrosesan paralel Anda dapat dikontrol dengan ParallelRunConfig kelas . ParallelRunStep dapat bekerja dengan atau TabularDataset FileDataset sebagai input.

Untuk menggunakan ParallelRunStep:

Buat ParallelRunConfig objek untuk menentukan bagaimana pemrosesan batch dilakukan, dengan parameter untuk mengontrol ukuran batch, jumlah simpul per target komputasi, dan referensi ke skrip Python kustom Anda.
Buat objek ParallelRunStep yang menggunakan objek ParallelRunConfig, tentukan input dan output untuk langkah tersebut.
Gunakan objek ParallelRunStep yang dikonfigurasi dalam seperti yang Pipeline Anda lakukan dengan jenis langkah alur lainnya.

Contoh bekerja dengan kelas ParallelRunStep dan ParallelRunConfig untuk inferensi batch dibahas dalam artikel berikut:

Tutorial: Membangun alur Azure Machine Learning untuk pemberian skor batch. Artikel ini menunjukkan cara menggunakan kedua kelas ini untuk pemberian skor batch asinkron dalam alur dan mengaktifkan titik akhir REST untuk menjalankan alur.
Menjalankan inferensi batch pada data dalam jumlah yang besar dengan menggunakan Azure Machine Learning. Artikel ini menunjukkan cara memproses data dalam jumlah besar secara asinkron dan paralel dengan skrip inferensi kustom dan basis model klasifikasi gambar yang sudah dilatih pada himpunan data MNIST.


   from azureml.pipeline.steps import ParallelRunStep, ParallelRunConfig

   parallel_run_config = ParallelRunConfig(
       source_directory=scripts_folder,
       entry_script=script_file,
       mini_batch_size="5",
       error_threshold=10,         # Optional, allowed failed count on mini batch items
       allowed_failed_count=15,    # Optional, allowed failed count on mini batches
       allowed_failed_percent=10,  # Optional, allowed failed percent on mini batches
       output_action="append_row",
       environment=batch_env,
       compute_target=compute_target,
       node_count=2)

   parallelrun_step = ParallelRunStep(
       name="predict-digits-mnist",
       parallel_run_config=parallel_run_config,
       inputs=[ named_mnist_ds ],
       output=output_dir,
       arguments=[ "--extra_arg", "example_value" ],
       allow_reuse=True
   )

Untuk informasi selengkapnya tentang contoh ini, lihat buku catatan https://aka.ms/batch-inference-notebooks.

Metode

create_module_def

Buat objek definisi modul yang menjelaskan langkah tersebut.

Metode ini tidak dimaksudkan untuk digunakan secara langsung.

create_node

Buat simpul untuk PythonScriptStep dan tambahkan ke grafik yang ditentukan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Saat alur dibuat dengan ParallelRunStep, Azure Machine Learning secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.

create_module_def

Buat objek definisi modul yang menjelaskan langkah tersebut.

Metode ini tidak dimaksudkan untuk digunakan secara langsung.

create_module_def(execution_type, input_bindings, output_bindings, param_defs=None, create_sequencing_ports=True, allow_reuse=True, version=None, arguments=None)

Parameter

Nama	Deskripsi
execution_type Diperlukan	str Jenis eksekusi modul.
input_bindings Diperlukan	list Pengikatan input langkah.
output_bindings Diperlukan	list Langkah pengikatan output.
param_defs	list Definisi param langkah. Nilai default: None
create_sequencing_ports	bool Jika true, port urutan akan dibuat untuk modul. Nilai default: True
allow_reuse	bool Jika true, modul akan tersedia untuk digunakan kembali di Alur mendatang. Nilai default: True
version	str Versi modul. Nilai default: None
arguments	list Daftar argumen yang diannotasi untuk digunakan saat memanggil modul ini. Nilai default: None

Mengembalikan

Jenis	Deskripsi
ModuleDef	Objek def modul.

create_node

Buat simpul untuk PythonScriptStep dan tambahkan ke grafik yang ditentukan.

create_node(graph, default_datastore, context)

Parameter

Nama	Deskripsi
graph Diperlukan	Graph Objek grafik.
default_datastore Diperlukan	AbstractAzureStorageDatastore atau AzureDataLakeDatastore Datastore default.
context Diperlukan	<xref:azureml.pipeline.core._GraphContext> Konteks.

Mengembalikan

Jenis	Deskripsi
Node	Simpul yang dibuat.

Saran dan Komentar

Apakah halaman ini membantu?