DataTransferStep Kelas

Membuat langkah Azure ML Pipeline yang mentransfer data antar opsi penyimpanan.

DataTransferStep mendukung jenis penyimpanan umum seperti Azure Blob Storage dan Azure Data Lake sebagai sumber dan sink. Untuk informasi selengkapnya, lihat bagian Keterangan .

Untuk contoh penggunaan DataTransferStep, lihat buku catatan https://aka.ms/pl-data-trans.

Buat langkah Alur Azure ML yang mentransfer data antar opsi penyimpanan.

Konstruktor

DataTransferStep(name, source_data_reference=None, destination_data_reference=None, compute_target=None, source_reference_type=None, destination_reference_type=None, allow_reuse=True)

Parameter

Nama	Deskripsi
name Diperlukan	str [Diperlukan] Nama langkah.
source_data_reference	Union[InputPortBinding, DataReference, PortDataReference, PipelineData] [Diperlukan] Koneksi input yang berfungsi sebagai sumber operasi transfer data. Nilai default: None
destination_data_reference	Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference] [Diperlukan] Koneksi output yang berfungsi sebagai tujuan operasi transfer data. Nilai default: None
compute_target	DataFactoryCompute, str [Diperlukan] Azure Data Factory yang digunakan untuk mentransfer data. Nilai default: None
source_reference_type	str String opsional yang menentukan jenis `source_data_reference`. Nilai yang mungkin termasuk: 'file', 'direktori'. Ketika tidak ditentukan, jenis jalur yang ada digunakan. Gunakan parameter ini untuk membedakan antara file dan direktori dengan nama yang sama. Nilai default: None
destination_reference_type	str String opsional yang menentukan jenis `destination_data_reference`. Nilai yang mungkin termasuk: 'file', 'direktori'. Jika tidak ditentukan, Azure ML menggunakan jenis jalur, referensi sumber, atau 'direktori' yang ada, dalam urutan tersebut. Nilai default: None
allow_reuse	bool Menunjukkan apakah langkah harus menggunakan kembali hasil sebelumnya saat dijalankan kembali dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika argumen langkah tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan kembali. Saat menggunakan kembali langkah tersebut, alih-alih mentransfer data lagi, hasil dari eksekusi sebelumnya segera tersedia untuk langkah-langkah berikutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan kembali ditentukan oleh apakah definisi himpunan data telah berubah, bukan dengan apakah data yang mendasar telah berubah. Nilai default: True
name Diperlukan	str [Diperlukan] Nama langkah.
source_data_reference Diperlukan	Union[InputPortBinding, DataReference, PortDataReference, PipelineData] [Diperlukan] Koneksi input yang berfungsi sebagai sumber operasi transfer data.
destination_data_reference Diperlukan	Union[InputPortBinding, PipelineOutputAbstractDataset, DataReference] [Diperlukan] Koneksi output yang berfungsi sebagai tujuan operasi transfer data.
compute_target Diperlukan	DataFactoryCompute, str [Diperlukan] Azure Data Factory yang digunakan untuk mentransfer data.
source_reference_type Diperlukan	str String opsional yang menentukan jenis `source_data_reference`. Nilai yang mungkin termasuk: 'file', 'direktori'. Ketika tidak ditentukan, jenis jalur yang ada digunakan. Gunakan parameter ini untuk membedakan antara file dan direktori dengan nama yang sama.
destination_reference_type Diperlukan	str String opsional yang menentukan jenis `destination_data_reference`. Nilai yang mungkin termasuk: 'file', 'direktori'. Jika tidak ditentukan, Azure ML menggunakan jenis jalur, referensi sumber, atau 'direktori' yang ada, dalam urutan tersebut.
allow_reuse Diperlukan	bool Menunjukkan apakah langkah harus menggunakan kembali hasil sebelumnya saat dijalankan kembali dengan pengaturan yang sama. Penggunaan kembali diaktifkan secara default. Jika argumen langkah tetap tidak berubah, output dari eksekusi sebelumnya dari langkah ini digunakan kembali. Saat menggunakan kembali langkah tersebut, alih-alih mentransfer data lagi, hasil dari eksekusi sebelumnya segera tersedia untuk langkah-langkah berikutnya. Jika Anda menggunakan himpunan data Azure Machine Learning sebagai input, penggunaan kembali ditentukan oleh apakah definisi himpunan data telah berubah, bukan dengan apakah data yang mendasar telah berubah.

Keterangan

Langkah ini mendukung jenis penyimpanan berikut sebagai sumber dan sink kecuali jika dicatat:

Azure Blob Storage
Azure Data Lake Storage Gen1 dan Gen2
Azure SQL Database
Azure Database for PostgreSQL
Azure Database for MySQL

Untuk Azure SQL Database, Anda harus menggunakan autentikasi perwakilan layanan. Untuk informasi selengkapnya, lihat Autentikasi Perwakilan Layanan. Untuk contoh penggunaan autentikasi perwakilan layanan untuk Azure SQL Database, lihat https://aka.ms/pl-data-trans.

Untuk menetapkan dependensi data antar langkah, gunakan get_output metode untuk mendapatkan PipelineData objek yang mewakili output langkah transfer data ini dan dapat digunakan sebagai input untuk langkah-langkah selanjutnya dalam alur.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Untuk membuat InputPortBinding dengan nama tertentu, Anda dapat menggabungkan output get_output() dengan output as_input metode atau as_mount .PipelineData


   data_transfer_step = DataTransferStep(name="copy data", ...)
   training_input = data_transfer_step.get_output().as_input("my_input_name")

Metode

create_node

Buat simpul dari langkah DataTransfer dan tambahkan ke grafik yang diberikan.

Metode ini tidak dimaksudkan untuk digunakan secara langsung. Ketika alur dibuat dengan langkah ini, Azure ML secara otomatis meneruskan parameter yang diperlukan melalui metode ini sehingga langkah tersebut dapat ditambahkan ke grafik alur yang mewakili alur kerja.

get_output

Dapatkan output langkah sebagai PipelineData.

create_node

Buat simpul dari langkah DataTransfer dan tambahkan ke grafik yang diberikan.

create_node(graph, default_datastore, context)

Parameter

Nama	Deskripsi
graph Diperlukan	Graph Objek grafik untuk menambahkan simpul.
default_datastore Diperlukan	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Datastore default.
context Diperlukan	<xref:azureml.pipeline.core._GraphContext> Konteks grafik.

Mengembalikan

Jenis	Deskripsi
Node	Simpul yang dibuat.

get_output

Dapatkan output langkah sebagai PipelineData.

get_output()

Mengembalikan

Jenis	Deskripsi
PipelineData	Output langkah.

Keterangan


   data_transfer_step = DataTransferStep(name="copy data", ...)

   # Use output of data_transfer_step as input of another step in pipeline
   # This will make training_step wait for data_transfer_step to complete
   training_input = data_transfer_step.get_output()
   training_step = PythonScriptStep(script_name="train.py",
                           arguments=["--model", training_input],
                           inputs=[training_input],
                           compute_target=aml_compute,
                           source_directory=source_directory)

Untuk membuat InputPortBinding dengan nama tertentu, Anda dapat menggabungkan panggilan get_output() dengan as_input atau as_mount metode pembantu.


   data_transfer_step = DataTransferStep(name="copy data", ...)

   training_input = data_transfer_step.get_output().as_input("my_input_name")

Saran dan Komentar

Apakah halaman ini membantu?

Bagikan melalui

DataTransferStep Kelas

Konstruktor

Parameter

Keterangan

Metode

create_node

Parameter

Mengembalikan

get_output

Mengembalikan

Keterangan

Saran dan Komentar