DatasetConsumptionConfig Kelas
Menunjukkan cara untuk mengirimkan himpunan data ke target komputasi.
Mewakili cara mengirimkan himpunan data ke target komputasi.
- Warisan
-
builtins.objectDatasetConsumptionConfig
Konstruktor
DatasetConsumptionConfig(name, dataset, mode='direct', path_on_compute=None)
Parameter
- name
- str
Nama himpunan data yang sedang dijalankan, yang bisa berbeda dengan nama yang didaftarkan. Nama tersebut akan didaftarkan sebagai variabel lingkungan serta dapat digunakan dalam data plane.
- dataset
- AbstractDataset atau PipelineParameter atau OutputDatasetConfig
Himpunan data yang akan digunakan dalam eksekusi.
- mode
- str
Menentukan cara himpunan data harus dikirimkan ke target komputasi. Ada tiga mode:
- 'langsung': habiskan himpunan data sebagai himpunan data.
- 'unduh': mengunduh himpunan data serta menggunakan himpunan data sebagai jalur yang diunduh.
- 'pasang': memasang himpunan data dan gunakan himpunan data sebagai jalur pemasangan.
- 'hdfs': menggunakan himpunan data dari jalur hdfs yang diselesaikan (Saat ini hanya didukung pada komputasi SynapseSpark).
- path_on_compute
- str
Jalur target pada komputasi untuk membuat data tersedia. Struktur folder dari data sumber akan disimpan, namun, kami mungkin menambahkan awalan ke struktur folder ini demi menghindari tabrakan. Gunakan tabular_dataset.to_path
untuk melihat struktur folder output.
- name
- str
Nama himpunan data yang sedang dijalankan, yang bisa jadi berbeda dengan nama yang didaftarkan. Nama tersebut akan didaftarkan sebagai variabel lingkungan serta dapat digunakan dalam data plane.
- dataset
- Dataset atau PipelineParameter atau tuple(Workspace, str) atau tuple(Workspace, str, str) atau OutputDatasetConfig
Himpunan data yang akan dikirimkan, sebagai objek Himpunan Data, Parameter Alur yang menyerap Himpunan Data, tupel (ruang kerja, Nama himpunan data), atau tupel (ruang kerja, Nama himpunan data, versi Himpunan data). Jika hanya nama yang disediakan, DatasetConsumptionConfig akan menggunakan versi terbaru Himpunan Data.
- mode
- str
Menentukan cara himpunan data harus dikirimkan ke target komputasi. Ada tiga mode:
- 'langsung': habiskan himpunan data sebagai himpunan data.
- 'unduh': mengunduh himpunan data serta menggunakan himpunan data sebagai jalur yang diunduh.
- 'pasang': memasang himpunan data dan gunakan himpunan data sebagai jalur pemasangan.
- 'hdfs': menggunakan himpunan data dari jalur hdfs yang diselesaikan (Saat ini hanya didukung pada komputasi SynapseSpark).
- path_on_compute
- str
Jalur target pada komputasi untuk membuat data tersedia. Struktur folder dari data sumber akan disimpan, namun, kami mungkin menambahkan awalan ke struktur folder ini demi menghindari tabrakan. Sebaiknya panggil tabular_dataset.to_path untuk melihat struktur folder output.
Metode
as_download |
Atur mode ke unduh. Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi.
|
as_hdfs |
Atur mode ke hdfs. Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.
|
as_mount |
Atur mode ke pasang. Dalam eksekusi yang dikirim, file dalam himpunan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan.
|
as_download
Atur mode ke unduh.
Dalam proses yang dikirimkan, file dalam himpunan data akan diunduh ke jalur lokal pada target komputasi. Lokasi unduhan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks eksekusi.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_download()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The download location can be retrieved from argument values
import sys
download_location = sys.argv[1]
# The download location can also be retrieved from input_datasets of the run context.
from azureml.core import Run
download_location = Run.get_context().input_datasets['input_1']
as_download(path_on_compute=None)
Parameter
Keterangan
Ketika himpunan data dibuat dari jalur file tunggal, lokasi unduhan akan menjadi jalur dari file tunggal yang diunduh. Jika tidak, lokasi unduhan akan menjadi jalur folder penutup untuk semua file yang diunduh.
Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.
as_hdfs
Atur mode ke hdfs.
Dalam eksekusi synapse yang dikirimkan, file dalam himpunan data akan dikonversi ke jalur lokal pada target komputasi. Jalur hdfs dapat diambil dari nilai argumen dan variabel lingkungan os.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_hdfs()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The hdfs path can be retrieved from argument values
import sys
hdfs_path = sys.argv[1]
# The hdfs path can also be retrieved from input_datasets of the run context.
import os
hdfs_path = os.environ['input_1']
as_hdfs()
Keterangan
Ketika himpunan data dibuat dari jalur file tunggal, jalur hdfs akan menjadi jalur file tunggal. Jika tidak, jalur hdfs akan menjadi jalur folder tertutup untuk semua file yang dipasang.
as_mount
Atur mode ke pasang.
Dalam eksekusi yang dikirim, file dalam himpunan data akan dipasang ke jalur lokal pada target komputasi. Titik pemasangan dapat diambil dari nilai argumen dan bidang input_datasets dari konteks yang dijalankan.
file_dataset = Dataset.File.from_files('https://dprepdata.blob.core.windows.net/demo/Titanic.csv')
file_pipeline_param = PipelineParameter(name="file_ds_param", default_value=file_dataset)
dataset_input = DatasetConsumptionConfig("input_1", file_pipeline_param).as_mount()
experiment.submit(ScriptRunConfig(source_directory, arguments=[dataset_input]))
# Following are sample codes running in context of the submitted run:
# The mount point can be retrieved from argument values
import sys
mount_point = sys.argv[1]
# The mount point can also be retrieved from input_datasets of the run context.
from azureml.core import Run
mount_point = Run.get_context().input_datasets['input_1']
as_mount(path_on_compute=None)
Parameter
Keterangan
Ketika himpunan data dibuat dari jalur satu file, titik pemasangan akan menjadi jalur dari file yang dipasang tunggal. Jika tidak, titik pemasangan akan menjadi jalur folder penutup untuk semua file yang dipasang.
Jika path_on_compute dimulai dengan /, maka itu akan diperlakukan sebagai jalur absolut. Jika tidak dimulai dengan /, jalur tersebut akan diperlakukan sebagai jalur relatif terhadap direktori kerja. Jika Anda telah menentukan jalur absolut, pastikan bahwa pekerjaan tersebut memiliki izin untuk menulis ke direktori tersebut.
Atribut
name
Nama masukan.
Mengembalikan
Nama masukan.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk