OutputFileDatasetConfig Kelas
Mewakili cara menyalin output dari proses dan dipromosikan sebagai FileDataset.
OutputFileDatasetConfig memungkinkan Anda untuk menentukan bagaimana Anda ingin jalur lokal tertentu pada target komputasi diunggah ke tujuan yang ditentukan. Jika tidak ada argumen yang diteruskan ke konstruktor, kami akan secara otomatis memberikan nama, tujuan, dan jalur lokal.
Contoh tidak meneruskan argumen apa pun:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Contoh membuat output kemudian mempromosikan output ke himpunan data tabular dan mendaftarkannya dengan foo nama :
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Menginisialisasi OutputFileDatasetConfig.
OutputFileDatasetConfig memungkinkan Anda untuk menentukan bagaimana Anda ingin jalur lokal tertentu pada target komputasi diunggah ke tujuan yang ditentukan. Jika tidak ada argumen yang diteruskan ke konstruktor, kami akan secara otomatis memberikan nama, tujuan, dan jalur lokal.
Contoh tidak meneruskan argumen apa pun:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
output = OutputFileDatasetConfig()
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
Contoh membuat output kemudian mempromosikan output ke himpunan data tabular dan mendaftarkannya dengan nama foo:
workspace = Workspace.from_config()
experiment = Experiment(workspace, 'output_example')
datastore = Datastore(workspace, 'example_adls_gen2_datastore')
# for more information on the parameters and methods, please look for the corresponding documentation.
output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')
script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])
run = experiment.submit(script_run_config)
print(run)
- Warisan
-
OutputFileDatasetConfigOutputFileDatasetConfig
Konstruktor
OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)
Parameter
Nama | Deskripsi |
---|---|
name
Diperlukan
|
Nama output khusus untuk eksekusi ini. Ini umumnya digunakan untuk tujuan silsilah data. Jika diatur ke Tidak Ada, kami akan secara otomatis membuat nama. Nama tersebut juga akan menjadi variabel lingkungan yang berisi jalur lokal tempat Anda dapat menulis file dan file output yang akan diunggah ke tujuan. |
destination
Diperlukan
|
Tujuan untuk menyalin output. Jika diatur ke Tidak Ada, kami akan menyalin output ke datastore workspaceblobstore, di bawah jalur /dataset/{run-id}/{output-name}, di mana run-id adalah ID Run dan output-name adalah nama output dari parameter name di atas. Tujuannya adalah tuple di mana item pertama adalah datastore dan item kedua adalah jalur di dalam datastore untuk menyalin data. Jalur di dalam datastore dapat berupa jalur templat. Jalur templat hanyalah jalur biasa tetapi dengan tempat penampung di dalamnya. Tempat penampung tersebut kemudian akan diselesaikan pada waktu yang tepat. Sintaksis untuk tempat penampung adalah {placeholder}, misalnya, /path/with/{placeholder}. Saat ini hanya dua tempat penampung yang didukung, {run-id} dan {output-name}. |
source
Diperlukan
|
Jalur dalam target komputasi untuk menyalin data. Jika diatur ke Tidak Ada, kami akan mengatur ini ke direktori yang kami buat di dalam direktori sementara OS target komputasi. |
partition_format
Diperlukan
|
Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'. |
name
Diperlukan
|
Nama output khusus untuk eksekusi ini. Ini umumnya digunakan untuk tujuan silsilah data. Jika diatur ke Tidak Ada, kami akan secara otomatis membuat nama. Nama tersebut juga akan menjadi variabel lingkungan yang berisi jalur lokal tempat Anda dapat menulis file dan file output yang akan diunggah ke tujuan. |
destination
Diperlukan
|
Tujuan untuk menyalin output. Jika diatur ke Tidak Ada, kami akan menyalin output ke datastore workspaceblobstore, di bawah jalur /dataset/{run-id}/{output-name}, di mana run-id adalah ID Run dan output-name adalah nama output dari parameter name di atas. Tujuannya adalah tuple di mana item pertama adalah datastore dan item kedua adalah jalur di dalam datastore untuk menyalin data. Jalur di dalam datastore dapat berupa jalur templat. Jalur templat hanyalah jalur biasa tetapi dengan tempat penampung di dalamnya. Tempat penampung tersebut kemudian akan diselesaikan pada waktu yang tepat. Sintaksis untuk tempat penampung adalah {placeholder}, misalnya, /path/with/{placeholder}. Saat ini hanya dua tempat penampung yang didukung, {run-id} dan {output-name}. |
source
Diperlukan
|
Jalur dalam target komputasi untuk menyalin data. Jika diatur ke Tidak Ada, kami akan mengatur ini ke direktori yang kami buat di dalam direktori sementara OS target komputasi. |
partition_format
Diperlukan
|
Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '01-01-2019'. |
Keterangan
Anda dapat meneruskan OutputFileDatasetConfig sebagai argumen untuk menjalankan Anda, dan itu akan secara otomatis diterjemahkan ke jalur lokal di komputasi. Argumen sumber akan digunakan jika ada yang ditentukan, jika tidak, kami akan secara otomatis membuat direktori di folder temp OS. File dan folder di dalam direktori sumber kemudian akan disalin ke tujuan berdasarkan konfigurasi output.
Secara default, mode di mana output akan disalin ke penyimpanan tujuan akan diatur untuk dipasang. Untuk informasi selengkapnya tentang mode pemasangan, harap lihat dokumentasi untuk as_mount.
Metode
as_input |
Tentukan cara menggunakan output sebagai input dalam langkah alur berikutnya. |
as_mount |
Atur mode output untuk dipasang. Untuk mode pemasangan, direktori output akan menjadi direktori terpasang FUSE. File yang ditulis ke direktori yang terpasang akan diunggah saat file ditutup. |
as_upload |
Atur mode output untuk diunggah. Untuk mode pengunggahan, file yang ditulis ke direktori output akan diunggah di akhir pekerjaan. Jika pekerjaan gagal atau dibatalkan, direktori output tidak akan diunggah. |
as_input
Tentukan cara menggunakan output sebagai input dalam langkah alur berikutnya.
as_input(name=None)
Parameter
Nama | Deskripsi |
---|---|
name
Diperlukan
|
Nama input khusus untuk eksekusi. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Instans DatasetConsumptionConfig menjelaskan cara mengirimkan data input. |
as_mount
Atur mode output untuk dipasang.
Untuk mode pemasangan, direktori output akan menjadi direktori terpasang FUSE. File yang ditulis ke direktori yang terpasang akan diunggah saat file ditutup.
as_mount(disable_metadata_cache=False)
Parameter
Nama | Deskripsi |
---|---|
disable_metadata_cache
Diperlukan
|
Apakah akan men-cache metadata di node lokal, jika dinonaktifkan, sebuah node tidak akan dapat melihat file yang dihasilkan dari node lain selama pekerjaan berjalan. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Instans OutputFileDatasetConfig dengan mode diatur untuk dipasang. |
as_upload
Atur mode output untuk diunggah.
Untuk mode pengunggahan, file yang ditulis ke direktori output akan diunggah di akhir pekerjaan. Jika pekerjaan gagal atau dibatalkan, direktori output tidak akan diunggah.
as_upload(overwrite=False, source_globs=None)
Parameter
Nama | Deskripsi |
---|---|
overwrite
Diperlukan
|
Apakah akan menimpa file yang sudah ada di tujuan atau tidak. |
source_globs
Diperlukan
|
Pola glob digunakan untuk memfilter file yang akan diunggah. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Instans OutputFileDatasetConfig dengan mode yang diatur untuk diunggah. |