OutputFileDatasetConfig Kelas

Mewakili cara menyalin output dari proses dan dipromosikan sebagai FileDataset.

OutputFileDatasetConfig memungkinkan Anda untuk menentukan bagaimana Anda ingin jalur lokal tertentu pada target komputasi diunggah ke tujuan yang ditentukan. Jika tidak ada argumen yang diteruskan ke konstruktor, kami akan secara otomatis memberikan nama, tujuan, dan jalur lokal.

Contoh tidak meneruskan argumen apa pun:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Contoh membuat output kemudian mempromosikan output ke himpunan data tabular dan mendaftarkannya dengan foo nama :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Menginisialisasi OutputFileDatasetConfig.

OutputFileDatasetConfig memungkinkan Anda untuk menentukan bagaimana Anda ingin jalur lokal tertentu pada target komputasi diunggah ke tujuan yang ditentukan. Jika tidak ada argumen yang diteruskan ke konstruktor, kami akan secara otomatis memberikan nama, tujuan, dan jalur lokal.

Contoh tidak meneruskan argumen apa pun:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Contoh membuat output kemudian mempromosikan output ke himpunan data tabular dan mendaftarkannya dengan nama foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
Warisan
OutputFileDatasetConfig
OutputFileDatasetConfig

Konstruktor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parameter

Nama Deskripsi
name
Diperlukan
str

Nama output khusus untuk eksekusi ini. Ini umumnya digunakan untuk tujuan silsilah data. Jika diatur ke Tidak Ada, kami akan secara otomatis membuat nama. Nama tersebut juga akan menjadi variabel lingkungan yang berisi jalur lokal tempat Anda dapat menulis file dan file output yang akan diunggah ke tujuan.

destination
Diperlukan

Tujuan untuk menyalin output. Jika diatur ke Tidak Ada, kami akan menyalin output ke datastore workspaceblobstore, di bawah jalur /dataset/{run-id}/{output-name}, di mana run-id adalah ID Run dan output-name adalah nama output dari parameter name di atas. Tujuannya adalah tuple di mana item pertama adalah datastore dan item kedua adalah jalur di dalam datastore untuk menyalin data.

Jalur di dalam datastore dapat berupa jalur templat. Jalur templat hanyalah jalur biasa tetapi dengan tempat penampung di dalamnya. Tempat penampung tersebut kemudian akan diselesaikan pada waktu yang tepat. Sintaksis untuk tempat penampung adalah {placeholder}, misalnya, /path/with/{placeholder}. Saat ini hanya dua tempat penampung yang didukung, {run-id} dan {output-name}.

source
Diperlukan
str

Jalur dalam target komputasi untuk menyalin data. Jika diatur ke Tidak Ada, kami akan mengatur ini ke direktori yang kami buat di dalam direktori sementara OS target komputasi.

partition_format
Diperlukan
str

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

name
Diperlukan
str

Nama output khusus untuk eksekusi ini. Ini umumnya digunakan untuk tujuan silsilah data. Jika diatur ke Tidak Ada, kami akan secara otomatis membuat nama. Nama tersebut juga akan menjadi variabel lingkungan yang berisi jalur lokal tempat Anda dapat menulis file dan file output yang akan diunggah ke tujuan.

destination
Diperlukan

Tujuan untuk menyalin output. Jika diatur ke Tidak Ada, kami akan menyalin output ke datastore workspaceblobstore, di bawah jalur /dataset/{run-id}/{output-name}, di mana run-id adalah ID Run dan output-name adalah nama output dari parameter name di atas. Tujuannya adalah tuple di mana item pertama adalah datastore dan item kedua adalah jalur di dalam datastore untuk menyalin data.

Jalur di dalam datastore dapat berupa jalur templat. Jalur templat hanyalah jalur biasa tetapi dengan tempat penampung di dalamnya. Tempat penampung tersebut kemudian akan diselesaikan pada waktu yang tepat. Sintaksis untuk tempat penampung adalah {placeholder}, misalnya, /path/with/{placeholder}. Saat ini hanya dua tempat penampung yang didukung, {run-id} dan {output-name}.

source
Diperlukan
str

Jalur dalam target komputasi untuk menyalin data. Jika diatur ke Tidak Ada, kami akan mengatur ini ke direktori yang kami buat di dalam direktori sementara OS target komputasi.

partition_format
Diperlukan
str

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '01-01-2019'.

Keterangan

Anda dapat meneruskan OutputFileDatasetConfig sebagai argumen untuk menjalankan Anda, dan itu akan secara otomatis diterjemahkan ke jalur lokal di komputasi. Argumen sumber akan digunakan jika ada yang ditentukan, jika tidak, kami akan secara otomatis membuat direktori di folder temp OS. File dan folder di dalam direktori sumber kemudian akan disalin ke tujuan berdasarkan konfigurasi output.

Secara default, mode di mana output akan disalin ke penyimpanan tujuan akan diatur untuk dipasang. Untuk informasi selengkapnya tentang mode pemasangan, harap lihat dokumentasi untuk as_mount.

Metode

as_input

Tentukan cara menggunakan output sebagai input dalam langkah alur berikutnya.

as_mount

Atur mode output untuk dipasang.

Untuk mode pemasangan, direktori output akan menjadi direktori terpasang FUSE. File yang ditulis ke direktori yang terpasang akan diunggah saat file ditutup.

as_upload

Atur mode output untuk diunggah.

Untuk mode pengunggahan, file yang ditulis ke direktori output akan diunggah di akhir pekerjaan. Jika pekerjaan gagal atau dibatalkan, direktori output tidak akan diunggah.

as_input

Tentukan cara menggunakan output sebagai input dalam langkah alur berikutnya.

as_input(name=None)

Parameter

Nama Deskripsi
name
Diperlukan
str

Nama input khusus untuk eksekusi.

Mengembalikan

Jenis Deskripsi

Instans DatasetConsumptionConfig menjelaskan cara mengirimkan data input.

as_mount

Atur mode output untuk dipasang.

Untuk mode pemasangan, direktori output akan menjadi direktori terpasang FUSE. File yang ditulis ke direktori yang terpasang akan diunggah saat file ditutup.

as_mount(disable_metadata_cache=False)

Parameter

Nama Deskripsi
disable_metadata_cache
Diperlukan

Apakah akan men-cache metadata di node lokal, jika dinonaktifkan, sebuah node tidak akan dapat melihat file yang dihasilkan dari node lain selama pekerjaan berjalan.

Mengembalikan

Jenis Deskripsi

Instans OutputFileDatasetConfig dengan mode diatur untuk dipasang.

as_upload

Atur mode output untuk diunggah.

Untuk mode pengunggahan, file yang ditulis ke direktori output akan diunggah di akhir pekerjaan. Jika pekerjaan gagal atau dibatalkan, direktori output tidak akan diunggah.

as_upload(overwrite=False, source_globs=None)

Parameter

Nama Deskripsi
overwrite
Diperlukan

Apakah akan menimpa file yang sudah ada di tujuan atau tidak.

source_globs
Diperlukan

Pola glob digunakan untuk memfilter file yang akan diunggah.

Mengembalikan

Jenis Deskripsi

Instans OutputFileDatasetConfig dengan mode yang diatur untuk diunggah.