PipelineOutputFileDataset Kelas
Mewakili data alur perantara yang dipromosikan ke Himpunan Data File Azure Machine Learning.
Setelah data perantara dipromosikan ke Himpunan Data Azure Machine Learning, data tersebut juga akan digunakan sebagai Himpunan Data, bukan DataReference di langkah berikutnya.
Buat data perantara yang akan dipromosikan ke Himpunan Data Azure Machine Learning.
- Warisan
-
PipelineOutputFileDataset
Konstruktor
PipelineOutputFileDataset(pipeline_data)
Parameter
- pipeline_data
- PipelineData
PipelineData yang mewakili output perantara yang akan dipromosikan ke Himpunan Data.
- pipeline_data
- PipelineData
PipelineData yang mewakili output perantara yang akan dipromosikan ke Himpunan Data.
Metode
as_direct |
Atur input mode konsumsi himpunan data untuk mengarahkan. Dalam mode ini, Anda akan mendapatkan ID himpunan data dan dalam skrip, Anda dapat memanggil Dataset.get_by_id untuk mengambil himpunan data. run.input_datasets['{dataset_name}'] akan mengembalikan Himpunan Data. |
as_download |
Atur mode konsumsi himpunan data untuk diunduh. |
as_mount |
Atur mode konsumsi himpunan data untuk dipasang. |
parse_delimited_files |
Ubah himpunan data file perantara menjadi himpunan data tabular. Himpunan data tabular dibuat dengan menguraikan file yang dibatasi yang ditunjuk oleh output perantara. |
parse_parquet_files |
Ubah himpunan data file perantara menjadi himpunan data tabular. Himpunan data tabular dibuat dengan mengurai file parket yang ditunjuk oleh output perantara. |
as_direct
Atur input mode konsumsi himpunan data untuk mengarahkan.
Dalam mode ini, Anda akan mendapatkan ID himpunan data dan dalam skrip, Anda dapat memanggil Dataset.get_by_id untuk mengambil himpunan data. run.input_datasets['{dataset_name}'] akan mengembalikan Himpunan Data.
as_direct()
Mengembalikan
PipelineOutputDataset yang dimodifikasi.
Tipe hasil
as_download
Atur mode konsumsi himpunan data untuk diunduh.
as_download(path_on_compute=None)
Parameter
- path_on_compute
- str
Jalur pada komputasi untuk mengunduh himpunan data. Defaultnya None, yang berarti Azure Machine Learning memilih jalur untuk Anda.
Mengembalikan
PipelineOutputDataset yang dimodifikasi.
Tipe hasil
as_mount
Atur mode konsumsi himpunan data untuk dipasang.
as_mount(path_on_compute=None)
Parameter
- path_on_compute
- str
Jalur pada komputasi untuk memasang himpunan data. Defaultnya None, yang berarti Azure Machine Learning memilih jalur untuk Anda.
Mengembalikan
PipelineOutputDataset yang dimodifikasi.
Tipe hasil
parse_delimited_files
Ubah himpunan data file perantara menjadi himpunan data tabular.
Himpunan data tabular dibuat dengan menguraikan file yang dibatasi yang ditunjuk oleh output perantara.
parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)
Parameter
- include_path
- bool
Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.
- header
- PromoteHeadersBehavior
Mengontrol cara header kolom dipromosikan saat membaca dari file. Default untuk mengasumsikan bahwa semua file memiliki header yang sama.
- partition_format
- str
Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, diberi jalur '../Accounts/2019/01/01/data.csv' di mana partisi tersebut menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.
- file_extension
- str
Ekstensi file dari file yang akan dibaca. Hanya file dengan ekstensi ini yang akan dibaca dari direktori. Nilai default adalah '.csv' ketika pemisah adalah ',' dan '.tsv' ketika pemisah adalah tab, dan jika bukan, nilainya adalah None. Jika nilai None yang diteruskan, semua file akan dibaca terlepas dari ekstensinya (atau tidak adanya ekstensi).
Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis string. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.
- quoted_line_breaks
- bool
Apakah akan menangani karakter baris baru dalam kuotasi. Opsi ini dapat memengaruhi performa.
Mengembalikan
Mengembalikan data perantara yang akan menjadi himpunan data tabular.
Tipe hasil
Keterangan
Transformasi ini hanya akan diterapkan ketika data perantara dikonsumsi sebagai input dari langkah selanjutnya. Ini tidak berpengaruh pada output bahkan jika diteruskan ke output.
parse_parquet_files
Ubah himpunan data file perantara menjadi himpunan data tabular.
Himpunan data tabular dibuat dengan mengurai file parket yang ditunjuk oleh output perantara.
parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)
Parameter
- include_path
- bool
Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.
- partition_format
- str
Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.
- file_extension
- str
Ekstensi file dari file yang akan dibaca. Hanya file dengan ekstensi ini yang akan dibaca dari direktori. Nilai defaultnya adalah '.parquet'. Jika ini diatur ke None, semua file akan dibaca terlepas dari ekstensinya (atau tidak adanya ekstensi).
Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis yang dimuat dari file parket. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.
Mengembalikan
Mengembalikan data perantara yang akan menjadi himpunan data tabular.
Tipe hasil
Keterangan
Transformasi ini hanya akan diterapkan ketika data perantara dikonsumsi sebagai input dari langkah selanjutnya. Ini tidak berpengaruh pada output bahkan jika diteruskan ke output.
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk