Bagikan melalui


PipelineOutputFileDataset Kelas

Mewakili data alur perantara yang dipromosikan ke Himpunan Data File Azure Machine Learning.

Setelah data perantara dipromosikan ke Himpunan Data Azure Machine Learning, data tersebut juga akan digunakan sebagai Himpunan Data, bukan DataReference di langkah berikutnya.

Buat data perantara yang akan dipromosikan ke Himpunan Data Azure Machine Learning.

Warisan
PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parameter

pipeline_data
PipelineData
Diperlukan

PipelineData yang mewakili output perantara yang akan dipromosikan ke Himpunan Data.

pipeline_data
PipelineData
Diperlukan

PipelineData yang mewakili output perantara yang akan dipromosikan ke Himpunan Data.

Metode

as_direct

Atur input mode konsumsi himpunan data untuk mengarahkan.

Dalam mode ini, Anda akan mendapatkan ID himpunan data dan dalam skrip, Anda dapat memanggil Dataset.get_by_id untuk mengambil himpunan data. run.input_datasets['{dataset_name}'] akan mengembalikan Himpunan Data.

as_download

Atur mode konsumsi himpunan data untuk diunduh.

as_mount

Atur mode konsumsi himpunan data untuk dipasang.

parse_delimited_files

Ubah himpunan data file perantara menjadi himpunan data tabular.

Himpunan data tabular dibuat dengan menguraikan file yang dibatasi yang ditunjuk oleh output perantara.

parse_parquet_files

Ubah himpunan data file perantara menjadi himpunan data tabular.

Himpunan data tabular dibuat dengan mengurai file parket yang ditunjuk oleh output perantara.

as_direct

Atur input mode konsumsi himpunan data untuk mengarahkan.

Dalam mode ini, Anda akan mendapatkan ID himpunan data dan dalam skrip, Anda dapat memanggil Dataset.get_by_id untuk mengambil himpunan data. run.input_datasets['{dataset_name}'] akan mengembalikan Himpunan Data.

as_direct()

Mengembalikan

PipelineOutputDataset yang dimodifikasi.

Tipe hasil

as_download

Atur mode konsumsi himpunan data untuk diunduh.

as_download(path_on_compute=None)

Parameter

path_on_compute
str
nilai default: None

Jalur pada komputasi untuk mengunduh himpunan data. Defaultnya None, yang berarti Azure Machine Learning memilih jalur untuk Anda.

Mengembalikan

PipelineOutputDataset yang dimodifikasi.

Tipe hasil

as_mount

Atur mode konsumsi himpunan data untuk dipasang.

as_mount(path_on_compute=None)

Parameter

path_on_compute
str
nilai default: None

Jalur pada komputasi untuk memasang himpunan data. Defaultnya None, yang berarti Azure Machine Learning memilih jalur untuk Anda.

Mengembalikan

PipelineOutputDataset yang dimodifikasi.

Tipe hasil

parse_delimited_files

Ubah himpunan data file perantara menjadi himpunan data tabular.

Himpunan data tabular dibuat dengan menguraikan file yang dibatasi yang ditunjuk oleh output perantara.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parameter

include_path
bool
nilai default: False

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

separator
str
nilai default: ,

Pemisah digunakan untuk membagi kolom.

header
PromoteHeadersBehavior
nilai default: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Mengontrol cara header kolom dipromosikan saat membaca dari file. Default untuk mengasumsikan bahwa semua file memiliki header yang sama.

partition_format
str
nilai default: None

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, diberi jalur '../Accounts/2019/01/01/data.csv' di mana partisi tersebut menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

file_extension
str
Diperlukan

Ekstensi file dari file yang akan dibaca. Hanya file dengan ekstensi ini yang akan dibaca dari direktori. Nilai default adalah '.csv' ketika pemisah adalah ',' dan '.tsv' ketika pemisah adalah tab, dan jika bukan, nilainya adalah None. Jika nilai None yang diteruskan, semua file akan dibaca terlepas dari ekstensinya (atau tidak adanya ekstensi).

set_column_types
dict[str, DataType]
nilai default: None

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis string. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.

quoted_line_breaks
bool
nilai default: False

Apakah akan menangani karakter baris baru dalam kuotasi. Opsi ini dapat memengaruhi performa.

Mengembalikan

Mengembalikan data perantara yang akan menjadi himpunan data tabular.

Tipe hasil

Keterangan

Transformasi ini hanya akan diterapkan ketika data perantara dikonsumsi sebagai input dari langkah selanjutnya. Ini tidak berpengaruh pada output bahkan jika diteruskan ke output.

parse_parquet_files

Ubah himpunan data file perantara menjadi himpunan data tabular.

Himpunan data tabular dibuat dengan mengurai file parket yang ditunjuk oleh output perantara.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parameter

include_path
bool
nilai default: False

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

partition_format
str
nilai default: None

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

file_extension
str
nilai default: .parquet

Ekstensi file dari file yang akan dibaca. Hanya file dengan ekstensi ini yang akan dibaca dari direktori. Nilai defaultnya adalah '.parquet'. Jika ini diatur ke None, semua file akan dibaca terlepas dari ekstensinya (atau tidak adanya ekstensi).

set_column_types
dict[str, DataType]
nilai default: None

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis yang dimuat dari file parket. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.

Mengembalikan

Mengembalikan data perantara yang akan menjadi himpunan data tabular.

Tipe hasil

Keterangan

Transformasi ini hanya akan diterapkan ketika data perantara dikonsumsi sebagai input dari langkah selanjutnya. Ini tidak berpengaruh pada output bahkan jika diteruskan ke output.