PipelineOutputFileDataset Kelas

Referensi

Mewakili data alur perantara yang dipromosikan ke Himpunan Data File Azure Machine Learning.

Setelah data perantara dipromosikan ke Himpunan Data Azure Machine Learning, data tersebut juga akan digunakan sebagai Himpunan Data, bukan DataReference di langkah berikutnya.

Buat data perantara yang akan dipromosikan ke Himpunan Data Azure Machine Learning.

Warisan: PipelineOutputAbstractDataset

PipelineOutputFileDataset

Konstruktor

PipelineOutputFileDataset(pipeline_data)

Parameter

pipeline_data: PipelineData

Diperlukan

PipelineData yang mewakili output perantara yang akan dipromosikan ke Himpunan Data.

pipeline_data: PipelineData

Diperlukan

PipelineData yang mewakili output perantara yang akan dipromosikan ke Himpunan Data.

Metode

as_direct	Atur input mode konsumsi himpunan data untuk mengarahkan. Dalam mode ini, Anda akan mendapatkan ID himpunan data dan dalam skrip, Anda dapat memanggil Dataset.get_by_id untuk mengambil himpunan data. run.input_datasets['{dataset_name}'] akan mengembalikan Himpunan Data.
as_download	Atur mode konsumsi himpunan data untuk diunduh.
as_mount	Atur mode konsumsi himpunan data untuk dipasang.
parse_delimited_files	Ubah himpunan data file perantara menjadi himpunan data tabular. Himpunan data tabular dibuat dengan menguraikan file yang dibatasi yang ditunjuk oleh output perantara.
parse_parquet_files	Ubah himpunan data file perantara menjadi himpunan data tabular. Himpunan data tabular dibuat dengan mengurai file parket yang ditunjuk oleh output perantara.

as_direct

Atur input mode konsumsi himpunan data untuk mengarahkan.

Dalam mode ini, Anda akan mendapatkan ID himpunan data dan dalam skrip, Anda dapat memanggil Dataset.get_by_id untuk mengambil himpunan data. run.input_datasets['{dataset_name}'] akan mengembalikan Himpunan Data.

as_direct()

Mengembalikan

PipelineOutputDataset yang dimodifikasi.

Tipe hasil

PipelineOutputFileDataset

as_download

Atur mode konsumsi himpunan data untuk diunduh.

as_download(path_on_compute=None)

Parameter

path_on_compute: str

nilai default: None

Jalur pada komputasi untuk mengunduh himpunan data. Defaultnya None, yang berarti Azure Machine Learning memilih jalur untuk Anda.

Mengembalikan

PipelineOutputDataset yang dimodifikasi.

Tipe hasil

PipelineOutputFileDataset

as_mount

Atur mode konsumsi himpunan data untuk dipasang.

as_mount(path_on_compute=None)

Parameter

path_on_compute: str

nilai default: None

Jalur pada komputasi untuk memasang himpunan data. Defaultnya None, yang berarti Azure Machine Learning memilih jalur untuk Anda.

Mengembalikan

PipelineOutputDataset yang dimodifikasi.

Tipe hasil

PipelineOutputFileDataset

parse_delimited_files

Ubah himpunan data file perantara menjadi himpunan data tabular.

Himpunan data tabular dibuat dengan menguraikan file yang dibatasi yang ditunjuk oleh output perantara.

parse_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, file_extension='', set_column_types=None, quoted_line_breaks=False)

Parameter

include_path: bool

nilai default: False

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

separator: str

nilai default: ,

Pemisah digunakan untuk membagi kolom.

header: PromoteHeadersBehavior

nilai default: PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS

Mengontrol cara header kolom dipromosikan saat membaca dari file. Default untuk mengasumsikan bahwa semua file memiliki header yang sama.

partition_format: str

nilai default: None

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, diberi jalur '../Accounts/2019/01/01/data.csv' di mana partisi tersebut menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

file_extension: str

Diperlukan

Ekstensi file dari file yang akan dibaca. Hanya file dengan ekstensi ini yang akan dibaca dari direktori. Nilai default adalah '.csv' ketika pemisah adalah ',' dan '.tsv' ketika pemisah adalah tab, dan jika bukan, nilainya adalah None. Jika nilai None yang diteruskan, semua file akan dibaca terlepas dari ekstensinya (atau tidak adanya ekstensi).

set_column_types: dict[str, DataType]

nilai default: None

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis string. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.

quoted_line_breaks: bool

nilai default: False

Apakah akan menangani karakter baris baru dalam kuotasi. Opsi ini dapat memengaruhi performa.

Mengembalikan

Mengembalikan data perantara yang akan menjadi himpunan data tabular.

Tipe hasil

PipelineOutputTabularDataset

Keterangan

Transformasi ini hanya akan diterapkan ketika data perantara dikonsumsi sebagai input dari langkah selanjutnya. Ini tidak berpengaruh pada output bahkan jika diteruskan ke output.

parse_parquet_files

Ubah himpunan data file perantara menjadi himpunan data tabular.

Himpunan data tabular dibuat dengan mengurai file parket yang ditunjuk oleh output perantara.

parse_parquet_files(include_path=False, partition_format=None, file_extension='.parquet', set_column_types=None)

Parameter

include_path: bool

nilai default: False

partition_format: str

nilai default: None

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur tertentu '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom string 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

file_extension: str

nilai default: .parquet

Ekstensi file dari file yang akan dibaca. Hanya file dengan ekstensi ini yang akan dibaca dari direktori. Nilai defaultnya adalah '.parquet'. Jika ini diatur ke None, semua file akan dibaca terlepas dari ekstensinya (atau tidak adanya ekstensi).

set_column_types: dict[str, DataType]

nilai default: None

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis yang dimuat dari file parket. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.

Mengembalikan

Mengembalikan data perantara yang akan menjadi himpunan data tabular.

Tipe hasil

PipelineOutputTabularDataset

Keterangan

Transformasi ini hanya akan diterapkan ketika data perantara dikonsumsi sebagai input dari langkah selanjutnya. Ini tidak berpengaruh pada output bahkan jika diteruskan ke output.

Bagikan melalui

PipelineOutputFileDataset Kelas

Konstruktor

Parameter

Metode

as_direct

Mengembalikan

Tipe hasil

as_download

Parameter

Mengembalikan

Tipe hasil

as_mount

Parameter

Mengembalikan

Tipe hasil

parse_delimited_files

Parameter

Mengembalikan

Tipe hasil

Keterangan

parse_parquet_files

Parameter

Mengembalikan

Tipe hasil

Keterangan

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: