TransformationMixin Kelas
Kelas ini menyediakan kemampuan transformasi untuk himpunan data output.
- Warisan
-
builtins.objectTransformationMixin
Konstruktor
TransformationMixin()
Metode
read_delimited_files |
Ubah himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file yang dibatasi. |
read_parquet_files |
Transformasi himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file Parket. Himpunan data tabular dibuat dengan mengurai file parket yang ditunjukkan oleh output perantara. |
read_delimited_files
Ubah himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file yang dibatasi.
read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)
Parameter
- include_path
- bool
Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.
- header
- PromoteHeadersBehavior
Mengontrol cara header kolom dipromosikan saat membaca dari file. Default untuk mengasumsikan bahwa semua file memiliki header yang sama.
- partition_format
- str
Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur yang diberikan '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom untai (karakter) 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.
- path_glob
- str
Pola semacam glob untuk memfilter file yang akan dibaca sebagai file yang dibatasi. Jika diatur ke None, maka semua file akan dibaca sebagai file yang dibatasi.
Glob merupakan ekspansi pola pathname bergaya Unix: https://docs.python.org/3/library/glob.html
ex)
- *.csv -> memilih file dengan ekstensi file .csv
- test_.csv* -> memilih file dengan nama yang dimulai dari test_ dan berekstensi .csv
- /myrootdir/project_one///.txt* -> memilih file yang berada dua subdirektori di dalam /myrootdir/project_one/ dan berekstensi .txt
Catatan: Menggunakan pola **** di pohon direktori besar mungkin menghabiskan banyak waktu. Secara umum, untuk pohon direktori besar, pola glob yang lebih spesifik dapat meningkatkan kinerja.
Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis string. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.
Mengembalikan
Instans OutputTabularDatasetConfig dengan instruksi tentang cara mengubah output menjadi TabularDataset.
Tipe hasil
read_parquet_files
Transformasi himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file Parket.
Himpunan data tabular dibuat dengan mengurai file parket yang ditunjukkan oleh output perantara.
read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)
Parameter
- include_path
- bool
Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.
- partition_format
- str
Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur yang diberikan '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom untai (karakter) 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.
- path_glob
- str
Pola semacam glob untuk memfilter file yang akan dibaca sebagai file parket. Jika diatur ke None, maka semua file akan dibaca sebagai file parquet.
Glob merupakan ekspansi pola pathname bergaya Unix: https://docs.python.org/3/library/glob.html
ex)
- *.parquet -> memilih file dengan ekstensi file .parquet
- test_.parquet* -> memilih file dengan nama yang dimulai dari test_ dan berekstensi .parquet
- /myrootdir/project_one///.parquet* -> memilih file yang berada dua subdirektori di dalam /myrootdir/project_one/ dan berekstensi .parquet
Catatan: Menggunakan pola **** di pohon direktori besar mungkin menghabiskan banyak waktu. Secara umum, untuk pohon direktori besar, pola glob yang lebih spesifik dapat meningkatkan kinerja.
Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis yang dimuat dari file parket. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.
Mengembalikan
Instans OutputTabularDatasetConfig dengan instruksi tentang cara mengonversi output menjadi TabularDataset.
Tipe hasil
Saran dan Komentar
https://aka.ms/ContentUserFeedback.
Segera hadir: Sepanjang tahun 2024 kami akan menghentikan penggunaan GitHub Issues sebagai mekanisme umpan balik untuk konten dan menggantinya dengan sistem umpan balik baru. Untuk mengetahui informasi selengkapnya, lihat:Kirim dan lihat umpan balik untuk