TransformationMixin Kelas

Referensi

Kelas ini menyediakan kemampuan transformasi untuk himpunan data output.

Warisan: builtins.object

TransformationMixin

Konstruktor

TransformationMixin()

Metode

read_delimited_files

Ubah himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file yang dibatasi.

read_parquet_files

Transformasi himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file Parket.

Himpunan data tabular dibuat dengan mengurai file parket yang ditunjukkan oleh output perantara.

read_delimited_files

Ubah himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file yang dibatasi.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Parameter

include_path: bool

Diperlukan

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

separator: str

Diperlukan

Pemisah digunakan untuk membagi kolom.

header: PromoteHeadersBehavior

Diperlukan

Mengontrol cara header kolom dipromosikan saat membaca dari file. Default untuk mengasumsikan bahwa semua file memiliki header yang sama.

partition_format: str

Diperlukan

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur yang diberikan '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom untai (karakter) 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

path_glob: str

Diperlukan

Pola semacam glob untuk memfilter file yang akan dibaca sebagai file yang dibatasi. Jika diatur ke None, maka semua file akan dibaca sebagai file yang dibatasi.

Glob merupakan ekspansi pola pathname bergaya Unix: https://docs.python.org/3/library/glob.html

ex)

*.csv -> memilih file dengan ekstensi file .csv
test_.csv* -> memilih file dengan nama yang dimulai dari test_ dan berekstensi .csv
/myrootdir/project_one///.txt* -> memilih file yang berada dua subdirektori di dalam /myrootdir/project_one/ dan berekstensi .txt

Catatan: Menggunakan pola **** di pohon direktori besar mungkin menghabiskan banyak waktu. Secara umum, untuk pohon direktori besar, pola glob yang lebih spesifik dapat meningkatkan kinerja.

set_column_types: dict[str, DataType]

Diperlukan

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis string. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.

Mengembalikan

Instans OutputTabularDatasetConfig dengan instruksi tentang cara mengubah output menjadi TabularDataset.

Tipe hasil

OutputTabularDatasetConfig

read_parquet_files

Transformasi himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file Parket.

Himpunan data tabular dibuat dengan mengurai file parket yang ditunjukkan oleh output perantara.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parameter

include_path: bool

Diperlukan

partition_format: str

Diperlukan

path_glob: str

Diperlukan

Pola semacam glob untuk memfilter file yang akan dibaca sebagai file parket. Jika diatur ke None, maka semua file akan dibaca sebagai file parquet.

Glob merupakan ekspansi pola pathname bergaya Unix: https://docs.python.org/3/library/glob.html

ex)

*.parquet -> memilih file dengan ekstensi file .parquet
test_.parquet* -> memilih file dengan nama yang dimulai dari test_ dan berekstensi .parquet
/myrootdir/project_one///.parquet* -> memilih file yang berada dua subdirektori di dalam /myrootdir/project_one/ dan berekstensi .parquet

Catatan: Menggunakan pola **** di pohon direktori besar mungkin menghabiskan banyak waktu. Secara umum, untuk pohon direktori besar, pola glob yang lebih spesifik dapat meningkatkan kinerja.

set_column_types: dict[str, DataType]

Diperlukan

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis yang dimuat dari file parket. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.

Mengembalikan

Instans OutputTabularDatasetConfig dengan instruksi tentang cara mengonversi output menjadi TabularDataset.

Tipe hasil

OutputTabularDatasetConfig

Bagikan melalui

TransformationMixin Kelas

Konstruktor

Metode

read_delimited_files

Parameter

Mengembalikan

Tipe hasil

read_parquet_files

Parameter

Mengembalikan

Tipe hasil

Saran dan Komentar

Saran dan Komentar

Sumber Daya Tambahan: