Bagikan melalui


TransformationMixin Kelas

Kelas ini menyediakan kemampuan transformasi untuk himpunan data output.

Warisan
builtins.object
TransformationMixin

Konstruktor

TransformationMixin()

Metode

read_delimited_files

Ubah himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file yang dibatasi.

read_parquet_files

Transformasi himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file Parket.

Himpunan data tabular dibuat dengan mengurai file parket yang ditunjukkan oleh output perantara.

read_delimited_files

Ubah himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file yang dibatasi.

read_delimited_files(include_path=False, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, partition_format=None, path_glob=None, set_column_types=None)

Parameter

include_path
bool
Diperlukan

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

separator
str
Diperlukan

Pemisah digunakan untuk membagi kolom.

header
PromoteHeadersBehavior
Diperlukan

Mengontrol cara header kolom dipromosikan saat membaca dari file. Default untuk mengasumsikan bahwa semua file memiliki header yang sama.

partition_format
str
Diperlukan

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur yang diberikan '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom untai (karakter) 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

path_glob
str
Diperlukan

Pola semacam glob untuk memfilter file yang akan dibaca sebagai file yang dibatasi. Jika diatur ke None, maka semua file akan dibaca sebagai file yang dibatasi.

Glob merupakan ekspansi pola pathname bergaya Unix: https://docs.python.org/3/library/glob.html

ex)

  • *.csv -> memilih file dengan ekstensi file .csv
  • test_.csv* -> memilih file dengan nama yang dimulai dari test_ dan berekstensi .csv
  • /myrootdir/project_one///.txt* -> memilih file yang berada dua subdirektori di dalam /myrootdir/project_one/ dan berekstensi .txt

Catatan: Menggunakan pola **** di pohon direktori besar mungkin menghabiskan banyak waktu. Secara umum, untuk pohon direktori besar, pola glob yang lebih spesifik dapat meningkatkan kinerja.

set_column_types
dict[str, DataType]
Diperlukan

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis string. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.

Mengembalikan

Instans OutputTabularDatasetConfig dengan instruksi tentang cara mengubah output menjadi TabularDataset.

Tipe hasil

read_parquet_files

Transformasi himpunan data output menjadi himpunan data tabular dengan membaca semua output sebagai file Parket.

Himpunan data tabular dibuat dengan mengurai file parket yang ditunjukkan oleh output perantara.

read_parquet_files(include_path=False, partition_format=None, path_glob=None, set_column_types=None)

Parameter

include_path
bool
Diperlukan

Boolean untuk menyimpan informasi jalur sebagai kolom dalam himpunan data. Default ke False. Ini berguna saat membaca beberapa file, dan ingin tahu file mana yang berasal dari baris tertentu, atau untuk menyimpan informasi yang berguna di jalur file.

partition_format
str
Diperlukan

Tentukan format partisi jalur. Default ke Tidak Ada. Informasi partisi dari setiap jalur akan diekstrak ke dalam kolom berdasarkan format yang ditentukan. Bagian format '{column_name}' membuat kolom string, dan '{column_name:yyyy/MM/dd/HH/mm/ss}' membuat kolom tanggalwaktu, di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk mengekstrak tahun, bulan, hari, jam, menit, dan detik untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, jalur yang diberikan '../Accounts/2019/01/01/data.parquet' di mana partisinya adalah menurut nama departemen dan waktu, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/ data.parquet' membuat kolom untai (karakter) 'Department' dengan nilai 'Accounts' dan kolom tanggalwaktu 'PartitionDate' dengan nilai '2019-01-01'.

path_glob
str
Diperlukan

Pola semacam glob untuk memfilter file yang akan dibaca sebagai file parket. Jika diatur ke None, maka semua file akan dibaca sebagai file parquet.

Glob merupakan ekspansi pola pathname bergaya Unix: https://docs.python.org/3/library/glob.html

ex)

  • *.parquet -> memilih file dengan ekstensi file .parquet
  • test_.parquet* -> memilih file dengan nama yang dimulai dari test_ dan berekstensi .parquet
  • /myrootdir/project_one///.parquet* -> memilih file yang berada dua subdirektori di dalam /myrootdir/project_one/ dan berekstensi .parquet

Catatan: Menggunakan pola **** di pohon direktori besar mungkin menghabiskan banyak waktu. Secara umum, untuk pohon direktori besar, pola glob yang lebih spesifik dapat meningkatkan kinerja.

set_column_types
dict[str, DataType]
Diperlukan

Kamus untuk mengatur jenis data kolom, di mana kunci adalah nama kolom dan nilai adalah DataType. Kolom yang tidak ada dalam kamus akan tetap berupa jenis yang dimuat dari file parket. Tidak Lulus tidak akan menghasilkan konversi. Entri untuk kolom yang tidak ditemukan dalam data sumber tidak akan menyebabkan kesalahan dan akan diabaikan.

Mengembalikan

Instans OutputTabularDatasetConfig dengan instruksi tentang cara mengonversi output menjadi TabularDataset.

Tipe hasil