TabularDataset Kelas
Mewakili himpunan data tabular untuk digunakan dalam Azure Machine Learning.
TabularDataset menentukan serangkaian operasi yang bersifat lazily-evaluated dan tidak berubah untuk memuat data dari sumber data ke dalam representasi tabular. Data tidak dimuat dari sumber sampai TabularDataset diminta untuk mengirimkan data.
TabularDataset dibuat menggunakan metode seperti from_delimited_files dari kelas TabularDatasetFactory.
Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data tabular, lihat https://aka.ms/tabulardataset-samplenotebook.
Menginisialisasi objek TabularDataset.
Konstruktor ini tidak seharusnya dipanggil secara langsung. Himpunan data dimaksudkan untuk dibuat menggunakan TabularDatasetFactory kelas .
- Warisan
-
TabularDataset
Konstruktor
TabularDataset()
Keterangan
TabularDataset dapat dibuat dari CSV, TSV, file Parquet, atau kueri SQL menggunakan metode from_*
kelas TabularDatasetFactory. Anda dapat melakukan operasi sub-pengaturan pada TabularDataset seperti memisahkan, melompati, dan memfilter baris.
Hasil sub-pengaturan selalu satu atau lebih objek TabularDataset baru.
Anda juga dapat mengonversi TabularDataset ke format lain seperti pandas DataFrame. Pemuatan data yang sebenarnya terjadi ketika TabularDataset diminta untuk mengirimkan data ke mekanisme penyimpanan lain (misalnya Pandas Dataframe, atau file CSV).
TabularDataset dapat digunakan sebagai input dari eksekusi eksperimen. TabularDataset juga dapat didaftarkan ke ruang kerja dengan nama tertentu dan diambil dengan nama itu nanti.
Metode
download |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Unduh aliran file yang ditentukan oleh himpunan data ke jalur lokal. |
drop_columns |
Hilangkan kolom yang ditentukan dari himpunan data. Jika kolom timeseries dihilangkan, kemampuan terkait juga akan dihilangkan untuk himpunan data yang dikembalikan. |
filter |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Filter data, hanya menyisakan rekaman yang cocok dengan ekspresi yang ditentukan. |
get_profile |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Dapatkan profil data dari profil terbaru yang dijalankan untuk himpunan data atau himpunan data yang sama di ruang kerja. |
get_profile_runs |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Kembalikan eksekusi profil sebelumnya yang terkait dengan himpunan data ini atau yang sama di ruang kerja. |
keep_columns |
Simpan kolom yang ditentukan dan hapus semua kolom lainnya dari himpunan data. Jika kolom timeseries dihilangkan, kemampuan terkait juga akan dihilangkan untuk himpunan data yang dikembalikan. |
mount |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal. |
partition_by |
Data yang dipartisi akan disalin dan dikeluarkan ke tujuan yang ditentukan oleh target. buat himpunan data dari jalur data yang di output dengan format partisi, daftarkan himpunan data jika nama disediakan, kembalikan himpunan data untuk jalur data baru dengan partisi
|
random_split |
Pisahkan baris dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan. Himpunan data pertama berisi kira-kira |
skip |
Lompati baris dari atas himpunan data menurut hitungan yang ditentukan. |
submit_profile_run |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Kirimkan eksperimen yang dijalankan untuk menghitung profil data. Profil data bisa sangat berguna untuk memahami data input, mengidentifikasi anomali dan nilai yang hilang dengan memberikan informasi yang berguna tentang data seperti jenis kolom, nilai yang hilang, dll. |
take |
Ambil sampel baris dari bagian atas himpunan data menurut hitungan yang ditentukan. |
take_sample |
Ambil sampel acak baris dalam himpunan data kira-kira berdasarkan peluang yang ditentukan. |
time_after |
Filter TabularDataset dengan kolom stempel waktu setelah waktu mulai yang ditentukan. |
time_before |
Filter TabularDataset dengan kolom stempel waktu sebelum waktu akhir yang ditentukan. |
time_between |
Filter TabularDataset antara waktu mulai dan akhir yang ditentukan. |
time_recent |
Filter TabularDataset hanya akan berisi durasi (jumlah) data terbaru yang ditentukan. |
to_csv_files |
Ubah himpunan data saat ini menjadi FileDataset yang berisi file CSV. Himpunan data yang dihasilkan akan berisi satu atau beberapa file CSV, masing-masing sesuai dengan partisi data dari himpunan data saat ini. File-file ini tidak terwujud sampai diunduh atau dibaca. |
to_dask_dataframe |
Catatan Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya. Kembalikan Dask DataFrame yang lambat membaca data dalam himpunan data. |
to_pandas_dataframe |
Muat semua baris dari himpunan data ke dalam pandas DataFrame. |
to_parquet_files |
Ubah himpunan data saat ini menjadi FileDataset yang berisi file Parquet. Himpunan data yang dihasilkan akan berisi satu atau beberapa file Parquet, masing-masing sesuai dengan partisi data dari himpunan data saat ini. File-file ini tidak terwujud sampai diunduh atau dibaca. |
to_spark_dataframe |
Muat semua baris dari himpunan data ke dalam Spark DataFrame. |
with_timestamp_columns |
Tentukan kolom stempel waktu untuk himpunan data. |
download
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Unduh aliran file yang ditentukan oleh himpunan data ke jalur lokal.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parameter
Nama | Deskripsi |
---|---|
stream_column
Diperlukan
|
Kolom aliran untuk diunduh. |
target_path
Diperlukan
|
Direktori lokal untuk mengunduh file. Jika Tidak Ada, data akan diunduh ke direktori sementara. |
overwrite
Diperlukan
|
Menunjukkan apakah akan menimpa file yang ada. Defaultnya adalah False. File yang ada akan ditimpa jika overwrite diatur ke True; jika tidak, pengecualian akan diajukan. |
ignore_not_found
Diperlukan
|
Menunjukkan apakah akan gagal mengunduh jika beberapa file yang ditunjukkan oleh himpunan data tidak ditemukan. Defaultnya adalah True. Unduhan akan gagal jika unduhan file gagal karena alasan apa pun jika ignore_not_found diatur ke False; jika tidak, peringatan akan dicatat untuk kesalahan yang tidak ditemukan dan unduhan akan berhasil selama tidak ada jenis kesalahan lain yang ditemukan. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan array jalur file untuk setiap file yang diunduh. |
drop_columns
Hilangkan kolom yang ditentukan dari himpunan data.
Jika kolom timeseries dihilangkan, kemampuan terkait juga akan dihilangkan untuk himpunan data yang dikembalikan.
drop_columns(columns)
Parameter
Nama | Deskripsi |
---|---|
columns
Diperlukan
|
Nama atau daftar nama untuk kolom akan dihilangkan. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek TabularDataset baru dengan kolom tertentu dihilangkan. |
filter
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Filter data, hanya menyisakan rekaman yang cocok dengan ekspresi yang ditentukan.
filter(expression)
Parameter
Nama | Deskripsi |
---|---|
expression
Diperlukan
|
Ekspresi untuk mengevaluasi. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Himpunan data yang dimodifikasi (tidak terdaftar). |
Keterangan
Ekspresi dimulai dengan mengindeks Dataset dengan nama kolom. Ekspresi mendukung berbagai fungsi dan operator dan dapat digabungkan menggunakan operator logis. Ekspresi yang dihasilkan akan dievaluasi dengan lambat untuk setiap baris ketika terjadi penarikan data dan bukan di tempat yang ditentukan.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Dapatkan profil data dari profil terbaru yang dijalankan untuk himpunan data atau himpunan data yang sama di ruang kerja.
get_profile(workspace=None)
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja tempat profil dijalankan telah dikirimkan. Default ke ruang kerja himpunan data ini. Diperlukan jika himpunan data tidak terkait dengan ruang kerja. Lihat https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace untuk informasi selengkapnya tentang ruang kerja. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Hasil profil dari eksekusi profil terbaru dari jenis DatasetProfile. |
get_profile_runs
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Kembalikan eksekusi profil sebelumnya yang terkait dengan himpunan data ini atau yang sama di ruang kerja.
get_profile_runs(workspace=None)
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja tempat profil dijalankan telah dikirimkan. Default ke ruang kerja himpunan data ini. Diperlukan jika himpunan data tidak terkait dengan ruang kerja. Lihat https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace untuk informasi selengkapnya tentang ruang kerja. |
Mengembalikan
Jenis | Deskripsi |
---|---|
objek iterator dari jenis azureml.core.Run. |
keep_columns
Simpan kolom yang ditentukan dan hapus semua kolom lainnya dari himpunan data.
Jika kolom timeseries dihilangkan, kemampuan terkait juga akan dihilangkan untuk himpunan data yang dikembalikan.
keep_columns(columns, validate=False)
Parameter
Nama | Deskripsi |
---|---|
columns
Diperlukan
|
Nama atau daftar nama yang akan disimpan oleh kolom. |
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi bahwa data dapat dimuat dari himpunan data yang dikembalikan. Defaultnya adalah False. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek TabularDataset baru yang berisi kolom yang ditentukan saja. |
mount
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.
mount(stream_column, mount_point=None)
Parameter
Nama | Deskripsi |
---|---|
stream_column
Diperlukan
|
Kolom aliran untuk dipasang. |
mount_point
Diperlukan
|
Direktori lokal untuk memasang file. Jika Tidak Ada, data akan dipasang ke direktori sementara, yang dapat Anda temukan dengan memanggil metode instans MountContext.mount_point. |
Mengembalikan
Jenis | Deskripsi |
---|---|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Mengembalikan manajer konteks untuk mengelola siklus hidup pemasangan. |
partition_by
Data yang dipartisi akan disalin dan dikeluarkan ke tujuan yang ditentukan oleh target.
buat himpunan data dari jalur data yang di output dengan format partisi, daftarkan himpunan data jika nama disediakan, kembalikan himpunan data untuk jalur data baru dengan partisi
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parameter
Nama | Deskripsi |
---|---|
partition_keys
Diperlukan
|
Diperlukan, kunci partisi |
target
Diperlukan
|
Diperlukan, jalur datastore tempat data dataframe parquet akan diunggah. Folder panduan akan dibuat di bawah jalur target untuk menghindari konflik. |
name
Diperlukan
|
Opsional, Nama pendaftaran. |
show_progress
Diperlukan
|
Opsional, menunjukkan apakah akan menampilkan kemajuan unggahan di konsol. Default menjadi True. |
partition_as_file_dataset
Diperlukan
|
Opsional, menunjukkan apakah mengembalikan filedataset atau tidak. Default menjadi False. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Himpunan data yang disimpan atau didaftarkan. |
random_split
Pisahkan baris dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan.
Himpunan data pertama berisi kira-kira percentage
dari total baris dan himpunan data kedua berisi baris yang tersisa.
random_split(percentage, seed=None)
Parameter
Nama | Deskripsi |
---|---|
percentage
Diperlukan
|
Persentase perkiraan untuk membagi himpunan data. Ini harus berupa angka antara 0,0 dan 1,0. |
seed
Diperlukan
|
Seed opsional yang akan digunakan untuk generator acak. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan tuple objek TabularDataset baru yang mewakili dua himpunan data setelah pemisahan. |
skip
Lompati baris dari atas himpunan data menurut hitungan yang ditentukan.
skip(count)
Parameter
Nama | Deskripsi |
---|---|
count
Diperlukan
|
Jumlah baris yang akan dilompati. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek TabularDataset baru yang mewakili himpunan data dengan baris yang dilompati. |
submit_profile_run
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Kirimkan eksperimen yang dijalankan untuk menghitung profil data.
Profil data bisa sangat berguna untuk memahami data input, mengidentifikasi anomali dan nilai yang hilang dengan memberikan informasi yang berguna tentang data seperti jenis kolom, nilai yang hilang, dll.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parameter
Nama | Deskripsi |
---|---|
compute_target
Diperlukan
|
Target komputasi untuk menjalankan eksperimen perhitungan profil. Tentukan 'lokal' untuk menggunakan komputasi lokal. Lihat https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget untuk informasi selengkapnya tentang target komputasi. |
experiment
Diperlukan
|
Objek eksperimen. Lihat https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experimentuntuk informasi selengkapnya tentang eksperimen. |
cache_datastore_name
Diperlukan
|
nama datastore untuk menyimpan cache profil, jika Tidak Ada, datastore default akan digunakan |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek jenis kelas DatasetProfileRun. |
take
Ambil sampel baris dari bagian atas himpunan data menurut hitungan yang ditentukan.
take(count)
Parameter
Nama | Deskripsi |
---|---|
count
Diperlukan
|
Jumlah baris yang akan diambil. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek TabularDataset baru yang mewakili himpunan data sampel. |
take_sample
Ambil sampel acak baris dalam himpunan data kira-kira berdasarkan peluang yang ditentukan.
take_sample(probability, seed=None)
Parameter
Nama | Deskripsi |
---|---|
probability
Diperlukan
|
Peluang baris yang dimasukkan dalam sampel. |
seed
Diperlukan
|
Seed opsional yang akan digunakan untuk generator acak. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek TabularDataset baru yang mewakili himpunan data sampel. |
time_after
Filter TabularDataset dengan kolom stempel waktu setelah waktu mulai yang ditentukan.
time_after(start_time, include_boundary=True, validate=True)
Parameter
Nama | Deskripsi |
---|---|
start_time
Diperlukan
|
Batas bawah untuk memfilter data. |
include_boundary
Diperlukan
|
Tunjukkan apakah baris yang terkait dengan waktu batas ( |
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi bahwa kolom tertentu ada dalam himpunan data. Defaultnya adalah True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
Jenis | Deskripsi |
---|---|
TabularDataset dengan himpunan data baru yang difilter. |
time_before
Filter TabularDataset dengan kolom stempel waktu sebelum waktu akhir yang ditentukan.
time_before(end_time, include_boundary=True, validate=True)
Parameter
Nama | Deskripsi |
---|---|
end_time
Diperlukan
|
Batas atas untuk memfilter data. |
include_boundary
Diperlukan
|
Tunjukkan apakah baris yang terkait dengan waktu batas ( |
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi bahwa kolom tertentu ada dalam himpunan data. Defaultnya adalah True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
Jenis | Deskripsi |
---|---|
TabularDataset dengan himpunan data baru yang difilter. |
time_between
Filter TabularDataset antara waktu mulai dan akhir yang ditentukan.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parameter
Nama | Deskripsi |
---|---|
start_time
Diperlukan
|
Batas Bawah untuk memfilter data. |
end_time
Diperlukan
|
Batas atas untuk memfilter data. |
include_boundary
Diperlukan
|
Tunjukkan apakah baris yang terkait dengan waktu batas ( |
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi bahwa kolom tertentu ada dalam himpunan data. Defaultnya adalah True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
Jenis | Deskripsi |
---|---|
TabularDataset dengan himpunan data baru yang difilter. |
time_recent
Filter TabularDataset hanya akan berisi durasi (jumlah) data terbaru yang ditentukan.
time_recent(time_delta, include_boundary=True, validate=True)
Parameter
Nama | Deskripsi |
---|---|
time_delta
Diperlukan
|
Durasi (jumlah) data terbaru yang akan diambil. |
include_boundary
Diperlukan
|
Tunjukkan apakah baris yang terkait dengan waktu batas ( |
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi bahwa kolom tertentu ada dalam himpunan data. Defaultnya adalah True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
Jenis | Deskripsi |
---|---|
TabularDataset dengan himpunan data baru yang difilter. |
to_csv_files
Ubah himpunan data saat ini menjadi FileDataset yang berisi file CSV.
Himpunan data yang dihasilkan akan berisi satu atau beberapa file CSV, masing-masing sesuai dengan partisi data dari himpunan data saat ini. File-file ini tidak terwujud sampai diunduh atau dibaca.
to_csv_files(separator=',')
Parameter
Nama | Deskripsi |
---|---|
separator
Diperlukan
|
Pemisah yang akan digunakan untuk memisahkan nilai dalam file yang dihasilkan. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek FileDataset baru dengan sekumpulan file CSV yang berisi data dalam himpunan data ini. |
to_dask_dataframe
Catatan
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.
Kembalikan Dask DataFrame yang lambat membaca data dalam himpunan data.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parameter
Nama | Deskripsi |
---|---|
sample_size
Diperlukan
|
Jumlah rekaman yang harus dibaca untuk menentukan skema dan jenis. |
dtypes
Diperlukan
|
Dict opsional yang menentukan kolom yang diharapkan dan dtypenya. sample_size diabaikan jika ini disediakan. |
on_error
Diperlukan
|
Cara menangani nilai kesalahan apa pun dalam himpunan data, seperti yang dihasilkan oleh kesalahan saat mengurai nilai. Nilai yang valid adalah 'null' yang menggantikannya dengan null; dan 'fail' yang akan menghasilkan pengecualian. |
out_of_range_datetime
Diperlukan
|
Cara menangani nilai waktu-tanggal yang berada di luar jangkauan yang didukung oleh Pandas. Nilai yang valid adalah 'null' yang menggantikannya dengan null; dan 'gagal' yang akan menghasilkan pengecualian. |
Mengembalikan
Jenis | Deskripsi |
---|---|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Muat semua baris dari himpunan data ke dalam pandas DataFrame.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parameter
Nama | Deskripsi |
---|---|
on_error
Diperlukan
|
Cara menangani nilai kesalahan apa pun dalam himpunan data, seperti yang dihasilkan oleh kesalahan saat mengurai nilai. Nilai yang valid adalah 'null' yang menggantikannya dengan null; dan 'fail' yang akan menghasilkan pengecualian. |
out_of_range_datetime
Diperlukan
|
Cara menangani nilai waktu-tanggal yang berada di luar jangkauan yang didukung oleh Pandas. Nilai yang valid adalah 'null' yang menggantikannya dengan null; dan 'fail' yang akan menghasilkan pengecualian. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan pandas DataFrame. |
to_parquet_files
Ubah himpunan data saat ini menjadi FileDataset yang berisi file Parquet.
Himpunan data yang dihasilkan akan berisi satu atau beberapa file Parquet, masing-masing sesuai dengan partisi data dari himpunan data saat ini. File-file ini tidak terwujud sampai diunduh atau dibaca.
to_parquet_files()
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan objek FileDataset baru dengan satu set file Parquet yang berisi data dalam himpunan data ini. |
to_spark_dataframe
Muat semua baris dari himpunan data ke dalam Spark DataFrame.
to_spark_dataframe()
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan Spark DataFrame. |
with_timestamp_columns
Tentukan kolom stempel waktu untuk himpunan data.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parameter
Nama | Deskripsi |
---|---|
timestamp
Diperlukan
|
Nama kolom sebagai stempel waktu (dulu disebut sebagai fine_grain_timestamp) (opsional). Defaultnya adalah None(clear). |
partition_timestamp
Diperlukan
|
Nama kolom partition_timestamp (dulu disebut sebagai stempel waktu coarse grain) (opsional). Defaultnya adalah None(clear). |
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi bahwa kolom tertentu ada dalam himpunan data. Defaultnya adalah False. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Mengembalikan TabularDataset baru dengan kolom stempel waktu yang ditentukan. |
Keterangan
Metode ini menentukan kolom yang akan digunakan sebagai stempel waktu. Kolom stempel waktu pada himpunan data memungkinkan untuk memperlakukan data sebagai data deret waktu dan mengaktifkan kemampuan tambahan. Ketika himpunan data telah menentukan timestamp (used to be referred as fine_grain_timestamp)
dan partition_timestamp (used to be referred as coarse grain timestamp)
, kedua kolom harus mewakili garis waktu yang sama.