TabularDataset Kelas
Mewakili himpunan data tabular untuk digunakan di Azure Machine Learning.
TabularDataset mendefinisikan serangkaian operasi yang dievaluasi dengan malas dan tidak dapat diubah untuk memuat data dari sumber data ke dalam representasi tabular. Data tidak dimuat dari sumber hingga TabularDataset diminta untuk mengirimkan data.
TabularDataset dibuat menggunakan metode seperti from_delimited_files dari TabularDatasetFactory kelas .
Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data tabular, lihat https://aka.ms/tabulardataset-samplenotebook.
Menginisialisasi objek TabularDataset.
Konstruktor ini tidak seharusnya dipanggil secara langsung. Himpunan data dimaksudkan untuk dibuat menggunakan TabularDatasetFactory kelas.
Konstruktor
TabularDataset()
Keterangan
TabularDataset dapat dibuat dari CSV, TSV, file Parquet, atau kueri SQL menggunakan from_* metode TabularDatasetFactory kelas . Anda dapat melakukan operasi subset pada TabularDataset seperti memisahkan, melewati, dan memfilter rekaman.
Hasil subset selalu satu atau beberapa objek TabularDataset baru.
Anda juga dapat mengonversi TabularDataset ke format lain seperti pandas DataFrame. Pemuatan data aktual terjadi ketika TabularDataset diminta untuk mengirimkan data ke mekanisme penyimpanan lain (misalnya Pandas Dataframe, atau file CSV).
TabularDataset dapat digunakan sebagai input eksekusi eksperimen. Ini juga dapat didaftarkan ke ruang kerja dengan nama tertentu dan diambil dengan nama tersebut nanti.
Metode
| download |
Nota Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya. Unduh aliran file yang ditentukan oleh himpunan data ke jalur lokal. |
| drop_columns |
Letakkan kolom yang ditentukan dari himpunan data. Jika kolom timeseries dihilangkan, kemampuan yang sesuai juga akan dihilangkan untuk himpunan data yang dikembalikan. |
| filter |
Nota Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya. Filter data, hanya menyisakan rekaman yang cocok dengan ekspresi yang ditentukan. |
| get_profile |
Nota Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya. Dapatkan profil data dari eksekusi profil terbaru yang dikirimkan untuk himpunan data ini atau yang sama di ruang kerja. |
| get_profile_runs |
Nota Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya. Mengembalikan eksekusi profil sebelumnya yang terkait dengan himpunan data ini atau yang sama di ruang kerja. |
| keep_columns |
Pertahankan kolom yang ditentukan dan hilangkan semua yang lain dari himpunan data. Jika kolom timeseries dihilangkan, kemampuan yang sesuai juga akan dihilangkan untuk himpunan data yang dikembalikan. |
| mount |
Nota Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya. Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal. |
| partition_by |
Data yang dipartisi akan disalin dan dihasilkan ke tujuan yang ditentukan oleh target. buat himpunan data dari jalur data yang dihasilkan dengan format partisi, daftarkan himpunan data jika nama disediakan, kembalikan himpunan data untuk jalur data baru dengan partisi
|
| random_split |
Pisahkan rekaman dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan. Himpunan data pertama berisi sekitar |
| skip |
Lewati rekaman dari atas himpunan data menurut jumlah yang ditentukan. |
| submit_profile_run |
Nota Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya. Kirim eksekusi eksperimen untuk menghitung profil data. Profil data dapat sangat berguna untuk memahami data input, mengidentifikasi anomali dan nilai yang hilang dengan memberikan informasi yang berguna tentang data seperti jenis kolom, nilai yang hilang, dll. |
| take |
Ambil sampel rekaman dari atas himpunan data menurut jumlah yang ditentukan. |
| take_sample |
Ambil sampel rekaman acak dalam himpunan data kira-kira oleh probabilitas yang ditentukan. |
| time_after |
Filter TabularDataset dengan kolom stempel waktu setelah waktu mulai yang ditentukan. |
| time_before |
Filter TabularDataset dengan kolom stempel waktu sebelum waktu akhir yang ditentukan. |
| time_between |
Filter TabularDataset antara waktu mulai dan akhir yang ditentukan. |
| time_recent |
Filter TabularDataset untuk hanya berisi durasi (jumlah) data terbaru yang ditentukan. |
| to_csv_files |
Konversi himpunan data saat ini menjadi FileDataset yang berisi file CSV. Himpunan data yang dihasilkan akan berisi satu atau beberapa file CSV, masing-masing sesuai dengan partisi data dari himpunan data saat ini. File-file ini tidak terwujud sampai diunduh atau dibaca. |
| to_dask_dataframe |
Nota Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya. Mengembalikan Dask DataFrame yang dapat dengan malas membaca data dalam himpunan data. |
| to_pandas_dataframe |
Muat semua rekaman dari himpunan data ke dalam DataFrame pandas. |
| to_parquet_files |
Konversi himpunan data saat ini menjadi FileDataset yang berisi file Parquet. Himpunan data yang dihasilkan akan berisi satu atau beberapa file Parquet, masing-masing sesuai dengan partisi data dari himpunan data saat ini. File-file ini tidak terwujud sampai diunduh atau dibaca. |
| to_spark_dataframe |
Muat semua rekaman dari himpunan data ke dalam Spark DataFrame. |
| with_timestamp_columns |
Tentukan kolom tanda waktu untuk himpunan data. |
download
Nota
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya.
Unduh aliran file yang ditentukan oleh himpunan data ke jalur lokal.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parameter
| Nama | Deskripsi |
|---|---|
|
stream_column
Diperlukan
|
Kolom streaming untuk diunduh. |
|
target_path
Diperlukan
|
Direktori lokal untuk mengunduh file. Jika Tidak Ada, data akan diunduh ke direktori sementara. |
|
overwrite
Diperlukan
|
Menunjukkan apakah akan menimpa file yang ada. Defaultnya adalah False. File yang ada akan ditimpa jika timpa diatur ke True; jika tidak, pengecualian akan dinaikkan. |
|
ignore_not_found
Diperlukan
|
Menunjukkan apakah akan gagal mengunduh jika beberapa file yang diacu oleh himpunan data tidak ditemukan. Defaultnya adalah True. Unduhan akan gagal jika ada unduhan file yang gagal karena alasan apa pun jika ignore_not_found diatur ke False; jika tidak, perang akan dicatat untuk kesalahan yang tidak ditemukan dan dowload akan berhasil selama tidak ada jenis kesalahan lain yang ditemui. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan array jalur file untuk setiap file yang diunduh. |
drop_columns
Letakkan kolom yang ditentukan dari himpunan data.
Jika kolom timeseries dihilangkan, kemampuan yang sesuai juga akan dihilangkan untuk himpunan data yang dikembalikan.
drop_columns(columns)
Parameter
| Nama | Deskripsi |
|---|---|
|
columns
Diperlukan
|
Nama atau daftar nama untuk kolom yang akan dihilangkan. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan objek TabularDataset baru dengan kolom yang ditentukan dihilangkan. |
filter
Nota
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya.
Filter data, hanya menyisakan rekaman yang cocok dengan ekspresi yang ditentukan.
filter(expression)
Parameter
| Nama | Deskripsi |
|---|---|
|
expression
Diperlukan
|
Ekspresi yang akan dievaluasi. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Himpunan data yang dimodifikasi (tidak terdaftar). |
Keterangan
Ekspresi dimulai dengan mengindeks Himpunan Data dengan nama kolom. Mereka mendukung berbagai fungsi dan operator dan dapat dikombinasikan menggunakan operator logis. Ekspresi yang dihasilkan akan dievaluasi dengan malas untuk setiap rekaman ketika penarikan data terjadi dan bukan di tempatnya ditentukan.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Nota
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya.
Dapatkan profil data dari eksekusi profil terbaru yang dikirimkan untuk himpunan data ini atau yang sama di ruang kerja.
get_profile(workspace=None)
Parameter
| Nama | Deskripsi |
|---|---|
|
workspace
Diperlukan
|
Ruang kerja tempat eksekusi profil dikirimkan. Default ke ruang kerja himpunan data ini. Diperlukan jika himpunan data tidak terkait dengan ruang kerja. Lihat https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace untuk informasi selengkapnya tentang ruang kerja. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Hasil profil dari eksekusi profil terbaru jenis DatasetProfile. |
get_profile_runs
Nota
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya.
Mengembalikan eksekusi profil sebelumnya yang terkait dengan himpunan data ini atau yang sama di ruang kerja.
get_profile_runs(workspace=None)
Parameter
| Nama | Deskripsi |
|---|---|
|
workspace
Diperlukan
|
Ruang kerja tempat eksekusi profil dikirimkan. Default ke ruang kerja himpunan data ini. Diperlukan jika himpunan data tidak terkait dengan ruang kerja. Lihat https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace untuk informasi selengkapnya tentang ruang kerja. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
objek iterator jenis azureml.core.Run. |
keep_columns
Pertahankan kolom yang ditentukan dan hilangkan semua yang lain dari himpunan data.
Jika kolom timeseries dihilangkan, kemampuan yang sesuai juga akan dihilangkan untuk himpunan data yang dikembalikan.
keep_columns(columns, validate=False)
Parameter
| Nama | Deskripsi |
|---|---|
|
columns
Diperlukan
|
Nama atau daftar nama untuk disimpan kolom. |
|
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi apakah data dapat dimuat dari himpunan data yang dikembalikan. Defaultnya adalah False. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan objek TabularDataset baru hanya dengan kolom yang ditentukan yang disimpan. |
mount
Nota
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya.
Buat manajer konteks untuk memasang aliran file yang ditentukan oleh himpunan data sebagai file lokal.
mount(stream_column, mount_point=None)
Parameter
| Nama | Deskripsi |
|---|---|
|
stream_column
Diperlukan
|
Kolom aliran yang akan dipasang. |
|
mount_point
Diperlukan
|
Direktori lokal untuk memasang file. Jika Tidak Ada, data akan dipasang ke direktori sementara, yang dapat Anda temukan dengan memanggil metode instans MountContext.mount_point . |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Mengembalikan manajer konteks untuk mengelola siklus hidup pemasangan. |
partition_by
Data yang dipartisi akan disalin dan dihasilkan ke tujuan yang ditentukan oleh target.
buat himpunan data dari jalur data yang dihasilkan dengan format partisi, daftarkan himpunan data jika nama disediakan, kembalikan himpunan data untuk jalur data baru dengan partisi
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parameter
| Nama | Deskripsi |
|---|---|
|
partition_keys
Diperlukan
|
Diperlukan, kunci partisi |
|
target
Diperlukan
|
Diperlukan, jalur datastore tempat data parquet dataframe akan diunggah. Folder guid akan dihasilkan di bawah jalur target untuk menghindari konflik. |
|
name
Diperlukan
|
Opsional, Nama pendaftaran. |
|
show_progress
Diperlukan
|
Opsional, menunjukkan apakah akan menampilkan kemajuan unggahan di konsol. Defaultnya adalah True. |
|
partition_as_file_dataset
Diperlukan
|
Opsional, menunjukkan apakah mengembalikan filedataset atau tidak. Defaultnya adalah False. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Himpunan data yang disimpan atau terdaftar. |
random_split
Pisahkan rekaman dalam himpunan data menjadi dua bagian secara acak dan kira-kira berdasarkan persentase yang ditentukan.
Himpunan data pertama berisi sekitar percentage total rekaman dan himpunan data kedua rekaman yang tersisa.
random_split(percentage, seed=None)
Parameter
| Nama | Deskripsi |
|---|---|
|
percentage
Diperlukan
|
Perkiraan persentase untuk memisahkan himpunan data. Ini harus berupa angka antara 0,0 dan 1,0. |
|
seed
Diperlukan
|
Seed opsional untuk digunakan untuk generator acak. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan tuple objek TabularDataset baru yang mewakili dua himpunan data setelah pemisahan. |
skip
Lewati rekaman dari atas himpunan data menurut jumlah yang ditentukan.
skip(count)
Parameter
| Nama | Deskripsi |
|---|---|
|
count
Diperlukan
|
Jumlah rekaman yang akan dilewati. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan objek TabularDataset baru yang mewakili himpunan data dengan rekaman yang dilewati. |
submit_profile_run
Nota
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya.
Kirim eksekusi eksperimen untuk menghitung profil data.
Profil data dapat sangat berguna untuk memahami data input, mengidentifikasi anomali dan nilai yang hilang dengan memberikan informasi yang berguna tentang data seperti jenis kolom, nilai yang hilang, dll.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parameter
| Nama | Deskripsi |
|---|---|
|
compute_target
Diperlukan
|
Target komputasi untuk menjalankan eksperimen perhitungan profil. Tentukan 'lokal' untuk menggunakan komputasi lokal. Lihat https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget untuk informasi selengkapnya tentang target komputasi. |
|
experiment
Diperlukan
|
Objek eksperimen. Lihat https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment untuk informasi selengkapnya tentang eksperimen. |
|
cache_datastore_name
Diperlukan
|
nama datastore untuk menyimpan cache profil, jika Tidak Ada, datastore default akan digunakan |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Objek jenis kelas DatasetProfileRun. |
take
Ambil sampel rekaman dari atas himpunan data menurut jumlah yang ditentukan.
take(count)
Parameter
| Nama | Deskripsi |
|---|---|
|
count
Diperlukan
|
Jumlah rekaman yang akan diambil. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan objek TabularDataset baru yang mewakili himpunan data sampel. |
take_sample
Ambil sampel rekaman acak dalam himpunan data kira-kira oleh probabilitas yang ditentukan.
take_sample(probability, seed=None)
Parameter
| Nama | Deskripsi |
|---|---|
|
probability
Diperlukan
|
Probabilitas rekaman yang disertakan dalam sampel. |
|
seed
Diperlukan
|
Seed opsional untuk digunakan untuk generator acak. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan objek TabularDataset baru yang mewakili himpunan data sampel. |
time_after
Filter TabularDataset dengan kolom stempel waktu setelah waktu mulai yang ditentukan.
time_after(start_time, include_boundary=True, validate=True)
Parameter
| Nama | Deskripsi |
|---|---|
|
start_time
Diperlukan
|
Batas bawah untuk memfilter data. |
|
include_boundary
Diperlukan
|
Tunjukkan apakah baris yang terkait dengan waktu batas ( |
|
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi apakah kolom yang ditentukan ada dalam himpunan data. Defaultnya adalah True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
TabularDataset dengan himpunan data baru yang difilter. |
time_before
Filter TabularDataset dengan kolom stempel waktu sebelum waktu akhir yang ditentukan.
time_before(end_time, include_boundary=True, validate=True)
Parameter
| Nama | Deskripsi |
|---|---|
|
end_time
Diperlukan
|
Batas atas untuk memfilter data. |
|
include_boundary
Diperlukan
|
Tunjukkan apakah baris yang terkait dengan waktu batas ( |
|
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi apakah kolom yang ditentukan ada dalam himpunan data. Defaultnya adalah True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
TabularDataset dengan himpunan data baru yang difilter. |
time_between
Filter TabularDataset antara waktu mulai dan akhir yang ditentukan.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parameter
| Nama | Deskripsi |
|---|---|
|
start_time
Diperlukan
|
Batas bawah untuk memfilter data. |
|
end_time
Diperlukan
|
Batas atas untuk memfilter data. |
|
include_boundary
Diperlukan
|
Tunjukkan apakah baris yang terkait dengan waktu batas ( |
|
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi apakah kolom yang ditentukan ada dalam himpunan data. Defaultnya adalah True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
TabularDataset dengan himpunan data baru yang difilter. |
time_recent
Filter TabularDataset untuk hanya berisi durasi (jumlah) data terbaru yang ditentukan.
time_recent(time_delta, include_boundary=True, validate=True)
Parameter
| Nama | Deskripsi |
|---|---|
|
time_delta
Diperlukan
|
Durasi (jumlah) data terbaru yang akan diambil. |
|
include_boundary
Diperlukan
|
Tunjukkan apakah baris yang terkait dengan waktu batas ( |
|
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi apakah kolom yang ditentukan ada dalam himpunan data. Defaultnya adalah True. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
TabularDataset dengan himpunan data baru yang difilter. |
to_csv_files
Konversi himpunan data saat ini menjadi FileDataset yang berisi file CSV.
Himpunan data yang dihasilkan akan berisi satu atau beberapa file CSV, masing-masing sesuai dengan partisi data dari himpunan data saat ini. File-file ini tidak terwujud sampai diunduh atau dibaca.
to_csv_files(separator=',')
Parameter
| Nama | Deskripsi |
|---|---|
|
separator
Diperlukan
|
Pemisah yang digunakan untuk memisahkan nilai dalam file yang dihasilkan. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan objek FileDataset baru dengan sekumpulan file CSV yang berisi data dalam himpunan data ini. |
to_dask_dataframe
Nota
Ini adalah metode eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/acr/connected-registry untuk mengetahui informasi selengkapnya.
Mengembalikan Dask DataFrame yang dapat dengan malas membaca data dalam himpunan data.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parameter
| Nama | Deskripsi |
|---|---|
|
sample_size
Diperlukan
|
Jumlah rekaman yang akan dibaca untuk menentukan skema dan jenis. |
|
dtypes
Diperlukan
|
Dict opsional yang menentukan kolom yang diharapkan dan dtypenya. sample_size diabaikan jika ini disediakan. |
|
on_error
Diperlukan
|
Cara menangani nilai kesalahan apa pun dalam himpunan data, seperti yang dihasilkan oleh kesalahan saat mengurai nilai. Nilai yang valid adalah 'null' yang menggantinya dengan null; dan 'fail' yang akan menghasilkan pengecualian. |
|
out_of_range_datetime
Diperlukan
|
Cara menangani nilai tanggal-waktu yang berada di luar rentang yang didukung oleh Pandas. Nilai yang valid adalah 'null' yang menggantinya dengan null; dan 'fail' yang akan menghasilkan pengecualian. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Muat semua rekaman dari himpunan data ke dalam DataFrame pandas.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parameter
| Nama | Deskripsi |
|---|---|
|
on_error
Diperlukan
|
Cara menangani nilai kesalahan apa pun dalam himpunan data, seperti yang dihasilkan oleh kesalahan saat mengurai nilai. Nilai yang valid adalah 'null' yang menggantinya dengan null; dan 'fail' yang akan menghasilkan pengecualian. |
|
out_of_range_datetime
Diperlukan
|
Cara menangani nilai tanggal-waktu yang berada di luar rentang yang didukung oleh Pandas. Nilai yang valid adalah 'null' yang menggantinya dengan null; dan 'fail' yang akan menghasilkan pengecualian. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan DataFrame pandas. |
to_parquet_files
Konversi himpunan data saat ini menjadi FileDataset yang berisi file Parquet.
Himpunan data yang dihasilkan akan berisi satu atau beberapa file Parquet, masing-masing sesuai dengan partisi data dari himpunan data saat ini. File-file ini tidak terwujud sampai diunduh atau dibaca.
to_parquet_files()
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan objek FileDataset baru dengan sekumpulan file Parquet yang berisi data dalam himpunan data ini. |
to_spark_dataframe
Muat semua rekaman dari himpunan data ke dalam Spark DataFrame.
to_spark_dataframe()
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan Spark DataFrame. |
with_timestamp_columns
Tentukan kolom tanda waktu untuk himpunan data.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parameter
| Nama | Deskripsi |
|---|---|
|
timestamp
Diperlukan
|
Nama kolom sebagai tanda waktu (digunakan untuk disebut sebagai fine_grain_timestamp) (opsional). Defaultnya adalah None(clear). |
|
partition_timestamp
Diperlukan
|
Nama kolom partition_timestamp (digunakan untuk disebut sebagai tanda waktu butir kasar) (opsional). Defaultnya adalah None(clear). |
|
validate
Diperlukan
|
Menunjukkan apakah akan memvalidasi apakah kolom yang ditentukan ada dalam himpunan data. Defaultnya adalah False. Validasi mengharuskan sumber data dapat diakses dari komputasi saat ini. |
Mengembalikan
| Jenis | Deskripsi |
|---|---|
|
Mengembalikan TabularDataset baru dengan kolom tanda waktu yang ditentukan. |
Keterangan
Metode mendefinisikan kolom yang akan digunakan sebagai tanda waktu. Kolom tanda waktu pada himpunan data memungkinkan untuk memperlakukan data sebagai data rangkaian waktu dan mengaktifkan kemampuan tambahan. Saat himpunan data memiliki dan timestamp (used to be referred as fine_grain_timestamp)partition_timestamp (used to be referred as coarse grain timestamp) ditentukan, dua kolom harus mewakili garis waktu yang sama.