DatasetDefinition Kelas
Tentukan serangkaian langkah yang menentukan cara membaca dan mengubah data dalam Himpunan Data.
Catatan
Kelas ini tidak digunakan lagi. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
Himpunan data yang terdaftar di ruang kerja Pembelajaran Mesin Microsoft Azure dapat memiliki beberapa definisi, masing-masing dibuat dengan memanggil update_definition. Setiap definisi memiliki pengidentifikasi unik. Definisi saat ini adalah yang dibuat paling baru.
Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.
Definisi himpunan data mendukung semua transformasi yang terdaftar untuk kelas <xref:azureml.dataprep.Dataflow>: lihat http://aka.ms/azureml/howto/transformdata. Untuk mempelajari selengkapnya tentang Definisi Himpunan Data, buka https://aka.ms/azureml/howto/versiondata.
Menginisialisasi objek definisi Himpunan data.
- Warisan
-
azureml.dataprep.api.engineless_dataflow.EnginelessDataflowDatasetDefinition
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja tempat Himpunan Data didaftarkan. |
dataset_id
Diperlukan
|
Pengidentifikasi Himpunan data. |
version_id
Diperlukan
|
Versi definisi. |
dataflow
Diperlukan
|
Objek Aliran Data. |
dataflow_json
Diperlukan
|
Json Aliran Data. |
notes
Diperlukan
|
Informasi opsional tentang definisi. |
etag
Diperlukan
|
Etag. |
created_time
Diperlukan
|
Waktu pembuatan definisi. |
modified_time
Diperlukan
|
Waktu terakhir yang dimodifikasi dari definisi. |
deprecated_by_dataset_id
Diperlukan
|
ID Himpunan Data yang menghentikan definisi ini. |
deprecated_by_definition_version
Diperlukan
|
Versi definisi yang menghentikan definisi ini. |
data_path
Diperlukan
|
Jalur data. |
dataset
Diperlukan
|
Objek Himpunan Data induk. |
Metode
archive |
Arsipkan definisi himpunan data. |
create_snapshot |
Buat snapshot dari Himpunan Data yang terdaftar. |
deprecate |
Hentikan Himpunan Data, dengan pointer ke Himpunan Data baru. |
reactivate |
Aktifkan kembali definisi himpunan data. Bekerja pada definisi himpunan data yang tidak digunakan lagi atau diarsipkan. |
to_pandas_dataframe |
Buat Pandas dataframe dengan menjalankan alur transformasi yang ditentukan oleh definisi himpunan data ini. |
to_spark_dataframe |
Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh Aliran Data ini. |
archive
Arsipkan definisi himpunan data.
archive()
Mengembalikan
Jenis | Deskripsi |
---|---|
Tidak ada. |
Keterangan
Setelah pengarsipan, setiap upaya untuk mengambil himpunan data akan menghasilkan kesalahan. Jika diarsipkan secara tidak sengaja, gunakan reactivate untuk mengaktifkannya.
create_snapshot
Buat snapshot dari Himpunan Data yang terdaftar.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameter
Nama | Deskripsi |
---|---|
snapshot_name
Diperlukan
|
Nama snapshot. Nama snapshot harus unik dalam Himpunan Data. |
compute_target
|
ComputeTarget atau
str
Target komputasi untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal akan digunakan. Nilai default: None
|
create_data_snapshot
|
Jika True, salinan data yang termaterialisasi akan dibuat. Nilai default: False
|
target_datastore
|
Penyimpanan data target tempat menyimpan snapshot. Jika dihilangkan, snapshot akan dibuat di penyimpanan default ruang kerja. Nilai default: None
|
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek DatasetSnapshot. |
Keterangan
Snapshot mengambil statistik ringkasan titik waktu dari data yang mendasarinya dan salinan opsional dari data itu sendiri. Untuk mempelajari selengkapnya tentang membuat snapshot, buka https://aka.ms/azureml/howto/createsnapshots.
deprecate
Hentikan Himpunan Data, dengan pointer ke Himpunan Data baru.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parameter
Nama | Deskripsi |
---|---|
deprecate_by_dataset_id
Diperlukan
|
ID himpunan data yang bertanggung jawab atas penghentian himpunan data saat ini. |
deprecated_by_definition_version
|
Versi definisi himpunan data yang bertanggung jawab atas penghentian definisi himpunan data saat ini. Nilai default: None
|
Mengembalikan
Jenis | Deskripsi |
---|---|
Tidak ada. |
Keterangan
Definisi himpunan data yang tidak digunakan lagi akan mencatat peringatan saat digunakan. Untuk sepenuhnya memblokir definisi himpunan data agar tidak digunakan, arsipkan definisi himpunan data.
Jika definisi himpunan data tidak digunakan lagi secara tidak sengaja, gunakan reactivate untuk mengaktifkan definisi himpunan data.
reactivate
Aktifkan kembali definisi himpunan data.
Bekerja pada definisi himpunan data yang tidak digunakan lagi atau diarsipkan.
reactivate()
Mengembalikan
Jenis | Deskripsi |
---|---|
Tidak ada. |
to_pandas_dataframe
Buat Pandas dataframe dengan menjalankan alur transformasi yang ditentukan oleh definisi himpunan data ini.
to_pandas_dataframe()
Mengembalikan
Jenis | Deskripsi |
---|---|
Pandas DataFrame. |
Keterangan
Tampilkan Pandas DataFrame yang sepenuhnya termaterialisasi dalam memori.
to_spark_dataframe
Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh Aliran Data ini.
to_spark_dataframe()
Mengembalikan
Jenis | Deskripsi |
---|---|
Spark DataFrame. |
Keterangan
Spark Dataframe yang dikembalikan hanyalah rencana eksekusi dan sebenarnya tidak berisi data apa pun, karena Spark Dataframe baru dievaluasi saat perlu untuk melakukannya.