Bagikan melalui


DatasetDefinition Kelas

Tentukan serangkaian langkah yang menentukan cara membaca dan mengubah data dalam Himpunan Data.

Catatan

Kelas ini tidak digunakan lagi. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Himpunan data yang terdaftar di ruang kerja Pembelajaran Mesin Microsoft Azure dapat memiliki beberapa definisi, masing-masing dibuat dengan memanggil update_definition. Setiap definisi memiliki pengidentifikasi unik. Definisi saat ini adalah yang dibuat paling baru.

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

Definisi himpunan data mendukung semua transformasi yang terdaftar untuk kelas <xref:azureml.dataprep.Dataflow>: lihat http://aka.ms/azureml/howto/transformdata. Untuk mempelajari selengkapnya tentang Definisi Himpunan Data, buka https://aka.ms/azureml/howto/versiondata.

Menginisialisasi objek definisi Himpunan data.

Warisan
azureml.dataprep.api.engineless_dataflow.EnginelessDataflow
DatasetDefinition

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parameter

Nama Deskripsi
workspace
Diperlukan
str

Ruang kerja tempat Himpunan Data didaftarkan.

dataset_id
Diperlukan
str

Pengidentifikasi Himpunan data.

version_id
Diperlukan
str

Versi definisi.

dataflow
Diperlukan
str

Objek Aliran Data.

dataflow_json
Diperlukan

Json Aliran Data.

notes
Diperlukan
str

Informasi opsional tentang definisi.

etag
Diperlukan
str

Etag.

created_time
Diperlukan

Waktu pembuatan definisi.

modified_time
Diperlukan

Waktu terakhir yang dimodifikasi dari definisi.

deprecated_by_dataset_id
Diperlukan
str

ID Himpunan Data yang menghentikan definisi ini.

deprecated_by_definition_version
Diperlukan
str

Versi definisi yang menghentikan definisi ini.

data_path
Diperlukan

Jalur data.

dataset
Diperlukan

Objek Himpunan Data induk.

Metode

archive

Arsipkan definisi himpunan data.

create_snapshot

Buat snapshot dari Himpunan Data yang terdaftar.

deprecate

Hentikan Himpunan Data, dengan pointer ke Himpunan Data baru.

reactivate

Aktifkan kembali definisi himpunan data.

Bekerja pada definisi himpunan data yang tidak digunakan lagi atau diarsipkan.

to_pandas_dataframe

Buat Pandas dataframe dengan menjalankan alur transformasi yang ditentukan oleh definisi himpunan data ini.

to_spark_dataframe

Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh Aliran Data ini.

archive

Arsipkan definisi himpunan data.

archive()

Mengembalikan

Jenis Deskripsi

Tidak ada.

Keterangan

Setelah pengarsipan, setiap upaya untuk mengambil himpunan data akan menghasilkan kesalahan. Jika diarsipkan secara tidak sengaja, gunakan reactivate untuk mengaktifkannya.

create_snapshot

Buat snapshot dari Himpunan Data yang terdaftar.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

Nama Deskripsi
snapshot_name
Diperlukan
str

Nama snapshot. Nama snapshot harus unik dalam Himpunan Data.

compute_target

Target komputasi untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal akan digunakan.

Nilai default: None
create_data_snapshot

Jika True, salinan data yang termaterialisasi akan dibuat.

Nilai default: False
target_datastore

Penyimpanan data target tempat menyimpan snapshot. Jika dihilangkan, snapshot akan dibuat di penyimpanan default ruang kerja.

Nilai default: None

Mengembalikan

Jenis Deskripsi

Objek DatasetSnapshot.

Keterangan

Snapshot mengambil statistik ringkasan titik waktu dari data yang mendasarinya dan salinan opsional dari data itu sendiri. Untuk mempelajari selengkapnya tentang membuat snapshot, buka https://aka.ms/azureml/howto/createsnapshots.

deprecate

Hentikan Himpunan Data, dengan pointer ke Himpunan Data baru.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parameter

Nama Deskripsi
deprecate_by_dataset_id
Diperlukan

ID himpunan data yang bertanggung jawab atas penghentian himpunan data saat ini.

deprecated_by_definition_version
str

Versi definisi himpunan data yang bertanggung jawab atas penghentian definisi himpunan data saat ini.

Nilai default: None

Mengembalikan

Jenis Deskripsi

Tidak ada.

Keterangan

Definisi himpunan data yang tidak digunakan lagi akan mencatat peringatan saat digunakan. Untuk sepenuhnya memblokir definisi himpunan data agar tidak digunakan, arsipkan definisi himpunan data.

Jika definisi himpunan data tidak digunakan lagi secara tidak sengaja, gunakan reactivate untuk mengaktifkan definisi himpunan data.

reactivate

Aktifkan kembali definisi himpunan data.

Bekerja pada definisi himpunan data yang tidak digunakan lagi atau diarsipkan.

reactivate()

Mengembalikan

Jenis Deskripsi

Tidak ada.

to_pandas_dataframe

Buat Pandas dataframe dengan menjalankan alur transformasi yang ditentukan oleh definisi himpunan data ini.

to_pandas_dataframe()

Mengembalikan

Jenis Deskripsi

Pandas DataFrame.

Keterangan

Tampilkan Pandas DataFrame yang sepenuhnya termaterialisasi dalam memori.

to_spark_dataframe

Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh Aliran Data ini.

to_spark_dataframe()

Mengembalikan

Jenis Deskripsi

Spark DataFrame.

Keterangan

Spark Dataframe yang dikembalikan hanyalah rencana eksekusi dan sebenarnya tidak berisi data apa pun, karena Spark Dataframe baru dievaluasi saat perlu untuk melakukannya.