Dataset Kelas

Referensi

Mewakili sumber daya untuk menjelajahi, mengubah, dan mengelola data dalam Azure Machine Learning.

Dataset adalah referensi ke data di dalam Datastore atau di belakang url web publik.

Untuk metode yang tidak digunakan lagi di kelas ini, periksa kelas AbstractDataset untuk API yang ditingkatkan.

Jenis Himpunan Data berikut didukung:

TabularDataset menunjukkan data dalam format tabel yang dibuat dengan menguraikan file atau daftar file yang disediakan.
FileDataset mereferensikan satu atau beberapa file di datastore atau dari URL publik.

Untuk mulai menggunakan himpunan data, lihat artikel Menambahkan & mendaftarkan himpunan data, atau lihat buku catatan https://aka.ms/tabulardataset-samplenotebook dan https://aka.ms/filedataset-samplenotebook.

Menginisialisasi objek Himpunan Data.

Untuk mendapatkan Himpunan Data yang telah terdaftar di ruang kerja, gunakan metode get.

Warisan: builtins.object

Dataset

Konstruktor

Dataset(definition, workspace=None, name=None, id=None)

Parameter

Nama	Deskripsi
definition Diperlukan	<xref:azureml.data.DatasetDefinition> Definisi Himpunan data.
workspace Diperlukan	Workspace Ruang kerja tempat Himpunan Data berada.
name Diperlukan	str Nama Himpunan Data.
id Diperlukan	str Pengidentifikasi unik Himpunan Data.

Keterangan

Kelas Himpunan Data mengekspos dua atribut kelas praktis (File dan Tabular) yang dapat Anda gunakan untuk membuat Himpunan Data tanpa bekerja dengan metode pabrik yang sesuai. Misalnya, untuk membuat himpunan data menggunakan atribut ini:

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

Anda juga dapat membuat TabularDataset atau FileDataset baru dengan langsung memanggil metode pabrik yang sesuai dari kelas yang ditentukan di dalam TabularDatasetFactory dan FileDatasetFactory.

Contoh berikut menunjukkan cara membuat TabularDataset yang menunjuk ke satu jalur di datastore.


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

Sampel lengkap tersedia dari https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

Variabel

Nama	Deskripsi
azureml.core.Dataset.File	Atribut kelas yang menyediakan akses ke metode FileDatasetFactory untuk membuat objek FileDataset baru. Usage: Dataset.File.from_files().
azureml.core.Dataset.Tabular	Atribut kelas yang menyediakan akses ke metode TabularDatasetFactory untuk membuat objek TabularDataset baru. Usage: Dataset.Tabular.from_delimited_files().

Metode

archive	Arsipkan himpunan data yang aktif atau tidak digunakan lagi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
auto_read_files	Menganalisis file pada jalur yang ditentukan dan mengembalikan Himpunan Data baru. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan metode Dataset.Tabular.from_* untuk membaca file. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
compare_profiles	Bandingkan profil Himpunan Data saat ini dengan profil himpunan data lainnya. Hal ini menunjukkan perbedaan dalam statistik ringkasan antara dua himpunan data. Parameter 'rhs_dataset' adalah singkatan dari "sisi kanan", dan hanyalah himpunan data kedua. Himpunan data pertama (objek himpunan data saat ini) dianggap sebagai "sisi kiri". Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
create_snapshot	Membuat snapshot Himpunan Data terdaftar. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
delete_snapshot	Hapus snapshot Himpunan Data berdasarkan nama. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
deprecate	Menghentikan penggunaan himpunan data aktif di ruang kerja dengan himpunan data lain. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
diff	Diff Himpunan Data saat ini dengan rhs_dataset. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_binary_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file biner. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.File.from_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_delimited_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file yang dibatasi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_delimited_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file Excel. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_json_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file JSON. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_json_lines_files sebagai gantinya untuk membaca dari file baris JSON. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_pandas_dataframe	Buat Himpunan Data dalam memori yang tidak terdaftar dari dataframe pandas. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.register_pandas_dataframe sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_parquet_files	Buat Himpunan Data dalam memori yang tidak terdaftar dari file parquet. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_parquet_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
from_sql_query	Buat Himpunan Data dalam memori yang tidak terdaftar dari kueri SQL. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_sql_query sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
generate_profile	Buat profil baru untuk Himpunan data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get	Dapatkan Himpunan Data yang sudah ada di ruang kerja dengan menentukan nama atau ID-nya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan get_by_name dan get_by_id sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_all	Dapatkan semua himpunan data terdaftar di ruang kerja.
get_all_snapshots	Dapatkan semua snapshot Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_by_id	Dapatkan Himpunan Data yang disimpan ke ruang kerja.
get_by_name	Dapatkan Himpunan Data terdaftar dari ruang kerja dengan nama pendaftarannya.
get_definition	Dapatkan definisi spesifik dari Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_definitions	Dapatkan semua definisi Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_profile	Dapatkan statistik ringkasan pada Himpunan Data yang dihitung sebelumnya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_snapshot	Dapatkan snapshot Himpunan Data berdasarkan nama. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
head	Menarik jumlah baris tertentu yang ditentukan dari Himpunan Data ini dan menampilkannya sebagai DataFrame. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
list	Cantumkan semua Himpunan Data di ruang kerja, termasuk yang memiliki properti `is_visible` sama dengan False. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Menyarankan untuk menggunakan get_all sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
reactivate	Mengaktifkan kembali himpunan data yang diarsipkan atau tidak digunakan lagi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
register	Daftarkan Himpunan Data di ruang kerja, sehingga tersedia untuk pengguna ruang kerja lainnya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Menyarankan untuk menggunakan register sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
sample	Hasilkan sampel baru dari Himpunan Data sumber, menggunakan strategi pengambilan sampel dan parameter yang disediakan. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode take_sample di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
to_pandas_dataframe	Buat dataframe Pandas dengan menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_pandas_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
to_spark_dataframe	Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_spark_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
update	Memperbarui atribut Himpunan Data yang dapat berubah di ruang kerja dan menampilkan Himpunan Data yang diperbarui dari ruang kerja. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
update_definition	Perbarui definisi Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

auto_read_files

Menganalisis file pada jalur yang ditentukan dan mengembalikan Himpunan Data baru.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan metode Dataset.Tabular.from_* untuk membaca file. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static auto_read_files(path, include_path=False, partition_format=None)

Parameter

Nama	Deskripsi
path Diperlukan	DataReference atau str Jalur data di datastore terdaftar, jalur lokal, atau URL HTTP (CSV/TSV).
include_path Diperlukan	bool Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Berguna saat membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal. Juga berguna jika ada informasi dalam jalur file atau nama yang Anda inginkan dalam kolom.
partition_format Diperlukan	str Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, apabila jalur file '../Accounts/2019/01/01/data.csv' tempat data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek himpunan data.

Keterangan

Gunakan metode ini ketika format file dan pemisah terdeteksi secara otomatis.

Setelah membuat Himpunan Data, sebaiknya gunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

compare_profiles

Bandingkan profil Himpunan Data saat ini dengan profil himpunan data lainnya.

Hal ini menunjukkan perbedaan dalam statistik ringkasan antara dua himpunan data. Parameter 'rhs_dataset' adalah singkatan dari "sisi kanan", dan hanyalah himpunan data kedua. Himpunan data pertama (objek himpunan data saat ini) dianggap sebagai "sisi kiri".

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parameter

Nama	Deskripsi
rhs_dataset Diperlukan	Dataset Himpunan data kedua, juga disebut Himpunan data "sisi kanan" untuk perbandingan.
profile_arguments Diperlukan	dict Argumen untuk mengambil profil tertentu.
include_columns Diperlukan	list[str] Daftar nama kolom yang akan disertakan dalam perbandingan.
exclude_columns Diperlukan	list[str] Daftar nama kolom yang akan dikecualikan dalam perbandingan.
histogram_compare_method Diperlukan	HistogramCompareMethod Enumerasi yang menjelaskan metode perbandingan, misal: Wasserstein atau Energi

Mengembalikan

Jenis	Deskripsi
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	Perbedaan antara kedua profil himpunan data.

Keterangan

Ini hanya untuk Himpunan Data terdaftar. Menyebabkan pengecualian apabila profil Himpunan Data saat ini tidak ada. Untuk Himpunan Data yang tidak terdaftar, gunakan metode profile.compare.

create_snapshot

Membuat snapshot Himpunan Data terdaftar.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parameter

Nama	Deskripsi
snapshot_name Diperlukan	str Nama snapshot. Nama snapshot harus unik dalam Himpunan Data.
compute_target Diperlukan	Union[ComputeTarget, str] Target komputasi opsional untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal digunakan.
create_data_snapshot Diperlukan	bool Jika True, salinan data yang terwujud akan dibuat.
target_datastore Diperlukan	Union[AbstractAzureStorageDatastore, str] Targetkan datastore untuk menyimpan snapshot. Jika dihilangkan, snapshot akan dibuat di penyimpanan default ruang kerja.

Mengembalikan

Jenis	Deskripsi
DatasetSnapshot	Objek snapshot himpunan data.

Keterangan

Snapshot mengambil statistik ringkasan titik waktu dari data yang mendasarinya dan salinan opsional dari data itu sendiri. Untuk mempelajari selengkapnya tentang pembuatan snapshot, buka https://aka.ms/azureml/howto/createsnapshots.

delete_snapshot

Hapus snapshot Himpunan Data berdasarkan nama.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

delete_snapshot(snapshot_name)

Parameter

Nama	Deskripsi
snapshot_name Diperlukan	str Nama snapshot.

Mengembalikan

Jenis	Deskripsi
None	Tidak ada.

Keterangan

Gunakan ini untuk membebaskan penyimpanan yang dikonsumsi oleh data yang disimpan dalam snapshot yang tidak lagi Anda butuhkan.

deprecate

Menghentikan penggunaan himpunan data aktif di ruang kerja dengan himpunan data lain.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

deprecate(deprecate_by_dataset_id)

Parameter

Nama	Deskripsi
deprecate_by_dataset_id Diperlukan	str ID Himpunan Data yang merupakan pengganti yang dimaksudkan untuk Himpunan Data ini.

Mengembalikan

Jenis	Deskripsi
None	Tidak ada.

Keterangan

Himpunan Data yang tidak digunakan lagi akan mencatat peringatan saat digunakan. Menghentikan penggunaan himpunan data akan menghentikan semua definisinya.

Himpunan Data yang tidak digunakan lagi masih dapat digunakan. Untuk memblokir Himpunan Data sepenuhnya agar tidak digunakan, arsipkan Himpunan Data tersebut.

Jika tidak digunakan lagi secara tidak sengaja, aktivasi ulang akan mengaktifkannya.

diff

Diff Himpunan Data saat ini dengan rhs_dataset.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

diff(rhs_dataset, compute_target=None, columns=None)

Parameter

Nama	Deskripsi
rhs_dataset Diperlukan	Dataset Himpunan Data lain juga disebut Himpunan Data sisi kanan untuk perbandingan
compute_target Diperlukan	Union[ComputeTarget, str] komputasi target untuk melakukan diff. Jika dihilangkan, komputasi lokal digunakan.
columns Diperlukan	list[str] Daftar nama kolom yang akan disertakan dalam diff.

Mengembalikan

Jenis	Deskripsi
DatasetActionRun	Objek menjalankan tindakan himpunan data.

from_binary_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file biner.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.File.from_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_binary_files(path)

Parameter

Nama	Deskripsi
path Diperlukan	DataReference atau str Jalur data di datastore terdaftar atau jalur lokal.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek Himpunan Data.

Keterangan

Gunakan metode ini untuk membaca file sebagai aliran data biner. Mengembalikan satu objek aliran file per pembacaan file. Gunakan metode ini saat Anda membaca gambar, video, audio, atau data biner lainnya.

get_profile dan create_snapshot tidak akan berfungsi seperti yang diharapkan untuk Himpunan Data yang dibuat dengan metode ini.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_delimited_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file yang dibatasi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_delimited_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

Parameter

Nama	Deskripsi
path Diperlukan	DataReference atau str Jalur data di datastore terdaftar, jalur lokal, atau URL HTTP.
separator Diperlukan	str Pemisah digunakan untuk membagi kolom.
header Diperlukan	PromoteHeadersBehavior Mengontrol cara header kolom dipromosikan saat membaca dari file.
encoding Diperlukan	FileEncoding Pengodean file yang sedang dibaca.
quoting Diperlukan	bool Tentukan cara menangani karakter baris baru dalam tanda kuotasi. Default (False) adalah menafsirkan karakter baris baru sebagai memulai baris baru, terlepas dari apakah karakter baris baru berada dalam kuotasi atau tidak. Jika diatur ke True, karakter baris baru di dalam kuotasi tidak akan menghasilkan baris baru, dan kecepatan pembacaan file akan melambat.
infer_column_types Diperlukan	bool Menunjukkan apakah jenis data kolom disimpulkan.
skip_rows Diperlukan	int Berapa banyak baris yang akan dilompati dalam file yang sedang dibaca.
skip_mode Diperlukan	SkipLinesBehavior Mengontrol cara baris dilompati saat membaca dari file.
comment Diperlukan	str Karakter yang digunakan untuk menunjukkan baris komentar dalam file yang sedang dibaca. Baris yang dimulai dengan string ini akan dilompati.
include_path Diperlukan	bool Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.
archive_options Diperlukan	<xref:azureml.dataprep.ArchiveOptions> Opsi untuk mengarsipkan file, termasuk jenis arsip dan pola glob entri. Kami hanya mendukung ZIP sebagai jenis arsip saat ini. Misalnya, menentukan `archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')` membaca semua file dengan nama yang diakhiri dengan "10-20.csv" di ZIP.
partition_format Diperlukan	str Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, apabila jalur file '../Accounts/2019/01/01/data.csv' tempat data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek himpunan data.

Keterangan

Gunakan metode ini untuk membaca file teks yang dibatasi saat Anda ingin mengontrol opsi yang digunakan.

Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_excel_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file Excel.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

Parameter

Nama	Deskripsi
path Diperlukan	DataReference atau str Jalur data di datastore terdaftar atau jalur lokal.
sheet_name Diperlukan	str Nama lembar Excel yang akan dimuat. Secara default, kita membaca lembar pertama dari setiap file Excel.
use_column_headers Diperlukan	bool Kontrol apakah akan menggunakan baris pertama sebagai header kolom atau tidak.
skip_rows Diperlukan	int Berapa banyak baris yang akan dilompati dalam file yang sedang dibaca.
include_path Diperlukan	bool Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.
infer_column_types Diperlukan	bool Jika true, jenis data kolom akan disimpulkan.
partition_format Diperlukan	str Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, diberikan jalur file '../Accounts/2019/01/01/data.xlsx' di mana data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek himpunan data.

Keterangan

Gunakan metode ini untuk membaca file Excel dalam format .xlsx. Data dapat dibaca dari satu lembar di setiap file Excel. Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom. Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_json_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file JSON.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_json_lines_files sebagai gantinya untuk membaca dari file baris JSON. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

Parameter

Nama	Deskripsi
path Diperlukan	DataReference atau str Jalur ke file atau folder yang ingin Anda muat dan uraikan. Ini bisa berupa jalur lokal atau url Azure Blob. Globbing didukung. Misalnya, Anda dapat menggunakan jalur = "./data*" untuk membaca semua file dengan nama yang diawali dengan "data".
encoding Diperlukan	FileEncoding Pengodean file yang sedang dibaca.
flatten_nested_arrays Diperlukan	bool Penanganan program pengontrolan properti terhadap array bersarang. Jika Anda memilih untuk meratakan array JSON bersarang, hal ini dapat menghasilkan jumlah baris yang jauh lebih besar.
include_path Diperlukan	bool Apakah akan menyertakan kolom yang berisi jalur tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan mungkin ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.
partition_format Diperlukan	str Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, pada jalur file '../Accounts/2019/01/01/data.json' dan data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek Himpunan Data lokal.

from_pandas_dataframe

Buat Himpunan Data dalam memori yang tidak terdaftar dari dataframe pandas.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.register_pandas_dataframe sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

Parameter

Nama	Deskripsi
dataframe Diperlukan	DataFrame DataFrame Pandas.
path Diperlukan	Union[DataReference, str] Jalur data pada penyimpanan data terdaftar atau jalur folder lokal.
in_memory Diperlukan	bool Apakah akan membaca DataFrame dari memori alih-alih bertahan ke disk.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek Himpunan Data.

Keterangan

Gunakan metode ini untuk mengonversi dataframe Pandas menjadi objek Himpunan Data. Himpunan Data yang dibuat dengan metode ini tidak dapat didaftarkan, karena data berasal dari memori.

Jika in_memory False, DataFrame Pandas dikonversi ke file CSV secara lokal. Jika pat berasal dari jenis DataReference, bingkai Pandas akan diunggah ke penyimpanan data, dan Himpunan Data akan didasarkan pada DataReference. Jika ``path` adalah folder lokal, Himpunan Data akan dibuat berdasarkan file lokal yang tidak dapat dihapus.

Mengajukan pengecualian jika DataReference saat ini bukan merupakan jalur folder.

from_parquet_files

Buat Himpunan Data dalam memori yang tidak terdaftar dari file parquet.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_parquet_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_parquet_files(path, include_path=False, partition_format=None)

Parameter

Nama	Deskripsi
path Diperlukan	DataReference atau str Jalur data di datastore terdaftar atau jalur lokal.
include_path Diperlukan	bool Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file.
partition_format Diperlukan	str Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, pada jalur file '../Accounts/2019/01/01/data.parquet' di mana data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek himpunan data.

Keterangan

Gunakan metode ini untuk membaca file Parquet.

Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.

Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.

from_sql_query

Buat Himpunan Data dalam memori yang tidak terdaftar dari kueri SQL.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan Dataset.Tabular.from_sql_query sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static from_sql_query(data_source, query)

Parameter

Nama	Deskripsi
data_source Diperlukan	AzureSqlDatabaseDatastore Detail penyimpanan data Azure SQL.
query Diperlukan	str Kueri yang akan dijalankan untuk membaca data.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek Himpunan Data lokal.

generate_profile

Buat profil baru untuk Himpunan data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

generate_profile(compute_target=None, workspace=None, arguments=None)

Parameter

Nama	Deskripsi
compute_target Diperlukan	Union[ComputeTarget, str] Target komputasi opsional untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal digunakan.
workspace Diperlukan	Workspace Ruang kerja, diperlukan untuk Himpunan Data sementara (tidak terdaftar).
arguments Diperlukan	dict[str, object] Argumen profil. Argumen yang valid adalah: 'include_stype_counts' jenis bool. Periksa apakah nilai terlihat seperti beberapa jenis semantik terkenal seperti alamat email, Alamat IP (V4/V6), nomor telepon US, kode zip US, Lintang/Bujur. Mengaktifkan ini berdampak pada performa. 'number_of_histogram_bins' dari jenis int. Mewakili jumlah bin histogram yang akan digunakan untuk data numerik. Nilai defaultnya adalah 10.

Mengembalikan

Jenis	Deskripsi
DatasetActionRun	Objek menjalankan tindakan himpunan data.

Keterangan

Panggilan sinkron, akan memblokir hingga selesai. Panggil get_result untuk mendapatkan hasil tindakan.

get

Dapatkan Himpunan Data yang sudah ada di ruang kerja dengan menentukan nama atau ID-nya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Disarankan untuk menggunakan get_by_name dan get_by_id sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static get(workspace, name=None, id=None)

Parameter

Nama	Deskripsi
workspace Diperlukan	Workspace Ruang kerja Azure Machine Learning yang ada tempat Himpunan data dibuat.
name Diperlukan	str Nama Himpunan Data yang akan diambil.
id Diperlukan	str Pengidentifikasi unik Himpunan Data di ruang kerja.

Mengembalikan

Jenis	Deskripsi
Dataset	Himpunan Data dengan nama atau ID yang ditentukan.

Keterangan

Anda menyediakan antara name atau id. Pengecualian diajukan jika:

name dan id ditentukan tetapi tidak cocok.
Himpunan Data dengan name yang ditentukan atau id tidak dapat ditemukan di ruang kerja.

get_all

Dapatkan semua himpunan data terdaftar di ruang kerja.

get_all()

Parameter

Nama	Deskripsi
workspace Diperlukan	Workspace Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data terdaftar.

Mengembalikan

Jenis	Deskripsi
dict[str, Union[TabularDataset, FileDataset]]	Kamus objek TabularDataset dan FileDataset yang di kunci dengan nama pendaftaran mereka.

get_all_snapshots

Dapatkan semua snapshot Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_all_snapshots()

Mengembalikan

Jenis	Deskripsi
list[DatasetSnapshot]	Daftar snapshot Himpunan Data.

get_by_id

Dapatkan Himpunan Data yang disimpan ke ruang kerja.

get_by_id(id, **kwargs)

Parameter

Nama	Deskripsi
workspace Diperlukan	Workspace Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data disimpan.
id Diperlukan	str Id himpunan data.

Mengembalikan

Jenis	Deskripsi
Union[TabularDataset, FileDataset]	Objek himpunan data. Jika himpunan data terdaftar, nama dan versi pendaftarannya juga akan ditampilkan.

get_by_name

Dapatkan Himpunan Data terdaftar dari ruang kerja dengan nama pendaftarannya.

get_by_name(name, version='latest', **kwargs)

Parameter

Nama	Deskripsi
workspace Diperlukan	Workspace Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data terdaftar.
name Diperlukan	str Nama registrasi.
version Diperlukan	int Versi pendaftaran. Default ke 'terbaru'.

Mengembalikan

Jenis	Deskripsi
Union[TabularDataset, FileDataset]	Objek himpunan data terdaftar.

get_definition

Dapatkan definisi spesifik dari Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_definition(version_id=None)

Parameter

Nama	Deskripsi
version_id Diperlukan	str ID versi definisi Himpunan Data

Mengembalikan

Jenis	Deskripsi
DatasetDefinition	Definisi Himpunan data.

Keterangan

Jika version_id disediakan, Azure Machine Learning mencoba untuk mendapatkan definisi yang sesuai dengan versi tersebut. Jika versi tersebut tidak ada, pengecualian akan dilemparkan. Jika version_id dihilangkan, maka versi terbaru yang diambil.

get_definitions

Dapatkan semua definisi Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_definitions()

Mengembalikan

Jenis	Deskripsi
dict[str, DatasetDefinition]	Kamus definisi Himpunan Data.

Keterangan

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

get_profile

Dapatkan statistik ringkasan pada Himpunan Data yang dihitung sebelumnya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

Parameter

Nama	Deskripsi
arguments Diperlukan	dict[str, object] Argumen profil.
generate_if_not_exist Diperlukan	bool Menunjukkan apakah akan membuat profil jika tidak ada.
workspace Diperlukan	Workspace Ruang kerja, diperlukan untuk Himpunan Data sementara (tidak terdaftar).
compute_target Diperlukan	Union[ComputeTarget, str] Target komputasi untuk menjalankan tindakan profil.

Mengembalikan

Jenis	Deskripsi
<xref:azureml.dataprep.DataProfile>	DataProfile dari Himpunan Data.

Keterangan

Untuk Himpunan Data yang terdaftar dengan ruang kerja Azure Machine Learning, metode ini mengambil profil yang sudah ada yang dibuat sebelumnya dengan memanggil get_profile jika masih valid. Profil dibatalkan saat data yang diubah terdeteksi dalam Himpunan Data atau argumen get_profile berbeda dari yang digunakan saat profil dibuat. Jika profil tidak ada atau dibatalkan, generate_if_not_exist akan menentukan apakah profil baru dibuat.

Untuk Himpunan Data yang tidak terdaftar dengan ruang kerja Azure Machine Learning, metode ini selalu menjalankan generate_profile dan mengembalikan hasilnya.

get_snapshot

Dapatkan snapshot Himpunan Data berdasarkan nama.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

get_snapshot(snapshot_name)

Parameter

Nama	Deskripsi
snapshot_name Diperlukan	str Nama snapshot.

Mengembalikan

Jenis	Deskripsi
DatasetSnapshot	Objek snapshot himpunan data.

head

Menarik jumlah baris tertentu yang ditentukan dari Himpunan Data ini dan menampilkannya sebagai DataFrame.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

head(count)

Parameter

Nama	Deskripsi
count Diperlukan	int Jumlah baris yang harus ditarik.

Mengembalikan

Jenis	Deskripsi
DataFrame	DataFrame Pandas.

list

Cantumkan semua Himpunan Data di ruang kerja, termasuk yang memiliki properti is_visible sama dengan False.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Menyarankan untuk menggunakan get_all sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

static list(workspace)

Parameter

Nama	Deskripsi
workspace Diperlukan	Workspace Ruang kerja tempat Anda ingin mengambil daftar Himpunan Data.

Mengembalikan

Jenis	Deskripsi
list[Dataset]	Daftar objek Himpunan Data.

reactivate

Mengaktifkan kembali himpunan data yang diarsipkan atau tidak digunakan lagi.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

reactivate()

Mengembalikan

Jenis	Deskripsi
None	Tidak ada.

register

Daftarkan Himpunan Data di ruang kerja, sehingga tersedia untuk pengguna ruang kerja lainnya.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Menyarankan untuk menggunakan register sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

Parameter

Nama	Deskripsi
workspace Diperlukan	Workspace Ruang kerja Azure Machine Learning tempat Himpunan data akan didaftarkan.
name Diperlukan	str Nama Himpunan Data di ruang kerja.
description Diperlukan	str Deskripsi Himpunan Data.
tags Diperlukan	dict[str, str] Tag untuk dikaitkan dengan Himpunan Data.
visible Diperlukan	bool Menunjukkan apakah Himpunan Data terlihat di antarmuka pengguna. Jika False, maka Himpunan Data disembunyikan di antarmuka pengguna dan tersedia melalui SDK.
exist_ok Diperlukan	bool Jika True, metode menampilkan Himpunan Data apabila sudah ada di ruang kerja yang diberikan, jika tidak maka terjadi kesalahan.
update_if_exist Diperlukan	bool Jika `exist_ok` adalah True dan `update_if_exist` adalah True, metode ini akan memperbarui definisi dan menampilkan Himpunan Data yang diperbarui.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek Himpunan Data terdaftar di ruang kerja.

sample

Hasilkan sampel baru dari Himpunan Data sumber, menggunakan strategi pengambilan sampel dan parameter yang disediakan.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode take_sample di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

sample(sample_strategy, arguments)

Parameter

Nama	Deskripsi
sample_strategy Diperlukan	str Sampel strategi yang akan digunakan. Nilai yang diterima adalah "top_n", "simple_random", atau "stratified".
arguments Diperlukan	dict[str, object] Kamus dengan kunci dari "Optional argument" dalam daftar yang ditunjukkan di atas, dan nilai dari kolom "Type" tye. Hanya argumen dari metode pengambilan sampel yang sesuai yang dapat digunakan. Misalnya, untuk jenis sampel "simple_random", Anda hanya dapat menentukan kamus dengan kunci "probability" dan "seed".

Mengembalikan

Jenis	Deskripsi
Dataset	Objek himpunan data sebagai sampel himpunan data asli.

Keterangan

Sampel dihasilkan dengan mengeksekusi alur transformasi yang ditentukan oleh Himpunan Data ini, dan kemudian menerapkan strategi dan parameter pengambilan sampel ke data output. Setiap metode pengambilan sampel mendukung argumen opsional berikut:

top_n
- Argumen opsional
  - n, jenis bilangan bulat. Pilih baris N atas sebagai sampel Anda.
simple_random
- Argumen opsional
  - peluang, jenis float. Pengambilan sampel acak tempat setiap baris memiliki peluang yang sama untuk dipilih. Peluang harus menjadi angka antara 0 dan 1.
  - seed, jenis float. Digunakan oleh generator angka acak. Gunakan untuk pengulangan.
bertingkat
- Argumen opsional
  - kolom, jenis daftar[str]. Daftar kolom strata dalam data.
  - seed, jenis float. Digunakan oleh generator angka acak. Gunakan untuk pengulangan.
  - pecahan, jenis dict[tuple, float]. Tuple: nilai kolom yang menentukan strata, harus dalam urutan yang sama dengan nama kolom. Float: bobot yang terlampir pada strata selama pengambilan sampel.

Cuplikan kode berikut adalah contoh pola desain untuk metode sampel yang berbeda.


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

Buat dataframe Pandas dengan menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_pandas_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

to_pandas_dataframe()

Mengembalikan

Jenis	Deskripsi
DataFrame	DataFrame Pandas.

Keterangan

Menampilkan DataFrame Pandas yang sepenuhnya terwujud dalam memori.

to_spark_dataframe

Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_spark_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

to_spark_dataframe()

Mengembalikan

Jenis	Deskripsi
DataFrame	Spark DataFrame.

Keterangan

Spark Dataframe yang dikembalikan hanyalah rencana eksekusi, dan sebenarnya tidak berisi data apa pun, karena Spark Dataframe dievaluasi dengan lamban.

update

Memperbarui atribut Himpunan Data yang dapat berubah di ruang kerja dan menampilkan Himpunan Data yang diperbarui dari ruang kerja.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

update(name=None, description=None, tags=None, visible=None)

Parameter

Nama	Deskripsi
name Diperlukan	str Nama Himpunan Data di ruang kerja.
description Diperlukan	str Deskripsi data.
tags Diperlukan	dict[str, str] Tag untuk mengaitkan Himpunan Data.
visible Diperlukan	bool Menunjukkan apakah Himpunan Data terlihat di antarmuka pengguna.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek Himpunan Data yang diperbarui dari ruang kerja.

update_definition

Perbarui definisi Himpunan Data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

update_definition(definition, definition_update_message)

Parameter

Nama	Deskripsi
definition Diperlukan	DatasetDefinition Definisi baru dari Himpunan Data ini.
definition_update_message Diperlukan	str Pesan pembaruan definisi.

Mengembalikan

Jenis	Deskripsi
Dataset	Objek Himpunan Data yang diperbarui dari ruang kerja.

Keterangan

Untuk menggunakan Himpunan Data yang diperbarui, gunakan objek yang ditampilkan oleh metode ini.

Atribut

definition

Menampilkan definisi Himpunan Data saat ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Jenis	Deskripsi
DatasetDefinition	Definisi Himpunan data.

Keterangan

Definisi Himpunan Data adalah serangkaian langkah yang menentukan cara membaca dan mentransformasikan data.

Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Memiliki beberapa definisi yang memungkinkan Anda untuk membuat perubahan pada Himpunan Data yang ada tanpa memutus model dan alur yang bergantung pada definisi yang lebih lama.

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

definition_version

Menampilkan versi definisi Himpunan Data saat ini.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Jenis	Deskripsi
str	Versi definisi Himpunan Data.

Keterangan

Definisi Himpunan Data adalah serangkaian langkah yang menentukan cara membaca dan mentransformasikan data.

Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Definisi saat ini adalah yang terbaru dibuat, dengan ID yang ditampilkan oleh ini.

Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.

description

Menampilkan deskripsi Himpunan Data.

Mengembalikan

Jenis	Deskripsi
str	Deskripsi Himpunan data.

Keterangan

Menentukan deskripsi data dalam Himpunan Data memungkinkan pengguna ruang kerja untuk memahami apa yang diwakili data, dan bagaimana mereka dapat menggunakannya.

id

Jika Himpunan Data terdaftar di ruang kerja, menampilkan ID Himpunan Data. Jika tidak, menampilkan Tidak Ada.

Mengembalikan

Jenis	Deskripsi
str	ID Himpunan Data.

is_visible

Kontrol visibilitas Himpunan Data yang terdaftar di antarmuka pengguna ruang kerja Azure Machine Learning.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Jenis	Deskripsi
bool	Visibilitas Himpunan Data.

Keterangan

Nilai yang ditampilkan:

True: Himpunan data terlihat di antarmuka pengguna ruang kerja. Default.
False: Himpunan data disembunyikan di antarmuka pengguna ruang kerja.

Tidak berpengaruh pada Himpunan Data yang tidak terdaftar.

name

Menampilkan nama Himpunan Data.

Mengembalikan

Jenis	Deskripsi
str	Nama Himpunan Data.

state

Menampilkan status Himpunan data.

Catatan

Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.

Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

Mengembalikan

Jenis	Deskripsi
str	Status Himpunan Data.

Keterangan

Arti dan pengaruh status adalah sebagai berikut:

Aktif. Definisi aktif persis seperti apa kedengarannya, semua tindakan dapat dilakukan pada definisi aktif.
Tidak digunakan lagi. Definisi yang tidak digunakan lagi dapat digunakan, tetapi akan menghasilkan peringatan yang dicatat dalam log setiap kali data yang mendasarinya diakses.
Diarsipkan. Definisi yang diarsipkan tidak dapat digunakan untuk melakukan tindakan apa pun. Untuk melakukan tindakan pada definisi yang diarsipkan, maka harus diaktifkan kembali.

workspace

Jika Himpunan Data terdaftar di ruang kerja, menampilkan ruang kerja. Jika tidak, menampilkan Tidak Ada.

Mengembalikan

Jenis	Deskripsi
Workspace	Ruang kerja.

Bagikan melalui

Dataset Kelas

Konstruktor

Parameter

Keterangan

Variabel

Metode

archive

Mengembalikan

Keterangan

auto_read_files

Parameter

Mengembalikan

Keterangan

compare_profiles

Parameter

Mengembalikan

Keterangan

create_snapshot

Parameter

Mengembalikan

Keterangan

delete_snapshot

Parameter

Mengembalikan

Keterangan

deprecate

Parameter

Mengembalikan

Keterangan

diff

Parameter

Mengembalikan

from_binary_files

Parameter

Mengembalikan

Keterangan

from_delimited_files

Parameter

Mengembalikan

Keterangan

from_excel_files

Parameter

Mengembalikan

Keterangan

from_json_files

Parameter

Mengembalikan

from_pandas_dataframe

Parameter

Mengembalikan

Keterangan

from_parquet_files

Parameter

Mengembalikan

Keterangan

from_sql_query

Parameter

Mengembalikan

generate_profile

Parameter

Mengembalikan

Keterangan

get

Parameter

Mengembalikan

Keterangan

get_all

Parameter

Mengembalikan

get_all_snapshots

Mengembalikan

get_by_id

Parameter

Mengembalikan

get_by_name

Parameter

Mengembalikan

get_definition

Parameter