Dataset Kelas
Mewakili sumber daya untuk menjelajahi, mengubah, dan mengelola data dalam Azure Machine Learning.
Dataset adalah referensi ke data di dalam Datastore atau di belakang url web publik.
Untuk metode yang tidak digunakan lagi di kelas ini, periksa kelas AbstractDataset untuk API yang ditingkatkan.
Jenis Himpunan Data berikut didukung:
TabularDataset menunjukkan data dalam format tabel yang dibuat dengan menguraikan file atau daftar file yang disediakan.
FileDataset mereferensikan satu atau beberapa file di datastore atau dari URL publik.
Untuk mulai menggunakan himpunan data, lihat artikel Menambahkan & mendaftarkan himpunan data, atau lihat buku catatan https://aka.ms/tabulardataset-samplenotebook dan https://aka.ms/filedataset-samplenotebook.
Menginisialisasi objek Himpunan Data.
Untuk mendapatkan Himpunan Data yang telah terdaftar di ruang kerja, gunakan metode get.
- Warisan
-
builtins.objectDataset
Konstruktor
Dataset(definition, workspace=None, name=None, id=None)
Parameter
Nama | Deskripsi |
---|---|
definition
Diperlukan
|
<xref:azureml.data.DatasetDefinition>
Definisi Himpunan data. |
workspace
Diperlukan
|
Ruang kerja tempat Himpunan Data berada. |
name
Diperlukan
|
Nama Himpunan Data. |
id
Diperlukan
|
Pengidentifikasi unik Himpunan Data. |
Keterangan
Kelas Himpunan Data mengekspos dua atribut kelas praktis (File
dan Tabular
) yang dapat Anda gunakan untuk membuat Himpunan Data tanpa bekerja dengan metode pabrik yang sesuai. Misalnya, untuk membuat himpunan data menggunakan atribut ini:
Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()
Anda juga dapat membuat TabularDataset atau FileDataset baru dengan langsung memanggil metode pabrik yang sesuai dari kelas yang ditentukan di dalam TabularDatasetFactory dan FileDatasetFactory.
Contoh berikut menunjukkan cara membuat TabularDataset yang menunjuk ke satu jalur di datastore.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Sampel lengkap tersedia dari https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Variabel
Nama | Deskripsi |
---|---|
azureml.core.Dataset.File
|
Atribut kelas yang menyediakan akses ke metode FileDatasetFactory untuk membuat objek FileDataset baru. Usage: Dataset.File.from_files(). |
azureml.core.Dataset.Tabular
|
Atribut kelas yang menyediakan akses ke metode TabularDatasetFactory untuk membuat objek TabularDataset baru. Usage: Dataset.Tabular.from_delimited_files(). |
Metode
archive |
Arsipkan himpunan data yang aktif atau tidak digunakan lagi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
auto_read_files |
Menganalisis file pada jalur yang ditentukan dan mengembalikan Himpunan Data baru. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan metode Dataset.Tabular.from_* untuk membaca file. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
compare_profiles |
Bandingkan profil Himpunan Data saat ini dengan profil himpunan data lainnya. Hal ini menunjukkan perbedaan dalam statistik ringkasan antara dua himpunan data. Parameter 'rhs_dataset' adalah singkatan dari "sisi kanan", dan hanyalah himpunan data kedua. Himpunan data pertama (objek himpunan data saat ini) dianggap sebagai "sisi kiri". Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
create_snapshot |
Membuat snapshot Himpunan Data terdaftar. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
delete_snapshot |
Hapus snapshot Himpunan Data berdasarkan nama. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
deprecate |
Menghentikan penggunaan himpunan data aktif di ruang kerja dengan himpunan data lain. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
diff |
Diff Himpunan Data saat ini dengan rhs_dataset. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
from_binary_files |
Buat Himpunan Data dalam memori yang tidak terdaftar dari file biner. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.File.from_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
from_delimited_files |
Buat Himpunan Data dalam memori yang tidak terdaftar dari file yang dibatasi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_delimited_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
|
from_excel_files |
Buat Himpunan Data dalam memori yang tidak terdaftar dari file Excel. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
from_json_files |
Buat Himpunan Data dalam memori yang tidak terdaftar dari file JSON. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_json_lines_files sebagai gantinya untuk membaca dari file baris JSON. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
from_pandas_dataframe |
Buat Himpunan Data dalam memori yang tidak terdaftar dari dataframe pandas. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.register_pandas_dataframe sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
from_parquet_files |
Buat Himpunan Data dalam memori yang tidak terdaftar dari file parquet. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_parquet_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
from_sql_query |
Buat Himpunan Data dalam memori yang tidak terdaftar dari kueri SQL. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan Dataset.Tabular.from_sql_query sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
generate_profile |
Buat profil baru untuk Himpunan data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
get |
Dapatkan Himpunan Data yang sudah ada di ruang kerja dengan menentukan nama atau ID-nya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Disarankan untuk menggunakan get_by_name dan get_by_id sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
get_all |
Dapatkan semua himpunan data terdaftar di ruang kerja. |
get_all_snapshots |
Dapatkan semua snapshot Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
get_by_id |
Dapatkan Himpunan Data yang disimpan ke ruang kerja. |
get_by_name |
Dapatkan Himpunan Data terdaftar dari ruang kerja dengan nama pendaftarannya. |
get_definition |
Dapatkan definisi spesifik dari Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
get_definitions |
Dapatkan semua definisi Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
get_profile |
Dapatkan statistik ringkasan pada Himpunan Data yang dihitung sebelumnya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
get_snapshot |
Dapatkan snapshot Himpunan Data berdasarkan nama. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
head |
Menarik jumlah baris tertentu yang ditentukan dari Himpunan Data ini dan menampilkannya sebagai DataFrame. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
list |
Cantumkan semua Himpunan Data di ruang kerja, termasuk yang memiliki properti Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Menyarankan untuk menggunakan get_all sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
reactivate |
Mengaktifkan kembali himpunan data yang diarsipkan atau tidak digunakan lagi. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
register |
Daftarkan Himpunan Data di ruang kerja, sehingga tersedia untuk pengguna ruang kerja lainnya. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Menyarankan untuk menggunakan register sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
sample |
Hasilkan sampel baru dari Himpunan Data sumber, menggunakan strategi pengambilan sampel dan parameter yang disediakan. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode take_sample di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
to_pandas_dataframe |
Buat dataframe Pandas dengan menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_pandas_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
to_spark_dataframe |
Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_spark_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
update |
Memperbarui atribut Himpunan Data yang dapat berubah di ruang kerja dan menampilkan Himpunan Data yang diperbarui dari ruang kerja. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
update_definition |
Perbarui definisi Himpunan Data. Catatan Metode ini tidak digunakan lagi, dan tidak akan lagi didukung. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation. |
archive
Arsipkan himpunan data yang aktif atau tidak digunakan lagi.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
archive()
Mengembalikan
Jenis | Deskripsi |
---|---|
Tidak ada. |
Keterangan
Setelah arsip, setiap upaya untuk mengonsumsi Himpunan Data akan mengakibatkan kesalahan. Jika diarsipkan secara tidak sengaja, aktivasi ulang akan mengaktifkannya.
auto_read_files
Menganalisis file pada jalur yang ditentukan dan mengembalikan Himpunan Data baru.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Disarankan untuk menggunakan metode Dataset.Tabular.from_* untuk membaca file. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static auto_read_files(path, include_path=False, partition_format=None)
Parameter
Nama | Deskripsi |
---|---|
path
Diperlukan
|
DataReference atau
str
Jalur data di datastore terdaftar, jalur lokal, atau URL HTTP (CSV/TSV). |
include_path
Diperlukan
|
Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Berguna saat membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal. Juga berguna jika ada informasi dalam jalur file atau nama yang Anda inginkan dalam kolom. |
partition_format
Diperlukan
|
Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, apabila jalur file '../Accounts/2019/01/01/data.csv' tempat data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek himpunan data. |
Keterangan
Gunakan metode ini ketika format file dan pemisah terdeteksi secara otomatis.
Setelah membuat Himpunan Data, sebaiknya gunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.
Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.
compare_profiles
Bandingkan profil Himpunan Data saat ini dengan profil himpunan data lainnya.
Hal ini menunjukkan perbedaan dalam statistik ringkasan antara dua himpunan data. Parameter 'rhs_dataset' adalah singkatan dari "sisi kanan", dan hanyalah himpunan data kedua. Himpunan data pertama (objek himpunan data saat ini) dianggap sebagai "sisi kiri".
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameter
Nama | Deskripsi |
---|---|
rhs_dataset
Diperlukan
|
Himpunan data kedua, juga disebut Himpunan data "sisi kanan" untuk perbandingan. |
profile_arguments
Diperlukan
|
Argumen untuk mengambil profil tertentu. |
include_columns
Diperlukan
|
Daftar nama kolom yang akan disertakan dalam perbandingan. |
exclude_columns
Diperlukan
|
Daftar nama kolom yang akan dikecualikan dalam perbandingan. |
histogram_compare_method
Diperlukan
|
Enumerasi yang menjelaskan metode perbandingan, misal: Wasserstein atau Energi |
Mengembalikan
Jenis | Deskripsi |
---|---|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Perbedaan antara kedua profil himpunan data. |
Keterangan
Ini hanya untuk Himpunan Data terdaftar. Menyebabkan pengecualian apabila profil Himpunan Data saat ini tidak ada. Untuk Himpunan Data yang tidak terdaftar, gunakan metode profile.compare.
create_snapshot
Membuat snapshot Himpunan Data terdaftar.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameter
Nama | Deskripsi |
---|---|
snapshot_name
Diperlukan
|
Nama snapshot. Nama snapshot harus unik dalam Himpunan Data. |
compute_target
Diperlukan
|
Target komputasi opsional untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal digunakan. |
create_data_snapshot
Diperlukan
|
Jika True, salinan data yang terwujud akan dibuat. |
target_datastore
Diperlukan
|
Targetkan datastore untuk menyimpan snapshot. Jika dihilangkan, snapshot akan dibuat di penyimpanan default ruang kerja. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek snapshot himpunan data. |
Keterangan
Snapshot mengambil statistik ringkasan titik waktu dari data yang mendasarinya dan salinan opsional dari data itu sendiri. Untuk mempelajari selengkapnya tentang pembuatan snapshot, buka https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Hapus snapshot Himpunan Data berdasarkan nama.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
delete_snapshot(snapshot_name)
Parameter
Nama | Deskripsi |
---|---|
snapshot_name
Diperlukan
|
Nama snapshot. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Tidak ada. |
Keterangan
Gunakan ini untuk membebaskan penyimpanan yang dikonsumsi oleh data yang disimpan dalam snapshot yang tidak lagi Anda butuhkan.
deprecate
Menghentikan penggunaan himpunan data aktif di ruang kerja dengan himpunan data lain.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
deprecate(deprecate_by_dataset_id)
Parameter
Nama | Deskripsi |
---|---|
deprecate_by_dataset_id
Diperlukan
|
ID Himpunan Data yang merupakan pengganti yang dimaksudkan untuk Himpunan Data ini. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Tidak ada. |
Keterangan
Himpunan Data yang tidak digunakan lagi akan mencatat peringatan saat digunakan. Menghentikan penggunaan himpunan data akan menghentikan semua definisinya.
Himpunan Data yang tidak digunakan lagi masih dapat digunakan. Untuk memblokir Himpunan Data sepenuhnya agar tidak digunakan, arsipkan Himpunan Data tersebut.
Jika tidak digunakan lagi secara tidak sengaja, aktivasi ulang akan mengaktifkannya.
diff
Diff Himpunan Data saat ini dengan rhs_dataset.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
diff(rhs_dataset, compute_target=None, columns=None)
Parameter
Nama | Deskripsi |
---|---|
rhs_dataset
Diperlukan
|
Himpunan Data lain juga disebut Himpunan Data sisi kanan untuk perbandingan |
compute_target
Diperlukan
|
komputasi target untuk melakukan diff. Jika dihilangkan, komputasi lokal digunakan. |
columns
Diperlukan
|
Daftar nama kolom yang akan disertakan dalam diff. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek menjalankan tindakan himpunan data. |
from_binary_files
Buat Himpunan Data dalam memori yang tidak terdaftar dari file biner.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Disarankan untuk menggunakan Dataset.File.from_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static from_binary_files(path)
Parameter
Nama | Deskripsi |
---|---|
path
Diperlukan
|
DataReference atau
str
Jalur data di datastore terdaftar atau jalur lokal. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek Himpunan Data. |
Keterangan
Gunakan metode ini untuk membaca file sebagai aliran data biner. Mengembalikan satu objek aliran file per pembacaan file. Gunakan metode ini saat Anda membaca gambar, video, audio, atau data biner lainnya.
get_profile dan create_snapshot tidak akan berfungsi seperti yang diharapkan untuk Himpunan Data yang dibuat dengan metode ini.
Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.
from_delimited_files
Buat Himpunan Data dalam memori yang tidak terdaftar dari file yang dibatasi.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Disarankan untuk menggunakan Dataset.Tabular.from_delimited_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Parameter
Nama | Deskripsi |
---|---|
path
Diperlukan
|
DataReference atau
str
Jalur data di datastore terdaftar, jalur lokal, atau URL HTTP. |
separator
Diperlukan
|
Pemisah digunakan untuk membagi kolom. |
header
Diperlukan
|
Mengontrol cara header kolom dipromosikan saat membaca dari file. |
encoding
Diperlukan
|
Pengodean file yang sedang dibaca. |
quoting
Diperlukan
|
Tentukan cara menangani karakter baris baru dalam tanda kuotasi. Default (False) adalah menafsirkan karakter baris baru sebagai memulai baris baru, terlepas dari apakah karakter baris baru berada dalam kuotasi atau tidak. Jika diatur ke True, karakter baris baru di dalam kuotasi tidak akan menghasilkan baris baru, dan kecepatan pembacaan file akan melambat. |
infer_column_types
Diperlukan
|
Menunjukkan apakah jenis data kolom disimpulkan. |
skip_rows
Diperlukan
|
Berapa banyak baris yang akan dilompati dalam file yang sedang dibaca. |
skip_mode
Diperlukan
|
Mengontrol cara baris dilompati saat membaca dari file. |
comment
Diperlukan
|
Karakter yang digunakan untuk menunjukkan baris komentar dalam file yang sedang dibaca. Baris yang dimulai dengan string ini akan dilompati. |
include_path
Diperlukan
|
Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file. |
archive_options
Diperlukan
|
<xref:azureml.dataprep.ArchiveOptions>
Opsi untuk mengarsipkan file, termasuk jenis arsip dan pola glob entri. Kami hanya mendukung ZIP sebagai jenis arsip saat ini. Misalnya, menentukan
membaca semua file dengan nama yang diakhiri dengan "10-20.csv" di ZIP. |
partition_format
Diperlukan
|
Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, apabila jalur file '../Accounts/2019/01/01/data.csv' tempat data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek himpunan data. |
Keterangan
Gunakan metode ini untuk membaca file teks yang dibatasi saat Anda ingin mengontrol opsi yang digunakan.
Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.
Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.
from_excel_files
Buat Himpunan Data dalam memori yang tidak terdaftar dari file Excel.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parameter
Nama | Deskripsi |
---|---|
path
Diperlukan
|
DataReference atau
str
Jalur data di datastore terdaftar atau jalur lokal. |
sheet_name
Diperlukan
|
Nama lembar Excel yang akan dimuat. Secara default, kita membaca lembar pertama dari setiap file Excel. |
use_column_headers
Diperlukan
|
Kontrol apakah akan menggunakan baris pertama sebagai header kolom atau tidak. |
skip_rows
Diperlukan
|
Berapa banyak baris yang akan dilompati dalam file yang sedang dibaca. |
include_path
Diperlukan
|
Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file. |
infer_column_types
Diperlukan
|
Jika true, jenis data kolom akan disimpulkan. |
partition_format
Diperlukan
|
Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, diberikan jalur file '../Accounts/2019/01/01/data.xlsx' di mana data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek himpunan data. |
Keterangan
Gunakan metode ini untuk membaca file Excel dalam format .xlsx. Data dapat dibaca dari satu lembar di setiap file Excel. Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom. Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.
from_json_files
Buat Himpunan Data dalam memori yang tidak terdaftar dari file JSON.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Disarankan untuk menggunakan Dataset.Tabular.from_json_lines_files sebagai gantinya untuk membaca dari file baris JSON. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parameter
Nama | Deskripsi |
---|---|
path
Diperlukan
|
DataReference atau
str
Jalur ke file atau folder yang ingin Anda muat dan uraikan. Ini bisa berupa jalur lokal atau url Azure Blob. Globbing didukung. Misalnya, Anda dapat menggunakan jalur = "./data*" untuk membaca semua file dengan nama yang diawali dengan "data". |
encoding
Diperlukan
|
Pengodean file yang sedang dibaca. |
flatten_nested_arrays
Diperlukan
|
Penanganan program pengontrolan properti terhadap array bersarang. Jika Anda memilih untuk meratakan array JSON bersarang, hal ini dapat menghasilkan jumlah baris yang jauh lebih besar. |
include_path
Diperlukan
|
Apakah akan menyertakan kolom yang berisi jalur tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan mungkin ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file. |
partition_format
Diperlukan
|
Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, pada jalur file '../Accounts/2019/01/01/data.json' dan data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek Himpunan Data lokal. |
from_pandas_dataframe
Buat Himpunan Data dalam memori yang tidak terdaftar dari dataframe pandas.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Disarankan untuk menggunakan Dataset.Tabular.register_pandas_dataframe sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parameter
Nama | Deskripsi |
---|---|
dataframe
Diperlukan
|
DataFrame Pandas. |
path
Diperlukan
|
Jalur data pada penyimpanan data terdaftar atau jalur folder lokal. |
in_memory
Diperlukan
|
Apakah akan membaca DataFrame dari memori alih-alih bertahan ke disk. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek Himpunan Data. |
Keterangan
Gunakan metode ini untuk mengonversi dataframe Pandas menjadi objek Himpunan Data. Himpunan Data yang dibuat dengan metode ini tidak dapat didaftarkan, karena data berasal dari memori.
Jika in_memory
False, DataFrame Pandas dikonversi ke file CSV secara lokal. Jika pat
berasal dari jenis DataReference, bingkai Pandas akan diunggah ke penyimpanan data, dan Himpunan Data akan didasarkan pada DataReference. Jika ``path` adalah folder lokal, Himpunan Data akan dibuat berdasarkan file lokal yang tidak dapat dihapus.
Mengajukan pengecualian jika DataReference saat ini bukan merupakan jalur folder.
from_parquet_files
Buat Himpunan Data dalam memori yang tidak terdaftar dari file parquet.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Disarankan untuk menggunakan Dataset.Tabular.from_parquet_files sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static from_parquet_files(path, include_path=False, partition_format=None)
Parameter
Nama | Deskripsi |
---|---|
path
Diperlukan
|
DataReference atau
str
Jalur data di datastore terdaftar atau jalur lokal. |
include_path
Diperlukan
|
Apakah akan menyertakan kolom yang berisi jalur file tempat data dibaca. Ini berguna ketika Anda membaca beberapa file, dan ingin mengetahui dari file mana rekaman tertentu berasal, atau untuk menyimpan informasi yang berguna di jalur file. |
partition_format
Diperlukan
|
Tentukan format partisi dalam jalur dan buat kolom string dari format '{x}' dan kolom tanggalwaktu dari format '{x:yyyy/MM/dd/HH/mm/ss}', di mana 'yyyy', 'MM', 'dd', 'HH', 'mm' dan 'ss' digunakan untuk tahun tambahan, bulan, hari, jam, menit, dan kedua untuk jenis tanggalwaktu. Format harus dimulai dari posisi kunci partisi pertama hingga akhir jalur file. Misalnya, pada jalur file '../Accounts/2019/01/01/data.parquet' di mana data dipartisi berdasarkan nama departemen dan waktu, kita dapat menentukan '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' untuk membuat kolom 'Department' dari jenis string dan 'PartitionDate' dari jenis tanggalwaktu. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek himpunan data. |
Keterangan
Gunakan metode ini untuk membaca file Parquet.
Setelah membuat Himpunan Data, Anda harus menggunakan get_profile untuk mencantumkan jenis kolom yang terdeteksi dan statistik ringkasan untuk setiap kolom.
Himpunan Data yang ditampilkan tidak terdaftar dengan ruang kerja.
from_sql_query
Buat Himpunan Data dalam memori yang tidak terdaftar dari kueri SQL.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Disarankan untuk menggunakan Dataset.Tabular.from_sql_query sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static from_sql_query(data_source, query)
Parameter
Nama | Deskripsi |
---|---|
data_source
Diperlukan
|
Detail penyimpanan data Azure SQL. |
query
Diperlukan
|
Kueri yang akan dijalankan untuk membaca data. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek Himpunan Data lokal. |
generate_profile
Buat profil baru untuk Himpunan data.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parameter
Nama | Deskripsi |
---|---|
compute_target
Diperlukan
|
Target komputasi opsional untuk melakukan pembuatan profil snapshot. Jika dihilangkan, komputasi lokal digunakan. |
workspace
Diperlukan
|
Ruang kerja, diperlukan untuk Himpunan Data sementara (tidak terdaftar). |
arguments
Diperlukan
|
Argumen profil. Argumen yang valid adalah:
|
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek menjalankan tindakan himpunan data. |
Keterangan
Panggilan sinkron, akan memblokir hingga selesai. Panggil get_result untuk mendapatkan hasil tindakan.
get
Dapatkan Himpunan Data yang sudah ada di ruang kerja dengan menentukan nama atau ID-nya.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Disarankan untuk menggunakan get_by_name dan get_by_id sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static get(workspace, name=None, id=None)
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja Azure Machine Learning yang ada tempat Himpunan data dibuat. |
name
Diperlukan
|
Nama Himpunan Data yang akan diambil. |
id
Diperlukan
|
Pengidentifikasi unik Himpunan Data di ruang kerja. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Himpunan Data dengan nama atau ID yang ditentukan. |
Keterangan
Anda menyediakan antara name
atau id
. Pengecualian diajukan jika:
name
danid
ditentukan tetapi tidak cocok.Himpunan Data dengan
name
yang ditentukan atauid
tidak dapat ditemukan di ruang kerja.
get_all
Dapatkan semua himpunan data terdaftar di ruang kerja.
get_all()
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data terdaftar. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Kamus objek TabularDataset dan FileDataset yang di kunci dengan nama pendaftaran mereka. |
get_all_snapshots
Dapatkan semua snapshot Himpunan Data.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_all_snapshots()
Mengembalikan
Jenis | Deskripsi |
---|---|
Daftar snapshot Himpunan Data. |
get_by_id
Dapatkan Himpunan Data yang disimpan ke ruang kerja.
get_by_id(id, **kwargs)
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data disimpan. |
id
Diperlukan
|
Id himpunan data. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek himpunan data. Jika himpunan data terdaftar, nama dan versi pendaftarannya juga akan ditampilkan. |
get_by_name
Dapatkan Himpunan Data terdaftar dari ruang kerja dengan nama pendaftarannya.
get_by_name(name, version='latest', **kwargs)
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja Azure Machine Learning yang ada tempat Himpunan Data terdaftar. |
name
Diperlukan
|
Nama registrasi. |
version
Diperlukan
|
Versi pendaftaran. Default ke 'terbaru'. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek himpunan data terdaftar. |
get_definition
Dapatkan definisi spesifik dari Himpunan Data.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_definition(version_id=None)
Parameter
Nama | Deskripsi |
---|---|
version_id
Diperlukan
|
ID versi definisi Himpunan Data |
Mengembalikan
Jenis | Deskripsi |
---|---|
Definisi Himpunan data. |
Keterangan
Jika version_id
disediakan, Azure Machine Learning mencoba untuk mendapatkan definisi yang sesuai dengan versi tersebut. Jika versi tersebut tidak ada, pengecualian akan dilemparkan.
Jika version_id
dihilangkan, maka versi terbaru yang diambil.
get_definitions
Dapatkan semua definisi Himpunan Data.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_definitions()
Mengembalikan
Jenis | Deskripsi |
---|---|
Kamus definisi Himpunan Data. |
Keterangan
Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Definisi saat ini adalah yang dibuat paling baru.
Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.
get_profile
Dapatkan statistik ringkasan pada Himpunan Data yang dihitung sebelumnya.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parameter
Nama | Deskripsi |
---|---|
arguments
Diperlukan
|
Argumen profil. |
generate_if_not_exist
Diperlukan
|
Menunjukkan apakah akan membuat profil jika tidak ada. |
workspace
Diperlukan
|
Ruang kerja, diperlukan untuk Himpunan Data sementara (tidak terdaftar). |
compute_target
Diperlukan
|
Target komputasi untuk menjalankan tindakan profil. |
Mengembalikan
Jenis | Deskripsi |
---|---|
<xref:azureml.dataprep.DataProfile>
|
DataProfile dari Himpunan Data. |
Keterangan
Untuk Himpunan Data yang terdaftar dengan ruang kerja Azure Machine Learning, metode ini mengambil profil yang sudah ada yang dibuat sebelumnya dengan memanggil get_profile
jika masih valid. Profil dibatalkan saat data yang diubah terdeteksi dalam Himpunan Data atau argumen get_profile
berbeda dari yang digunakan saat profil dibuat. Jika profil tidak ada atau dibatalkan, generate_if_not_exist
akan menentukan apakah profil baru dibuat.
Untuk Himpunan Data yang tidak terdaftar dengan ruang kerja Azure Machine Learning, metode ini selalu menjalankan generate_profile dan mengembalikan hasilnya.
get_snapshot
Dapatkan snapshot Himpunan Data berdasarkan nama.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
get_snapshot(snapshot_name)
Parameter
Nama | Deskripsi |
---|---|
snapshot_name
Diperlukan
|
Nama snapshot. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek snapshot himpunan data. |
head
Menarik jumlah baris tertentu yang ditentukan dari Himpunan Data ini dan menampilkannya sebagai DataFrame.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
head(count)
Parameter
Nama | Deskripsi |
---|---|
count
Diperlukan
|
Jumlah baris yang harus ditarik. |
Mengembalikan
Jenis | Deskripsi |
---|---|
DataFrame Pandas. |
list
Cantumkan semua Himpunan Data di ruang kerja, termasuk yang memiliki properti is_visible
sama dengan False.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Menyarankan untuk menggunakan get_all sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
static list(workspace)
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja tempat Anda ingin mengambil daftar Himpunan Data. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Daftar objek Himpunan Data. |
reactivate
Mengaktifkan kembali himpunan data yang diarsipkan atau tidak digunakan lagi.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
reactivate()
Mengembalikan
Jenis | Deskripsi |
---|---|
Tidak ada. |
register
Daftarkan Himpunan Data di ruang kerja, sehingga tersedia untuk pengguna ruang kerja lainnya.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Menyarankan untuk menggunakan register sebagai gantinya. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parameter
Nama | Deskripsi |
---|---|
workspace
Diperlukan
|
Ruang kerja Azure Machine Learning tempat Himpunan data akan didaftarkan. |
name
Diperlukan
|
Nama Himpunan Data di ruang kerja. |
description
Diperlukan
|
Deskripsi Himpunan Data. |
tags
Diperlukan
|
Tag untuk dikaitkan dengan Himpunan Data. |
visible
Diperlukan
|
Menunjukkan apakah Himpunan Data terlihat di antarmuka pengguna. Jika False, maka Himpunan Data disembunyikan di antarmuka pengguna dan tersedia melalui SDK. |
exist_ok
Diperlukan
|
Jika True, metode menampilkan Himpunan Data apabila sudah ada di ruang kerja yang diberikan, jika tidak maka terjadi kesalahan. |
update_if_exist
Diperlukan
|
Jika |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek Himpunan Data terdaftar di ruang kerja. |
sample
Hasilkan sampel baru dari Himpunan Data sumber, menggunakan strategi pengambilan sampel dan parameter yang disediakan.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode take_sample di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
sample(sample_strategy, arguments)
Parameter
Nama | Deskripsi |
---|---|
sample_strategy
Diperlukan
|
Sampel strategi yang akan digunakan. Nilai yang diterima adalah "top_n", "simple_random", atau "stratified". |
arguments
Diperlukan
|
Kamus dengan kunci dari "Optional argument" dalam daftar yang ditunjukkan di atas, dan nilai dari kolom "Type" tye. Hanya argumen dari metode pengambilan sampel yang sesuai yang dapat digunakan. Misalnya, untuk jenis sampel "simple_random", Anda hanya dapat menentukan kamus dengan kunci "probability" dan "seed". |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek himpunan data sebagai sampel himpunan data asli. |
Keterangan
Sampel dihasilkan dengan mengeksekusi alur transformasi yang ditentukan oleh Himpunan Data ini, dan kemudian menerapkan strategi dan parameter pengambilan sampel ke data output. Setiap metode pengambilan sampel mendukung argumen opsional berikut:
top_n
Argumen opsional
- n, jenis bilangan bulat. Pilih baris N atas sebagai sampel Anda.
simple_random
Argumen opsional
peluang, jenis float. Pengambilan sampel acak tempat setiap baris memiliki peluang yang sama untuk dipilih. Peluang harus menjadi angka antara 0 dan 1.
seed, jenis float. Digunakan oleh generator angka acak. Gunakan untuk pengulangan.
bertingkat
Argumen opsional
kolom, jenis daftar[str]. Daftar kolom strata dalam data.
seed, jenis float. Digunakan oleh generator angka acak. Gunakan untuk pengulangan.
pecahan, jenis dict[tuple, float]. Tuple: nilai kolom yang menentukan strata, harus dalam urutan yang sama dengan nama kolom. Float: bobot yang terlampir pada strata selama pengambilan sampel.
Cuplikan kode berikut adalah contoh pola desain untuk metode sampel yang berbeda.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Buat dataframe Pandas dengan menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_pandas_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
to_pandas_dataframe()
Mengembalikan
Jenis | Deskripsi |
---|---|
DataFrame Pandas. |
Keterangan
Menampilkan DataFrame Pandas yang sepenuhnya terwujud dalam memori.
to_spark_dataframe
Buat Spark DataFrame yang dapat menjalankan alur transformasi yang ditentukan oleh definisi Himpunan Data ini.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Buat TabularDataset dengan memanggil metode statik pada Dataset.Tabular, dan gunakan metode to_spark_dataframe di sana. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
to_spark_dataframe()
Mengembalikan
Jenis | Deskripsi |
---|---|
Spark DataFrame. |
Keterangan
Spark Dataframe yang dikembalikan hanyalah rencana eksekusi, dan sebenarnya tidak berisi data apa pun, karena Spark Dataframe dievaluasi dengan lamban.
update
Memperbarui atribut Himpunan Data yang dapat berubah di ruang kerja dan menampilkan Himpunan Data yang diperbarui dari ruang kerja.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
update(name=None, description=None, tags=None, visible=None)
Parameter
Nama | Deskripsi |
---|---|
name
Diperlukan
|
Nama Himpunan Data di ruang kerja. |
description
Diperlukan
|
Deskripsi data. |
tags
Diperlukan
|
Tag untuk mengaitkan Himpunan Data. |
visible
Diperlukan
|
Menunjukkan apakah Himpunan Data terlihat di antarmuka pengguna. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek Himpunan Data yang diperbarui dari ruang kerja. |
update_definition
Perbarui definisi Himpunan Data.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
update_definition(definition, definition_update_message)
Parameter
Nama | Deskripsi |
---|---|
definition
Diperlukan
|
Definisi baru dari Himpunan Data ini. |
definition_update_message
Diperlukan
|
Pesan pembaruan definisi. |
Mengembalikan
Jenis | Deskripsi |
---|---|
Objek Himpunan Data yang diperbarui dari ruang kerja. |
Keterangan
Untuk menggunakan Himpunan Data yang diperbarui, gunakan objek yang ditampilkan oleh metode ini.
Atribut
definition
Menampilkan definisi Himpunan Data saat ini.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
Mengembalikan
Jenis | Deskripsi |
---|---|
Definisi Himpunan data. |
Keterangan
Definisi Himpunan Data adalah serangkaian langkah yang menentukan cara membaca dan mentransformasikan data.
Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Memiliki beberapa definisi yang memungkinkan Anda untuk membuat perubahan pada Himpunan Data yang ada tanpa memutus model dan alur yang bergantung pada definisi yang lebih lama.
Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.
definition_version
Menampilkan versi definisi Himpunan Data saat ini.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
Mengembalikan
Jenis | Deskripsi |
---|---|
Versi definisi Himpunan Data. |
Keterangan
Definisi Himpunan Data adalah serangkaian langkah yang menentukan cara membaca dan mentransformasikan data.
Himpunan Data yang terdaftar di ruang kerja AzureML dapat memiliki beberapa definisi, masing-masing dibuat dengan panggilan update_definition. Setiap definisi memiliki pengidentifikasi unik. Definisi saat ini adalah yang terbaru dibuat, dengan ID yang ditampilkan oleh ini.
Untuk Himpunan Data yang tidak terdaftar, hanya ada satu definisi.
description
Menampilkan deskripsi Himpunan Data.
Mengembalikan
Jenis | Deskripsi |
---|---|
Deskripsi Himpunan data. |
Keterangan
Menentukan deskripsi data dalam Himpunan Data memungkinkan pengguna ruang kerja untuk memahami apa yang diwakili data, dan bagaimana mereka dapat menggunakannya.
id
Jika Himpunan Data terdaftar di ruang kerja, menampilkan ID Himpunan Data. Jika tidak, menampilkan Tidak Ada.
Mengembalikan
Jenis | Deskripsi |
---|---|
ID Himpunan Data. |
is_visible
Kontrol visibilitas Himpunan Data yang terdaftar di antarmuka pengguna ruang kerja Azure Machine Learning.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
Mengembalikan
Jenis | Deskripsi |
---|---|
Visibilitas Himpunan Data. |
Keterangan
Nilai yang ditampilkan:
True: Himpunan data terlihat di antarmuka pengguna ruang kerja. Default.
False: Himpunan data disembunyikan di antarmuka pengguna ruang kerja.
Tidak berpengaruh pada Himpunan Data yang tidak terdaftar.
name
state
Menampilkan status Himpunan data.
Catatan
Metode ini tidak digunakan lagi, dan tidak akan lagi didukung.
Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.
Mengembalikan
Jenis | Deskripsi |
---|---|
Status Himpunan Data. |
Keterangan
Arti dan pengaruh status adalah sebagai berikut:
Aktif. Definisi aktif persis seperti apa kedengarannya, semua tindakan dapat dilakukan pada definisi aktif.
Tidak digunakan lagi. Definisi yang tidak digunakan lagi dapat digunakan, tetapi akan menghasilkan peringatan yang dicatat dalam log setiap kali data yang mendasarinya diakses.
Diarsipkan. Definisi yang diarsipkan tidak dapat digunakan untuk melakukan tindakan apa pun. Untuk melakukan tindakan pada definisi yang diarsipkan, maka harus diaktifkan kembali.
tags
Menampilkan tag yang terkait dengan Himpunan Data.
Mengembalikan
Jenis | Deskripsi |
---|---|
Tag Himpunan Data. |
workspace
Jika Himpunan Data terdaftar di ruang kerja, menampilkan ruang kerja. Jika tidak, menampilkan Tidak Ada.
Mengembalikan
Jenis | Deskripsi |
---|---|
Ruang kerja. |