Bagikan melalui


data Paket

Berisi modul yang mendukung representasi data untuk Datastore dan Himpunan Data di Azure Machine Learning.

Paket ini berisi pendukung fungsionalitas inti kelas Datastore dan kelas Dataset dalam paket core. Objek Datastore berisi informasi koneksi ke layanan penyimpanan Azure yang dapat dengan mudah dirujuk dengan nama tanpa perlu bekerja secara langsung dengan atau informasi koneksi kode keras dalam skrip. Datastore mendukung sejumlah layanan berbeda yang ditunjukkan dengan kelas-kelas dalam paket ini, termasuk AzureBlobDatastore, AzureFileDatastore, dan AzureDataLakeDatastore. Untuk daftar lengkap layanan penyimpanan yang didukung, lihat kelas Datastore.

Sementara Datastore bertindak sebagai kontainer untuk file data, Anda dapat menganggap Himpunan Data sebagai referensi atau pointer ke data tertentu yang ada di datastore Anda. Jenis Himpunan Data berikut didukung:

  • TabularDataset menunjukkan data dalam format tabel yang dibuat dengan menguraikan file atau daftar file yang disediakan.

  • FileDataset mereferensikan satu atau beberapa file di datastore atau URL publik Anda.

Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data, lihat https://aka.ms/tabulardataset-samplenotebook dan https://aka.ms/filedataset-samplenotebook.

Modul

abstract_dataset

Berisi kelas dasar abstrak untuk himpunan data di Azure Machine Learning.

abstract_datastore

Berisi fungsionalitas dasar untuk datastore yang menyimpan informasi koneksi ke layanan penyimpanan Azure.

azure_data_lake_datastore

Berisi fungsionalitas dasar untuk datastore yang menyimpan informasi koneksi ke Azure Data Lake Storage.

azure_my_sql_datastore

Berisi fungsionalitas dasar untuk datastore yang menyimpan informasi koneksi ke Azure Database for MySQL.

azure_postgre_sql_datastore

Berisi fungsionalitas dasar untuk datastore yang menyimpan informasi koneksi ke Azure Database for PostgreSQL.

azure_sql_database_datastore

Berisi fungsionalitas dasar untuk datastore yang menyimpan informasi koneksi ke database Azure SQL.

azure_storage_datastore

Berisi fungsionalitas untuk datastore yang menyimpan informasi koneksi ke Azure Blob dan Penyimpanan file Azure.

constants

Konstanta yang digunakan dalam paket azureml.data. Penggunaan internal saja.

context_managers

Berisi fungsionalitas untuk mengelola konteks data penyimpanan data dan himpunan data. Penggunaan internal saja.

data_reference

Berisi fungsionalitas yang menentukan cara membuat referensi ke data di datastore.

datacache

Berisi fungsionalitas untuk mengelola DatacacheStore dan Datacache di Azure Machine Learning.

datacache_client

Penggunaan internal saja.

datacache_consumption_config

Berisi fungsionalitas untuk konfigurasi konsumsi DataCache.

datacache_singularity_settings

Berisi objek yang diperlukan untuk representasi pengaturan Singularitas Datacache.

datapath

Berisi fungsionalitas untuk membuat referensi ke data di penyimpanan data.

Modul ini berisi kelas DataPath, yang menunjukkan lokasi data, dan kelas DataPathComputeBinding, yang menunjukkan bagaimana data disediakan di target komputasi.

dataset_action_run

Berisi fungsionalitas yang mengelola eksekusi tindakan Himpunan Data.

Modul ini menyediakan metode convenience untuk membuat tindakan Himpunan Data dan mendapatkan hasilnya setelah selesai.

dataset_consumption_config

Berisi fungsionalitas untuk konfigurasi konsumsi Himpunan Data.

dataset_definition

Berisi fungsionalitas untuk mengelola definisi himpunan data dan operasinya.

Catatan

Modul ini tidak digunakan lagi. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

dataset_error_handling

Berisi pengecualian untuk penanganan kesalahan himpunan data dalam Azure Machine Learning.

dataset_factory

Berisi fungsionalitas guna membuat himpunan data untuk Azure Machine Learning.

dataset_profile

Kelas untuk mengumpulkan statistik ringkasan terkait data yang dihasilkan oleh Aliran data.

Fungsionalitas dalam modul ini meliputi pengumpulan informasi mengenai eksekusi mana yang menghasilkan profil, terlepas dari apakah profil tersebut kedaluwarsa atau tidak.

dataset_profile_run

Berisi konfigurasi untuk memantau profil himpunan data yang dijalankan di Azure Machine Learning.

Fungsionalitas dalam modul ini mencakup penanganan dan pemantauan eksekusi profil himpunan data yang terkait dengan objek eksperimen serta id eksekusi masing-masing.

dataset_profile_run_config

Berisi konfigurasi untuk menghasilkan ringkasan statistik himpunan data dalam Azure Machine Learning.

Fungsionalitas dalam modul ini mencakup metode untuk mengirimkan profil lokal atau jarak jauh yang dijalankan dan memvisualisasikan hasil dari tampilan profil yang dikirimkan.

dataset_snapshot

Berisi fungsionalitas untuk mengelola operasi snapshot Himpunan Data.

Catatan

Modul ini tidak digunakan lagi. Untuk informasi selengkapnya, lihat https://aka.ms/dataset-deprecation.

dataset_type_definitions

Berisi nilai enumerasi yang digunakan dengan Dataset.

datastore_client

Penggunaan internal saja.

dbfs_datastore

Berisi fungsionalitas untuk datastore yang menyimpan informasi koneksi ke Databricks File Sytem (DBFS).

file_dataset

Berisi fungsionalitas untuk mereferensikan satu atau beberapa file di datastore atau URL publik.

Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data file, lihat https://aka.ms/filedataset-samplenotebook.

hdfs_datastore

Berisi fungsi dasar untuk datastore yang menyimpan informasi koneksi menuju kluster HDFS.

output_dataset_config

Berisi konfigurasi yang menentukan bagaimana output untuk suatu pekerjaan harus diunggah dan dipromosikan ke himpunan data.

Untuk informasi selengkapnya, lihat artikel cara menentukan output.

sql_data_reference

Berisi fungsionalitas untuk membuat referensi ke data di penyimpanan data yang menyimpan info koneksi ke database SQL.

stored_procedure_parameter

Berisi fungsionalitas untuk membuat parameter guna diteruskan ke prosedur tersimpan SQL.

tabular_dataset

Berisi fungsionalitas untuk mewakili data dalam format tabular dengan menguraikan file atau daftar file yang disediakan.

Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data tabular, lihat https://aka.ms/tabulardataset-samplenotebook.

Kelas

DataType

Mengonfigurasi jenis data kolom untuk himpunan data yang dibuat di Azure Machine Learning.

Metode DataType digunakan dalam metode TabularDatasetFactory kelas from_*, yang digunakan untuk membuat objek TabularDataset baru.

DatacacheStore

Catatan

Ini adalah kelas eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Menunjukkan abstraksi penyimpanan melalui akun penyimpanan Azure Machine Learning.

DatacacheStores dihubungkan dengan ruang kerja dan digunakan untuk menyimpan informasi yang terkait dengan solusi datacache yang mendasarinya. Saat ini, hanya solusi blob yang dipartisi yang didukung. Datacachestores menentukan berbagai datastore Blob yang dapat digunakan untuk penembolokan.

Gunakan kelas ini untuk melakukan operasi manajemen, termasuk mendaftar, daftar, mendapatkan, dan memperbarui datacachestores. DatacacheStores untuk setiap layanan dibuat dengan metode register* dari kelas ini.

Dapatkan penyimpanan cache data berdasarkan nama. Panggilan ini akan membuat permintaan ke layanan datacache.

FileDataset

Mewakili kumpulan referensi file di penyimpanan data atau URL publik yang akan digunakan dalam Azure Machine Learning.

FileDataset mendefinisikan serangkaian operasi yang dievaluasi dengan lamban dan tidak dapat diubah untuk memuat data dari sumber data ke dalam aliran file. Data tidak dimuat dari sumber hingga FileDataset diminta untuk mengirimkan data.

FileDataset dibuat menggunakan metode from_files dari kelas FileDatasetFactory.

Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data file, lihat https://aka.ms/filedataset-samplenotebook.

Menginisialisasi objek FileDataset.

Konstruktor ini tidak seharusnya dipanggil secara langsung. Himpunan data dimaksudkan untuk dibuat menggunakan FileDatasetFactory kelas .

HDFSOutputDatasetConfig

Mewakili cara output ke jalur HDFS dan dipromosikan sebagai FileDataset.

Menginisialisasi HDFSOutputDatasetConfig.

LinkFileOutputDatasetConfig

Catatan

Ini adalah kelas eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Menunjukkan cara menautkan output dari suatu eksekusi alur dan dipromosikan sebagai FileDataset.

The LinkFileOutputDatasetConfig memungkinkan Anda untuk menautkan himpunan data file sebagai himpunan data output


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Menginisialisasi LinkFileOutputDatasetConfig.

LinkTabularOutputDatasetConfig

Catatan

Ini adalah kelas eksperimental, dan dapat berubah kapan saja. Lihat https://aka.ms/azuremlexperimental untuk mengetahui informasi selengkapnya.

Menunjukkan cara menautkan output dari proses dan dipromosikan sebagai TabularDataset.

LinkTabularOutputDatasetConfig memungkinkan Anda untuk menautkan file Tabular sebagai himpunan data output


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

Menginisialisasi LinkTabularOutputDatasetConfig.

OutputFileDatasetConfig

Mewakili cara menyalin output dari eksekusi dan dipromosikan sebagai FileDataset.

OutputFileDatasetConfig memungkinkan Anda untuk menentukan bagaimana Anda ingin jalur lokal tertentu pada target komputasi diunggah ke tujuan yang ditentukan. Jika tidak ada argumen yang diteruskan ke konstruktor, kami akan secara otomatis memberikan nama, tujuan, dan jalur lokal.

Contoh tidak meneruskan argumen apa pun:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Contoh membuat output kemudian mempromosikan output ke himpunan data tabular dan mendaftarkannya dengan foo nama :


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Menginisialisasi OutputFileDatasetConfig.

OutputFileDatasetConfig memungkinkan Anda untuk menentukan bagaimana Anda ingin jalur lokal tertentu pada target komputasi diunggah ke tujuan yang ditentukan. Jika tidak ada argumen yang diteruskan ke konstruktor, kami akan secara otomatis memberikan nama, tujuan, dan jalur lokal.

Contoh tidak meneruskan argumen apa pun:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Contoh membuat output kemudian mempromosikan output ke himpunan data tabular dan mendaftarkannya dengan nama foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Mewakili himpunan data tabular untuk digunakan dalam Azure Machine Learning.

TabularDataset menentukan serangkaian operasi yang bersifat lazily-evaluated dan tidak berubah untuk memuat data dari sumber data ke dalam representasi tabular. Data tidak dimuat dari sumber sampai TabularDataset diminta untuk mengirimkan data.

TabularDataset dibuat menggunakan metode seperti from_delimited_files dari kelas TabularDatasetFactory.

Untuk informasi selengkapnya, lihat artikel Menambahkan & mendaftarkan himpunan data. Untuk mulai bekerja dengan himpunan data tabular, lihat https://aka.ms/tabulardataset-samplenotebook.

Menginisialisasi objek TabularDataset.

Konstruktor ini tidak seharusnya dipanggil secara langsung. Himpunan data dimaksudkan untuk dibuat menggunakan TabularDatasetFactory kelas .