data 套件

參考

包含支援 Azure Machine Learning 中資料存放區和數據集之數據表示的模組。

此套件包含套件中core支援Datastore的核心Dataset功能和類別。數據存放區物件包含可透過名稱輕鬆參考的 Azure 記憶體服務連線資訊，而不需要直接在腳本中使用或硬式程式代碼連線資訊。資料存放區支援此套件中類別所代表的一些不同服務，包括 AzureBlobDatastore、 AzureFileDatastore和 AzureDataLakeDatastore。如需支援之記憶體服務的完整清單，請參閱類別 Datastore 。

雖然數據存放區可作為數據檔的容器，但您可以將數據集視為數據存放區中特定數據的參考或指標。支援下列資料集型態：

TabularDataset 會以表格式格式呈現在剖析提供的檔案或檔案清單後建立的資料。
FileDataset 會參考數據存放區或公用 URL 中的單一或多個檔案。

如需詳細資訊，請參閱新增 & 註冊數據集一文。若要開始使用資料集，請參閱 https://aka.ms/tabulardataset-samplenotebook 和 https://aka.ms/filedataset-samplenotebook。

單元

abstract_dataset	包含 Azure Machine Learning 中數據集的抽象基類。
abstract_datastore	包含將數據存放區儲存連線資訊至 Azure 記憶體服務的基底功能。
azure_data_lake_datastore	包含儲存連線資訊至 Azure Data Lake Storage 的數據存放區基底功能。
azure_my_sql_datastore	包含儲存連線資訊至適用於 MySQL 的 Azure 資料庫的數據存放區基底功能。
azure_postgre_sql_datastore	包含儲存連線資訊至適用於 PostgreSQL 的 Azure 資料庫的數據存放區基底功能。
azure_sql_database_datastore	包含儲存連線資訊至 Azure SQL 資料庫的數據存放區基底功能。
azure_storage_datastore	包含數據存放區的功能，這些數據存放區會將連線資訊儲存至 Azure Blob 和 Azure 檔案記憶體。
constants	azureml.data 套件中使用的常數。僅供內部使用。
context_managers	包含管理資料存放區和數據集數據內容的功能。僅供內部使用。
data_reference	包含定義如何在數據存放區中建立數據的參考的功能。
datacache	包含在 Azure Machine Learning 中管理 DatacacheStore 和 Datacache 的功能。
datacache_client	僅供內部使用。
datacache_consumption_config	包含 DataCache 取用設定的功能。
datacache_singularity_settings	包含 Datacache 單一性設定表示所需的物件。
datapath	包含在數據存放區中建立數據參考的功能。此課程模組包含 DataPath 類別，代表數據的位置，以及 DataPathComputeBinding 類別，代表數據在計算目標上的可用方式。
dataset_action_run	包含管理數據集動作執行的功能。本課程模組提供建立數據集動作並在完成之後取得其結果的便利方法。
dataset_consumption_config	包含數據集耗用量設定的功能。
dataset_definition	包含管理數據集定義及其作業的功能。注意此課程模組已被取代。如需詳細資訊，請參閱https://aka.ms/dataset-deprecation。
dataset_error_handling	包含 Azure Machine Learning 中數據集錯誤處理的例外狀況。
dataset_factory	包含建立 Azure Machine Learning 數據集的功能。
dataset_profile	類別，用於收集數據流所產生數據的摘要統計數據。本課程模組中的功能包括收集產生配置檔之執行的相關信息，不論配置檔是否過時。
dataset_profile_run	包含在 Azure Machine Learning 中監視數據集配置檔執行的組態。本課程模組中的功能包括處理和監視與實驗對象和個別執行標識符相關聯的數據集配置檔執行。
dataset_profile_run_config	包含組態，以在 Azure Machine Learning 中產生數據集的統計數據摘要。本課程模組中的功能包括提交本機或遠端配置檔執行的方法，以及可視化提交配置檔執行的結果。
dataset_snapshot	包含管理數據集快照集作業的功能。注意此課程模組已被取代。如需詳細資訊，請參閱https://aka.ms/dataset-deprecation。
dataset_type_definitions	包含搭配 Dataset使用的列舉值。
datastore_client	僅供內部使用。
dbfs_datastore	包含數據存放區的功能，這些數據存放區會將連線資訊儲存至 Databricks 檔案 Sytem (DBFS) 。
file_dataset	包含參考數據存放區或公用 URL 中單一或多個檔案的功能。如需詳細資訊，請參閱新增 & 註冊數據集一文。若要開始使用檔案資料集，請參閱 https://aka.ms/filedataset-samplenotebook。
hdfs_datastore	包含儲存連線資訊至 HDFS 叢集的數據存放區基底功能。
output_dataset_config	包含組態，指定作業的輸出應該如何上傳並升階至數據集。如需詳細資訊，請參閱如何指定輸出一文。
sql_data_reference	包含在數據存放區中建立資料參考的功能，這些數據存放區會將連接資訊儲存至 SQL 資料庫。
stored_procedure_parameter	包含用來建立參數以傳遞至 SQL 預存程式的功能。
tabular_dataset	包含藉由剖析提供的檔案或檔案清單，以表格式表示數據的功能。如需詳細資訊，請參閱新增 & 註冊數據集一文。若要開始使用表格式資料集，請參閱 https://aka.ms/tabulardataset-samplenotebook。

類別

DataType	為在 Azure Machine Learning 中建立的數據集設定數據行數據類型。 DataType 方法用於 TabularDatasetFactory 類別 `from_*` 方法中，用來建立新的 TabularDataset 物件。
DatacacheStore	注意這是實驗性類別，隨時可能會變更。請參閱 https://aka.ms/azuremlexperimental 以取得詳細資訊。代表 Azure Machine Learning 記憶體帳戶的記憶體抽象概念。 DatacacheStore 會附加至工作區，並用來儲存與基礎 datacache 解決方案相關的資訊。目前僅支援分割的 Blob 解決方案。 Datacachestores 會定義可用於快取的各種 Blob 資料存放區。使用此類別來執行管理作業，包括緩存器、清單、取得和更新 datacachestores。每個服務的 DatacacheStores 都會使用 `register*` 這個類別的方法建立。依名稱取得 datacachestore。此呼叫會向 datacache 服務提出要求。
FileDataset	代表數據存放區或公用 URL 中要用於 Azure Machine Learning 的檔案參考集合。 FileDataset 會定義一系列的延遲評估、不可變的作業，以將數據從數據源載入檔案數據流。除非要求 FileDataset 傳遞數據，否則不會從來源載入數據。 FileDataset 是使用 from_files FileDatasetFactory 類別的方法來建立。如需詳細資訊，請參閱新增 & 註冊數據集一文。若要開始使用檔案資料集，請參閱 https://aka.ms/filedataset-samplenotebook。初始化 FileDataset 物件。此建構函式不應該直接叫用。數據集旨在使用 FileDatasetFactory 類別來建立。
HDFSOutputDatasetConfig	表示如何輸出至 HDFS 路徑，並升階為 FileDataset。初始化 HDFSOutputDatasetConfig。
LinkFileOutputDatasetConfig	注意這是實驗性類別，隨時可能會變更。請參閱 https://aka.ms/azuremlexperimental 以取得詳細資訊。表示如何連結回合的輸出，並升級為 FileDataset。 LinkFileOutputDatasetConfig 可讓您將檔案數據集連結為輸出數據集 workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkFileOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) 初始化 LinkFileOutputDatasetConfig。
LinkTabularOutputDatasetConfig	注意這是實驗性類別，隨時可能會變更。請參閱 https://aka.ms/azuremlexperimental 以取得詳細資訊。表示如何鏈接執行的輸出，並升級為 TabularDataset。 LinkTabularOutputDatasetConfig 可讓您將檔案表格式連結為輸出數據集 workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = LinkTabularOutputDatasetConfig('link_output') script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output]) # within link.py # from azureml.core import Run, Dataset # run = Run.get_context() # workspace = run.experiment.workspace # dataset = Dataset.get_by_name(workspace, name='dataset_to_link') # run.output_datasets['link_output'].link(dataset) run = experiment.submit(script_run_config) print(run) 初始化 LinkTabularOutputDatasetConfig。
OutputFileDatasetConfig	表示如何複製執行的輸出，並升階為 FileDataset。 OutputFileDatasetConfig 可讓您指定如何將計算目標上的特定本機路徑上傳至指定的目的地。如果未將任何自變數傳遞至建構函式，我們將會自動產生名稱、目的地和本機路徑。未傳遞任何自變數的範例： `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` 建立輸出的範例，然後將輸出升階為表格式數據集，並以名稱 foo 註冊： `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` 初始化 OutputFileDatasetConfig。 OutputFileDatasetConfig 可讓您指定如何將計算目標上的特定本機路徑上傳至指定的目的地。如果未將任何自變數傳遞至建構函式，我們將會自動產生名稱、目的地和本機路徑。未傳遞任何自變數的範例： `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') output = OutputFileDatasetConfig() script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)` 建立輸出的範例，然後將輸出升階為表格式數據集，並以名稱 foo 註冊： `workspace = Workspace.from_config() experiment = Experiment(workspace, 'output_example') datastore = Datastore(workspace, 'example_adls_gen2_datastore') # for more information on the parameters and methods, please look for the corresponding documentation. output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo') script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output]) run = experiment.submit(script_run_config) print(run)`
TabularDataset	代表要用於 Azure Machine Learning 的表格式數據集。 TabularDataset 會定義一系列的延遲評估、不可變的作業，以將數據從數據源載入表格式表示。除非要求 TabularDataset 傳遞數據，否則不會從來源載入數據。 TabularDataset 是使用類似 from_delimited_files 類別 TabularDatasetFactory 的方法所建立。如需詳細資訊，請參閱新增 & 註冊數據集一文。若要開始使用表格式資料集，請參閱 https://aka.ms/tabulardataset-samplenotebook。初始化 TabularDataset 物件。此建構函式不應該直接叫用。數據集旨在使用 TabularDatasetFactory 類別來建立。

共用方式為

data 套件

單元

類別

意見反應

其他資源