Dataset 類別

代表在 Azure Machine Learning 中探索、轉換和管理資料的資源。

資料集是公用 Web URL 中 Datastore 或後方資料的參考。

對於此類別中已被取代的方法,請檢查 AbstractDataset 類別是否有改善的 API。

支援下列資料集類型:

  • TabularDataset 會以表格式格式呈現在剖析提供的檔案或檔案清單後建立的資料。

  • FileDataset 會參考資料存放區或公用 URL 中的單一或多個檔案。

若要開始使用資料集,請參閱 新增 & 註冊資料集一文,或參閱筆記本 https://aka.ms/tabulardataset-samplenotebookhttps://aka.ms/filedataset-samplenotebook

繼承
builtins.object
Dataset

建構函式

Dataset(definition, workspace=None, name=None, id=None)

備註

Dataset 類別會公開兩個便利類別屬性, (FileTabular) 您可以使用來建立資料集,而不需使用對應的處理站方法。 例如,若要使用這些屬性建立資料集:

  • Dataset.Tabular.from_delimited_files()

  • Dataset.File.from_files()

您也可以直接呼叫 和 FileDatasetFactory 中所 TabularDatasetFactory 定義類別的對應 Factory 方法,以建立新的 TabularDataset 或 FileDataset。

下列範例說明如何建立指向資料存放區中單一路徑的 TabularDataset。


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

完整範例可從 https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

變數

azureml.core.Dataset.File

類別屬性,可讓您存取 FileDatasetFactory 方法來建立新的 FileDataset 物件。 使用量:Dataset.File.from_files () 。

azureml.core.Dataset.Tabular

類別屬性,可讓您存取 TabularDatasetFactory 方法來建立新的 TabularDataset 物件。 使用方式:Dataset.Tabular.from_delimited_files () 。

方法

archive

封存使用中或已淘汰的資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

auto_read_files

分析位於指定路徑 (檔案) ,並傳回新的資料集。

注意

這個方法已被取代,不再受到支援。

建議使用 Dataset.Tabular.from_* 方法來讀取檔案。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

compare_profiles

比較目前資料集的設定檔與另一個資料集設定檔。

這會顯示兩個資料集之間的摘要統計資料差異。 參數 'rhs_dataset' 代表「右側」,只是第二個資料集。 ) 目前資料集物件 (第一個資料集會被視為「左側」。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

create_snapshot

建立已註冊資料集的快照集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

delete_snapshot

依名稱刪除資料集的快照集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

deprecate

由另一個資料集取代工作區中的使用中資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

diff

使用rhs_dataset來差異目前的資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

from_binary_files

從二進位檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.File.from_files。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

from_delimited_files

從分隔的檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.from_delimited_files。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
from_excel_files

從 Excel 檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

from_json_files

從 JSON 檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.from_json_lines_files從 JSON 行檔案讀取。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

from_pandas_dataframe

從 pandas 資料框架建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.register_pandas_dataframe。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

from_parquet_files

從 parquet 檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.from_parquet_files。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

from_sql_query

從 SQL 查詢建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.from_sql_query。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

generate_profile

產生資料集的新設定檔。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get

藉由指定其名稱或識別碼,取得工作區中已存在的資料集。

注意

這個方法已被取代,不再受到支援。

建議改用 get_by_nameget_by_id 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_all

取得工作區中的所有已註冊資料集。

get_all_snapshots

取得資料集的所有快照集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_by_id

取得儲存至工作區的資料集。

get_by_name

依其註冊名稱從工作區取得已註冊的資料集。

get_definition

取得資料集的特定定義。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_definitions

取得資料集的所有定義。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_profile

取得稍早計算資料集的摘要統計資料。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_snapshot

依名稱取得資料集的快照集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

head

從這個資料集提取指定的記錄數目,並將其傳回為 DataFrame。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

list

列出工作區中的所有資料集,包括屬性等於 False 的 is_visible 資料集。

注意

這個方法已被取代,不再受到支援。

建議改用 get_all 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

reactivate

重新啟用封存或已被取代的資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

register

在工作區中註冊資料集,使其可供工作區的其他使用者使用。

注意

這個方法已被取代,不再受到支援。

建議改用 register 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

sample

使用提供的取樣策略和參數,從來源資料集產生新的範例。

注意

這個方法已被取代,不再受到支援。

TabularDataset呼叫 Dataset.Tabular 上的靜態方法,並在該處使用 方法, take_sample 以建立 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

to_pandas_dataframe

執行此資料集定義所定義的轉換管線,以建立 Pandas 資料框架。

注意

這個方法已被取代,不再受到支援。

TabularDataset呼叫 Dataset.Tabular 上的靜態方法,並在該處使用 方法, to_pandas_dataframe 以建立 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

to_spark_dataframe

建立 Spark DataFrame,以執行此資料集定義所定義的轉換管線。

注意

這個方法已被取代,不再受到支援。

TabularDataset呼叫 Dataset.Tabular 上的靜態方法,並在該處使用 方法, to_spark_dataframe 以建立 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

update

更新工作區中的資料集可變動屬性,並從工作區傳回更新的資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

update_definition

更新資料集定義。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

archive

封存使用中或已淘汰的資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

archive()

傳回

無。

傳回類型

備註

封存之後,任何嘗試取用資料集都會產生錯誤。 如果意外封存,重新開機將會啟動它。

auto_read_files

分析位於指定路徑 (檔案) ,並傳回新的資料集。

注意

這個方法已被取代,不再受到支援。

建議使用 Dataset.Tabular.from_* 方法來讀取檔案。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static auto_read_files(path, include_path=False, partition_format=None)

參數

path
DataReferencestr
必要

已註冊資料存放區中的資料路徑、本機路徑或 HTTP URL (CSV/TSV) 。

include_path
bool
必要

是否要包含包含包含讀取資料之檔案路徑的資料行。 讀取多個檔案時很有用,並想要知道特定記錄的來源檔案。 如果資料行中有您想要的檔案路徑或名稱中的資訊,也很有用。

partition_format
str
必要

在路徑中指定資料分割格式,並從格式為 '{x}' 和 datetime 資料行建立字串資料行,格式為 '{x:yyyy/MM/dd/HH/mm/ss}',其中 'yyyy'、'MM'、'HH'、'mm' 和 'ss' 是用來在日期時間類型外加年、月、日、小時、分鐘和秒。 格式應該從第一個資料分割索引鍵的位置開始,直到檔案路徑結尾為止。 例如,假設檔案路徑 '../Accounts/2019/01/01/data.csv',其中資料是以部門名稱和時間分割,我們可以定義 '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 來建立字串類型的資料行 'Department',以及 datetime 類型的 'PartitionDate' 資料行。

傳回

Dataset 物件。

傳回類型

備註

當自動偵測到檔案格式和分隔符號時,請使用這個方法。

建立資料集之後,您應該使用 get_profile 來列出每個資料行的偵測到的資料行類型和摘要統計資料。

傳回的資料集未向工作區註冊。

compare_profiles

比較目前資料集的設定檔與另一個資料集設定檔。

這會顯示兩個資料集之間的摘要統計資料差異。 參數 'rhs_dataset' 代表「右側」,只是第二個資料集。 ) 目前資料集物件 (第一個資料集會被視為「左側」。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=<HistogramCompareMethod.WASSERSTEIN: 0>)

參數

rhs_dataset
Dataset
必要

第二個資料集,也稱為「右側」資料集以進行比較。

profile_arguments
dict
必要

特定設定檔的引數。

include_columns
list[str]
必要

要包含在比較中的資料行名稱清單。

exclude_columns
list[str]
必要

比較中要排除的資料行名稱清單。

histogram_compare_method
HistogramCompareMethod
必要

描述比較方法的列舉,例如:Wasser一或能源

傳回

兩個資料集設定檔之間的差異。

傳回類型

<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

備註

這僅適用于已註冊的資料集。 如果目前資料集的設定檔不存在,則引發例外狀況。 若為未註冊的資料集,請使用 profile.compare 方法。

create_snapshot

建立已註冊資料集的快照集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

參數

snapshot_name
str
必要

快照集名稱。 快照集名稱在資料集內應該是唯一的。

compute_target
Union[ComputeTarget, str]
必要

執行快照集設定檔建立的選擇性計算目標。 如果省略,則會使用本機計算。

create_data_snapshot
bool
必要

如果為 True,則會建立資料的具體化複本。

target_datastore
Union[AbstractAzureStorageDatastore, str]
必要

要儲存快照集的目標資料存放區。 如果省略,則會在工作區的預設儲存體中建立快照集。

傳回

資料集快照集物件。

傳回類型

備註

快照集擷取基礎資料的時間點摘要統計資料,以及資料本身的選擇性複本。 若要深入瞭解如何建立快照集,請移至 https://aka.ms/azureml/howto/createsnapshots

delete_snapshot

依名稱刪除資料集的快照集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

delete_snapshot(snapshot_name)

參數

snapshot_name
str
必要

快照集名稱。

傳回

無。

傳回類型

備註

使用此方法可釋放儲存在快照集內不再需要之資料所耗用的儲存體。

deprecate

由另一個資料集取代工作區中的使用中資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

deprecate(deprecate_by_dataset_id)

參數

deprecate_by_dataset_id
str
必要

這是此資料集所要取代的資料集識別碼。

傳回

無。

傳回類型

備註

已取代的資料集會在取用時記錄警告。 取代資料集會取代其所有定義。

仍然可以取用已被取代的資料集。 若要完全封鎖資料集被取用,請封存它。

如果意外淘汰,重新開機將會啟動它。

diff

使用rhs_dataset來差異目前的資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

diff(rhs_dataset, compute_target=None, columns=None)

參數

rhs_dataset
Dataset
必要

另一個資料集也稱為右手資料集以進行比較

compute_target
Union[ComputeTarget, str]
必要

要執行差異的計算目標。 如果省略,則會使用本機計算。

columns
list[str]
必要

要包含在差異中的資料行名稱清單。

傳回

資料集動作執行物件。

傳回類型

from_binary_files

從二進位檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.File.from_files。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static from_binary_files(path)

參數

path
DataReferencestr
必要

已註冊資料存放區或本機路徑中的資料路徑。

傳回

Dataset 物件。

傳回類型

備註

使用此方法將檔案讀取為二進位資料的資料流程。 每個檔案讀取會傳回一個檔案資料流程物件。 當您讀取影像、影片、音訊或其他二進位資料時,請使用此方法。

get_profilecreate_snapshot 不適用於此方法所建立的資料集。

傳回的資料集未向工作區註冊。

from_delimited_files

從分隔的檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.from_delimited_files。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=<PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS: 3>, encoding=<FileEncoding.UTF8: 0>, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=<SkipLinesBehavior.NO_ROWS: 0>, comment=None, include_path=False, archive_options=None, partition_format=None)

參數

path
DataReferencestr
必要

已註冊資料存放區、本機路徑或 HTTP URL 中的資料路徑。

separator
str
必要

用來分割資料行的分隔符號。

header
PromoteHeadersBehavior
必要

控制從檔案讀取時,資料行標頭的升級方式。

encoding
FileEncoding
必要

正在讀取之檔案的編碼方式。

quoting
bool
必要

指定如何處理引號內的新行字元。 預設 (False) 是將新行字元解譯為起始新資料列,不論新行字元是否在引號內。 如果設定為 True,引號內的新行字元將不會產生新的資料列,而檔案讀取速度會變慢。

infer_column_types
bool
必要

指出是否推斷資料行資料類型。

skip_rows
int
必要

讀取檔案 () 中要略過的資料列數目。

skip_mode
SkipLinesBehavior
必要

控制從檔案讀取時略過資料列的方式。

comment
str
必要

用來指出所讀取檔案中批註行的字元。 將會略過以這個字串開頭的行。

include_path
bool
必要

是否要包含包含包含讀取資料之檔案路徑的資料行。 當您讀取多個檔案,並想要知道特定記錄的來源檔案,或保留檔案路徑中的實用資訊時,這會很有用。

archive_options
<xref:azureml.dataprep.ArchiveOptions>
必要

封存檔案的選項,包括封存類型和專案 Glob 模式。 我們目前僅支援 ZIP 作為封存類型。 例如,指定


   archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')

會在 ZIP 中讀取名稱結尾為 「10-20.csv」 的所有檔案。

partition_format
str
必要

在路徑中指定資料分割格式,並從格式為 '{x}' 和 datetime 資料行建立字串資料行,格式為 '{x:yyyy/MM/dd/HH/mm/ss}',其中 'yyyy'、'MM'、'HH'、'mm' 和 'ss' 是用來在日期時間類型外加年、月、日、小時、分鐘和秒。 格式應該從第一個資料分割索引鍵的位置開始,直到檔案路徑結尾為止。 例如,假設檔案路徑 '../Accounts/2019/01/01/data.csv',其中資料是以部門名稱和時間分割,我們可以定義 '/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' 來建立字串類型的資料行 'Department',以及 datetime 類型的 'PartitionDate' 資料行。

傳回

Dataset 物件。

傳回類型

備註

當您想要控制使用的選項時,請使用這個方法來讀取分隔的文字檔。

建立資料集之後,您應該使用 get_profile 來列出每個資料行的偵測到的資料行類型和摘要統計資料。

傳回的資料集未向工作區註冊。

from_excel_files

從 Excel 檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

參數

path
DataReferencestr
必要

已註冊資料存放區或本機路徑中的資料路徑。

sheet_name
str
必要

要載入的 Excel 工作表名稱。 根據預設,我們會從每個 Excel 檔案讀取第一張工作表。

use_column_headers
bool
必要

控制是否要使用第一個資料列做為資料行標頭。

skip_rows
int
必要

讀取檔案 () 中要略過的資料列數目。

include_path
bool
必要

是否要包含包含包含讀取資料之檔案路徑的資料行。 當您讀取多個檔案,並想要知道特定記錄的來源檔案,或保留檔案路徑中的實用資訊時,這會很有用。

infer_column_types
bool
必要

如果為 true,則會推斷資料行資料類型。

partition_format
str
必要

在路徑中指定資料分割格式,並從格式為 '{x}' 和 datetime 資料行建立字串資料行,格式為 '{x:yyyy/MM/dd/HH/mm/ss}',其中 'yyyy'、'MM'、'HH'、'mm' 和 'ss' 是用來在日期時間類型外加年、月、日、小時、分鐘和秒。 格式應該從第一個資料分割索引鍵的位置開始,直到檔案路徑結尾為止。 例如,假設檔案路徑 '../Accounts/2019/01/01/data.xlsx',其中資料是以部門名稱和時間分割,我們可以定義 '/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' 來建立字串類型的資料行 'Department',以及 datetime 類型的 'PartitionDate' 資料行。

傳回

Dataset 物件。

傳回類型

備註

使用此方法以.xlsx格式讀取 Excel 檔案。 資料可以從每個 Excel 檔案中的一個工作表讀取。 建立資料集之後,您應該使用 get_profile 來列出每個資料行的偵測到的資料行類型和摘要統計資料。 傳回的資料集未向工作區註冊。

from_json_files

從 JSON 檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.from_json_lines_files從 JSON 行檔案讀取。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static from_json_files(path, encoding=<FileEncoding.UTF8: 0>, flatten_nested_arrays=False, include_path=False, partition_format=None)

參數

path
DataReferencestr
必要

您要載入和剖析之檔案 () 或資料夾 () 的路徑。 它可以是本機路徑或 Azure Blob URL。 支援萬用字元。 例如,您可以使用 path = 「./data*」 來讀取名稱開頭為 「data」 的所有檔案。

encoding
FileEncoding
必要

正在讀取之檔案的編碼方式。

flatten_nested_arrays
bool
必要

屬性控制程式的巢狀陣列處理。 如果您選擇扁平化巢狀 JSON 陣列,可能會導致較大的資料列數目。

include_path
bool
必要

是否要包含包含資料讀取路徑的資料行。 當您讀取多個檔案,而且可能想要知道特定記錄的來源檔案,或保留檔案路徑中的實用資訊時,這會很有用。

partition_format
str
必要

在路徑中指定資料分割格式,並從格式為 '{x}' 和 datetime 資料行建立字串資料行,格式為 '{x:yyyy/MM/dd/HH/mm/ss}',其中 'yyyy'、'MM'、'HH'、'mm' 和 'ss' 是用來在日期時間類型外加年、月、日、小時、分鐘和秒。 格式應該從第一個資料分割索引鍵的位置開始,直到檔案路徑結尾為止。 例如,假設檔案路徑 '../Accounts/2019/01/01/data.json' 和資料會依部門名稱和時間分割,我們可以定義 '/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' 來建立字串類型的資料行 'Department',以及 datetime 類型的 'PartitionDate' 資料行。

傳回

本機 Dataset 物件。

傳回類型

from_pandas_dataframe

從 pandas 資料框架建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.register_pandas_dataframe。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

參數

dataframe
DataFrame
必要

Pandas DataFrame。

path
Union[DataReference, str]
必要

已註冊資料存放區或本機資料夾路徑中的資料路徑。

in_memory
bool
必要

是否要從記憶體讀取 DataFrame,而不是保存至磁片。

傳回

Dataset 物件。

傳回類型

備註

使用這個方法可將 Pandas 資料框架轉換成 Dataset 物件。 這個方法建立的資料集無法註冊,因為資料來自記憶體。

如果 in_memory 為 False,Pandas DataFrame 就會在本機轉換成 CSV 檔案。 如果 pat 屬於 DataReference 類型,則 Pandas 框架會上傳至資料存放區,而資料集會以 DataReference 為基礎。 如果 ''path' 是本機資料夾,則會從無法刪除的本機檔案建立資料集。

如果目前的 DataReference 不是資料夾路徑,則引發例外狀況。

from_parquet_files

從 parquet 檔案建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.from_parquet_files。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static from_parquet_files(path, include_path=False, partition_format=None)

參數

path
DataReferencestr
必要

已註冊資料存放區或本機路徑中的資料路徑。

include_path
bool
必要

是否要包含包含包含讀取資料之檔案路徑的資料行。 當您讀取多個檔案,並想要知道特定記錄的來源檔案,或保留檔案路徑中的實用資訊時,這會很有用。

partition_format
str
必要

在路徑中指定資料分割格式,並從格式為 '{x}' 和 datetime 資料行建立字串資料行,格式為 '{x:yyyy/MM/dd/HH/mm/ss}',其中 'yyyy'、'MM'、'HH'、'mm' 和 'ss' 是用來在日期時間類型外加年、月、日、小時、分鐘和秒。 格式應該從第一個資料分割索引鍵的位置開始,直到檔案路徑結尾為止。 例如,假設檔案路徑 '../Accounts/2019/01/01/data.parquet',其中資料是以部門名稱和時間分割,我們可以定義 '/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' 來建立字串類型的資料行 'Department',以及 datetime 類型的 'PartitionDate' 資料行。

傳回

Dataset 物件。

傳回類型

備註

使用這個方法來讀取 Parquet 檔案。

建立資料集之後,您應該使用 get_profile 來列出每個資料行的偵測到的資料行類型和摘要統計資料。

傳回的資料集未向工作區註冊。

from_sql_query

從 SQL 查詢建立未註冊的記憶體內部資料集。

注意

這個方法已被取代,不再受到支援。

建議改用Dataset.Tabular.from_sql_query。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static from_sql_query(data_source, query)

參數

data_source
AzureSqlDatabaseDatastore
必要

Azure SQL資料存放區的詳細資料。

query
str
必要

要執行以讀取資料的查詢。

傳回

本機 Dataset 物件。

傳回類型

generate_profile

產生資料集的新設定檔。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

generate_profile(compute_target=None, workspace=None, arguments=None)

參數

compute_target
Union[ComputeTarget, str]
必要

執行快照集設定檔建立的選擇性計算目標。 如果省略,則會使用本機計算。

workspace
Workspace
必要

工作區,需要暫時性 (未註冊) 資料集。

arguments
dict[str, object]
必要

設定檔引數。 有效的引數包括:

  • bool 類型的 'include_stype_counts'。 檢查值看起來是否類似一些已知的語意類型,例如電子郵件地址、IP 位址 (V4/V6) 、美國電話號碼、美國郵遞區號、緯度/經度。 啟用此功能會影響效能。

  • int 類型的 'number_of_histogram_bins'。表示要用於數值資料的長條圖量化數目。 預設值是 10。

傳回

資料集動作執行物件。

傳回類型

備註

同步呼叫 將會封鎖直到完成為止。 呼叫 get_result 以取得動作的結果。

get

藉由指定其名稱或識別碼,取得工作區中已存在的資料集。

注意

這個方法已被取代,不再受到支援。

建議改用 get_by_nameget_by_id 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static get(workspace, name=None, id=None)

參數

workspace
Workspace
必要

建立資料集的現有 AzureML 工作區。

name
str
必要

要擷取的資料集名稱。

id
str
必要

工作區中資料集的唯一識別碼。

傳回

具有指定名稱或識別碼的資料集。

傳回類型

備註

您可以提供 nameid 。 如果下列狀況,則會引發例外狀況:

  • id和 都 name 已指定,但不符合。

  • 工作區中找不到具有指定 nameid 的資料集。

get_all

取得工作區中的所有已註冊資料集。

get_all()

參數

workspace
Workspace
必要

已註冊資料集的現有 AzureML 工作區。

傳回

TabularDataset 和 FileDataset 物件的字典,其註冊名稱會以索引鍵。

傳回類型

get_all_snapshots

取得資料集的所有快照集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_all_snapshots()

傳回

資料集快照集的清單。

傳回類型

get_by_id

取得儲存至工作區的資料集。

get_by_id(id)

參數

workspace
Workspace
必要

儲存資料集的現有 AzureML 工作區。

id
str
必要

資料集的識別碼。

傳回

資料集物件。 如果資料集已註冊,也會傳回其註冊名稱和版本。

傳回類型

get_by_name

依其註冊名稱從工作區取得已註冊的資料集。

get_by_name(name, version='latest')

參數

workspace
Workspace
必要

已註冊資料集的現有 AzureML 工作區。

name
str
必要

註冊名稱。

version
int
必要

註冊版本。 預設為 'latest'。

傳回

已註冊的資料集物件。

傳回類型

get_definition

取得資料集的特定定義。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_definition(version_id=None)

參數

version_id
str
必要

資料集定義的版本識別碼

傳回

資料集定義。

傳回類型

備註

如果 version_id 提供 ,則 Azure Machine Learning 會嘗試取得對應至該版本的定義。 如果該版本不存在,則會擲回例外狀況。 如果 version_id 省略 ,則會擷取最新版本。

get_definitions

取得資料集的所有定義。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_definitions()

傳回

資料集定義的字典。

傳回類型

備註

在 AzureML 工作區中註冊的資料集可以有多個定義,每個定義都是藉由呼叫 update_definition 來建立。 每個定義都有唯一識別碼。 目前的定義是建立的最新定義。

針對未註冊的資料集,只有一個定義存在。

get_profile

取得稍早計算資料集的摘要統計資料。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

參數

arguments
dict[str, object]
必要

設定檔引數。

generate_if_not_exist
bool
必要

指出是否要在設定檔不存在時產生設定檔。

workspace
Workspace
必要

暫時性 (取消註冊) 資料集所需的工作區。

compute_target
Union[ComputeTarget, str]
必要

執行設定檔動作的計算目標。

傳回

資料集的 DataProfile。

傳回類型

<xref:azureml.dataprep.DataProfile>

備註

針對向 Azure Machine Learning 工作區註冊的資料集,此方法會擷取先前藉由呼叫 get_profile 它是否仍然有效所建立的現有設定檔。 在資料集中偵測到變更的資料時,設定檔會失效,或引數與產生設定檔時所使用的引數 get_profile 不同。 如果設定檔不存在或失效, generate_if_not_exist 將會判斷是否產生新的設定檔。

對於未向 Azure Machine Learning 工作區註冊的資料集,此方法一律會執行 generate_profile 並傳回結果。

get_snapshot

依名稱取得資料集的快照集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

get_snapshot(snapshot_name)

參數

snapshot_name
str
必要

快照集名稱。

傳回

資料集快照集物件。

傳回類型

head

從這個資料集提取指定的記錄數目,並將其傳回為 DataFrame。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

head(count)

參數

count
int
必要

要提取的記錄數目。

傳回

Pandas DataFrame。

傳回類型

list

列出工作區中的所有資料集,包括屬性等於 False 的 is_visible 資料集。

注意

這個方法已被取代,不再受到支援。

建議改用 get_all 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

static list(workspace)

參數

workspace
Workspace
必要

您想要擷取資料集清單的工作區。

傳回

資料集物件的清單。

傳回類型

reactivate

重新啟用封存或已被取代的資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

reactivate()

傳回

無。

傳回類型

register

在工作區中註冊資料集,使其可供工作區的其他使用者使用。

注意

這個方法已被取代,不再受到支援。

建議改用 register 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

參數

workspace
Workspace
必要

要在其中註冊資料集的 AzureML 工作區。

name
str
必要

工作區中資料集的名稱。

description
str
必要

資料集的描述。

tags
dict[str, str]
必要

要與資料集建立關聯的標記。

visible
bool
必要

指出資料集是否顯示在 UI 中。 如果為 False,則資料集會隱藏在 UI 中,並透過 SDK 取得。

exist_ok
bool
必要

如果為 True,則如果資料集已存在於指定的工作區中,則此方法會傳回資料集,否則會傳回錯誤。

update_if_exist
bool
必要

如果 exist_ok 為 True 且 update_if_exist 為 True,則此方法會更新定義並傳回更新的資料集。

傳回

工作區中已註冊的 Dataset 物件。

傳回類型

sample

使用提供的取樣策略和參數,從來源資料集產生新的範例。

注意

這個方法已被取代,不再受到支援。

TabularDataset呼叫 Dataset.Tabular 上的靜態方法,並在該處使用 方法, take_sample 以建立 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

sample(sample_strategy, arguments)

參數

sample_strategy
str
必要

要使用的範例策略。 接受的值是 「top_n」、「simple_random」 或 「stratified」。

arguments
dict[str, object]
必要

字典,其中包含上述清單中 「Optional argument」 的索引鍵,以及來自 tye 「Type」 資料行的值。 只能使用對應取樣方法中的引數。 例如,針對 「simple_random」 範例類型,您只能指定具有 「probability」 和 「seed」 索引鍵的字典。

傳回

資料集物件作為原始資料集的範例。

傳回類型

備註

範例是藉由執行此資料集所定義的轉換管線來產生,然後將取樣策略和參數套用至輸出資料。 每個取樣方法都支援下列選擇性引數:

  • top_n

    • 選擇性引數

      • n,輸入整數。 選取前 N 個數據列作為範例。
  • simple_random

    • 選擇性引數

      • probability,類型 float。 簡單隨機取樣,其中每個資料列都有相等的選取機率。 機率應該是介於 0 到 1 之間的數位。

      • seed,類型 float。 亂數產生器使用。 用於可重複性。

  • 分層

    • 選擇性引數

      • columns, type list[str]。 資料中的階層資料行清單。

      • seed,類型 float。 亂數產生器使用。 用於可重複性。

      • fractions, type dict[tuple, float]。 Tuple:定義階層的資料行值,順序必須與資料行名稱相同。 Float:取樣期間附加至階層的加權。

下列程式碼片段是不同範例方法的範例設計模式。


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

執行此資料集定義所定義的轉換管線,以建立 Pandas 資料框架。

注意

這個方法已被取代,不再受到支援。

TabularDataset呼叫 Dataset.Tabular 上的靜態方法,並在該處使用 方法, to_pandas_dataframe 以建立 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

to_pandas_dataframe()

傳回

Pandas 資料框架。

傳回類型

備註

傳回記憶體中完全具體化的 Pandas DataFrame。

to_spark_dataframe

建立 Spark DataFrame,以執行此資料集定義所定義的轉換管線。

注意

這個方法已被取代,不再受到支援。

TabularDataset呼叫 Dataset.Tabular 上的靜態方法,並在該處使用 方法, to_spark_dataframe 以建立 。 如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

to_spark_dataframe()

傳回

Spark DataFrame。

傳回類型

備註

傳回的 Spark 資料框架只是執行計畫,而且實際上不包含任何資料,因為 Spark 資料框架會延遲評估。

update

更新工作區中的資料集可變動屬性,並從工作區傳回更新的資料集。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

update(name=None, description=None, tags=None, visible=None)

參數

name
str
必要

工作區中資料集的名稱。

description
str
必要

資料的描述。

tags
dict[str, str]
必要

要與資料集建立關聯的標記。

visible
bool
必要

指出資料集是否顯示在 UI 中。

傳回

工作區中已更新的 Dataset 物件。

傳回類型

update_definition

更新資料集定義。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

update_definition(definition, definition_update_message)

參數

definition
DatasetDefinition
必要

這個資料集的新定義。

definition_update_message
str
必要

定義更新訊息。

傳回

工作區中已更新的 Dataset 物件。

傳回類型

備註

若要取用更新的資料集,請使用此方法傳回的物件。

屬性

definition

傳回目前的資料集定義。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

傳回

資料集定義。

傳回類型

備註

資料集定義是一系列步驟,可指定如何讀取和轉換資料。

在 AzureML 工作區中註冊的資料集可以有多個定義,每個定義都是藉由呼叫 update_definition 來建立。 每個定義都有唯一識別碼。 擁有多個定義可讓您變更現有的資料集,而不需要中斷相依于舊定義的模型和管線。

對於未註冊的資料集,只有一個定義存在。

definition_version

傳回資料集目前定義的版本。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

傳回

資料集定義版本。

傳回類型

str

備註

資料集定義是一系列步驟,可指定如何讀取和轉換資料。

在 AzureML 工作區中註冊的資料集可以有多個定義,每個定義都是藉由呼叫 update_definition 來建立。 每個定義都有唯一識別碼。 目前的定義是所建立的最新定義,其識別碼會由這個 所傳回。

對於未註冊的資料集,只有一個定義存在。

description

傳回資料集的描述。

傳回

資料集描述。

傳回類型

str

備註

指定資料集中資料的描述,可讓工作區的使用者瞭解資料代表的內容,以及其使用方式。

id

如果資料集已在工作區中註冊,則傳回資料集的識別碼。 否則,傳回 None。

傳回

資料集識別碼。

傳回類型

str

is_visible

在 Azure ML 工作區 UI 中控制已註冊資料集的可見度。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

傳回

資料集可見度。

傳回類型

備註

傳回的值:

  • True:資料集會顯示在工作區 UI 中。 預設值。

  • False:資料集隱藏在工作區 UI 中。

不會影響未註冊的資料集。

name

傳回資料集名稱。

傳回

資料集名稱。

傳回類型

str

state

傳回資料集的狀態。

注意

這個方法已被取代,不再受到支援。

如需詳細資訊,請參閱https://aka.ms/dataset-deprecation

傳回

資料集狀態。

傳回類型

str

備註

狀態的意義和效果如下所示:

  • 作用中。 作用中定義完全符合其音效,所有動作都可以在作用中定義上執行。

  • 已取代。 可以使用已被取代的定義,但每次存取基礎資料時,都會在記錄中記錄警告。

  • 已封存。 封存的定義無法用來執行任何動作。 若要對封存的定義執行動作,必須重新啟用它。

tags

傳回與資料集相關聯的標記。

傳回

資料集標籤。

傳回類型

workspace

如果資料集已在工作區中註冊,請傳回該資料集。 否則,傳回 None。

傳回

工作區。

傳回類型