Dataset クラス

Azure Machine Learning でデータを探索、変換、および管理するためのリソースを表します。

データセットは、 Datastore またはパブリック Web URL の背後にあるデータへの参照です。

このクラスで非推奨となったメソッドについては、改善された API AbstractDataset クラスを確認してください。

次のデータセットの種類がサポートされています。

TabularDataset は、指定されたファイルまたはファイルの一覧を解析して作成された表形式のデータを表します。
FileDataset データストア内の単一または複数のファイル、またはパブリック URL から参照します。

データセットの使用を開始するには、「データセットの追加と登録」の記事を参照するか、ノートブックの https://aka.ms/tabulardataset-samplenotebook と https://aka.ms/filedataset-samplenotebookを参照してください。

Dataset オブジェクトを初期化します。

ワークスペースに既に登録されているデータセットを取得するには、get メソッドを使用します。

コンストラクター

Dataset(definition, workspace=None, name=None, id=None)

パラメーター

名前	説明
definition 必須	<xref:azureml.data.DatasetDefinition> データセットの定義。
workspace 必須	Workspace データセットが存在するワークスペース。
name 必須	str データセットの名前。
id 必須	str データセットの一意識別子。

注釈

Dataset クラスには、対応するファクトリメソッドを操作せずにデータセットを作成するために使用できる便利な 2 つのクラス属性 (File と Tabular) が公開されています。たとえば、次の属性を使用してデータセットを作成するには、次のようにします。

Dataset.Tabular.from_delimited_files()
Dataset.File.from_files()

TabularDatasetFactoryおよびFileDatasetFactoryで定義されているクラスの対応するファクトリメソッドを直接呼び出すことによって、新しい TabularDataset または FileDataset を作成することもできます。

次の例は、データストア内の 1 つのパスを指す TabularDataset を作成する方法を示しています。


   from azureml.core import Dataset
   dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])

   # preview the first 3 rows of the dataset
   dataset.take(3).to_pandas_dataframe()

完全なサンプルは次から入手できます https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb

変数

名前	説明
azureml.core.Dataset.File	新しい FileDataset オブジェクトを作成するための FileDatasetFactory メソッドへのアクセスを提供するクラス属性。使用法: Dataset.File.from_files()。
azureml.core.Dataset.Tabular	新しい TabularDataset オブジェクトを作成するための TabularDatasetFactory メソッドへのアクセスを提供するクラス属性。使用法: Dataset.Tabular.from_delimited_files()。

メソッド

archive	アクティブまたは非推奨のデータセットをアーカイブします。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
auto_read_files	指定したパスにあるファイルを分析し、新しいデータセットを返します。注このメソッドは非推奨となり、サポートされなくなります。 Dataset.Tabular.from_* メソッドを使用してファイルを読み取うことをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
compare_profiles	現在のデータセットのプロファイルを別のデータセットプロファイルと比較します。これは、2 つのデータセット間の概要統計の違いを示しています。パラメーター 'rhs_dataset' は "右側" を表し、単に 2 番目のデータセットです。最初のデータセット (現在のデータセットオブジェクト) は、"左側" と見なされます。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
create_snapshot	登録済みのデータセットのスナップショットを作成します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
delete_snapshot	名前でデータセットのスナップショットを削除します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
deprecate	別のデータセットによってワークスペース内のアクティブなデータセットを非推奨にします。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
diff	現在のデータセットとrhs_datasetを比較します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
from_binary_files	バイナリファイルから未登録のメモリ内データセットを作成します。注このメソッドは非推奨となり、サポートされなくなります。代わりにDataset.File.from_filesを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
from_delimited_files	区切りファイルから、未登録のメモリ内データセットを作成します。注このメソッドは非推奨となり、サポートされなくなります。代わりにDataset.Tabular.from_delimited_filesを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。 `# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'), header='ALL_FILES_HAVE_SAME_HEADERS') df = dataset.to_pandas_dataframe()`
from_excel_files	Excel ファイルから、未登録のメモリ内データセットを作成します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
from_json_files	JSON ファイルから未登録のメモリ内データセットを作成します。注このメソッドは非推奨となり、サポートされなくなります。 JSON 行ファイルから読み取る代わりに、Dataset.Tabular.from_json_lines_filesを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
from_pandas_dataframe	pandas データフレームから、未登録のメモリ内データセットを作成します。注このメソッドは非推奨となり、サポートされなくなります。代わりにDataset.Tabular.register_pandas_dataframeを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
from_parquet_files	Parquet ファイルから、未登録のメモリ内データセットを作成します。注このメソッドは非推奨となり、サポートされなくなります。代わりにDataset.Tabular.from_parquet_filesを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
from_sql_query	SQL クエリから、未登録のメモリ内データセットを作成します。注このメソッドは非推奨となり、サポートされなくなります。代わりにDataset.Tabular.from_sql_queryを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
generate_profile	データセットの新しいプロファイルを生成します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
get	ワークスペースに既に存在するデータセットを取得するには、その名前または ID を指定します。注このメソッドは非推奨となり、サポートされなくなります。代わりに get_by_name と get_by_id を使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
get_all	ワークスペースに登録されているすべてのデータセットを取得します。
get_all_snapshots	データセットのすべてのスナップショットを取得します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
get_by_id	ワークスペースに保存されているデータセットを取得します。
get_by_name	登録名でワークスペースから登録済みデータセットを取得します。
get_definition	データセットの特定の定義を取得します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
get_definitions	データセットのすべての定義を取得します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
get_profile	前に計算したデータセットの概要統計を取得します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
get_snapshot	名前でデータセットのスナップショットを取得します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
head	このデータセットから指定された数のレコードをプルし、DataFrame として返します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
list	ワークスペース内のすべてのデータセット ( `is_visible` プロパティが False のデータセットを含む) を一覧表示します。注このメソッドは非推奨となり、サポートされなくなります。代わりに get_all を使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
reactivate	アーカイブされたデータセットまたは非推奨のデータセットを再アクティブ化します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
register	ワークスペースにデータセットを登録し、ワークスペースの他のユーザーが使用できるようにします。注このメソッドは非推奨となり、サポートされなくなります。代わりに register を使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。
sample	指定されたサンプリング戦略とパラメーターを使用して、ソースデータセットから新しいサンプルを生成します。注このメソッドは非推奨となり、サポートされなくなります。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。詳細については、https://aka.ms/dataset-deprecationを参照してください。
to_pandas_dataframe	このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。注このメソッドは非推奨となり、サポートされなくなります。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。詳細については、https://aka.ms/dataset-deprecationを参照してください。
to_spark_dataframe	このデータセット定義で定義された変換パイプラインを実行できる Spark DataFrame を作成します。注このメソッドは非推奨となり、サポートされなくなります。 Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。詳細については、https://aka.ms/dataset-deprecationを参照してください。
update	ワークスペース内のデータセット変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。
update_definition	データセット定義を更新します。注このメソッドは非推奨となり、サポートされなくなります。詳細については、https://aka.ms/dataset-deprecationを参照してください。

auto_read_files

指定したパスにあるファイルを分析し、新しいデータセットを返します。

注

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular.from_* メソッドを使用してファイルを読み取うことをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

static auto_read_files(path, include_path=False, partition_format=None)

パラメーター

名前	説明
path 必須	DataReference または str 登録済みのデータストア内のデータパス、ローカルパス、または HTTP URL (CSV/TSV)。
include_path 必須	bool データの読み取り元のファイルのパスを含む列を含めるかどうか。複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合に便利です。また、ファイルパスまたは列に必要な名前に情報がある場合にも便利です。
partition_format 必須	str パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、ファイルパス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

型	説明
Dataset	データセットオブジェクト。

注釈

ファイル形式と区切り記号を自動的に検出する場合は、このメソッドを使用します。

データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されたデータセットはワークスペースに登録されていません。

compare_profiles

現在のデータセットのプロファイルを別のデータセットプロファイルと比較します。

これは、2 つのデータセット間の概要統計の違いを示しています。パラメーター 'rhs_dataset' は "右側" を表し、単に 2 番目のデータセットです。最初のデータセット (現在のデータセットオブジェクト) は、"左側" と見なされます。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

パラメーター

名前	説明
rhs_dataset 必須	Dataset 2 つ目のデータセット。比較のための "右側" データセットとも呼ばれます。
profile_arguments 必須	dict 特定のプロファイルを再取得する引数。
include_columns 必須	list[str] 比較に含める列名の一覧。
exclude_columns 必須	list[str] 比較で除外する列名の一覧。
histogram_compare_method 必須	HistogramCompareMethod 比較方法を記述する列挙型 (例: Wasserstein または Energy)

戻り値

型	説明
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>	2 つのデータセットプロファイルの違い。

注釈

これは、登録済みのデータセット専用です。現在のデータセットのプロファイルが存在しない場合は、例外を発生させます。登録されていないデータセットの場合は、profile.compare メソッドを使用します。

create_snapshot

登録済みのデータセットのスナップショットを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

パラメーター

名前	説明
snapshot_name 必須	str スナップショット名。スナップショット名は、データセット内で一意である必要があります。
compute_target 必須	Union[ComputeTarget, str] スナップショットプロファイルの作成を実行する省略可能なコンピューティング先。省略すると、ローカルコンピューティングが使用されます。
create_data_snapshot 必須	bool True の場合、データの具体化されたコピーが作成されます。
target_datastore 必須	Union[AbstractAzureStorageDatastore, str] スナップショットを保存するターゲットデータストア。省略すると、ワークスペースの既定のストレージにスナップショットが作成されます。

戻り値

型	説明
DatasetSnapshot	データセットスナップショットオブジェクト。

注釈

スナップショットは、基になるデータのポイントインタイムサマリー統計と、データ自体のオプションのコピーをキャプチャします。スナップショットの作成の詳細については、「 https://aka.ms/azureml/howto/createsnapshots」を参照してください。

delete_snapshot

名前でデータセットのスナップショットを削除します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

delete_snapshot(snapshot_name)

パラメーター

名前	説明
snapshot_name 必須	str スナップショット名。

戻り値

型	説明
None	なし。

注釈

これを使用して、不要になったスナップショットに保存されたデータによって消費されるストレージを解放します。

deprecate

別のデータセットによってワークスペース内のアクティブなデータセットを非推奨にします。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

deprecate(deprecate_by_dataset_id)

パラメーター

名前	説明
deprecate_by_dataset_id 必須	str このデータセットの代わりに使用するデータセット ID。

戻り値

型	説明
None	なし。

注釈

非推奨のデータセットでは、警告が使用されるとログに記録されます。データセットを非推奨にすると、そのすべての定義が非推奨になります。

非推奨のデータセットは引き続き使用できます。データセットの使用を完全にブロックするには、それをアーカイブします。

誤って非推奨になった場合は、再アクティブ化によってアクティブ化されます。

diff

現在のデータセットとrhs_datasetを比較します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

diff(rhs_dataset, compute_target=None, columns=None)

パラメーター

名前	説明
rhs_dataset 必須	Dataset 比較のために右側のデータセットとも呼ばれる別のデータセット
compute_target 必須	Union[ComputeTarget, str] 計算ターゲットを使用して差分を実行します。省略すると、ローカルコンピューティングが使用されます。
columns 必須	list[str] diff に含める列名の一覧。

戻り値

型	説明
DatasetActionRun	データセットアクション実行オブジェクト。

from_binary_files

バイナリファイルから未登録のメモリ内データセットを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.File.from_filesを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_binary_files(path)

パラメーター

名前	説明
path 必須	DataReference または str 登録済みのデータストアまたはローカルパス内のデータパス。

戻り値

型	説明
Dataset	Dataset オブジェクト。

注釈

バイナリデータのストリームとしてファイルを読み取る場合は、このメソッドを使用します。読み取られたファイルごとに 1 つのファイルストリームオブジェクトを返します。画像、ビデオ、オーディオ、またはその他のバイナリデータを読み取る場合は、このメソッドを使用します。

get_profile と create_snapshot は、このメソッドによって作成されたデータセットに対して想定どおりに機能しません。

返されたデータセットはワークスペースに登録されていません。

from_delimited_files

区切りファイルから、未登録のメモリ内データセットを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_delimited_filesを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。


   # Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
   dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
       header='ALL_FILES_HAVE_SAME_HEADERS')

   df = dataset.to_pandas_dataframe()

static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)

パラメーター

名前	説明
path 必須	DataReference または str 登録済みのデータストア内のデータパス、ローカルパス、または HTTP URL。
separator 必須	str 列を分割するために使用される区切り記号。
header 必須	PromoteHeadersBehavior ファイルから読み取るときに列ヘッダーを昇格させる方法を制御します。
encoding 必須	FileEncoding 読み取られるファイルのエンコード。
quoting 必須	bool 引用符内の改行文字を処理する方法を指定します。既定値 (False) は、改行文字が引用符内にあるかどうかに関係なく、改行文字を新しい行の開始と解釈することです。 True に設定すると、引用符内の改行文字は新しい行にならず、ファイルの読み取り速度が低下します。
infer_column_types 必須	bool 列データ型が推論されるかどうかを示します。
skip_rows 必須	int 読み取るファイルでスキップする行の数。
skip_mode 必須	SkipLinesBehavior ファイルから読み取るときに行をスキップする方法を制御します。
comment 必須	str 読み取るファイル内のコメント行を示すために使用される文字。この文字列で始まる行はスキップされます。
include_path 必須	bool データの読み取り元のファイルのパスを含む列を含めるかどうか。これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイルパスに有用な情報を保持する場合に便利です。
archive_options 必須	<xref:azureml.dataprep.ArchiveOptions> アーカイブの種類やエントリ glob パターンなど、アーカイブファイルのオプション。現時点では、アーカイブの種類として ZIP のみがサポートされています。たとえば、次のように指定します。 `archive_options = ArchiveOptions(archive_type = ArchiveType.ZIP, entry_glob = '*10-20.csv')` は、名前が "10-20.csv" で終わるすべてのファイルを ZIP で読み取ります。
partition_format 必須	str パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、ファイルパス '../Accounts/2019/01/01/data.csv' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.csv' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

型	説明
Dataset	データセットオブジェクト。

注釈

使用するオプションを制御する場合は、このメソッドを使用して区切りテキストファイルを読み取る必要があります。

データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されたデータセットはワークスペースに登録されていません。

from_excel_files

Excel ファイルから、未登録のメモリ内データセットを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)

パラメーター

名前	説明
path 必須	DataReference または str 登録済みのデータストアまたはローカルパス内のデータパス。
sheet_name 必須	str 読み込む Excel シートの名前。既定では、各 Excel ファイルから最初のシートが読み取られます。
use_column_headers 必須	bool 最初の行を列ヘッダーとして使用するかどうかを制御します。
skip_rows 必須	int 読み取るファイルでスキップする行の数。
include_path 必須	bool データの読み取り元のファイルのパスを含む列を含めるかどうか。これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイルパスに有用な情報を保持する場合に便利です。
infer_column_types 必須	bool true の場合、列データ型が推論されます。
partition_format 必須	str パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、ファイルパス '../Accounts/2019/01/01/data.xlsx' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.xlsx' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

型	説明
Dataset	データセットオブジェクト。

注釈

このメソッドを使用して、Excel ファイルを .xlsx 形式で読み取ります。各 Excel ファイルの 1 つのシートからデータを読み取ることができます。データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。返されたデータセットはワークスペースに登録されていません。

from_json_files

JSON ファイルから未登録のメモリ内データセットを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

JSON 行ファイルから読み取る代わりに、Dataset.Tabular.from_json_lines_filesを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)

パラメーター

名前	説明
path 必須	DataReference または str 読み込んで解析するファイルまたはフォルダーへのパス。ローカルパスまたは Azure BLOB URL を指定できます。 Globbing がサポートされています。たとえば、path = "./data*" を使用して、名前が "data" で始まるすべてのファイルを読み取ることができます。
encoding 必須	FileEncoding 読み取られるファイルのエンコード。
flatten_nested_arrays 必須	bool 入れ子になった配列のプログラムの処理を制御するプロパティ。入れ子になった JSON 配列をフラット化することを選択すると、行数が大幅に増える可能性があります。
include_path 必須	bool データの読み取り元のパスを含む列を含めるかどうか。これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイルパスに有用な情報を保持したい場合に便利です。
partition_format 必須	str パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、ファイルパス '../Accounts/2019/01/01/data.json' とデータは部門名と時刻でパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.json' を定義して、文字列型の 'Department' 列と datetime 型の 'PartitionDate' 列を作成できます。

戻り値

型	説明
Dataset	ローカルデータセットオブジェクト。

from_pandas_dataframe

pandas データフレームから、未登録のメモリ内データセットを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.register_pandas_dataframeを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_pandas_dataframe(dataframe, path=None, in_memory=False)

パラメーター

名前	説明
dataframe 必須	DataFrame Pandas DataFrame。
path 必須	Union[DataReference, str] 登録済みのデータストアまたはローカルフォルダーパス内のデータパス。
in_memory 必須	bool ディスクに永続化するのではなく、メモリから DataFrame を読み取るかどうか。

戻り値

型	説明
Dataset	データセットオブジェクト。

注釈

Pandas データフレームを Dataset オブジェクトに変換するには、このメソッドを使用します。データはメモリからのデータであるため、このメソッドによって作成されたデータセットを登録できません。

in_memoryが False の場合、Pandas DataFrame はローカルで CSV ファイルに変換されます。 patが DataReference 型の場合、Pandas フレームはデータストアにアップロードされ、データセットは DataReference に基づいて作成されます。 ''path' がローカルフォルダーの場合、削除できないローカルファイルからデータセットが作成されます。

現在の DataReference がフォルダーパスでない場合は例外を発生させます。

from_parquet_files

Parquet ファイルから、未登録のメモリ内データセットを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_parquet_filesを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_parquet_files(path, include_path=False, partition_format=None)

パラメーター

名前	説明
path 必須	DataReference または str 登録済みのデータストアまたはローカルパス内のデータパス。
include_path 必須	bool データの読み取り元のファイルのパスを含む列を含めるかどうか。これは、複数のファイルを読み取り、特定のレコードが生成されたファイルを知りたい場合や、ファイルパスに有用な情報を保持する場合に便利です。
partition_format 必須	str パスでパーティション形式を指定し、形式 '{x:yy/MM/dd/HH/mm/ss}' から形式 '{x:yyyy/MM/dd/HH/mm/ss}' から文字列列を作成します。ここで、'yyyy'、'MM'、'dd'、'HH'、'mm'、'ss' は、datetime 型の年、月、日、時、分、秒をエクストラトするために使用されます。形式は、最初のパーティションキーの位置からファイルパスの末尾まで開始する必要があります。たとえば、ファイルパス '../Accounts/2019/01/01/data.parquet' では、データが部門名と時刻によってパーティション分割されます。'/{Department}/{PartitionDate:yyyy/MM/dd}/data.parquet' を定義して、文字列型の列 'Department' と datetime 型の 'PartitionDate' を作成できます。

戻り値

型	説明
Dataset	データセットオブジェクト。

注釈

Parquet ファイルを読み取る場合は、このメソッドを使用します。

データセットを作成したら、 get_profile を使用して、検出された列の種類と各列の概要統計を一覧表示する必要があります。

返されたデータセットはワークスペースに登録されていません。

from_sql_query

SQL クエリから、未登録のメモリ内データセットを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

代わりにDataset.Tabular.from_sql_queryを使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

static from_sql_query(data_source, query)

パラメーター

名前	説明
data_source 必須	AzureSqlDatabaseDatastore Azure SQL データストアの詳細。
query 必須	str データを読み取るために実行するクエリ。

戻り値

型	説明
Dataset	ローカルデータセットオブジェクト。

generate_profile

データセットの新しいプロファイルを生成します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

generate_profile(compute_target=None, workspace=None, arguments=None)

パラメーター

名前	説明
compute_target 必須	Union[ComputeTarget, str] スナップショットプロファイルの作成を実行する省略可能なコンピューティング先。省略すると、ローカルコンピューティングが使用されます。
workspace 必須	Workspace ワークスペース。一時的な (未登録の) データセットに必要です。
arguments 必須	dict[str, object] プロファイル引数。有効な引数は次のとおりです。ブール型の 'include_stype_counts' です。電子メールアドレス、IP アドレス (V4/V6)、米国の電話番号、米国の郵便番号、緯度/経度など、既知のセマンティックの種類の値が表示されるかどうかを確認します。これを有効にすると、パフォーマンスに影響します。 int 型の 'number_of_histogram_bins' です。数値データに使用するヒストグラムビンの数を表します。既定値は 10 です。

戻り値

型	説明
DatasetActionRun	データセットアクション実行オブジェクト。

注釈

同期呼び出しは、完了するまでブロックされます。 get_resultを呼び出して、アクションの結果を取得します。

get

ワークスペースに既に存在するデータセットを取得するには、その名前または ID を指定します。

注

このメソッドは非推奨となり、サポートされなくなります。

代わりに get_by_name と get_by_id を使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

static get(workspace, name=None, id=None)

パラメーター

名前	説明
workspace 必須	Workspace データセットが作成された既存の AzureML ワークスペース。
name 必須	str 取得するデータセットの名前。
id 必須	str ワークスペース内のデータセットの一意識別子。

戻り値

型	説明
Dataset	指定した名前または ID を持つデータセット。

注釈

nameまたはidを指定できます。次の場合は例外が発生します。

nameとidの両方が指定されていますが、一致しません。
指定した name または id を持つデータセットがワークスペースに見つかりません。

get_all

ワークスペースに登録されているすべてのデータセットを取得します。

get_all()

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録された既存の AzureML ワークスペース。

戻り値

型	説明
dict[str, Union[TabularDataset, FileDataset]]	登録名でキー指定された TabularDataset オブジェクトと FileDataset オブジェクトのディクショナリ。

get_all_snapshots

データセットのすべてのスナップショットを取得します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_all_snapshots()

戻り値

型	説明
list[DatasetSnapshot]	データセットスナップショットの一覧。

get_by_id

ワークスペースに保存されているデータセットを取得します。

get_by_id(id, **kwargs)

パラメーター

名前	説明
workspace 必須	Workspace データセットが保存されている既存の AzureML ワークスペース。
id 必須	str データセットの ID。

戻り値

型	説明
Union[TabularDataset, FileDataset]	データセットオブジェクト。データセットが登録されている場合、その登録名とバージョンも返されます。

get_by_name

登録名でワークスペースから登録済みデータセットを取得します。

get_by_name(name, version='latest', **kwargs)

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録された既存の AzureML ワークスペース。
name 必須	str 登録名。
version 必須	int 登録バージョン。既定値は 'latest' です。

戻り値

型	説明
Union[TabularDataset, FileDataset]	登録済みのデータセットオブジェクト。

get_definition

データセットの特定の定義を取得します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_definition(version_id=None)

パラメーター

名前	説明
version_id 必須	str データセット定義のバージョン ID

戻り値

型	説明
DatasetDefinition	データセットの定義。

注釈

version_idが指定されている場合、Azure Machine Learning はそのバージョンに対応する定義の取得を試みます。そのバージョンが存在しない場合は、例外がスローされます。 version_idを省略すると、最新バージョンが取得されます。

get_definitions

データセットのすべての定義を取得します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_definitions()

戻り値

型	説明
dict[str, DatasetDefinition]	データセット定義のディクショナリ。

注釈

AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。各定義には一意の識別子があります。現在の定義は、作成された最新の定義です。

未登録のデータセットの場合、定義は 1 つだけ存在します。

get_profile

前に計算したデータセットの概要統計を取得します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)

パラメーター

名前	説明
arguments 必須	dict[str, object] プロファイル引数。
generate_if_not_exist 必須	bool プロファイルが存在しない場合に生成するかどうかを示します。
workspace 必須	Workspace ワークスペース。一時的な (未登録の) データセットに必要です。
compute_target 必須	Union[ComputeTarget, str] プロファイルアクションを実行するコンピューティング先。

戻り値

型	説明
<xref:azureml.dataprep.DataProfile>	データセットの DataProfile。

注釈

Azure Machine Learning ワークスペースに登録されているデータセットの場合、このメソッドは、まだ有効な場合は get_profile を呼び出すことによって、以前に作成された既存のプロファイルを取得します。データセットで変更されたデータが検出された場合、または get_profile する引数がプロファイルの生成時に使用されたものと異なる場合、プロファイルは無効になります。プロファイルが存在しないか無効になっている場合、 generate_if_not_exist は新しいプロファイルが生成されるかどうかを判断します。

Azure Machine Learning ワークスペースに登録されていないデータセットの場合、このメソッドは常に generate_profile 実行され、結果が返されます。

get_snapshot

名前でデータセットのスナップショットを取得します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

get_snapshot(snapshot_name)

パラメーター

名前	説明
snapshot_name 必須	str スナップショット名。

戻り値

型	説明
DatasetSnapshot	データセットスナップショットオブジェクト。

head

このデータセットから指定された数のレコードをプルし、DataFrame として返します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

head(count)

パラメーター

名前	説明
count 必須	int プルするレコードの数。

戻り値

型	説明
DataFrame	Pandas DataFrame。

list

ワークスペース内のすべてのデータセット ( is_visible プロパティが False のデータセットを含む) を一覧表示します。

注

このメソッドは非推奨となり、サポートされなくなります。

代わりに get_all を使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

static list(workspace)

パラメーター

名前	説明
workspace 必須	Workspace データセットの一覧を取得するワークスペース。

戻り値

型	説明
list[Dataset]	データセットオブジェクトの一覧。

reactivate

アーカイブされたデータセットまたは非推奨のデータセットを再アクティブ化します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

reactivate()

戻り値

型	説明
None	なし。

register

ワークスペースにデータセットを登録し、ワークスペースの他のユーザーが使用できるようにします。

注

このメソッドは非推奨となり、サポートされなくなります。

代わりに register を使用することをお勧めします。詳細については、https://aka.ms/dataset-deprecationを参照してください。

register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)

パラメーター

名前	説明
workspace 必須	Workspace データセットが登録される AzureML ワークスペース。
name 必須	str ワークスペース内のデータセットの名前。
description 必須	str データセットの説明。
tags 必須	dict[str, str] データセットに関連付けるタグ。
visible 必須	bool データセットが UI に表示されるかどうかを示します。 False の場合、データセットは UI で非表示になり、SDK 経由で使用できます。
exist_ok 必須	bool True の場合、指定されたワークスペースに既に存在する場合、このメソッドは Dataset を返します。それ以外の場合はエラーです。
update_if_exist 必須	bool `exist_ok`が True で、`update_if_exist`が True の場合、このメソッドは定義を更新し、更新されたデータセットを返します。

戻り値

型	説明
Dataset	ワークスペースに登録されている Dataset オブジェクト。

sample

指定されたサンプリング戦略とパラメーターを使用して、ソースデータセットから新しいサンプルを生成します。

注

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで take_sample メソッドを使用します。詳細については、https://aka.ms/dataset-deprecationを参照してください。

sample(sample_strategy, arguments)

パラメーター

名前	説明
sample_strategy 必須	str 使用するサンプル戦略。指定できる値は、"top_n"、"simple_random"、または "階層化" です。
arguments 必須	dict[str, object] 上記のリストの "省略可能な引数" のキーと、tye "Type" 列の値を含むディクショナリ。対応するサンプリングメソッドの引数のみを使用できます。たとえば、"simple_random" サンプル型の場合、"確率" キーと "シード" キーを持つディクショナリのみを指定できます。

戻り値

型	説明
Dataset	元のデータセットのサンプルとしてのデータセットオブジェクト。

注釈

サンプルは、このデータセットによって定義された変換パイプラインを実行し、サンプリング戦略とパラメーターを出力データに適用することによって生成されます。各サンプリングメソッドでは、次の省略可能な引数がサポートされています。

top_n
- 省略可能な引数。
  - n、整数型。サンプルとして上位 N 行を選択します。
simple_random
- 省略可能な引数。
  - 確率を float と入力します。各行が選択される確率が等しい単純なランダムサンプリング。確率は 0 ~ 1 の数値にする必要があります。
  - seed、float と入力します。乱数ジェネレーターによって使用されます。再現性を高める場合に使用します。
成層
- 省略可能な引数。
  - columns, list[str]. と入力します。データ内の strata 列の一覧。
  - seed、float と入力します。乱数ジェネレーターによって使用されます。再現性を高める場合に使用します。
  - fractions,type dict[tuple, float]. タプル: 階層を定義する列値は、列名と同じ順序にする必要があります。 Float: サンプリング中に階層にアタッチされる重み。

次のコードスニペットは、さまざまなサンプルメソッドの設計パターンの例です。


   # sample_strategy "top_n"
   top_n_sample_dataset = dataset.sample('top_n', {'n': 5})

   # sample_strategy "simple_random"
   simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})

   # sample_strategy "stratified"
   fractions = {}
   fractions[('THEFT',)] = 0.5
   fractions[('DECEPTIVE PRACTICE',)] = 0.2

   # take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
   # DECEPTIVE PRACTICE into sample Dataset
   sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})

to_pandas_dataframe

このデータセット定義で定義された変換パイプラインを実行して、Pandas データフレームを作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_pandas_dataframe メソッドを使用します。詳細については、https://aka.ms/dataset-deprecationを参照してください。

to_pandas_dataframe()

戻り値

型	説明
DataFrame	Pandas DataFrame。

注釈

メモリ内で完全に具体化された Pandas DataFrame を返します。

to_spark_dataframe

このデータセット定義で定義された変換パイプラインを実行できる Spark DataFrame を作成します。

注

このメソッドは非推奨となり、サポートされなくなります。

Dataset.Tabular で静的メソッドを呼び出して TabularDataset を作成し、そこで to_spark_dataframe メソッドを使用します。詳細については、https://aka.ms/dataset-deprecationを参照してください。

to_spark_dataframe()

戻り値

型	説明
DataFrame	Spark DataFrame。

注釈

返される Spark データフレームは実行プランに過ぎず、Spark データフレームは遅延評価されるため、実際にはデータは含まれません。

update

ワークスペース内のデータセット変更可能な属性を更新し、ワークスペースから更新されたデータセットを返します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

update(name=None, description=None, tags=None, visible=None)

パラメーター

名前	説明
name 必須	str ワークスペース内のデータセットの名前。
description 必須	str データの説明。
tags 必須	dict[str, str] データセットを関連付けるタグ。
visible 必須	bool データセットが UI に表示されるかどうかを示します。

戻り値

型	説明
Dataset	ワークスペースから更新された Dataset オブジェクト。

update_definition

データセット定義を更新します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

update_definition(definition, definition_update_message)

パラメーター

名前	説明
definition 必須	DatasetDefinition このデータセットの新しい定義。
definition_update_message 必須	str 定義の更新メッセージ。

戻り値

型	説明
Dataset	ワークスペースから更新された Dataset オブジェクト。

注釈

更新されたデータセットを使用するには、このメソッドによって返されるオブジェクトを使用します。

属性

definition

現在のデータセット定義を返します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

戻り値

型	説明
DatasetDefinition	データセットの定義。

注釈

データセット定義は、データの読み取りと変換の方法を指定する一連の手順です。

AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。各定義には一意の識別子があります。複数の定義を使用すると、以前の定義に依存するモデルやパイプラインを中断することなく、既存のデータセットを変更できます。

未登録のデータセットの場合、定義は 1 つだけ存在します。

definition_version

データセットの現在の定義のバージョンを返します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

戻り値

型	説明
str	データセット定義のバージョン。

注釈

データセット定義は、データの読み取りと変換の方法を指定する一連の手順です。

AzureML ワークスペースに登録されたデータセットには複数の定義を含めることができます。各定義は、 update_definitionを呼び出すことによって作成されます。各定義には一意の識別子があります。現在の定義は、作成された最新の定義であり、その ID はこれで返されます。

未登録のデータセットの場合、定義は 1 つだけ存在します。

description

データセットの説明を返します。

戻り値

型	説明
str	データセットの説明。

注釈

データセット内のデータの説明を指定すると、ワークスペースのユーザーは、データが何を表し、どのように使用できるかを理解できます。

id

データセットがワークスペースに登録されている場合は、データセットの ID を返します。それ以外の場合は、None を返します。

戻り値

型	説明
str	データセット ID。

is_visible

Azure ML ワークスペース UI で登録済みのデータセットの可視性を制御します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

戻り値

型	説明
bool	データセットの可視性。

注釈

返される値:

True: データセットはワークスペース UI に表示されます。既定値。
False: ワークスペース UI ではデータセットが非表示になります。

未登録のデータセットには影響しません。

name

データセット名を返します。

戻り値

型	説明
str	データセット名。

state

データセットの状態を返します。

注

このメソッドは非推奨となり、サポートされなくなります。

詳細については、https://aka.ms/dataset-deprecationを参照してください。

戻り値

型	説明
str	データセットの状態。

注釈

状態の意味と効果は次のとおりです。

アクティブ。アクティブな定義は、まったく同じように聞こえるもので、すべてのアクションをアクティブな定義に対して実行できます。
非推奨になりました。非推奨の定義は使用できますが、基になるデータにアクセスするたびに警告がログに記録されます。
アーカイブ。アーカイブされた定義を使用してアクションを実行することはできません。アーカイブされた定義に対してアクションを実行するには、再アクティブ化する必要があります。

workspace

データセットがワークスペースに登録されている場合は、そのデータセットを返します。それ以外の場合は、None を返します。

戻り値

型	説明
Workspace	ワークスペース。

Tabular

作成用ファクトリ FileDataset

のエイリアス TabularDatasetFactory

フィードバック

このページはお役に立ちましたか?

次の方法で共有

Dataset クラス

コンストラクター

パラメーター

注釈

変数

メソッド

archive

戻り値

注釈

auto_read_files

パラメーター

戻り値

注釈

compare_profiles

パラメーター

戻り値

注釈

create_snapshot

パラメーター

戻り値

注釈

delete_snapshot

パラメーター

戻り値

注釈

deprecate

パラメーター

戻り値

注釈

diff

パラメーター

戻り値

from_binary_files

パラメーター

戻り値

注釈

from_delimited_files

パラメーター

戻り値

注釈

from_excel_files

パラメーター

戻り値

注釈

from_json_files

パラメーター

戻り値

from_pandas_dataframe

パラメーター

戻り値

注釈

from_parquet_files

パラメーター

戻り値

注釈

from_sql_query

パラメーター

戻り値

generate_profile

パラメーター

戻り値

注釈

get

パラメーター

戻り値

注釈

get_all

パラメーター

戻り値

get_all_snapshots

戻り値

get_by_id

パラメーター

戻り値

get_by_name

パラメーター

戻り値

get_definition

パラメーター