AbstractDataset クラス

リファレンス

Azure Machine Learning のデータセットの基底クラス。

データセットのインスタンスを作成するには、TabularDatasetFactory クラスおよび FileDatasetFactory クラスを参照してください。

Class AbstractDataset コンストラクター。

このコンストラクターは、直接呼び出されることは想定されていません。データセットは、クラスとFileDatasetFactoryクラスを使用してTabularDatasetFactory作成することを目的としています。

継承: builtins.object

AbstractDataset

コンストラクター

AbstractDataset()

メソッド

add_tags	このデータセットのタグのディクショナリにキーと値のペアを追加します。
as_named_input	実行で具体化されたデータセットを取得するために使用される、このデータセットの名前を指定します。
get_all	ワークスペースに登録されているすべてのデータセットを取得します。
get_by_id	ワークスペースに保存されているデータセットを取得します。
get_by_name	登録名によって、ワークスペースから登録されたデータセットを取得します。
get_partition_key_values	partition_keys の一意のキー値を返します。 partition_keys がパーティションキーの完全なセットの有効なサブセットであるかどうかを検証し、partition_keys の一意のキー値を返します。partition_keys が None の場合は、既定で、このデータセットのパーティションキーの完全なセットを取得することにより、一意のキーの組み合わせを返します `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	データセットを指定したワークスペースに登録します。
remove_tags	このデータセットのタグのディクショナリから、指定したキーを削除します。
unregister_all_versions	このデータセットの登録名の下にあるすべてのバージョンを、ワークスペースから登録解除します。
update	データセットのインプレース更新を実行します。

add_tags

このデータセットのタグのディクショナリにキーと値のペアを追加します。

add_tags(tags=None)

パラメーター

tags: dict[str, str]

必須

追加するタグの辞書。

戻り値

更新されたデータセットオブジェクト。

の戻り値の型 :

Union[TabularDataset, FileDataset]

as_named_input

実行で具体化されたデータセットを取得するために使用される、このデータセットの名前を指定します。

as_named_input(name)

パラメーター

name: str

必須

実行に対するデータセットの名前。

戻り値

実行で Dataset を具体化する方法を記述する構成オブジェクト。

の戻り値の型 :

DatasetConsumptionConfig

注釈

ここでの名前は、Azure Machine Learning の実行の内部でのみ適用されます。名前に使用できるのは英数字とアンダースコア文字だけなので、環境変数として使用できます。この名前を使用すると、次の 2 つの方法を使って、実行のコンテキストでデータセットを取得できます。

環境変数:

名前は環境変数の名前になり、具体化されたデータセットは環境変数の値として使用できます。データセットがダウンロードまたはマウントされると、値はダウンロードまたはマウントされたパスになります。次に例を示します。


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Note

データセットが直接モードに設定されている場合、値はデータセット ID になります。その場合、

Dataset.get_by_id(os.environ['foo']) を実行してデータセットオブジェクトを取得できます

Run.input_datasets:

これはディクショナリであり、このメソッドで指定したデータセット名がキーになり、具体化されたデータセットが値になります。ダウンロードおよびマウントされたデータセットの場合、値はダウンロードまたはマウントされたパスになります。直接モードの場合、値は、ジョブ送信スクリプトで指定したものと同じデータセットオブジェクトになります。


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

ワークスペースに登録されているすべてのデータセットを取得します。

static get_all(workspace)

パラメーター

workspace: Workspace

必須

データセットが登録された既存の AzureML ワークスペース。

戻り値

登録名によってキー指定された TabularDataset オブジェクトと FileDataset オブジェクトのディクショナリ。

の戻り値の型 :

dict[str, Union[TabularDataset, FileDataset]]

get_by_id

ワークスペースに保存されているデータセットを取得します。

static get_by_id(workspace, id, **kwargs)

パラメーター

workspace: Workspace

必須

データセットが保存される既存の AzureML ワークスペース。

id: str

必須

データセットの ID。

戻り値

データセットオブジェクト。データセットが登録されている場合は、その登録名とバージョンも返されます。

の戻り値の型 :

Union[TabularDataset, FileDataset]

get_by_name

登録名によって、ワークスペースから登録されたデータセットを取得します。

static get_by_name(workspace, name, version='latest', **kwargs)

パラメーター

workspace: Workspace

必須

データセットが登録された既存の AzureML ワークスペース。

name: str

必須

登録名。

version: int

必須

登録バージョン。既定値は 'latest' です。

戻り値

登録されているデータセットオブジェクト。

の戻り値の型 :

Union[TabularDataset, FileDataset]

get_partition_key_values

partition_keys の一意のキー値を返します。

partition_keys がパーティションキーの完全なセットの有効なサブセットであるかどうかを検証し、partition_keys の一意のキー値を返します。partition_keys が None の場合は、既定で、このデータセットのパーティションキーの完全なセットを取得することにより、一意のキーの組み合わせを返します


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

パラメーター

partition_keys: list[str]

必須

パーティションキー

register

データセットを指定したワークスペースに登録します。

register(workspace, name, description=None, tags=None, create_new_version=False)

パラメーター

workspace: Workspace

必須

データセットを登録するワークスペース。

name: str

必須

登録するデータセットの名前。

description: str

必須

データセットのテキストの説明。既定値は None です。

tags: dict[str, str]

必須

データセットを提供するキー値タグのディクショナリ。既定値は None です。

create_new_version: bool

必須

指定した名前の新しいバージョンとしてデータセットを登録するためのブール値。

戻り値

登録されているデータセットオブジェクト。

の戻り値の型 :

Union[TabularDataset, FileDataset]

remove_tags

このデータセットのタグのディクショナリから、指定したキーを削除します。

remove_tags(tags=None)

パラメーター

tags: list[str]

必須

削除するキーのリスト。

戻り値

更新されたデータセットオブジェクト。

の戻り値の型 :

Union[TabularDataset, FileDataset]

unregister_all_versions

このデータセットの登録名の下にあるすべてのバージョンを、ワークスペースから登録解除します。

unregister_all_versions()

注釈

この操作では、ソースデータは変更されません。

update

データセットのインプレース更新を実行します。

update(description=None, tags=None)

パラメーター

description: str

必須

データセットに使用する新しい説明。この説明により、既存の説明が置き換えられます。既定値は既存の説明です。説明をクリアするには、空の文字列を入力します。

tags: dict[str, str]

必須

データセットを更新するタグのディクショナリ。これらのタグで、データセットの既存のタグが置き換えられます。既定値は既存のタグです。タグをクリアするには、空のディクショナリを入力します。

戻り値

更新されたデータセットオブジェクト。

の戻り値の型 :

Union[TabularDataset, FileDataset]

AbstractDataset クラス

コンストラクター

メソッド

add_tags

パラメーター

戻り値

の戻り値の型 :

as_named_input

パラメーター

戻り値

の戻り値の型 :

注釈

get_all

パラメーター

戻り値

の戻り値の型 :

get_by_id

パラメーター

戻り値

の戻り値の型 :

get_by_name

パラメーター

戻り値

の戻り値の型 :

get_partition_key_values

パラメーター

register

パラメーター

戻り値

の戻り値の型 :

remove_tags

パラメーター

戻り値

の戻り値の型 :

unregister_all_versions

注釈

update

パラメーター

戻り値

の戻り値の型 :

属性

data_changed_time

戻り値

の戻り値の型 :

注釈

description

戻り値

の戻り値の型 :

id

戻り値

の戻り値の型 :

name

戻り値

の戻り値の型 :

partition_keys

戻り値

の戻り値の型 :

tags

戻り値

の戻り値の型 :

version

戻り値

の戻り値の型 :

フィードバック

フィードバック

その他のリソース