data パッケージ

Azure Machine Learning のデータストアとデータセットのデータ表現をサポートするモジュールが含まれています。

このパッケージには、core パッケージ内の Datastore および Dataset クラスをサポートするコア機能が含まれています。 データストア オブジェクトには、Azure Storage サービスへの接続情報が含まれています。これは、直接操作したりスクリプト内のハードコード接続情報を操作したりしなくても、名前で簡単に参照できます。 データストアは、AzureBlobDatastoreAzureFileDatastoreAzureDataLakeDatastore などの、このパッケージ内のクラスによって表されるさまざまなサービスをサポートしています。 サポートされているストレージ サービスの完全な一覧については、Datastore クラスを参照してください。

データストアはデータ ファイルのコンテナーとして機能するのに対して、データセットはデータストア内の特定のデータへの参照またはポインターと考えることができます。 次のデータセットの種類がサポートされています。

  • TabularDataset は、指定されたファイルまたはファイルのリストを解析することで作成されたデータを表形式で表します。

  • FileDataset は、データストアまたはパブリック URL 内の 1 つまたは複数のファイルを参照します。

詳細については、 データセットの追加 & 登録に関する記事を参照してください。 データセットの使用を開始するには、https://aka.ms/tabulardataset-samplenotebook および https://aka.ms/filedataset-samplenotebook を参照してください。

モジュール

abstract_dataset

Azure Machine Learning 内のデータセットのための抽象基底クラスが含まれています。

abstract_datastore

Azure ストレージ サービスへの接続情報を保存するデータストアのための基本機能が含まれています。

azure_data_lake_datastore

Azure Data Lake Storage への接続情報を保存するデータストアのための基本機能が含まれています。

azure_my_sql_datastore

Azure Database for MySQL への接続情報を保存するデータストアのための基本機能が含まれています。

azure_postgre_sql_datastore

Azure Database for PostgreSQL への接続情報を保存するデータストアのための基本機能が含まれています。

azure_sql_database_datastore

Azure SQL データベースへの接続情報を保存するデータストアのための基本機能が含まれています。

azure_storage_datastore

Azure Blob と Azure File ストレージへの接続情報を保存するデータストアのための機能が含まれています。

constants

azureml.data パッケージで使用される定数。 内部使用のみです。

context_managers

データストアとデータセットのデータ コンテキストを管理するための機能が含まれています。 内部使用のみです。

data_reference

データストア内のデータへの参照を作成する方法を定義する機能が含まれています。

datacache

Azure Machine Learning で DatacacheStore と Datacache を管理するための機能が含まれます。

datacache_client

内部使用のみです。

datacache_consumption_config

DataCache 消費構成のための機能が含まれています。

datacache_singularity_settings

Datacache のシンギュラリティ設定表現に必要なオブジェクトが含まれます。

datapath

データストア内のデータへの参照を作成するための機能が含まれています。

このモジュールには、データの場所を表す DataPath クラスと、コンピューティング先でデータを使用できるようにする方法を表す DataPathComputeBinding クラスが含まれています。

dataset_action_run

データセット アクションの実行を管理する機能が含まれています。

このモジュールは、データセット アクションを作成し、完了後に結果を取得するための便利なメソッドを提供します。

dataset_consumption_config

データセット消費構成に関する機能が含まれています。

dataset_definition

データセット定義とその操作を管理するための機能が含まれています。

Note

このモジュールは非推奨です。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

dataset_error_handling

Azure Machine Learning でのデータセット エラー処理の例外が含まれます。

dataset_factory

Azure Machine Learning 用のデータセットを作成するための機能が含まれています。

dataset_profile

データフローによって生成されたデータに関する概要統計情報を収集するためのクラス。

このモジュールの機能には、プロファイルを生成した実行に関する情報 (プロファイルが古くなっているかどうか) の収集が含まれます。

dataset_profile_run

Azure Machine Learning でデータセット プロファイルの実行を監視するための構成が含まれます。

このモジュールの機能には、実験オブジェクトと個々の実行 ID に関連付けられたデータセット プロファイルの実行の処理と監視が含まれます。

dataset_profile_run_config

Azure Machine Learning でデータセットの統計情報概要を生成するための構成が含まれています。

このモジュールの機能には、ローカルまたはリモートのプロファイル実行の送信と、送信されたプロファイル実行の結果の視覚化に関するメソッドが含まれています。

dataset_snapshot

データセット スナップショット操作を管理するための機能が含まれています。

Note

このモジュールは非推奨です。 詳細については、「https://aka.ms/dataset-deprecation」を参照してください。

dataset_type_definitions

Dataset で使用される列挙値が含まれます。

datastore_client

内部使用のみです。

dbfs_datastore

Databricks File Sytem (DBFS) に接続情報を保存するデータストアの機能が含まれます。

file_dataset

データストアまたはパブリック URL 内の単一または複数のファイルを参照するための機能が含まれています。

詳細については、 データセットの追加 & 登録に関する記事を参照してください。 ファイル データセットの使用を開始するには、https://aka.ms/filedataset-samplenotebook を参照してください。

hdfs_datastore

HDFS クラスターへの接続情報を保存するデータストアのための基本機能が含まれます。

output_dataset_config

ジョブの出力をアップロードしてデータセットに昇格させる方法を指定する構成が含まれています。

詳細については、出力を指定する方法に関する記事を参照してください。

sql_data_reference

SQL データベースに接続情報を保存するデータストア内のデータへの参照を作成するための機能が含まれています。

stored_procedure_parameter

SQL ストアド プロシージャに渡すパラメーターを作成するための機能が含まれています。

tabular_dataset

指定されたファイルまたはファイルのリストを解析することによって、データを表形式で表現するための機能が含まれています。

詳細については、 データセットの追加 & 登録に関する記事を参照してください。 表形式データセットの使用を開始するには、https://aka.ms/tabulardataset-samplenotebook を参照してください。

クラス

DataType

Azure Machine Learning で作成されたデータセットの列データ型を構成します。

DataType メソッドは、新しい TabularDataset オブジェクトを作成するために使用される TabularDatasetFactory クラスの from_* メソッドで使用されます。

DatacacheStore

Note

これは試験段階のクラスであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

Azure Machine Learning ストレージ アカウントに対するストレージの抽象化を表します。

DatacacheStore はワークスペースにアタッチされ、基になるデータキャッシュ ソリューションに関連する情報を格納するために使用されます。 現時点では、パーティション分割された BLOB ソリューションのみがサポートされています。 Datacachestore は、キャッシュに使用できるさまざまな BLOB データストアを定義します。

このクラスを使用して、データキャッシュストアの登録、一覧表示、取得、更新などの管理操作を実行します。 各サービス用の DatacacheStore は、このクラスの register* メソッドを使用して作成されます。

名前を指定してデータキャッシュストアを取得します。 この呼び出しにより、datacache サービスに要求が行われます。

FileDataset

Azure Machine Learning で使用されるデータストアまたはパブリック URL 内のファイル参照のコレクションを表します。

FileDataset では、データ ソースからファイル ストリームにデータを読み込むための、遅延評価される変更できない一連の操作が定義されます。 FileDataset に対してデータを配信するように要求されるまで、データはソースから読み込まれません。

FileDataset は、FileDatasetFactory クラスの from_files メソッドを使用して作成されます。

詳細については、 データセットの追加 & 登録に関する記事を参照してください。 ファイル データセットの使用を開始するには、https://aka.ms/filedataset-samplenotebook を参照してください。

FileDataset オブジェクトを初期化します。

このコンストラクターは、直接呼び出されることは想定されていません。 データセットは、 クラスを使用して FileDatasetFactory 作成することを目的としています。

HDFSOutputDatasetConfig

HDFS パスに出力し、FileDataset として昇格させる方法を表します。

HDFSOutputDatasetConfig を初期化します。

LinkFileOutputDatasetConfig

Note

これは試験段階のクラスであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

実行の出力をリンクする方法、および FileDataset として昇格させる方法を表します。

LinkFileOutputDatasetConfig を使用すると、ファイル データセットを出力データセットとしてリンクできます


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkFileOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

LinkFileOutputDatasetConfig を初期化します。

LinkTabularOutputDatasetConfig

Note

これは試験段階のクラスであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

実行の出力をリンクし、TabularDataset として昇格させる方法を表します。

LinkTabularOutputDatasetConfig を使用すると、表形式のファイルを出力データセットとしてリンクできます。


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = LinkTabularOutputDatasetConfig('link_output')

   script_run_config = ScriptRunConfig('.', 'link.py', arguments=[output])

   # within link.py
   # from azureml.core import Run, Dataset
   # run = Run.get_context()
   # workspace = run.experiment.workspace
   # dataset = Dataset.get_by_name(workspace, name='dataset_to_link')
   # run.output_datasets['link_output'].link(dataset)

   run = experiment.submit(script_run_config)
   print(run)

LinkTabularOutputDatasetConfig を初期化します。

OutputFileDatasetConfig

実行の出力をコピーし、FileDataset として昇格させる方法を表します。

OutputFileDatasetConfig を使用すると、コンピューティング先の特定のローカル パスを指定された宛先にアップロードする方法を指定できます。 コンストラクターに引数を渡さない場合は、名前、宛先、ローカル パスが自動的に生成されます。

引数を渡さない例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

出力を作成してから、表形式データセットに昇格させ、foo という名前で登録する例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

OutputFileDatasetConfig を初期化します。

OutputFileDatasetConfig を使用すると、コンピューティング先の特定のローカル パスを指定された宛先にアップロードする方法を指定できます。 コンストラクターに引数を渡さない場合は、名前、宛先、ローカル パスが自動的に生成されます。

引数を渡さない例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

出力を作成してから、表形式データセットに昇格させ、foo という名前で登録する例:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)
TabularDataset

Azure Machine Learning で使用する表形式データセットを表します。

TabularDataset は、データ ソースから表形式にデータを読み込む、遅延評価される変更不可の一連の操作を定義します。 TabularDataset に対してデータの配信が要求されるまで、データはソースから読み込まれません。

TabularDataset は、TabularDatasetFactory クラスの from_delimited_files のようなメソッドを使用して作成されます。

詳細については、 データセットの追加 & 登録に関する記事を参照してください。 表形式データセットの使用を開始するには、https://aka.ms/tabulardataset-samplenotebook を参照してください。

TabularDataset オブジェクトを初期化します。

このコンストラクターは、直接呼び出されることは想定されていません。 データセットは、 クラスを使用して TabularDatasetFactory 作成することを目的としています。