次の方法で共有


Datastore クラス

Azure Machine Learning ストレージ アカウントに対するストレージの抽象化を表します。

データストアはワークスペースにアタッチされ、Azure Storage サービスへの接続情報を格納するために使用されます。これにより、名前で参照することができ、ストレージ サービスへの接続に使用される接続情報とシークレットを記憶する必要がなくなります。

データストアとして登録できるサポート対象の Azure Storage サービスの例は次のとおりです。

  • Azure BLOB コンテナー

  • Azure ファイル共有

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Azure SQL データベース

  • Azure Database for PostgreSQL

  • Databricks ファイル システム

  • Azure Database for MySQL

このクラスを使用して、データストアの登録、一覧表示、取得、削除などの管理操作を実行します。 各サービス用のデータストアは、このクラスの register* メソッドを使用して作成されます。 データストアを使用してデータにアクセスする場合、そのデータにアクセスする権限が必要です。権限は、データストアに登録されている資格情報に依存します。

データストアの詳細および機械学習での使用方法については、次の記事を参照してください。

名前を指定してデータストアを取得します。 この呼び出しにより、データストア サービスに要求が行われます。

継承
builtins.object
Datastore

コンストラクター

Datastore(workspace, name=None)

パラメーター

workspace
Workspace
必須

ワークスペース。

name
str, <xref:optional>
既定値: None

データストアの名前。既定値は None です。既定のデータストアを取得します。

注釈

トレーニングなど、機械学習タスクのためにデータストア内のデータを操作するには、Azure Machine Learning データセットを作成します。 データセットには、Pandas または Spark のデータフレームに表形式のデータを読み込む関数が用意されています。 データセットには、Azure BLOB ストレージ、Azure Files、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure SQL Database、および Azure Database for PostgreSQL から任意の形式のファイルをダウンロードしたりマウントしたりする機能も用意されています。 データセットを使ってトレーニングする方法の詳細をご覧ください

次の例は、Azure BLOB コンテナーに接続されたデータストアを作成する方法を示しています。


   from azureml.exceptions import UserErrorException

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except UserErrorException:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

完全なサンプルは、https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb から入手できます

メソッド

get

名前を指定してデータストアを取得します。 これは、コンストラクターを呼び出す場合と同じです。

get_default

ワークスペースの既定のデータストアを取得します。

register_azure_blob_container

Azure BLOB コンテナーをデータストアに登録します。

資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、SAS トークンまたはストレージ アカウント キーのどちらを使うかを選ぶことができます。 データストアに資格情報が保存されていない場合、FileDataset.mount、FileDataset.download FileDataset.to_path、TabularDataset.to_pandas_dataframe、TabularDataset.to_dask_dataframe、TabularDataset.to_spark_dataframe、TabularDataset.to_parquet_files、TabularDataset.to_csv_files のいずれかの関数が直接呼び出されると、ノートブックまたはローカル Python プログラム内でユーザーの AAD トークンが使用されます。コンピューティング先の ID は、Experiment.submit によって送信されるジョブ内で、データ アクセス認証に使用されます。 こちらを参照してください。

register_azure_data_lake

新しい Azure Data Lake Datastore を初期化します。

資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、資格情報ベースのデータ アクセスの場合は、サービス プリンシパルにデータストアを登録できます。 データストアに資格情報が保存されていない場合、FileDataset.mount、FileDataset.download FileDataset.to_path、TabularDataset.to_pandas_dataframe、TabularDataset.to_dask_dataframe、TabularDataset.to_spark_dataframe、TabularDataset.to_parquet_files、TabularDataset.to_csv_files のいずれかの関数が直接呼び出されると、ノートブックまたはローカル Python プログラム内でユーザーの AAD トークンが使用されます。コンピューティング先の ID は、Experiment.submit によって送信されるジョブ内で、データ アクセス認証に使用されます。 こちらを参照してください。

Azure Data Lake Gen1 をデータストアとして登録する方法の例については、以下を参照してください。


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

新しい Azure Data Lake Gen2 Datastore を初期化します。

資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、資格情報ベースのデータ アクセスの場合は、サービス プリンシパルにデータストアを登録できます。 データストアに資格情報が保存されていない場合、FileDataset.mount、FileDataset.download FileDataset.to_path、TabularDataset.to_pandas_dataframe、TabularDataset.to_dask_dataframe、TabularDataset.to_spark_dataframe、TabularDataset.to_parquet_files、TabularDataset.to_csv_files のいずれかの関数が直接呼び出されると、ノートブックまたはローカル Python プログラム内でユーザーの AAD トークンが使用されます。コンピューティング先の ID は、Experiment.submit によって送信されるジョブ内で、データ アクセス認証に使用されます。 こちらを参照してください。

register_azure_file_share

Azure ファイル共有をデータストアに登録します。

SAS トークンまたはストレージ アカウント キーを使用することを選択できます

register_azure_my_sql

新しい Azure MySQL Datastore を初期化します。

MySQL データストアを使用できるのは、DataReference を入力として作成し、Azure Machine Learning パイプラインの DataTransferStep に出力する場合のみです。 詳細については、こちらで確認できます

Azure MySQL データベースをデータストアとして登録する方法の例については、以下を参照してください。

register_azure_postgre_sql

新しい Azure PostgreSQL Datastore を初期化します。

Azure PostgreSQL データベースをデータストアとして登録する方法の例については、以下を参照してください。

register_azure_sql_database

新しい Azure SQL データベース データストアを初期化します。

資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、サービス プリンシパルまたはユーザー名とパスワードのどちらを使うかを選ぶことができます。 データストアに資格情報が保存されていない場合、FileDataset.mount、FileDataset.download FileDataset.to_path、TabularDataset.to_pandas_dataframe、TabularDataset.to_dask_dataframe、TabularDataset.to_spark_dataframe、TabularDataset.to_parquet_files、TabularDataset.to_csv_files のいずれかの関数が直接呼び出されると、ノートブックまたはローカル Python プログラム内でユーザーの AAD トークンが使用されます。コンピューティング先の ID は、Experiment.submit によって送信されるジョブ内で、データ アクセス認証に使用されます。 こちらを参照してください。

Azure SQL データベースをデータストアとして登録する方法の例については、以下を参照してください。

register_dbfs

新しい Databricks ファイル システム (DBFS) データストアを初期化します。

DBFS データストアを使用できるのは、DataReference を入力として作成し、PipelineData を Azure Machine Learning パイプラインの DatabricksStep への出力として作成する場合のみです。 詳細については、こちらで確認できます

register_hdfs

Note

これは試験的なメソッドであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

新しい HDFS データストアを初期化します。

set_as_default

既定のデータストアを設定します。

unregister

データストアの登録を解除します。 基になるストレージ サービスは削除されません。

get

名前を指定してデータストアを取得します。 これは、コンストラクターを呼び出す場合と同じです。

static get(workspace, datastore_name)

パラメーター

workspace
Workspace
必須

ワークスペース。

datastore_name
str, <xref:optional>
必須

データストアの名前。既定値は None です。既定のデータストアを取得します。

戻り値

その名前に対応するデータストア。

の戻り値の型 :

get_default

ワークスペースの既定のデータストアを取得します。

static get_default(workspace)

パラメーター

workspace
Workspace
必須

ワークスペース。

戻り値

ワークスペースの既定のデータストア

の戻り値の型 :

register_azure_blob_container

Azure BLOB コンテナーをデータストアに登録します。

資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、SAS トークンまたはストレージ アカウント キーのどちらを使うかを選ぶことができます。 データストアに資格情報が保存されていない場合、FileDataset.mount、FileDataset.download FileDataset.to_path、TabularDataset.to_pandas_dataframe、TabularDataset.to_dask_dataframe、TabularDataset.to_spark_dataframe、TabularDataset.to_parquet_files、TabularDataset.to_csv_files のいずれかの関数が直接呼び出されると、ノートブックまたはローカル Python プログラム内でユーザーの AAD トークンが使用されます。コンピューティング先の ID は、Experiment.submit によって送信されるジョブ内で、データ アクセス認証に使用されます。 こちらを参照してください。

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

パラメーター

workspace
Workspace
必須

ワークスペース。

datastore_name
str
必須

データストアの名前 (大文字と小文字は区別されません) には、英数字と _ のみを含めることができます。

container_name
str
必須

Azure BLOB コンテナーの名前。

account_name
str
必須

ストレージ アカウント名。

sas_token
str, <xref:optional>
既定値: None

アカウントの SAS トークンの既定値は None です。 データの読み取りには、コンテナー & オブジェクトに対する List & Read アクセス許可が最低限必要です。また、データ書き込みには、書き込み & 追加のアクセス許可も必要です。

account_key
str, <xref:optional>
既定値: None

ストレージ アカウントのアクセス キー。既定値は None です。

protocol
str, <xref:optional>
既定値: None

BLOB コンテナーへの接続に使用するプロトコル。 None の場合、既定値は https です。

endpoint
str, <xref:optional>
既定値: None

ストレージ アカウントのエンドポイント。 None の場合、既定値は core.windows.net です。

overwrite
bool, <xref:optional>
既定値: False

既存のデータストアを上書きします。 データストアが存在しない場合は作成され、既定値は False です。

create_if_not_exists
bool, <xref:optional>
既定値: False

BLOB コンテナーを作成します (存在しない場合)。既定値は False です

skip_validation
bool, <xref:optional>
既定値: False

ストレージ キーの検証をスキップします。既定値は False です。

blob_cache_timeout
int, <xref:optional>
既定値: None

この BLOB がマウントされたら、キャッシュ タイムアウトをこの数秒に設定します。 None の場合、既定値はタイムアウトなしになります (つまり、読み取り時のジョブの間 BLOB がキャッシュされます)。

grant_workspace_access
bool, <xref:optional>
既定値: False

既定値は False です。 仮想ネットワークの内側にあるデータに Machine Learning スタジオからアクセスする場合は、True に設定します。これにより、Machine Learning スタジオからのデータ アクセスの認証に、ワークスペースのマネージド ID が使用されるようになります。また、そのワークスペースのマネージド ID は、ストレージの閲覧者として追加されます。 オプトインするには、ストレージの所有者またはユーザー アクセス管理者である必要があります。 必要な権限がない場合は、管理者にその権限を構成するよう依頼してください。 詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkを参照してください

subscription_id
str, <xref:optional>
既定値: None

ストレージ アカウントのサブスクリプション ID。既定値は None です。

resource_group
str, <xref:optional>
既定値: None

ストレージ アカウントのリソース グループ。既定値は None です。

戻り値

BLOB データストア。

の戻り値の型 :

注釈

ワークスペースのリージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長くなったり、追加のネットワーク使用料が発生したりする可能性があります。

register_azure_data_lake

新しい Azure Data Lake Datastore を初期化します。

資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、資格情報ベースのデータ アクセスの場合は、サービス プリンシパルにデータストアを登録できます。 データストアに資格情報が保存されていない場合、FileDataset.mount、FileDataset.download FileDataset.to_path、TabularDataset.to_pandas_dataframe、TabularDataset.to_dask_dataframe、TabularDataset.to_spark_dataframe、TabularDataset.to_parquet_files、TabularDataset.to_csv_files のいずれかの関数が直接呼び出されると、ノートブックまたはローカル Python プログラム内でユーザーの AAD トークンが使用されます。コンピューティング先の ID は、Experiment.submit によって送信されるジョブ内で、データ アクセス認証に使用されます。 こちらを参照してください。

Azure Data Lake Gen1 をデータストアとして登録する方法の例については、以下を参照してください。


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

パラメーター

workspace
Workspace
必須

このデータストアが属しているワークスペース。

datastore_name
str
必須

データストア名。

store_name
str
必須

ADLS ストア名。

tenant_id
str, <xref:optional>
既定値: None

データへのアクセスに使用されるサービス プリンシパルのディレクトリ ID またはテナント ID。

client_id
str, <xref:optional>
既定値: None

データへのアクセスに使用されるサービス プリンシパルのクライアント ID またはアプリケーション ID。

client_secret
str, <xref:optional>
既定値: None

データへのアクセスに使用されるサービス プリンシパルのクライアント シークレット。

resource_url
str, <xref:optional>
既定値: None

Data Lake ストアで実行される操作を決定するリソース URL。None の場合、既定値の https://datalake.azure.net/ になります。これによりファイルシステム操作が実行できるようになります。

authority_url
str, <xref:optional>
既定値: None

ユーザーの認証に使用される機関 URL。既定値は https://login.microsoftonline.com です。

subscription_id
str, <xref:optional>
既定値: None

ADLS ストアが属しているサブスクリプションの ID。

resource_group
str, <xref:optional>
既定値: None

ADLS ストアが属しているリソース グループ。

overwrite
bool, <xref:optional>
既定値: False

既存のデータストアを上書きするかどうか。 データストアが存在しない場合は作成されます。 既定値は False です。

grant_workspace_access
bool, <xref:optional>
既定値: False

既定値は False です。 仮想ネットワークの内側にあるデータに Machine Learning スタジオからアクセスする場合は、True に設定します。これにより、Machine Learning スタジオからのデータ アクセスの認証に、ワークスペースのマネージド ID が使用されるようになります。また、そのワークスペースのマネージド ID は、ストレージの閲覧者として追加されます。 オプトインするには、ストレージの所有者またはユーザー アクセス管理者である必要があります。 必要な権限がない場合は、管理者にその権限を構成するよう依頼してください。 詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkを参照してください

戻り値

Azure Data Lake Datastore を返します。

の戻り値の型 :

注釈

ワークスペースのリージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長くなったり、追加のネットワーク使用料が発生したりする可能性があります。

Note

Azure Data Lake Datastore では、Azure Machine Learning パイプラインを使用したデータ転送と、U-Sql ジョブの実行がサポートされています。

また、サポートされている任意のコンピューティングでダウンロードまたはマウントできる Azure Machine Learning データセットのデータソースとして使用することもできます。

register_azure_data_lake_gen2

新しい Azure Data Lake Gen2 Datastore を初期化します。

資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、資格情報ベースのデータ アクセスの場合は、サービス プリンシパルにデータストアを登録できます。 データストアに資格情報が保存されていない場合、FileDataset.mount、FileDataset.download FileDataset.to_path、TabularDataset.to_pandas_dataframe、TabularDataset.to_dask_dataframe、TabularDataset.to_spark_dataframe、TabularDataset.to_parquet_files、TabularDataset.to_csv_files のいずれかの関数が直接呼び出されると、ノートブックまたはローカル Python プログラム内でユーザーの AAD トークンが使用されます。コンピューティング先の ID は、Experiment.submit によって送信されるジョブ内で、データ アクセス認証に使用されます。 こちらを参照してください。

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

パラメーター

workspace
Workspace
必須

このデータストアが属しているワークスペース。

datastore_name
str
必須

データストア名。

filesystem
str
必須

Data Lake Gen2 ファイルシステムの名前。

account_name
str
必須

ストレージ アカウント名。

tenant_id
str, <xref:optional>
既定値: None

サービス プリンシパルのディレクトリ ID またはテナント ID。

client_id
str, <xref:optional>
既定値: None

サービス プリンシパルのクライアント ID またはアプリケーション ID。

client_secret
str, <xref:optional>
既定値: None

サービス プリンシパルのシークレット。

resource_url
str, <xref:optional>
既定値: None

データ レイク ストアで実行される操作を決定するリソース URL。既定値は https://storage.azure.com/ です。これによりファイルシステム操作が実行できるようになります。

authority_url
str, <xref:optional>
既定値: None

ユーザーの認証に使用される機関 URL。既定値は https://login.microsoftonline.com です。

protocol
str, <xref:optional>
既定値: None

BLOB コンテナーへの接続に使用するプロトコル。 None の場合、既定値は https です。

endpoint
str, <xref:optional>
既定値: None

ストレージ アカウントのエンドポイント。 None の場合、既定値は core.windows.net です。

overwrite
bool, <xref:optional>
既定値: False

既存のデータストアを上書きするかどうか。 データストアが存在しない場合は作成されます。 既定値は False です。

subscription_id
str, <xref:optional>
既定値: None

ADLS ストアが属しているサブスクリプションの ID。

resource_group
str, <xref:optional>
既定値: None

ADLS ストアが属しているリソース グループ。

grant_workspace_access
bool, <xref:optional>
既定値: False

既定値は False です。 仮想ネットワークの内側にあるデータに Machine Learning スタジオからアクセスする場合は、True に設定します。これにより、Machine Learning スタジオからのデータ アクセスの認証に、ワークスペースのマネージド ID が使用されるようになります。また、そのワークスペースのマネージド ID は、ストレージの閲覧者として追加されます。 オプトインするには、ストレージの所有者またはユーザー アクセス管理者である必要があります。 必要な権限がない場合は、管理者にその権限を構成するよう依頼してください。 詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkを参照してください

戻り値

Azure Data Lake Gen2 Datastore を返します。

の戻り値の型 :

注釈

ワークスペースのリージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長くなったり、追加のネットワーク使用料が発生したりする可能性があります。

register_azure_file_share

Azure ファイル共有をデータストアに登録します。

SAS トークンまたはストレージ アカウント キーを使用することを選択できます

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

パラメーター

workspace
Workspace
必須

このデータストアが属しているワークスペース。

datastore_name
str
必須

データストアの名前 (大文字と小文字は区別されません) には、英数字と _ のみを含めることができます。

file_share_name
str
必須

Azure ファイル コンテナーの名前。

account_name
str
必須

ストレージ アカウント名。

sas_token
str, <xref:optional>
既定値: None

アカウントの SAS トークンの既定値は None です。 データの読み取りには、コンテナー & オブジェクトの List & Read アクセス許可が最低限必要です。また、データの書き込みには、書き込み & 追加のアクセス許可も必要です。

account_key
str, <xref:optional>
既定値: None

ストレージ アカウントのアクセス キー。既定値は None です。

protocol
str, <xref:optional>
既定値: None

ファイル共有への接続に使用するプロトコル。 None の場合、既定値は https です。

endpoint
str, <xref:optional>
既定値: None

ファイル共有のエンドポイント。 None の場合、既定値は core.windows.net です。

overwrite
bool, <xref:optional>
既定値: False

既存のデータストアを上書きするかどうか。 データストアが存在しない場合は作成されます。 既定値は False です。

create_if_not_exists
bool, <xref:optional>
既定値: False

ファイル共有が存在しない場合に作成するかどうか。 既定値は False です。

skip_validation
bool, <xref:optional>
既定値: False

ストレージ キーの検証をスキップするかどうか。 既定値は False です。

戻り値

ファイル データストア。

の戻り値の型 :

注釈

ワークスペースのリージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長くなったり、追加のネットワーク使用料が発生したりする可能性があります。

register_azure_my_sql

新しい Azure MySQL Datastore を初期化します。

MySQL データストアを使用できるのは、DataReference を入力として作成し、Azure Machine Learning パイプラインの DataTransferStep に出力する場合のみです。 詳細については、こちらで確認できます

Azure MySQL データベースをデータストアとして登録する方法の例については、以下を参照してください。

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

パラメーター

workspace
Workspace
必須

このデータストアが属しているワークスペース。

datastore_name
str
必須

データストア名。

server_name
str
必須

MySQL サーバー名。

database_name
str
必須

MySQL データベース名。

user_id
str
必須

MySQL サーバーのユーザー ID。

user_password
str
必須

MySQL サーバーのユーザー パスワード。

port_number
str
既定値: None

MySQL サーバーのポート番号。

endpoint
str, <xref:optional>
既定値: None

MySQL サーバーのエンドポイント。 None の場合、既定値は mysql.database.azure.com。

overwrite
bool, <xref:optional>
既定値: False

既存のデータストアを上書きするかどうか。 データストアが存在しない場合は作成されます。 既定値は False です。

戻り値

MySQL データベース データストアを返します。

の戻り値の型 :

注釈

ワークスペースのリージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長くなったり、追加のネットワーク使用料が発生したりする可能性があります。


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

新しい Azure PostgreSQL Datastore を初期化します。

Azure PostgreSQL データベースをデータストアとして登録する方法の例については、以下を参照してください。

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

パラメーター

workspace
Workspace
必須

このデータストアが属しているワークスペース。

datastore_name
str
必須

データストア名。

server_name
str
必須

PostgreSQL サーバー名。

database_name
str
必須

PostgreSQL データベース名。

user_id
str
必須

PostgreSQL サーバーのユーザー ID。

user_password
str
必須

PostgreSQL サーバーのユーザー パスワード。

port_number
str
既定値: None

PostgreSQL サーバーのポート番号

endpoint
str, <xref:optional>
既定値: None

PostgreSQL サーバーのエンドポイント。 None の場合、既定値は postgres.database.azure.com。

overwrite
bool, <xref:optional>
既定値: False

既存のデータストアを上書きするかどうか。 データストアが存在しない場合は作成されます。 既定値は False です。

enforce_ssl
bool
既定値: True

PostgreSQL サーバーの SSL 要件を示します。 既定値は True です。

戻り値

PostgreSQL データベース データストアを返します。

の戻り値の型 :

注釈

ワークスペースのリージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長くなったり、追加のネットワーク使用料が発生したりする可能性があります。


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

新しい Azure SQL データベース データストアを初期化します。

資格情報ベース (GA) と ID ベース (プレビュー) のデータ アクセスがサポートされており、サービス プリンシパルまたはユーザー名とパスワードのどちらを使うかを選ぶことができます。 データストアに資格情報が保存されていない場合、FileDataset.mount、FileDataset.download FileDataset.to_path、TabularDataset.to_pandas_dataframe、TabularDataset.to_dask_dataframe、TabularDataset.to_spark_dataframe、TabularDataset.to_parquet_files、TabularDataset.to_csv_files のいずれかの関数が直接呼び出されると、ノートブックまたはローカル Python プログラム内でユーザーの AAD トークンが使用されます。コンピューティング先の ID は、Experiment.submit によって送信されるジョブ内で、データ アクセス認証に使用されます。 こちらを参照してください。

Azure SQL データベースをデータストアとして登録する方法の例については、以下を参照してください。

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

パラメーター

workspace
Workspace
必須

このデータストアが属しているワークスペース。

datastore_name
str
必須

データストア名。

server_name
str
必須

SQL サーバー名。 "sample.database.windows.net" のような完全修飾ドメイン名の場合、server_name 値は "sample" で、エンドポイント値は "database.windows.net" になります。

database_name
str
必須

SQL データベース名。

tenant_id
str
既定値: None

サービス プリンシパルのディレクトリ ID またはテナント ID。

client_id
str
既定値: None

サービス プリンシパルのクライアント ID またはアプリケーション ID。

client_secret
str
既定値: None

サービス プリンシパルのシークレット。

resource_url
str, <xref:optional>
既定値: None

SQL データベース ストアで実行される操作を決定するリソース URL。None の場合、既定値の https://database.windows.net/ になります。

authority_url
str, <xref:optional>
既定値: None

ユーザーの認証に使用される機関 URL。既定値は https://login.microsoftonline.com です。

endpoint
str, <xref:optional>
既定値: None

SQL サーバーのエンドポイントです。 None の場合、既定値は database.windows.net。

overwrite
bool, <xref:optional>
既定値: False

既存のデータストアを上書きするかどうか。 データストアが存在しない場合は作成されます。 既定値は False です。

username
str
既定値: None

データベースにアクセスするデータベース ユーザーのユーザー名。

password
str
既定値: None

データベースにアクセスするデータベース ユーザーのパスワード。

skip_validation
bool, <xref:optional>
必須

SQL データベースへの接続の検証をスキップするかどうか。 既定値は False です。

subscription_id
str, <xref:optional>
既定値: None

ADLS ストアが属しているサブスクリプションの ID。

resource_group
str, <xref:optional>
既定値: None

ADLS ストアが属しているリソース グループ。

grant_workspace_access
bool, <xref:optional>
既定値: False

既定値は False です。 仮想ネットワークの内側にあるデータに Machine Learning スタジオからアクセスする場合は、True に設定します。これにより、Machine Learning スタジオからのデータ アクセスの認証に、ワークスペースのマネージド ID が使用されるようになります。また、そのワークスペースのマネージド ID は、ストレージの閲覧者として追加されます。 オプトインするには、ストレージの所有者またはユーザー アクセス管理者である必要があります。 必要な権限がない場合は、管理者にその権限を構成するよう依頼してください。 詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkを参照してください

戻り値

SQL データベース データストアを返します。

の戻り値の型 :

注釈

ワークスペースのリージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長くなったり、追加のネットワーク使用料が発生したりする可能性があります。


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

新しい Databricks ファイル システム (DBFS) データストアを初期化します。

DBFS データストアを使用できるのは、DataReference を入力として作成し、PipelineData を Azure Machine Learning パイプラインの DatabricksStep への出力として作成する場合のみです。 詳細については、こちらで確認できます

static register_dbfs(workspace, datastore_name)

パラメーター

workspace
Workspace
必須

このデータストアが属しているワークスペース。

datastore_name
str
必須

データストア名。

戻り値

DBFS データストアを返します。

の戻り値の型 :

注釈

ワークスペースのリージョンとは異なるリージョンからストレージをアタッチすると、待機時間が長くなったり、追加のネットワーク使用料が発生したりする可能性があります。

register_hdfs

Note

これは試験的なメソッドであり、いつでも変更される可能性があります。 詳細については、https://aka.ms/azuremlexperimental を参照してください。

新しい HDFS データストアを初期化します。

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

パラメーター

workspace
Workspace
必須

このデータストアが属しているワークスペース

datastore_name
str
必須

データストア名

protocol
str または <xref:_restclient.models.enum>
必須

HDFS クラスターと通信するときに使用するプロトコル。 http または https 指定できる値は、'http'、'https' です。

namenode_address
str
必須

HDFS namenode の IP アドレスまたは DNS ホスト名。 必要に応じて、ポートを含めることができます。

hdfs_server_certificate
str, <xref:optional>
必須

自己署名証明書と共に TLS を使用する場合の、HDFS namenode の TLS 署名証明書へのパス。

kerberos_realm
str
必須

Kerberos 領域。

kerberos_kdc_address
str
必須

Kerberos KDC の IP アドレスまたは DNS ホスト名。

kerberos_principal
str
必須

認証と認可に使用する Kerberos プリンシパル。

kerberos_keytab
str, <xref:optional>
必須

Kerberos プリンシパルに対応するキーを含む keytab ファイルへのパス。 これを指定するか、パスワードを指定します。

kerberos_password
str, <xref:optional>
必須

Kerberos プリンシパルに対応するパスワード。 これを指定するか、keytab ファイルへのパスを指定します。

overwrite
bool, <xref:optional>
必須

既存のデータストアを上書きします。 データストアが存在しない場合は作成されます。 既定値は False です。

set_as_default

既定のデータストアを設定します。

set_as_default()

パラメーター

datastore_name
str
必須

データストアの名前。

unregister

データストアの登録を解除します。 基になるストレージ サービスは削除されません。

unregister()