Datastore Classe
Représente une abstraction de stockage sur un compte de stockage Azure Machine Learning.
Les magasins de données sont attachés à des espaces de travail et sont utilisés pour stocker les informations de connexion aux services de stockage Azure afin de pouvoir les référencer par nom et ne pas avoir besoin de mémoriser les informations de connexion et le secret utilisé pour se connecter aux services de stockage.
Voici quelques exemples de services de stockage Azure pris en charge qui peuvent être inscrits en tant que magasins de données :
Conteneur d’objets blob Azure
Partage de fichiers Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database pour PostgreSQL
Système de fichiers Databricks
Azure Database pour MySQL
Utilisez cette classe pour effectuer des opérations de gestion, notamment l’inscription, la liste, l’obtention et la suppression de magasins de données.
Les magasins de données pour chaque service sont créés avec les register* méthodes de cette classe. Lorsque vous utilisez un magasin de données pour accéder aux données, vous devez avoir l’autorisation d’accéder à ces données, qui dépendent des informations d’identification inscrites auprès du magasin de données.
Pour plus d’informations sur les magasins de données et leur utilisation dans le Machine Learning, consultez les articles suivants :
Obtenez un magasin de données par nom. Cet appel effectue une demande au service de magasin de données.
Constructeur
Datastore(workspace, name=None)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail. |
|
name
|
str, <xref:optional>
Nom du magasin de données, valeur par défaut None, qui obtient le magasin de données par défaut. Valeur par défaut: None
|
Remarques
Pour interagir avec les données de vos magasins de données pour les tâches Machine Learning, telles que l’entraînement, créez un jeu de données Azure Machine Learning. Les jeux de données fournissent des fonctions qui chargent des données tabulaires dans un dataFrame Pandas ou Spark. Les jeux de données permettent également de télécharger ou de monter des fichiers de n’importe quel format à partir du stockage Blob Azure, d’Azure Files, d’Azure Data Lake Storage Gen1, d’Azure Data Lake Storage Gen2, d’Azure SQL Database et d’Azure Database pour PostgreSQL. Découvrez-en plus sur l’entraînement avec des jeux de données.
L’exemple suivant montre comment créer un magasin de données connecté au conteneur d’objets blob Azure.
# from azureml.exceptions import UserErrorException
#
# blob_datastore_name='MyBlobDatastore'
# account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
# container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
# account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
#
# try:
# blob_datastore = Datastore.get(ws, blob_datastore_name)
# print("Found Blob Datastore with name: %s" % blob_datastore_name)
# except UserErrorException:
# blob_datastore = Datastore.register_azure_blob_container(
# workspace=ws,
# datastore_name=blob_datastore_name,
# account_name=account_name, # Storage account name
# container_name=container_name, # Name of Azure blob container
# account_key=account_key) # Storage account key
# print("Registered blob datastore with name: %s" % blob_datastore_name)
#
# blob_data_ref = DataReference(
# datastore=blob_datastore,
# data_reference_name="blob_test_data",
# path_on_datastore="testdata")
L’exemple complet est disponible à partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
Méthodes
| get |
Obtenez un magasin de données par nom. Cela est identique à l’appel du constructeur. |
| get_default |
Obtenez le magasin de données par défaut pour l’espace de travail. |
| register_azure_blob_container |
Inscrivez un conteneur d’objets blob Azure dans le magasin de données. L’accès aux données basé sur les informations d’identification (ga) et en fonction de l’identité (préversion) est pris en charge. Vous pouvez choisir d’utiliser le jeton SAS ou la clé de compte de stockage. Si aucune information d’identification n’est enregistrée avec le magasin de données, le jeton AAD des utilisateurs est utilisé dans le programme Python local ou notebook s’il appelle directement l’une des fonctions suivantes : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification de l’accès aux données. En savoir plus ici. |
| register_azure_data_lake |
Initialisez un nouveau magasin de données Azure Data Lake. L’accès aux données basé sur les informations d’identification (en disponibilité générale) et en fonction de l’identité (préversion) est pris en charge. Vous pouvez inscrire un magasin de données auprès du principal de service pour l’accès aux données basée sur les informations d’identification. Si aucune information d’identification n’est enregistrée avec le magasin de données, le jeton AAD des utilisateurs est utilisé dans le programme Python local ou notebook s’il appelle directement l’une des fonctions suivantes : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification de l’accès aux données. En savoir plus ici. Consultez ci-dessous pour obtenir un exemple d’inscription d’un magasin de données Azure Data Lake Gen1.
|
| register_azure_data_lake_gen2 |
Initialisez un nouveau magasin de données Azure Data Lake Gen2. L’accès aux données basé sur les informations d’identification (en disponibilité générale) et en fonction de l’identité (préversion) est pris en charge. Vous pouvez inscrire un magasin de données auprès du principal de service pour l’accès aux données basée sur les informations d’identification. Si aucune information d’identification n’est enregistrée avec le magasin de données, le jeton AAD des utilisateurs est utilisé dans le programme Python local ou notebook s’il appelle directement l’une des fonctions suivantes : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification de l’accès aux données. En savoir plus ici. |
| register_azure_file_share |
Inscrivez un partage de fichiers Azure dans le magasin de données. Vous pouvez choisir d’utiliser un jeton SAP ou une clé de compte de stockage |
| register_azure_my_sql |
Initialisez un nouveau magasin de données Azure MySQL. Le magasin de données MySQL ne peut être utilisé que pour créer DataReference en tant qu’entrée et sortie dans DataTransferStep dans les pipelines Azure Machine Learning. Vous trouverez plus d’informations ici. Consultez ci-dessous pour obtenir un exemple d’inscription d’une base de données Azure MySQL en tant que magasin de données. |
| register_azure_postgre_sql |
Initialisez un nouveau magasin de données Azure PostgreSQL. Consultez ci-dessous pour obtenir un exemple d’inscription d’une base de données Azure PostgreSQL en tant que magasin de données. |
| register_azure_sql_database |
Initialisez un nouveau magasin de données de base de données Azure SQL. L’accès aux données basé sur les informations d’identification (ga) et en fonction de l’identité (préversion) est pris en charge. Vous pouvez choisir d’utiliser le principal de service ou le nom d’utilisateur + mot de passe. Si aucune information d’identification n’est enregistrée avec le magasin de données, le jeton AAD des utilisateurs est utilisé dans le programme Python local ou notebook s’il appelle directement l’une des fonctions suivantes : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification de l’accès aux données. En savoir plus ici. Consultez ci-dessous pour obtenir un exemple d’inscription d’une base de données Azure SQL en tant que magasin de données. |
| register_dbfs |
Initialisez un nouveau magasin de données databricks File System (DBFS). Le magasin de données DBFS ne peut être utilisé que pour créer DataReference en tant qu’entrée et PipelineData en tant que sortie vers DatabricksStep dans des pipelines Azure Machine Learning. Vous trouverez plus d’informations ici.. |
| register_hdfs |
Remarque Il s’agit d’une méthode expérimentale et peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental. Initialisez un nouveau magasin de données HDFS. |
| set_as_default |
Définissez le magasin de données par défaut. |
| unregister |
Annule l’inscription du magasin de données. le service de stockage sous-jacent ne sera pas supprimé. |
get
Obtenez un magasin de données par nom. Cela est identique à l’appel du constructeur.
static get(workspace, datastore_name)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail. |
|
datastore_name
Obligatoire
|
str, <xref:optional>
Nom du magasin de données, valeur par défaut None, qui obtient le magasin de données par défaut. |
Retours
| Type | Description |
|---|---|
|
Magasin de données correspondant pour ce nom. |
get_default
Obtenez le magasin de données par défaut pour l’espace de travail.
static get_default(workspace)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail. |
Retours
| Type | Description |
|---|---|
|
Magasin de données par défaut pour l’espace de travail |
register_azure_blob_container
Inscrivez un conteneur d’objets blob Azure dans le magasin de données.
L’accès aux données basé sur les informations d’identification (ga) et en fonction de l’identité (préversion) est pris en charge. Vous pouvez choisir d’utiliser le jeton SAS ou la clé de compte de stockage. Si aucune information d’identification n’est enregistrée avec le magasin de données, le jeton AAD des utilisateurs est utilisé dans le programme Python local ou notebook s’il appelle directement l’une des fonctions suivantes : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification de l’accès aux données. En savoir plus ici.
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
Espace de travail. |
|
datastore_name
Obligatoire
|
Le nom du magasin de données, qui ne respecte pas la casse, ne peut contenir que des caractères alphanumériques et _. |
|
container_name
Obligatoire
|
Nom du conteneur d’objets blob Azure. |
|
account_name
Obligatoire
|
Nom du compte de stockage. |
|
sas_token
|
str, <xref:optional>
Un jeton SAS de compte, est défini par défaut sur Aucun. Pour la lecture des données, nous avons besoin d’un minimum d’autorisations List &Read pour conteneurs et objets et pour l’écriture de données, nous avons également besoin d’autorisations d’écriture et d’ajout. Valeur par défaut: None
|
|
account_key
|
str, <xref:optional>
Les clés d’accès de votre compte de stockage, par défaut, sont aucune. Valeur par défaut: None
|
|
protocol
|
str, <xref:optional>
Protocole à utiliser pour se connecter au conteneur d’objets blob. Si aucun, la valeur par défaut est https. Valeur par défaut: None
|
|
endpoint
|
str, <xref:optional>
Point de terminaison du compte de stockage. Si aucun, la valeur par défaut est core.windows.net. Valeur par défaut: None
|
|
overwrite
|
bool, <xref:optional>
remplace un magasin de données existant. Si le magasin de données n’existe pas, il en crée un par défaut sur False Valeur par défaut: False
|
|
create_if_not_exists
|
bool, <xref:optional>
créez le conteneur d’objets blob s’il n’existe pas, par défaut sur False Valeur par défaut: False
|
|
skip_validation
|
bool, <xref:optional>
ignore la validation des clés de stockage, la valeur par défaut est False Valeur par défaut: False
|
|
blob_cache_timeout
|
int, <xref:optional>
Lorsque cet objet blob est monté, définissez le délai d’expiration du cache sur ce nombre de secondes. Si aucune valeur n’est définie, le délai d’expiration est défini par défaut (c’est-à-dire que les objets blob sont mis en cache pendant la durée du travail lors de la lecture). Valeur par défaut: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Valeur par défaut False. Définissez-le sur True pour accéder aux données derrière le réseau virtuel à partir de Machine Learning Studio. Cela rend l’accès aux données à partir de Machine Learning Studio utiliser l’identité managée de l’espace de travail pour l’authentification et ajoute l’identité managée de l’espace de travail en tant que lecteur du stockage. Vous devez être propriétaire ou administrateur d’accès utilisateur du stockage pour vous inscrire. Demandez à votre administrateur de le configurer si vous n’avez pas l’autorisation requise. En savoir plus 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valeur par défaut: False
|
|
subscription_id
|
str, <xref:optional>
L’ID d’abonnement du compte de stockage est défini par défaut sur Aucun. Valeur par défaut: None
|
|
resource_group
|
str, <xref:optional>
Le groupe de ressources du compte de stockage est défini par défaut sur None. Valeur par défaut: None
|
Retours
| Type | Description |
|---|---|
|
Magasin de données blob. |
Remarques
Si vous attachez du stockage à partir d’une région différente de celle de l’espace de travail, cela peut entraîner une latence plus élevée et des coûts d’utilisation réseau supplémentaires.
register_azure_data_lake
Initialisez un nouveau magasin de données Azure Data Lake.
L’accès aux données basé sur les informations d’identification (en disponibilité générale) et en fonction de l’identité (préversion) est pris en charge. Vous pouvez inscrire un magasin de données auprès du principal de service pour l’accès aux données basée sur les informations d’identification. Si aucune information d’identification n’est enregistrée avec le magasin de données, le jeton AAD des utilisateurs est utilisé dans le programme Python local ou notebook s’il appelle directement l’une des fonctions suivantes : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification de l’accès aux données. En savoir plus ici.
Consultez ci-dessous pour obtenir un exemple d’inscription d’un magasin de données Azure Data Lake Gen1.
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail auquel appartient ce magasin de données. |
|
datastore_name
Obligatoire
|
Nom du magasin de données. |
|
store_name
Obligatoire
|
Nom du magasin ADLS. |
|
tenant_id
|
str, <xref:optional>
ID d’annuaire/ID de locataire du principal de service utilisé pour accéder aux données. Valeur par défaut: None
|
|
client_id
|
str, <xref:optional>
ID client/ID d’application du principal de service utilisé pour accéder aux données. Valeur par défaut: None
|
|
client_secret
|
str, <xref:optional>
Clé secrète client du principal de service utilisée pour accéder aux données. Valeur par défaut: None
|
|
resource_url
|
str, <xref:optional>
L’URL de ressource, qui détermine les opérations qui seront effectuées sur Data Lake Store, si Aucune, est par défaut Valeur par défaut: None
|
|
authority_url
|
str, <xref:optional>
URL d’autorité utilisée pour authentifier l’utilisateur, par défaut Valeur par défaut: None
|
|
subscription_id
|
str, <xref:optional>
ID de l’abonnement auquel appartient le magasin ADLS. Valeur par défaut: None
|
|
resource_group
|
str, <xref:optional>
Le groupe de ressources auquel appartient le magasin ADLS. Valeur par défaut: None
|
|
overwrite
|
bool, <xref:optional>
Indique s’il faut remplacer un magasin de données existant. Si le magasin de données n’existe pas, il en crée un. La valeur par défaut est False. Valeur par défaut: False
|
|
grant_workspace_access
|
bool, <xref:optional>
Valeur par défaut False. Définissez-le sur True pour accéder aux données derrière le réseau virtuel à partir de Machine Learning Studio. Cela rend l’accès aux données à partir de Machine Learning Studio utiliser l’identité managée de l’espace de travail pour l’authentification et ajoute l’identité managée de l’espace de travail en tant que lecteur du stockage. Vous devez être propriétaire ou administrateur de l’accès utilisateur du stockage pour vous inscrire. Demandez à votre administrateur de le configurer si vous n’avez pas l’autorisation requise. En savoir plus 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valeur par défaut: False
|
Retours
| Type | Description |
|---|---|
|
Retourne le magasin de données Azure Data Lake. |
Remarques
Si vous attachez du stockage à partir d’une région différente de celle de l’espace de travail, cela peut entraîner une latence plus élevée et des coûts d’utilisation réseau supplémentaires.
Remarque
Azure Data Lake Datastore prend en charge le transfert de données et l’exécution de travaux U-Sql à l’aide d’Azure Machine Learning Pipelines.
Vous pouvez également l’utiliser comme source de données pour le jeu de données Azure Machine Learning qui peut être téléchargé ou monté sur n’importe quel calcul pris en charge.
register_azure_data_lake_gen2
Initialisez un nouveau magasin de données Azure Data Lake Gen2.
L’accès aux données basé sur les informations d’identification (en disponibilité générale) et en fonction de l’identité (préversion) est pris en charge. Vous pouvez inscrire un magasin de données auprès du principal de service pour l’accès aux données basée sur les informations d’identification. Si aucune information d’identification n’est enregistrée avec le magasin de données, le jeton AAD des utilisateurs est utilisé dans le programme Python local ou notebook s’il appelle directement l’une des fonctions suivantes : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification de l’accès aux données. En savoir plus ici.
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail auquel appartient ce magasin de données. |
|
datastore_name
Obligatoire
|
Nom du magasin de données. |
|
filesystem
Obligatoire
|
Nom du système de fichiers Data Lake Gen2. |
|
account_name
Obligatoire
|
Nom du compte de stockage. |
|
tenant_id
|
str, <xref:optional>
ID d’annuaire/ID de locataire du principal du service. Valeur par défaut: None
|
|
client_id
|
str, <xref:optional>
ID client/ID d’application du principal de service. Valeur par défaut: None
|
|
client_secret
|
str, <xref:optional>
Secret du principal de service. Valeur par défaut: None
|
|
resource_url
|
str, <xref:optional>
L’URL de ressource, qui détermine les opérations qui seront effectuées sur le data lake store, par défaut Valeur par défaut: None
|
|
authority_url
|
str, <xref:optional>
URL d’autorité utilisée pour authentifier l’utilisateur, par défaut Valeur par défaut: None
|
|
protocol
|
str, <xref:optional>
Protocole à utiliser pour se connecter au conteneur d’objets blob. Si aucun, la valeur par défaut est https. Valeur par défaut: None
|
|
endpoint
|
str, <xref:optional>
Point de terminaison du compte de stockage. Si aucun, la valeur par défaut est core.windows.net. Valeur par défaut: None
|
|
overwrite
|
bool, <xref:optional>
Indique s’il faut remplacer un magasin de données existant. Si le magasin de données n’existe pas, il en crée un. La valeur par défaut est False. Valeur par défaut: False
|
|
subscription_id
|
str, <xref:optional>
ID de l’abonnement auquel appartient le magasin ADLS. Valeur par défaut: None
|
|
resource_group
|
str, <xref:optional>
Le groupe de ressources auquel appartient le magasin ADLS. Valeur par défaut: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Valeur par défaut False. Définissez-le sur True pour accéder aux données derrière le réseau virtuel à partir de Machine Learning Studio. Cela rend l’accès aux données à partir de Machine Learning Studio utiliser l’identité managée de l’espace de travail pour l’authentification et ajoute l’identité managée de l’espace de travail en tant que lecteur du stockage. Vous devez être propriétaire ou administrateur d’accès utilisateur du stockage pour vous inscrire. Demandez à votre administrateur de le configurer si vous n’avez pas l’autorisation requise. En savoir plus 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valeur par défaut: False
|
Retours
| Type | Description |
|---|---|
|
Retourne le magasin de données Azure Data Lake Gen2. |
Remarques
Si vous attachez du stockage à partir d’une région différente de celle de l’espace de travail, cela peut entraîner une latence plus élevée et des coûts d’utilisation réseau supplémentaires.
register_azure_file_share
Inscrivez un partage de fichiers Azure dans le magasin de données.
Vous pouvez choisir d’utiliser un jeton SAP ou une clé de compte de stockage
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail auquel appartient ce magasin de données. |
|
datastore_name
Obligatoire
|
Le nom du magasin de données, qui ne respecte pas la casse, ne peut contenir que des caractères alphanumériques et _. |
|
file_share_name
Obligatoire
|
Nom du conteneur de fichiers Azure. |
|
account_name
Obligatoire
|
Nom du compte de stockage. |
|
sas_token
|
str, <xref:optional>
Un jeton SAS de compte, est défini par défaut sur Aucun. Pour la lecture des données, nous avons besoin d’un minimum d’autorisations List &Read pour conteneurs et objets et pour l’écriture de données, nous avons également besoin d’autorisations d’écriture et d’ajout. Valeur par défaut: None
|
|
account_key
|
str, <xref:optional>
Les clés d’accès de votre compte de stockage, par défaut, sont aucune. Valeur par défaut: None
|
|
protocol
|
str, <xref:optional>
Protocole à utiliser pour se connecter au partage de fichiers. Si aucun, la valeur par défaut est https. Valeur par défaut: None
|
|
endpoint
|
str, <xref:optional>
Point de terminaison du partage de fichiers. Si aucun, la valeur par défaut est core.windows.net. Valeur par défaut: None
|
|
overwrite
|
bool, <xref:optional>
Indique s’il faut remplacer un magasin de données existant. Si le magasin de données n’existe pas, il en crée un. La valeur par défaut est False. Valeur par défaut: False
|
|
create_if_not_exists
|
bool, <xref:optional>
Indique s’il faut créer le partage de fichiers s’il n’existe pas. La valeur par défaut est False. Valeur par défaut: False
|
|
skip_validation
|
bool, <xref:optional>
Indique s’il faut ignorer la validation des clés de stockage. La valeur par défaut est False. Valeur par défaut: False
|
Retours
| Type | Description |
|---|---|
|
Magasin de données de fichiers. |
Remarques
Si vous attachez du stockage à partir d’une région différente de celle de l’espace de travail, cela peut entraîner une latence plus élevée et des coûts d’utilisation réseau supplémentaires.
register_azure_my_sql
Initialisez un nouveau magasin de données Azure MySQL.
Le magasin de données MySQL ne peut être utilisé que pour créer DataReference en tant qu’entrée et sortie dans DataTransferStep dans les pipelines Azure Machine Learning. Vous trouverez plus d’informations ici.
Consultez ci-dessous pour obtenir un exemple d’inscription d’une base de données Azure MySQL en tant que magasin de données.
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail auquel appartient ce magasin de données. |
|
datastore_name
Obligatoire
|
Nom du magasin de données. |
|
server_name
Obligatoire
|
Nom du serveur MySQL. |
|
database_name
Obligatoire
|
Nom de la base de données MySQL. |
|
user_id
Obligatoire
|
ID utilisateur du serveur MySQL. |
|
user_password
Obligatoire
|
Mot de passe utilisateur du serveur MySQL. |
|
port_number
|
Numéro de port du serveur MySQL. Valeur par défaut: None
|
|
endpoint
|
str, <xref:optional>
Point de terminaison du serveur MySQL. Si aucun, la valeur par défaut est mysql.database.azure.com. Valeur par défaut: None
|
|
overwrite
|
bool, <xref:optional>
Indique s’il faut remplacer un magasin de données existant. Si le magasin de données n’existe pas, il en crée un. La valeur par défaut est False. Valeur par défaut: False
|
Retours
| Type | Description |
|---|---|
|
Retourne le magasin de données de base de données MySQL. |
Remarques
Si vous attachez du stockage à partir d’une région différente de celle de l’espace de travail, cela peut entraîner une latence plus élevée et des coûts d’utilisation réseau supplémentaires.
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
Initialisez un nouveau magasin de données Azure PostgreSQL.
Consultez ci-dessous pour obtenir un exemple d’inscription d’une base de données Azure PostgreSQL en tant que magasin de données.
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail auquel appartient ce magasin de données. |
|
datastore_name
Obligatoire
|
Nom du magasin de données. |
|
server_name
Obligatoire
|
Nom du serveur PostgreSQL. |
|
database_name
Obligatoire
|
Nom de la base de données PostgreSQL. |
|
user_id
Obligatoire
|
ID utilisateur du serveur PostgreSQL. |
|
user_password
Obligatoire
|
Mot de passe utilisateur du serveur PostgreSQL. |
|
port_number
|
Numéro de port du serveur PostgreSQL Valeur par défaut: None
|
|
endpoint
|
str, <xref:optional>
Point de terminaison du serveur PostgreSQL. Si aucun, la valeur par défaut est postgres.database.azure.com. Valeur par défaut: None
|
|
overwrite
|
bool, <xref:optional>
Indique s’il faut remplacer un magasin de données existant. Si le magasin de données n’existe pas, il en crée un. La valeur par défaut est False. Valeur par défaut: False
|
|
enforce_ssl
|
Indique l’exigence SSL du serveur PostgreSQL. La valeur par défaut est True. Valeur par défaut: True
|
Retours
| Type | Description |
|---|---|
|
Retourne le magasin de données de base de données PostgreSQL. |
Remarques
Si vous attachez du stockage à partir d’une région différente de celle de l’espace de travail, cela peut entraîner une latence plus élevée et des coûts d’utilisation réseau supplémentaires.
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
Initialisez un nouveau magasin de données de base de données Azure SQL.
L’accès aux données basé sur les informations d’identification (ga) et en fonction de l’identité (préversion) est pris en charge. Vous pouvez choisir d’utiliser le principal de service ou le nom d’utilisateur + mot de passe. Si aucune information d’identification n’est enregistrée avec le magasin de données, le jeton AAD des utilisateurs est utilisé dans le programme Python local ou notebook s’il appelle directement l’une des fonctions suivantes : FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l’identité de la cible de calcul sera utilisée dans les travaux soumis par Experiment.submit pour l’authentification de l’accès aux données. En savoir plus ici.
Consultez ci-dessous pour obtenir un exemple d’inscription d’une base de données Azure SQL en tant que magasin de données.
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail auquel appartient ce magasin de données. |
|
datastore_name
Obligatoire
|
Nom du magasin de données. |
|
server_name
Obligatoire
|
Nom du serveur SQL. Pour le nom de domaine complet tel que « sample.database.windows.net », la valeur server_name doit être « sample » et la valeur du point de terminaison doit être « database.windows.net ». |
|
database_name
Obligatoire
|
Nom de la base de données SQL. |
|
tenant_id
|
ID d’annuaire/ID de locataire du principal du service. Valeur par défaut: None
|
|
client_id
|
ID client/ID d’application du principal de service. Valeur par défaut: None
|
|
client_secret
|
Secret du principal de service. Valeur par défaut: None
|
|
resource_url
|
str, <xref:optional>
URL de ressource, qui détermine les opérations qui seront effectuées sur le magasin de bases de données SQL, si Aucune, est par défaut https://database.windows.net/. Valeur par défaut: None
|
|
authority_url
|
str, <xref:optional>
URL d’autorité utilisée pour authentifier l’utilisateur, par défaut https://login.microsoftonline.com. Valeur par défaut: None
|
|
endpoint
|
str, <xref:optional>
Point de terminaison du serveur SQL. Si aucun, la valeur par défaut est database.windows.net. Valeur par défaut: None
|
|
overwrite
|
bool, <xref:optional>
Indique s’il faut remplacer un magasin de données existant. Si le magasin de données n’existe pas, il en crée un. La valeur par défaut est False. Valeur par défaut: False
|
|
username
|
Nom d’utilisateur de l’utilisateur de la base de données pour accéder à la base de données. Valeur par défaut: None
|
|
password
|
Mot de passe de l’utilisateur de base de données pour accéder à la base de données. Valeur par défaut: None
|
|
skip_validation
Obligatoire
|
bool, <xref:optional>
Indique s’il faut ignorer la validation de la connexion à la base de données SQL. Valeur par défaut False. |
|
subscription_id
|
str, <xref:optional>
ID de l’abonnement auquel appartient le magasin ADLS. Valeur par défaut: None
|
|
resource_group
|
str, <xref:optional>
Le groupe de ressources auquel appartient le magasin ADLS. Valeur par défaut: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Valeur par défaut False. Définissez-le sur True pour accéder aux données derrière le réseau virtuel à partir de Machine Learning Studio. Cela rend l’accès aux données à partir de Machine Learning Studio utiliser l’identité managée de l’espace de travail pour l’authentification et ajoute l’identité managée de l’espace de travail en tant que lecteur du stockage. Vous devez être propriétaire ou administrateur d’accès utilisateur du stockage pour vous inscrire. Demandez à votre administrateur de le configurer si vous n’avez pas l’autorisation requise. En savoir plus 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valeur par défaut: False
|
Retours
| Type | Description |
|---|---|
|
Retourne le magasin de données de base de données SQL. |
Remarques
Si vous attachez du stockage à partir d’une région différente de celle de l’espace de travail, cela peut entraîner une latence plus élevée et des coûts d’utilisation réseau supplémentaires.
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
Initialisez un nouveau magasin de données databricks File System (DBFS).
Le magasin de données DBFS ne peut être utilisé que pour créer DataReference en tant qu’entrée et PipelineData en tant que sortie vers DatabricksStep dans des pipelines Azure Machine Learning. Vous trouverez plus d’informations ici..
static register_dbfs(workspace, datastore_name)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
L’espace de travail auquel appartient ce magasin de données. |
|
datastore_name
Obligatoire
|
Nom du magasin de données. |
Retours
| Type | Description |
|---|---|
|
Retourne le magasin de données DBFS. |
Remarques
Si vous attachez du stockage à partir d’une région différente de celle de l’espace de travail, cela peut entraîner une latence plus élevée et des coûts d’utilisation réseau supplémentaires.
register_hdfs
Remarque
Il s’agit d’une méthode expérimentale et peut changer à tout moment. Pour plus d’informations, consultez https://aka.ms/azuremlexperimental.
Initialisez un nouveau magasin de données HDFS.
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
Paramètres
| Nom | Description |
|---|---|
|
workspace
Obligatoire
|
l’espace de travail auquel appartient ce magasin de données |
|
datastore_name
Obligatoire
|
nom du magasin de données |
|
protocol
Obligatoire
|
str ou
<xref:_restclient.models.enum>
Protocole à utiliser lors de la communication avec le cluster HDFS. http ou https. Les valeurs possibles sont les suivantes : « http », « https » |
|
namenode_address
Obligatoire
|
Adresse IP ou nom d’hôte DNS du namenode HDFS. Inclut éventuellement un port. |
|
hdfs_server_certificate
Obligatoire
|
str, <xref:optional>
Chemin d’accès au certificat de signature TLS du namenode HDFS, si vous utilisez TLS avec un certificat auto-signé. |
|
kerberos_realm
Obligatoire
|
Domaine Kerberos. |
|
kerberos_kdc_address
Obligatoire
|
Adresse IP ou nom d’hôte DNS du KDC Kerberos. |
|
kerberos_principal
Obligatoire
|
Principal Kerberos à utiliser pour l’authentification et l’autorisation. |
|
kerberos_keytab
Obligatoire
|
str, <xref:optional>
Chemin d’accès au fichier keytab contenant les clés correspondant au principal Kerberos. Fournissez cette option ou un mot de passe. |
|
kerberos_password
Obligatoire
|
str, <xref:optional>
Mot de passe correspondant au principal Kerberos. Fournissez cette option ou le chemin d’accès à un fichier keytab. |
|
overwrite
Obligatoire
|
bool, <xref:optional>
remplace un magasin de données existant. Si le magasin de données n’existe pas, il en crée un. Valeur par défaut False. |
set_as_default
Définissez le magasin de données par défaut.
set_as_default()
Paramètres
| Nom | Description |
|---|---|
|
datastore_name
Obligatoire
|
Nom du magasin de données. |
unregister
Annule l’inscription du magasin de données. le service de stockage sous-jacent ne sera pas supprimé.
unregister()