Datastore Classe
Rappresenta un'astrazione di archiviazione su un account di archiviazione di Azure Machine Learning.
Gli archivi dati vengono collegati alle aree di lavoro e vengono usati per archiviare le informazioni di connessione ai servizi di archiviazione di Azure, in modo da poterli fare riferimento in base al nome e non è necessario ricordare le informazioni di connessione e il segreto usati per connettersi ai servizi di archiviazione.
Esempi di servizi di archiviazione di Azure supportati che possono essere registrati come archivi dati sono:
Contenitore BLOB di Azure
Condivisione file di Azure
Azure Data Lake
Azure Data Lake Gen2
Database SQL di Microsoft Azure
Database di Azure per PostgreSQL
File system di Databricks
Database di Azure per MySQL
Usare questa classe per eseguire operazioni di gestione, tra cui registrare, elencare, ottenere e rimuovere archivi dati.
Gli archivi dati per ogni servizio vengono creati con i register* metodi di questa classe. Quando si usa un archivio dati per accedere ai dati, è necessario disporre dell'autorizzazione per accedere a tali dati, che dipende dalle credenziali registrate nell'archivio dati.
Per altre informazioni sugli archivi dati e su come possono essere usati in Machine Learning, vedere gli articoli seguenti:
Ottenere un archivio dati in base al nome. Questa chiamata effettuerà una richiesta al servizio di archiviazione dati.
Costruttore
Datastore(workspace, name=None)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
Area di lavoro. |
|
name
|
str, <xref:optional>
Il nome dell'archivio dati, per impostazione predefinita, è Nessuno, che ottiene l'archivio dati predefinito. Valore predefinito: None
|
Commenti
Per interagire con i dati negli archivi dati per le attività di Machine Learning, ad esempio il training, creare un set di dati di Azure Machine Learning. I set di dati forniscono funzioni che caricano dati tabulari in un dataframe Pandas o Spark. I set di dati offrono anche la possibilità di scaricare o montare file di qualsiasi formato da Archiviazione BLOB di Azure, File di Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, database SQL di Azure e Database di Azure per PostgreSQL. Vedere altre informazioni su come eseguire il training con i set di dati.
L'esempio seguente illustra come creare un archivio dati connesso al contenitore BLOB di Azure.
# from azureml.exceptions import UserErrorException
#
# blob_datastore_name='MyBlobDatastore'
# account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
# container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
# account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
#
# try:
# blob_datastore = Datastore.get(ws, blob_datastore_name)
# print("Found Blob Datastore with name: %s" % blob_datastore_name)
# except UserErrorException:
# blob_datastore = Datastore.register_azure_blob_container(
# workspace=ws,
# datastore_name=blob_datastore_name,
# account_name=account_name, # Storage account name
# container_name=container_name, # Name of Azure blob container
# account_key=account_key) # Storage account key
# print("Registered blob datastore with name: %s" % blob_datastore_name)
#
# blob_data_ref = DataReference(
# datastore=blob_datastore,
# data_reference_name="blob_test_data",
# path_on_datastore="testdata")
L'esempio completo è disponibile da https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
Metodi
| get |
Ottenere un archivio dati in base al nome. Equivale a chiamare il costruttore. |
| get_default |
Ottenere l'archivio dati predefinito per l'area di lavoro. |
| register_azure_blob_container |
Registrare un contenitore BLOB di Azure nell'archivio dati. Sono supportati l'accesso ai dati basato sulle credenziali (GA) e sull'identità (anteprima), è possibile scegliere di usare il token di firma di accesso condiviso o la chiave dell'account di archiviazione. Se non viene salvata alcuna credenziale con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Altre informazioni sono disponibili qui. |
| register_azure_data_lake |
Inizializzare un nuovo archivio dati di Azure Data Lake. Sono supportati l'accesso ai dati basato sulle credenziali (ga) e l'accesso basato sulle identità (anteprima), è possibile registrare un archivio dati con entità servizio per l'accesso ai dati basato sulle credenziali. Se non viene salvata alcuna credenziale con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Altre informazioni sono disponibili qui. Vedere di seguito per un esempio di come registrare azure Data Lake Gen1 come archivio dati.
|
| register_azure_data_lake_gen2 |
Inizializzare un nuovo archivio dati di Azure Data Lake Gen2. Sono supportati l'accesso ai dati basato sulle credenziali (ga) e l'accesso basato sulle identità (anteprima), è possibile registrare un archivio dati con entità servizio per l'accesso ai dati basato sulle credenziali. Se non viene salvata alcuna credenziale con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Altre informazioni sono disponibili qui. |
| register_azure_file_share |
Registrare una condivisione file di Azure nell'archivio dati. È possibile scegliere di usare il token di firma di accesso condiviso o la chiave dell'account di archiviazione |
| register_azure_my_sql |
Inizializzare un nuovo archivio dati MySQL di Azure. L'archivio dati MySQL può essere usato solo per creare DataReference come input e output in DataTransferStep nelle pipeline di Azure Machine Learning. Altri dettagli sono disponibili qui. Vedere di seguito per un esempio di come registrare un database MySQL di Azure come archivio dati. |
| register_azure_postgre_sql |
Inizializzare un nuovo archivio dati PostgreSQL di Azure. Vedere di seguito per un esempio di come registrare un database PostgreSQL di Azure come archivio dati. |
| register_azure_sql_database |
Inizializzare un nuovo archivio dati del database SQL di Azure. Sono supportati l'accesso ai dati basato sulle credenziali (GA) e sull'identità (anteprima), è possibile scegliere di usare l'entità servizio o il nome utente e la password. Se non viene salvata alcuna credenziale con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Altre informazioni sono disponibili qui. Vedere di seguito per un esempio di come registrare un database SQL di Azure come archivio dati. |
| register_dbfs |
Inizializzare un nuovo archivio dati DBFS (Databricks File System). L'archivio dati DBFS può essere usato solo per creare DataReference come input e PipelineData come output in DatabricksStep nelle pipeline di Azure Machine Learning. Altri dettagli sono disponibili qui. |
| register_hdfs |
Annotazioni Si tratta di un metodo sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/acr/connected-registry. Inizializzare un nuovo archivio dati HDFS. |
| set_as_default |
Impostare l'archivio dati predefinito. |
| unregister |
Annulla la registrazione dell'archivio dati. il servizio di archiviazione sottostante non verrà eliminato. |
get
Ottenere un archivio dati in base al nome. Equivale a chiamare il costruttore.
static get(workspace, datastore_name)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
Area di lavoro. |
|
datastore_name
Necessario
|
str, <xref:optional>
Il nome dell'archivio dati, per impostazione predefinita, è Nessuno, che ottiene l'archivio dati predefinito. |
Restituisce
| Tipo | Descrizione |
|---|---|
|
Archivio dati corrispondente per tale nome. |
get_default
Ottenere l'archivio dati predefinito per l'area di lavoro.
static get_default(workspace)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
Area di lavoro. |
Restituisce
| Tipo | Descrizione |
|---|---|
|
Archivio dati predefinito per l'area di lavoro |
register_azure_blob_container
Registrare un contenitore BLOB di Azure nell'archivio dati.
Sono supportati l'accesso ai dati basato sulle credenziali (GA) e sull'identità (anteprima), è possibile scegliere di usare il token di firma di accesso condiviso o la chiave dell'account di archiviazione. Se non viene salvata alcuna credenziale con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Altre informazioni sono disponibili qui.
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
Area di lavoro. |
|
datastore_name
Necessario
|
Il nome dell'archivio dati, senza distinzione tra maiuscole e minuscole, può contenere solo caratteri alfanumerici e _. |
|
container_name
Necessario
|
Nome del contenitore BLOB di Azure. |
|
account_name
Necessario
|
Nome dell'account di archiviazione. |
|
sas_token
|
str, <xref:optional>
Un token di firma di accesso condiviso dell'account, per impostazione predefinita none. Per la lettura dei dati, sono necessarie almeno autorizzazioni di elenco e lettura per contenitori e oggetti e per la scrittura dei dati sono necessarie anche autorizzazioni di scrittura e aggiunta. Valore predefinito: None
|
|
account_key
|
str, <xref:optional>
Chiavi di accesso dell'account di archiviazione, per impostazione predefinita Nessuno. Valore predefinito: None
|
|
protocol
|
str, <xref:optional>
Protocollo da usare per connettersi al contenitore BLOB. Se Nessuno, per impostazione predefinita è https. Valore predefinito: None
|
|
endpoint
|
str, <xref:optional>
Endpoint dell'account di archiviazione. Se Nessuno, il valore predefinito è core.windows.net. Valore predefinito: None
|
|
overwrite
|
bool, <xref:optional>
sovrascrive un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno, il valore predefinito è False Valore predefinito: False
|
|
create_if_not_exists
|
bool, <xref:optional>
creare il contenitore BLOB se non esiste, l'impostazione predefinita è False Valore predefinito: False
|
|
skip_validation
|
bool, <xref:optional>
ignora la convalida delle chiavi di archiviazione, il valore predefinito è False Valore predefinito: False
|
|
blob_cache_timeout
|
int, <xref:optional>
Quando questo BLOB viene montato, impostare il timeout della cache su questo numero di secondi. Se Nessuna, per impostazione predefinita non viene eseguito alcun timeout, ovvero i BLOB verranno memorizzati nella cache per la durata del processo durante la lettura. Valore predefinito: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Il valore predefinito è False. Impostare su True per accedere ai dati dietro la rete virtuale da Machine Learning Studio. In questo modo, l'accesso ai dati da Machine Learning Studio usa l'identità gestita dell'area di lavoro per l'autenticazione e aggiunge l'identità gestita dell'area di lavoro come lettore dell'archiviazione. È necessario essere proprietario o amministratore dell'accesso utente della risorsa di archiviazione per acconsentire esplicitamente. Chiedere all'amministratore di configurarlo automaticamente se non si dispone dell'autorizzazione necessaria. Altre informazioni 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valore predefinito: False
|
|
subscription_id
|
str, <xref:optional>
L'ID sottoscrizione dell'account di archiviazione, per impostazione predefinita, è Nessuno. Valore predefinito: None
|
|
resource_group
|
str, <xref:optional>
Il gruppo di risorse dell'account di archiviazione, per impostazione predefinita, è Nessuno. Valore predefinito: None
|
Restituisce
| Tipo | Descrizione |
|---|---|
|
Archivio dati BLOB. |
Commenti
Se si collega l'archiviazione da un'area diversa da quella dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.
register_azure_data_lake
Inizializzare un nuovo archivio dati di Azure Data Lake.
Sono supportati l'accesso ai dati basato sulle credenziali (ga) e l'accesso basato sulle identità (anteprima), è possibile registrare un archivio dati con entità servizio per l'accesso ai dati basato sulle credenziali. Se non viene salvata alcuna credenziale con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Altre informazioni sono disponibili qui.
Vedere di seguito per un esempio di come registrare azure Data Lake Gen1 come archivio dati.
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
L'area di lavoro a cui appartiene questo archivio dati. |
|
datastore_name
Necessario
|
Nome dell'archivio dati. |
|
store_name
Necessario
|
Nome dell'archivio ADLS. |
|
tenant_id
|
str, <xref:optional>
ID directory/ID tenant dell'entità servizio usata per accedere ai dati. Valore predefinito: None
|
|
client_id
|
str, <xref:optional>
ID client/ID applicazione dell'entità servizio usata per accedere ai dati. Valore predefinito: None
|
|
client_secret
|
str, <xref:optional>
Segreto client dell'entità servizio usato per accedere ai dati. Valore predefinito: None
|
|
resource_url
|
str, <xref:optional>
L'URL della risorsa, che determina le operazioni che verranno eseguite nell'archivio Data Lake, se None, per Valore predefinito: None
|
|
authority_url
|
str, <xref:optional>
L'URL dell'autorità usato per autenticare l'utente, per impostazione predefinita è Valore predefinito: None
|
|
subscription_id
|
str, <xref:optional>
ID della sottoscrizione a cui appartiene l'archivio ADLS. Valore predefinito: None
|
|
resource_group
|
str, <xref:optional>
Il gruppo di risorse a cui appartiene l'archivio ADLS. Valore predefinito: None
|
|
overwrite
|
bool, <xref:optional>
Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno. Il valore predefinito è False. Valore predefinito: False
|
|
grant_workspace_access
|
bool, <xref:optional>
Il valore predefinito è False. Impostare su True per accedere ai dati dietro la rete virtuale da Machine Learning Studio. In questo modo, l'accesso ai dati da Machine Learning Studio usa l'identità gestita dell'area di lavoro per l'autenticazione e aggiunge l'identità gestita dell'area di lavoro come lettore dell'archiviazione. È necessario essere Proprietario o Amministratore accesso utenti della risorsa di archiviazione per acconsentire esplicitamente. Chiedere all'amministratore di configurarlo automaticamente se non si dispone dell'autorizzazione necessaria. Altre informazioni 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valore predefinito: False
|
Restituisce
| Tipo | Descrizione |
|---|---|
|
Restituisce l'archivio dati di Azure Data Lake. |
Commenti
Se si collega l'archiviazione da un'area diversa da quella dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.
Annotazioni
Azure Data Lake Datastore supporta il trasferimento dei dati e l'esecuzione di processi U-Sql usando le pipeline di Azure Machine Learning.
È anche possibile usarlo come origine dati per il set di dati di Azure Machine Learning che può essere scaricato o montato in qualsiasi ambiente di calcolo supportato.
register_azure_data_lake_gen2
Inizializzare un nuovo archivio dati di Azure Data Lake Gen2.
Sono supportati l'accesso ai dati basato sulle credenziali (ga) e l'accesso basato sulle identità (anteprima), è possibile registrare un archivio dati con entità servizio per l'accesso ai dati basato sulle credenziali. Se non viene salvata alcuna credenziale con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Altre informazioni sono disponibili qui.
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
L'area di lavoro a cui appartiene questo archivio dati. |
|
datastore_name
Necessario
|
Nome dell'archivio dati. |
|
filesystem
Necessario
|
Nome del file system Data Lake Gen2. |
|
account_name
Necessario
|
Nome dell'account di archiviazione. |
|
tenant_id
|
str, <xref:optional>
ID directory/ID tenant dell'entità servizio. Valore predefinito: None
|
|
client_id
|
str, <xref:optional>
ID client/ID applicazione dell'entità servizio. Valore predefinito: None
|
|
client_secret
|
str, <xref:optional>
Segreto dell'entità servizio. Valore predefinito: None
|
|
resource_url
|
str, <xref:optional>
L'URL della risorsa, che determina quali operazioni verranno eseguite nell'archivio Data Lake, per impostazione predefinita Valore predefinito: None
|
|
authority_url
|
str, <xref:optional>
L'URL dell'autorità usato per autenticare l'utente, per impostazione predefinita è Valore predefinito: None
|
|
protocol
|
str, <xref:optional>
Protocollo da usare per connettersi al contenitore BLOB. Se Nessuno, per impostazione predefinita è https. Valore predefinito: None
|
|
endpoint
|
str, <xref:optional>
Endpoint dell'account di archiviazione. Se Nessuno, il valore predefinito è core.windows.net. Valore predefinito: None
|
|
overwrite
|
bool, <xref:optional>
Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno. Il valore predefinito è False. Valore predefinito: False
|
|
subscription_id
|
str, <xref:optional>
ID della sottoscrizione a cui appartiene l'archivio ADLS. Valore predefinito: None
|
|
resource_group
|
str, <xref:optional>
Il gruppo di risorse a cui appartiene l'archivio ADLS. Valore predefinito: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Il valore predefinito è False. Impostare su True per accedere ai dati dietro la rete virtuale da Machine Learning Studio. In questo modo, l'accesso ai dati da Machine Learning Studio usa l'identità gestita dell'area di lavoro per l'autenticazione e aggiunge l'identità gestita dell'area di lavoro come lettore dell'archiviazione. È necessario essere proprietario o amministratore dell'accesso utente della risorsa di archiviazione per acconsentire esplicitamente. Chiedere all'amministratore di configurarlo automaticamente se non si dispone dell'autorizzazione necessaria. Altre informazioni 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valore predefinito: False
|
Restituisce
| Tipo | Descrizione |
|---|---|
|
Restituisce l'archivio dati di Azure Data Lake Gen2. |
Commenti
Se si collega l'archiviazione da un'area diversa da quella dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.
register_azure_file_share
Registrare una condivisione file di Azure nell'archivio dati.
È possibile scegliere di usare il token di firma di accesso condiviso o la chiave dell'account di archiviazione
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
L'area di lavoro a cui appartiene questo archivio dati. |
|
datastore_name
Necessario
|
Il nome dell'archivio dati, senza distinzione tra maiuscole e minuscole, può contenere solo caratteri alfanumerici e _. |
|
file_share_name
Necessario
|
Nome del contenitore di file di Azure. |
|
account_name
Necessario
|
Nome dell'account di archiviazione. |
|
sas_token
|
str, <xref:optional>
Un token di firma di accesso condiviso dell'account, per impostazione predefinita none. Per la lettura dei dati, sono necessarie almeno autorizzazioni di elenco e lettura per contenitori e oggetti e per la scrittura dei dati sono necessarie anche autorizzazioni di scrittura e aggiunta. Valore predefinito: None
|
|
account_key
|
str, <xref:optional>
Chiavi di accesso dell'account di archiviazione, per impostazione predefinita Nessuno. Valore predefinito: None
|
|
protocol
|
str, <xref:optional>
Protocollo da usare per connettersi alla condivisione file. Se Nessuno, per impostazione predefinita è https. Valore predefinito: None
|
|
endpoint
|
str, <xref:optional>
Endpoint della condivisione file. Se Nessuno, il valore predefinito è core.windows.net. Valore predefinito: None
|
|
overwrite
|
bool, <xref:optional>
Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno. Il valore predefinito è False. Valore predefinito: False
|
|
create_if_not_exists
|
bool, <xref:optional>
Indica se creare la condivisione file se non esiste. Il valore predefinito è False. Valore predefinito: False
|
|
skip_validation
|
bool, <xref:optional>
Se ignorare la convalida delle chiavi di archiviazione. Il valore predefinito è False. Valore predefinito: False
|
Restituisce
| Tipo | Descrizione |
|---|---|
|
Archivio dati file. |
Commenti
Se si collega l'archiviazione da un'area diversa da quella dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.
register_azure_my_sql
Inizializzare un nuovo archivio dati MySQL di Azure.
L'archivio dati MySQL può essere usato solo per creare DataReference come input e output in DataTransferStep nelle pipeline di Azure Machine Learning. Altri dettagli sono disponibili qui.
Vedere di seguito per un esempio di come registrare un database MySQL di Azure come archivio dati.
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
L'area di lavoro a cui appartiene questo archivio dati. |
|
datastore_name
Necessario
|
Nome dell'archivio dati. |
|
server_name
Necessario
|
Nome del server MySQL. |
|
database_name
Necessario
|
Nome del database MySQL. |
|
user_id
Necessario
|
ID utente del server MySQL. |
|
user_password
Necessario
|
Password utente del server MySQL. |
|
port_number
|
Numero di porta del server MySQL. Valore predefinito: None
|
|
endpoint
|
str, <xref:optional>
Endpoint del server MySQL. Se Nessuno, per impostazione predefinita viene mysql.database.azure.com. Valore predefinito: None
|
|
overwrite
|
bool, <xref:optional>
Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno. Il valore predefinito è False. Valore predefinito: False
|
Restituisce
| Tipo | Descrizione |
|---|---|
|
Restituisce l'archivio dati del database MySQL. |
Commenti
Se si collega l'archiviazione da un'area diversa da quella dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
Inizializzare un nuovo archivio dati PostgreSQL di Azure.
Vedere di seguito per un esempio di come registrare un database PostgreSQL di Azure come archivio dati.
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
L'area di lavoro a cui appartiene questo archivio dati. |
|
datastore_name
Necessario
|
Nome dell'archivio dati. |
|
server_name
Necessario
|
Nome del server PostgreSQL. |
|
database_name
Necessario
|
Nome del database PostgreSQL. |
|
user_id
Necessario
|
ID utente del server PostgreSQL. |
|
user_password
Necessario
|
Password utente del server PostgreSQL. |
|
port_number
|
Numero di porta del server PostgreSQL Valore predefinito: None
|
|
endpoint
|
str, <xref:optional>
Endpoint del server PostgreSQL. Se Nessuno, il valore predefinito è postgres.database.azure.com. Valore predefinito: None
|
|
overwrite
|
bool, <xref:optional>
Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno. Il valore predefinito è False. Valore predefinito: False
|
|
enforce_ssl
|
Indica il requisito SSL del server PostgreSQL. Il valore predefinito è True. Valore predefinito: True
|
Restituisce
| Tipo | Descrizione |
|---|---|
|
Restituisce l'archivio dati del database PostgreSQL. |
Commenti
Se si collega l'archiviazione da un'area diversa da quella dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
Inizializzare un nuovo archivio dati del database SQL di Azure.
Sono supportati l'accesso ai dati basato sulle credenziali (GA) e sull'identità (anteprima), è possibile scegliere di usare l'entità servizio o il nome utente e la password. Se non viene salvata alcuna credenziale con l'archivio dati, il token AAD degli utenti verrà usato nel notebook o nel programma Python locale se chiama direttamente una di queste funzioni: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files l'identità della destinazione di calcolo verrà usata nei processi inviati da Experiment.submit per l'autenticazione dell'accesso ai dati. Altre informazioni sono disponibili qui.
Vedere di seguito per un esempio di come registrare un database SQL di Azure come archivio dati.
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
L'area di lavoro a cui appartiene questo archivio dati. |
|
datastore_name
Necessario
|
Nome dell'archivio dati. |
|
server_name
Necessario
|
Nome del server SQL. Per il nome di dominio completo, ad esempio "sample.database.windows.net", il valore server_name deve essere "sample" e il valore dell'endpoint deve essere "database.windows.net". |
|
database_name
Necessario
|
Nome del database SQL. |
|
tenant_id
|
ID directory/ID tenant dell'entità servizio. Valore predefinito: None
|
|
client_id
|
ID client/ID applicazione dell'entità servizio. Valore predefinito: None
|
|
client_secret
|
Segreto dell'entità servizio. Valore predefinito: None
|
|
resource_url
|
str, <xref:optional>
L'URL della risorsa, che determina le operazioni che verranno eseguite nell'archivio di database SQL, se Nessuna, per impostazione predefinita è https://database.windows.net/. Valore predefinito: None
|
|
authority_url
|
str, <xref:optional>
L'URL dell'autorità usato per autenticare l'utente, per impostazione predefinita è https://login.microsoftonline.com. Valore predefinito: None
|
|
endpoint
|
str, <xref:optional>
Endpoint del server SQL. Se Nessuno, il valore predefinito è database.windows.net. Valore predefinito: None
|
|
overwrite
|
bool, <xref:optional>
Se sovrascrivere un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno. Il valore predefinito è False. Valore predefinito: False
|
|
username
|
Nome utente dell'utente del database per accedere al database. Valore predefinito: None
|
|
password
|
Password dell'utente del database per accedere al database. Valore predefinito: None
|
|
skip_validation
Necessario
|
bool, <xref:optional>
Se ignorare la convalida della connessione al database SQL. Il valore predefinito è False. |
|
subscription_id
|
str, <xref:optional>
ID della sottoscrizione a cui appartiene l'archivio ADLS. Valore predefinito: None
|
|
resource_group
|
str, <xref:optional>
Il gruppo di risorse a cui appartiene l'archivio ADLS. Valore predefinito: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Il valore predefinito è False. Impostare su True per accedere ai dati dietro la rete virtuale da Machine Learning Studio. In questo modo, l'accesso ai dati da Machine Learning Studio usa l'identità gestita dell'area di lavoro per l'autenticazione e aggiunge l'identità gestita dell'area di lavoro come lettore dell'archiviazione. È necessario essere proprietario o amministratore dell'accesso utente della risorsa di archiviazione per acconsentire esplicitamente. Chiedere all'amministratore di configurarlo automaticamente se non si dispone dell'autorizzazione necessaria. Altre informazioni 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network' Valore predefinito: False
|
Restituisce
| Tipo | Descrizione |
|---|---|
|
Restituisce l'archivio dati del database SQL. |
Commenti
Se si collega l'archiviazione da un'area diversa da quella dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
Inizializzare un nuovo archivio dati DBFS (Databricks File System).
L'archivio dati DBFS può essere usato solo per creare DataReference come input e PipelineData come output in DatabricksStep nelle pipeline di Azure Machine Learning. Altri dettagli sono disponibili qui.
static register_dbfs(workspace, datastore_name)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
L'area di lavoro a cui appartiene questo archivio dati. |
|
datastore_name
Necessario
|
Nome dell'archivio dati. |
Restituisce
| Tipo | Descrizione |
|---|---|
|
Restituisce l'archivio dati DBFS. |
Commenti
Se si collega l'archiviazione da un'area diversa da quella dell'area di lavoro, può comportare una latenza più elevata e costi aggiuntivi per l'utilizzo della rete.
register_hdfs
Annotazioni
Si tratta di un metodo sperimentale e può cambiare in qualsiasi momento. Per altre informazioni, vedere https://aka.ms/acr/connected-registry.
Inizializzare un nuovo archivio dati HDFS.
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
Parametri
| Nome | Descrizione |
|---|---|
|
workspace
Necessario
|
l'area di lavoro a cui appartiene l'archivio dati |
|
datastore_name
Necessario
|
nome dell'archivio dati |
|
protocol
Necessario
|
str oppure
<xref:_restclient.models.enum>
Protocollo da usare per la comunicazione con il cluster HDFS. http o https. I valori possibili includono: 'http', 'https' |
|
namenode_address
Necessario
|
Indirizzo IP o nome host DNS del nodo dei nomi HDFS. Facoltativamente, include una porta. |
|
hdfs_server_certificate
Necessario
|
str, <xref:optional>
Percorso del certificato di firma TLS del nodo dei nomi HDFS, se si usa TLS con un certificato autofirmato. |
|
kerberos_realm
Necessario
|
Area di autenticazione Kerberos. |
|
kerberos_kdc_address
Necessario
|
Indirizzo IP o nome host DNS del KDC Kerberos. |
|
kerberos_principal
Necessario
|
Entità Kerberos da usare per l'autenticazione e l'autorizzazione. |
|
kerberos_keytab
Necessario
|
str, <xref:optional>
Percorso del file keytab contenente le chiavi corrispondenti all'entità Kerberos. Specificare questa opzione o una password. |
|
kerberos_password
Necessario
|
str, <xref:optional>
Password corrispondente all'entità Kerberos. Specificare questo valore o il percorso di un file keytab. |
|
overwrite
Necessario
|
bool, <xref:optional>
sovrascrive un archivio dati esistente. Se l'archivio dati non esiste, ne verrà creato uno. Il valore predefinito è False. |
set_as_default
Impostare l'archivio dati predefinito.
set_as_default()
Parametri
| Nome | Descrizione |
|---|---|
|
datastore_name
Necessario
|
Nome dell'archivio dati. |
unregister
Annulla la registrazione dell'archivio dati. il servizio di archiviazione sottostante non verrà eliminato.
unregister()