Datastore Klasse

Stellt eine Speicherabstraktion eines Azure Machine Learning-Speicherkontos dar.

Datenspeicher werden Arbeitsbereichen angefügt und zum Speichern von Verbindungsinformationen zu Azure-Speicherdiensten verwendet, sodass Sie anhand des Namens darauf verweisen können und sich nicht die Verbindungsinformationen und das Geheimnis merken müssen, die zum Herstellen einer Verbindung mit den Speicherdiensten verwendet werden.

Beispiele für unterstützte Azure-Speicherdienste, die als Datenspeicher registriert werden können:

  • Azure-Blobcontainer

  • Azure-Dateifreigabe

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Azure SQL-Datenbank

  • Azure Database for PostgreSQL

  • Databricks-Dateisystem

  • Azure Database for MySQL

Verwenden Sie diese Klasse, um Verwaltungsvorgänge durchzuführen, einschließlich Registrieren, Auflisten, Abrufen und Entfernen von Datenspeichern. Mit den register*-Methoden dieser Klasse werden Datenspeicher für die jeweiligen Dienste erstellt. Wenn Sie einen Datenspeicher für den Zugriff auf Daten verwenden, müssen Sie über die Berechtigung für den Zugriff auf die Daten verfügen. Dies hängt von den Anmeldeinformationen ab, die beim Datenspeicher registriert sind.

Weitere Informationen zu Datenspeichern und deren Verwendung für das maschinelle Lernen finden Sie in den folgenden Artikeln:

Ruft einen Datenspeicher anhand des Namens ab. Dieser Aufruf sendet eine Anforderung an den Datenspeicherdienst.

Vererbung
builtins.object
Datastore

Konstruktor

Datastore(workspace, name=None)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich.

name
str, <xref:optional>

Der Name des Datenspeichers. Der Standardwert lautet „Keine“, wodurch der Standarddatenspeicher abgerufen wird.

Standardwert: None

Hinweise

Um für Machine Learning-Aufgaben mit Daten in Ihren Datenspeichern zu interagieren, z. B. zum Training, erstellen Sie ein Azure Machine Learning-Dataset. Datasets stellen Funktionen bereit, die Tabellendaten Daten in einen Pandas-oder Spark-Datenrahmen laden. Mithilfe von Datasets können Sie auch Dateien beliebiger Formate aus Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL-Datenbank und Azure Database for PostgreSQL herunterladen oder einbinden. Erfahren Sie mehr über das Trainieren mit Datasets.

Das folgende Beispiel zeigt, wie Sie einen Datenspeicher erstellen, der mit einem Azure-Blobcontainer verbunden ist.


   from azureml.exceptions import UserErrorException

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except UserErrorException:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb.

Methoden

get

Ruft einen Datenspeicher anhand des Namens ab. Dies entspricht dem Aufrufen des Konstruktors.

get_default

Abrufen des Standarddatenspeichers für den Arbeitsbereich.

register_azure_blob_container

Einen Azure-Blobcontainer für den Datenspeicher registrieren.

Anmeldeinformationsbasierter Zugriff (allgemein verfügbar) und identitätsbasierter Datenzugriff (Vorschau) werden unterstützt. Sie können SAS-Token oder Speicherkontoschlüssel verwenden. Wenn keine Anmeldeinformationen mit dem Datenspeicher gespeichert werden, wird das AAD-Token von Benutzern in Notebook oder im lokalen Python-Programm verwendet, wenn eine der folgenden Funktionen direkt aufgerufen wird: „FileDataset.mount“, „FileDataset.download“, „FileDataset.to_path“, „TabularDataset.to_pandas_dataframe“, „TabularDataset.to_dask_dataframe“, „TabularDataset.to_spark_dataframe“, „TabularDataset.to_parquet_files“ und „TabularDataset.to_csv_files“. Die Identität des Computeziels wird in Aufträgen verwendet, die von „Experiment.submit“ für die Datenzugriffsauthentifizierung übermittelt werden. Hier erhalten Sie weitere Informationen.

register_azure_data_lake

Einen neuen Azure Data Lake-Datastore initialisieren.

Anmeldeinformationsbasierter Datenzugriff (allgemein verfügbar) und identitätsbasierter Datenzugriff (Vorschau) werden unterstützt. Sie können einen Datenspeicher beim Dienstprinzipal für den anmeldeinformationsbasierten Datenzugriff registrieren. Wenn keine Anmeldeinformationen mit dem Datenspeicher gespeichert werden, wird das AAD-Token von Benutzern in Notebook oder im lokalen Python-Programm verwendet, wenn eine der folgenden Funktionen direkt aufgerufen wird: „FileDataset.mount“, „FileDataset.download“, „FileDataset.to_path“, „TabularDataset.to_pandas_dataframe“, „TabularDataset.to_dask_dataframe“, „TabularDataset.to_spark_dataframe“, „TabularDataset.to_parquet_files“ und „TabularDataset.to_csv_files“. Die Identität des Computeziels wird in Aufträgen verwendet, die von „Experiment.submit“ für die Datenzugriffsauthentifizierung übermittelt werden. Hier erhalten Sie weitere Informationen.

Weiter unten finden Sie ein Beispiel dafür, wie Sie einen Azure Data Lake Gen1 als Datastore registrieren.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Einen neuen Azure Data Lake Gen2-Datenspeicher initialisieren.

Anmeldeinformationsbasierter Datenzugriff (allgemein verfügbar) und identitätsbasierter Datenzugriff (Vorschau) werden unterstützt. Sie können einen Datenspeicher beim Dienstprinzipal für den anmeldeinformationsbasierten Datenzugriff registrieren. Wenn keine Anmeldeinformationen mit dem Datenspeicher gespeichert werden, wird das AAD-Token von Benutzern in Notebook oder im lokalen Python-Programm verwendet, wenn eine der folgenden Funktionen direkt aufgerufen wird: „FileDataset.mount“, „FileDataset.download“, „FileDataset.to_path“, „TabularDataset.to_pandas_dataframe“, „TabularDataset.to_dask_dataframe“, „TabularDataset.to_spark_dataframe“, „TabularDataset.to_parquet_files“ und „TabularDataset.to_csv_files“. Die Identität des Computeziels wird in Aufträgen verwendet, die von „Experiment.submit“ für die Datenzugriffsauthentifizierung übermittelt werden. Hier erhalten Sie weitere Informationen.

register_azure_file_share

Registriert eine Azure-Dateifreigabe für den Datenspeicher.

Sie haben die Wahl zwischen einem SAS-Token oder einem Speicherkontoschlüssel.

register_azure_my_sql

Einen neuen Azure MySQL-Datastore initialisieren.

Der MySQL-Datenspeicher kann nur zum Erstellen von DataReference-Objekten als Eingabe und Ausgabe für den DataTransferStep in Azure Machine Learning-Pipelines verwendet werden. Weitere Details finden Sie hier.

Weiter unten finden Sie ein Beispiel dafür, wie Sie eine Azure MySQL-Datenbank als Datenspeicher registrieren.

register_azure_postgre_sql

Initialisiert einen neuen Azure PostgreSQL-Datenspeicher.

Weiter unten finden Sie ein Beispiel dafür, wie Sie eine Azure PostgreSQL-Datenbank als Datenspeicher registrieren.

register_azure_sql_database

Ein neues Datastore-Objekt für die Azure SQL-Datenbank initialisieren.

Anmeldeinformationsbasierter Datenzugriff (allgemein verfügbar) und identitätsbasierter Datenzugriff (Vorschau) werden unterstützt. Sie können SAS-Token oder Speicherkontoschlüssel verwenden. Wenn keine Anmeldeinformationen mit dem Datenspeicher gespeichert werden, wird das AAD-Token von Benutzern in Notebook oder im lokalen Python-Programm verwendet, wenn eine der folgenden Funktionen direkt aufgerufen wird: „FileDataset.mount“, „FileDataset.download“, „FileDataset.to_path“, „TabularDataset.to_pandas_dataframe“, „TabularDataset.to_dask_dataframe“, „TabularDataset.to_spark_dataframe“, „TabularDataset.to_parquet_files“ und „TabularDataset.to_csv_files“. Die Identität des Computeziels wird in Aufträgen verwendet, die von „Experiment.submit“ für die Datenzugriffsauthentifizierung übermittelt werden. Hier erhalten Sie weitere Informationen.

Weiter unten finden Sie ein Beispiel dafür, wie Sie eine Azure SQL-Datenbank als Datenspeicher registrieren.

register_dbfs

Initialisiert einen neuen DBFS-Datenspeicher (Databricks File System).

Der DBFS-Datenspeicher kann nur zum Erstellen von DataReference als Eingabe und von PipelineData als Ausgabe für den DatabricksStep in Azure Machine Learning-Pipelines verwendet werden. Weitere Details finden Sie hier.

register_hdfs

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Initialisieren eines neuen HDFS-Datenspeichers.

set_as_default

Legt den Standarddatenspeicher fest.

unregister

Hebt die Registrierung des Datenspeichers auf. Der zugrundeliegende Speicherdienst wird nicht gelöscht.

get

Ruft einen Datenspeicher anhand des Namens ab. Dies entspricht dem Aufrufen des Konstruktors.

static get(workspace, datastore_name)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich.

datastore_name
Erforderlich
str, <xref:optional>

Der Name des Datenspeichers. Der Standardwert lautet „Keine“, wodurch der Standarddatenspeicher abgerufen wird.

Gibt zurück

Typ Beschreibung

Der Zugehörige Datenspeicher für diesen Namen.

get_default

Abrufen des Standarddatenspeichers für den Arbeitsbereich.

static get_default(workspace)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich.

Gibt zurück

Typ Beschreibung

Der Standarddatenspeicher für den Arbeitsbereich.

register_azure_blob_container

Einen Azure-Blobcontainer für den Datenspeicher registrieren.

Anmeldeinformationsbasierter Zugriff (allgemein verfügbar) und identitätsbasierter Datenzugriff (Vorschau) werden unterstützt. Sie können SAS-Token oder Speicherkontoschlüssel verwenden. Wenn keine Anmeldeinformationen mit dem Datenspeicher gespeichert werden, wird das AAD-Token von Benutzern in Notebook oder im lokalen Python-Programm verwendet, wenn eine der folgenden Funktionen direkt aufgerufen wird: „FileDataset.mount“, „FileDataset.download“, „FileDataset.to_path“, „TabularDataset.to_pandas_dataframe“, „TabularDataset.to_dask_dataframe“, „TabularDataset.to_spark_dataframe“, „TabularDataset.to_parquet_files“ und „TabularDataset.to_csv_files“. Die Identität des Computeziels wird in Aufträgen verwendet, die von „Experiment.submit“ für die Datenzugriffsauthentifizierung übermittelt werden. Hier erhalten Sie weitere Informationen.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich.

datastore_name
Erforderlich
str

Der Name des Datenspeichers darf nur alphanumerische Zeichen und „_“ enthalten, wobei die Groß-/Kleinschreibung nicht beachtet wird.

container_name
Erforderlich
str

Der Name des Azure-Blobcontainers.

account_name
Erforderlich
str

Der Name des Speicherkontos.

sas_token
str, <xref:optional>

Ein Konto-SAS-Token, standardmäßig „Keine“. Zum Lesen von Daten benötigen wir mindestens Listen- & Leseberechtigungen für Container & Objekte und für Datenschreibberechtigungen zusätzlich Schreibberechtigungen & Hinzufügen.

Standardwert: None
account_key
str, <xref:optional>

Zugriffsschlüssel Ihres Speicherkontos. Standardwert: „Keine“.

Standardwert: None
protocol
str, <xref:optional>

Protokoll, das zum Herstellen einer Verbindung mit dem Blobcontainer verwendet werden soll. Bei „Keine“ wird standardmäßig HTTPS verwendet.

Standardwert: None
endpoint
str, <xref:optional>

Der Endpunkt des Speicherkontos. Bei „Keine“ wird „core.windows.net“ verwendet.

Standardwert: None
overwrite
bool, <xref:optional>

Überschreibt einen vorhandenen Datenspeicher. Wenn der Datenspeicher nicht vorhanden ist, wird ein Datenspeicher erstellt, Standardwert „False“.

Standardwert: False
create_if_not_exists
bool, <xref:optional>

Den Blobcontainer erstellen, wenn er nicht vorhanden ist, Standardwert „False“.

Standardwert: False
skip_validation
bool, <xref:optional>

Überspringt die Validierung von Speicherschlüsseln, Standardwert „False“.

Standardwert: False
blob_cache_timeout
int, <xref:optional>

Wenn dieser Blob eingebunden wird, legen Sie das Cachetimeout auf diese Anzahl von Sekunden fest. Bei „None“ wird standardmäßig kein Timeout verwendet (d. h. Blobs werden für die Dauer des Auftrags beim Lesen zwischengespeichert).

Standardwert: None
grant_workspace_access
bool, <xref:optional>

Der Standardwert lautet „False“. Setzen Sie diese Einstellung auf „True“, um über Machine Learning Studio auf Daten hinter einem virtuellen Netzwerk zuzugreifen. Dadurch erfolgt die Authentifizierung für den Datenzugriff von Machine Learning Studio mithilfe der verwalteten Identität des Arbeitsbereichs, die als Leser des Speichers hinzugefügt wird. Sie müssen Besitzer oder Benutzerzugriffsadministrator des Speichers sein, um dies einzurichten. Bitten Sie Ihren Administrator, dies für Sie zu konfigurieren, wenn Sie nicht über die erforderliche Berechtigung verfügen. Weitere Informationen: https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Standardwert: False
subscription_id
str, <xref:optional>

Die Abonnement-ID des Speicherkontos. Standardwert: „Keine“.

Standardwert: None
resource_group
str, <xref:optional>

Die Ressourcengruppe des Speicherkontos. Standardwert: „Keine“.

Standardwert: None

Gibt zurück

Typ Beschreibung

Der Blobdatenspeicher.

Hinweise

Wenn Sie Speicher aus einer anderen Region als der Arbeitsbereichsregion anfügen, kann dies zu längeren Wartezeiten und zu zusätzlichen Kosten für die Netzwerknutzung führen.

register_azure_data_lake

Einen neuen Azure Data Lake-Datastore initialisieren.

Anmeldeinformationsbasierter Datenzugriff (allgemein verfügbar) und identitätsbasierter Datenzugriff (Vorschau) werden unterstützt. Sie können einen Datenspeicher beim Dienstprinzipal für den anmeldeinformationsbasierten Datenzugriff registrieren. Wenn keine Anmeldeinformationen mit dem Datenspeicher gespeichert werden, wird das AAD-Token von Benutzern in Notebook oder im lokalen Python-Programm verwendet, wenn eine der folgenden Funktionen direkt aufgerufen wird: „FileDataset.mount“, „FileDataset.download“, „FileDataset.to_path“, „TabularDataset.to_pandas_dataframe“, „TabularDataset.to_dask_dataframe“, „TabularDataset.to_spark_dataframe“, „TabularDataset.to_parquet_files“ und „TabularDataset.to_csv_files“. Die Identität des Computeziels wird in Aufträgen verwendet, die von „Experiment.submit“ für die Datenzugriffsauthentifizierung übermittelt werden. Hier erhalten Sie weitere Informationen.

Weiter unten finden Sie ein Beispiel dafür, wie Sie einen Azure Data Lake Gen1 als Datastore registrieren.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, zu dem dieser Datenspeicher gehört

datastore_name
Erforderlich
str

Der Datenspeichername

store_name
Erforderlich
str

Der Name des ADLS-Speichers.

tenant_id
str, <xref:optional>

Die Verzeichnis-ID/Mandanten-ID des Dienstprinzipals, der für den Zugriff auf die Daten verwendet wird.

Standardwert: None
client_id
str, <xref:optional>

Die Client-ID/Anwendungs-ID des Dienstprinzipals, der für den Zugriff auf die Daten verwendet wird.

Standardwert: None
client_secret
str, <xref:optional>

Der geheime Clientschlüssel des Dienstprinzipals, der für den Zugriff auf Daten verwendet wird.

Standardwert: None
resource_url
str, <xref:optional>

Die Ressourcen-URL, die bestimmt, welche Vorgänge für den Data Lake-Speicher ausgeführt werden. Bei „Keine“ lautet der Standardwert https://datalake.azure.net/, wodurch Dateisystemvorgänge ausgeführt werden können.

Standardwert: None
authority_url
str, <xref:optional>

Die Autoritäts-URL, die zur Authentifizierung des Benutzers verwendet wird. Standardwert: https://login.microsoftonline.com.

Standardwert: None
subscription_id
str, <xref:optional>

Die ID des Abonnements, zu dem der ADLS-Speicher gehört.

Standardwert: None
resource_group
str, <xref:optional>

Die Ressourcengruppe, zu der der ADLS-Speicher gehört.

Standardwert: None
overwrite
bool, <xref:optional>

Gibt an, ob ein vorhandener Datenspeicher überschrieben werden soll. Wenn der Datenspeicher nicht vorhanden ist, wird er erstellt. Die Standardeinstellung lautet „false“.

Standardwert: False
grant_workspace_access
bool, <xref:optional>

Der Standardwert lautet „False“. Setzen Sie diese Einstellung auf „True“, um über Machine Learning Studio auf Daten hinter einem virtuellen Netzwerk zuzugreifen. Dadurch erfolgt die Authentifizierung für den Datenzugriff von Machine Learning Studio mithilfe der verwalteten Identität des Arbeitsbereichs, die als Leser des Speichers hinzugefügt wird. Sie müssen Besitzer oder Benutzerzugriffsadministrator des Speichers sein, um dies einzurichten. Bitten Sie Ihren Administrator, dies für Sie zu konfigurieren, wenn Sie nicht über die erforderliche Berechtigung verfügen. Weitere Informationen: https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Standardwert: False

Gibt zurück

Typ Beschreibung

Gibt den Azure Data Lake-Datenspeicher zurück.

Hinweise

Wenn Sie Speicher aus einer anderen Region als der Arbeitsbereichsregion anfügen, kann dies zu längeren Wartezeiten und zu zusätzlichen Kosten für die Netzwerknutzung führen.

Hinweis

Azure Data Lake-Datenspeicher unterstützen Datenübertragungen und das Ausführen von U-SQL-Aufträgen mithilfe von Azure Machine Learning-Pipelines.

Darüber hinaus ist eine Verwendung als Datenquelle für ein Azure Machine Learning-Dataset möglich, das heruntergeladen oder auf jedem unterstützten Computeziel bereitgestellt werden kann.

register_azure_data_lake_gen2

Einen neuen Azure Data Lake Gen2-Datenspeicher initialisieren.

Anmeldeinformationsbasierter Datenzugriff (allgemein verfügbar) und identitätsbasierter Datenzugriff (Vorschau) werden unterstützt. Sie können einen Datenspeicher beim Dienstprinzipal für den anmeldeinformationsbasierten Datenzugriff registrieren. Wenn keine Anmeldeinformationen mit dem Datenspeicher gespeichert werden, wird das AAD-Token von Benutzern in Notebook oder im lokalen Python-Programm verwendet, wenn eine der folgenden Funktionen direkt aufgerufen wird: „FileDataset.mount“, „FileDataset.download“, „FileDataset.to_path“, „TabularDataset.to_pandas_dataframe“, „TabularDataset.to_dask_dataframe“, „TabularDataset.to_spark_dataframe“, „TabularDataset.to_parquet_files“ und „TabularDataset.to_csv_files“. Die Identität des Computeziels wird in Aufträgen verwendet, die von „Experiment.submit“ für die Datenzugriffsauthentifizierung übermittelt werden. Hier erhalten Sie weitere Informationen.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, zu dem dieser Datenspeicher gehört

datastore_name
Erforderlich
str

Der Datenspeichername

filesystem
Erforderlich
str

Der Name des Data Lake Gen2-Dateisystems.

account_name
Erforderlich
str

Der Name des Speicherkontos.

tenant_id
str, <xref:optional>

Die Verzeichnis-ID/Mandanten-ID des Dienstprinzipals

Standardwert: None
client_id
str, <xref:optional>

Die Client-ID/Anwendungs-ID des Dienstprinzipals.

Standardwert: None
client_secret
str, <xref:optional>

Das Geheimnis des Dienstprinzipals.

Standardwert: None
resource_url
str, <xref:optional>

Die Ressourcen-URL, die bestimmt, welche Vorgänge für den Data Lake-Speicher ausgeführt werden. Der Standardwert lautet https://storage.azure.com/, wodurch Dateisystemvorgänge ausgeführt werden können.

Standardwert: None
authority_url
str, <xref:optional>

Die Autoritäts-URL, die zur Authentifizierung des Benutzers verwendet wird. Standardwert: https://login.microsoftonline.com.

Standardwert: None
protocol
str, <xref:optional>

Protokoll, das zum Herstellen einer Verbindung mit dem Blobcontainer verwendet werden soll. Bei „Keine“ wird standardmäßig HTTPS verwendet.

Standardwert: None
endpoint
str, <xref:optional>

Der Endpunkt des Speicherkontos. Bei „Keine“ wird „core.windows.net“ verwendet.

Standardwert: None
overwrite
bool, <xref:optional>

Gibt an, ob ein vorhandener Datenspeicher überschrieben werden soll. Wenn der Datenspeicher nicht vorhanden ist, wird er erstellt. Die Standardeinstellung lautet „false“.

Standardwert: False
subscription_id
str, <xref:optional>

Die ID des Abonnements, zu dem der ADLS-Speicher gehört.

Standardwert: None
resource_group
str, <xref:optional>

Die Ressourcengruppe, zu der der ADLS-Speicher gehört.

Standardwert: None
grant_workspace_access
bool, <xref:optional>

Der Standardwert lautet „False“. Setzen Sie diese Einstellung auf „True“, um über Machine Learning Studio auf Daten hinter einem virtuellen Netzwerk zuzugreifen. Dadurch erfolgt die Authentifizierung für den Datenzugriff von Machine Learning Studio mithilfe der verwalteten Identität des Arbeitsbereichs, die als Leser des Speichers hinzugefügt wird. Sie müssen Besitzer oder Benutzerzugriffsadministrator des Speichers sein, um dies einzurichten. Bitten Sie Ihren Administrator, dies für Sie zu konfigurieren, wenn Sie nicht über die erforderliche Berechtigung verfügen. Weitere Informationen: https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Standardwert: False

Gibt zurück

Typ Beschreibung

Gibt den Azure Data Lake Gen2-Datenspeicher zurück.

Hinweise

Wenn Sie Speicher aus einer anderen Region als der Arbeitsbereichsregion anfügen, kann dies zu längeren Wartezeiten und zu zusätzlichen Kosten für die Netzwerknutzung führen.

register_azure_file_share

Registriert eine Azure-Dateifreigabe für den Datenspeicher.

Sie haben die Wahl zwischen einem SAS-Token oder einem Speicherkontoschlüssel.

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, zu dem dieser Datenspeicher gehört

datastore_name
Erforderlich
str

Der Name des Datenspeichers darf nur alphanumerische Zeichen und „_“ enthalten, wobei die Groß-/Kleinschreibung nicht beachtet wird.

file_share_name
Erforderlich
str

Der Name des Azure-Dateicontainers.

account_name
Erforderlich
str

Der Name des Speicherkontos.

sas_token
str, <xref:optional>

Ein Konto-SAS-Token, standardmäßig „Keine“. Für das Lesen von Daten benötigen wir mindestens Berechtigungen zum Auflisten & Lesen für Container & Objekte und für Datenschreibberechtigungen zusätzlich Schreibberechtigungen & Hinzufügen.

Standardwert: None
account_key
str, <xref:optional>

Zugriffsschlüssel Ihres Speicherkontos. Standardwert: „Keine“.

Standardwert: None
protocol
str, <xref:optional>

Das Protokoll, das zum Herstellen einer Verbindung mit der Dateifreigabe verwendet werden soll. Bei „Keine“ wird standardmäßig HTTPS verwendet.

Standardwert: None
endpoint
str, <xref:optional>

Der Endpunkt der Dateifreigabe. Bei „Keine“ wird „core.windows.net“ verwendet.

Standardwert: None
overwrite
bool, <xref:optional>

Gibt an, ob ein vorhandener Datenspeicher überschrieben werden soll. Wenn der Datenspeicher nicht vorhanden ist, wird er erstellt. Die Standardeinstellung lautet „false“.

Standardwert: False
create_if_not_exists
bool, <xref:optional>

Gibt an, ob die Dateifreigabe erstellt werden soll, wenn keine vorhanden ist. Die Standardeinstellung lautet „false“.

Standardwert: False
skip_validation
bool, <xref:optional>

Gibt an, ob die Überprüfung von Speicherschlüsseln übersprungen werden soll. Die Standardeinstellung lautet „false“.

Standardwert: False

Gibt zurück

Typ Beschreibung

Der Dateidatenspeicher.

Hinweise

Wenn Sie Speicher aus einer anderen Region als der Arbeitsbereichsregion anfügen, kann dies zu längeren Wartezeiten und zu zusätzlichen Kosten für die Netzwerknutzung führen.

register_azure_my_sql

Einen neuen Azure MySQL-Datastore initialisieren.

Der MySQL-Datenspeicher kann nur zum Erstellen von DataReference-Objekten als Eingabe und Ausgabe für den DataTransferStep in Azure Machine Learning-Pipelines verwendet werden. Weitere Details finden Sie hier.

Weiter unten finden Sie ein Beispiel dafür, wie Sie eine Azure MySQL-Datenbank als Datenspeicher registrieren.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, zu dem dieser Datenspeicher gehört

datastore_name
Erforderlich
str

Der Datenspeichername

server_name
Erforderlich
str

Name des MySQL-Servers.

database_name
Erforderlich
str

Der Name der MySQL-Datenbank.

user_id
Erforderlich
str

Die Benutzer-ID des MySQL-Servers.

user_password
Erforderlich
str

Das Benutzerkennwort des MySQL-Servers.

port_number
str

Die Portnummer des MySQL-Servers.

Standardwert: None
endpoint
str, <xref:optional>

Der Endpunkt des MySQL-Servers. Bei „Keine“ lautet der Standardwert mysql.database.azure.com.

Standardwert: None
overwrite
bool, <xref:optional>

Gibt an, ob ein vorhandener Datenspeicher überschrieben werden soll. Wenn der Datenspeicher nicht vorhanden ist, wird er erstellt. Die Standardeinstellung lautet „false“.

Standardwert: False

Gibt zurück

Typ Beschreibung

Gibt den Datenspeicher der MySQL-Datenbank zurück.

Hinweise

Wenn Sie Speicher aus einer anderen Region als der Arbeitsbereichsregion anfügen, kann dies zu längeren Wartezeiten und zu zusätzlichen Kosten für die Netzwerknutzung führen.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Initialisiert einen neuen Azure PostgreSQL-Datenspeicher.

Weiter unten finden Sie ein Beispiel dafür, wie Sie eine Azure PostgreSQL-Datenbank als Datenspeicher registrieren.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, zu dem dieser Datenspeicher gehört

datastore_name
Erforderlich
str

Der Datenspeichername

server_name
Erforderlich
str

Der Name des PostgreSQL-Servers.

database_name
Erforderlich
str

Der Name der PostgreSQL-Datenbank.

user_id
Erforderlich
str

Die Benutzer-ID des PostgreSQL-Servers.

user_password
Erforderlich
str

Das Benutzerkennwort des PostgreSQL-Servers.

port_number
str

Die Portnummer des PostgreSQL-Servers.

Standardwert: None
endpoint
str, <xref:optional>

Der Endpunkt des PostgreSQL-Servers. Bei „Keine“ lautet der Standardwert postgres.database.azure.com.

Standardwert: None
overwrite
bool, <xref:optional>

Gibt an, ob ein vorhandener Datenspeicher überschrieben werden soll. Wenn der Datenspeicher nicht vorhanden ist, wird er erstellt. Die Standardeinstellung lautet „false“.

Standardwert: False
enforce_ssl

Gibt die SSL-Anforderung des PostgreSQL-Servers an. Der Standardwert ist „True“.

Standardwert: True

Gibt zurück

Typ Beschreibung

Gibt den Datenspeicher der PostgreSQL-Datenbank zurück.

Hinweise

Wenn Sie Speicher aus einer anderen Region als der Arbeitsbereichsregion anfügen, kann dies zu längeren Wartezeiten und zu zusätzlichen Kosten für die Netzwerknutzung führen.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Ein neues Datastore-Objekt für die Azure SQL-Datenbank initialisieren.

Anmeldeinformationsbasierter Datenzugriff (allgemein verfügbar) und identitätsbasierter Datenzugriff (Vorschau) werden unterstützt. Sie können SAS-Token oder Speicherkontoschlüssel verwenden. Wenn keine Anmeldeinformationen mit dem Datenspeicher gespeichert werden, wird das AAD-Token von Benutzern in Notebook oder im lokalen Python-Programm verwendet, wenn eine der folgenden Funktionen direkt aufgerufen wird: „FileDataset.mount“, „FileDataset.download“, „FileDataset.to_path“, „TabularDataset.to_pandas_dataframe“, „TabularDataset.to_dask_dataframe“, „TabularDataset.to_spark_dataframe“, „TabularDataset.to_parquet_files“ und „TabularDataset.to_csv_files“. Die Identität des Computeziels wird in Aufträgen verwendet, die von „Experiment.submit“ für die Datenzugriffsauthentifizierung übermittelt werden. Hier erhalten Sie weitere Informationen.

Weiter unten finden Sie ein Beispiel dafür, wie Sie eine Azure SQL-Datenbank als Datenspeicher registrieren.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, zu dem dieser Datenspeicher gehört

datastore_name
Erforderlich
str

Der Datenspeichername

server_name
Erforderlich
str

Der SQL Server-Name. Bei vollqualifizierten Domänennamen wie „beispiel.datenbank.windows.net“ sollte der server_name-Wert „beispiel“ und der Endpunktwert „datenbank.windows.net“ lauten.

database_name
Erforderlich
str

Der SQL-Datenbankname.

tenant_id
str

Die Verzeichnis-ID/Mandanten-ID des Dienstprinzipals

Standardwert: None
client_id
str

Die Client-ID/Anwendungs-ID des Dienstprinzipals.

Standardwert: None
client_secret
str

Das Geheimnis des Dienstprinzipals.

Standardwert: None
resource_url
str, <xref:optional>

Die Ressourcen-URL, die bestimmt, welche Vorgänge im SQL-Datenbankspeicher ausgeführt werden. Bei „Keine“ wird standardmäßig https://database.windows.net/ verwendet.

Standardwert: None
authority_url
str, <xref:optional>

Die Autoritäts-URL, die zur Authentifizierung des Benutzers verwendet wird. Standardwert: https://login.microsoftonline.com.

Standardwert: None
endpoint
str, <xref:optional>

Der Endpunkt der SQL Server-Instanz. Standardwert bei „Keine“: database.windows.net.

Standardwert: None
overwrite
bool, <xref:optional>

Gibt an, ob ein vorhandener Datenspeicher überschrieben werden soll. Wenn der Datenspeicher nicht vorhanden ist, wird er erstellt. Die Standardeinstellung lautet „false“.

Standardwert: False
username
str

Der Benutzername des Datenbankbenutzers für den Zugriff auf die Datenbank.

Standardwert: None
password
str

Das Kennwort des Datenbankbenutzers für den Zugriff auf die Datenbank.

Standardwert: None
skip_validation
Erforderlich
bool, <xref:optional>

Gibt an, ob die Validierung der Verbindungsherstellung mit der SQL-Datenbank übersprungen werden soll. Der Standardwert lautet „False“.

subscription_id
str, <xref:optional>

Die ID des Abonnements, zu dem der ADLS-Speicher gehört.

Standardwert: None
resource_group
str, <xref:optional>

Die Ressourcengruppe, zu der der ADLS-Speicher gehört.

Standardwert: None
grant_workspace_access
bool, <xref:optional>

Der Standardwert lautet „False“. Setzen Sie diese Einstellung auf „True“, um über Machine Learning Studio auf Daten hinter einem virtuellen Netzwerk zuzugreifen. Dadurch erfolgt die Authentifizierung für den Datenzugriff von Machine Learning Studio mithilfe der verwalteten Identität des Arbeitsbereichs, die als Leser des Speichers hinzugefügt wird. Sie müssen Besitzer oder Benutzerzugriffsadministrator des Speichers sein, um dies einzurichten. Bitten Sie Ihren Administrator, dies für Sie zu konfigurieren, wenn Sie nicht über die erforderliche Berechtigung verfügen. Weitere Informationen: https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network

Standardwert: False

Gibt zurück

Typ Beschreibung

Gibt den Datenspeicher der SQL-Datenbank zurück.

Hinweise

Wenn Sie Speicher aus einer anderen Region als der Arbeitsbereichsregion anfügen, kann dies zu längeren Wartezeiten und zu zusätzlichen Kosten für die Netzwerknutzung führen.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Initialisiert einen neuen DBFS-Datenspeicher (Databricks File System).

Der DBFS-Datenspeicher kann nur zum Erstellen von DataReference als Eingabe und von PipelineData als Ausgabe für den DatabricksStep in Azure Machine Learning-Pipelines verwendet werden. Weitere Details finden Sie hier.

static register_dbfs(workspace, datastore_name)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, zu dem dieser Datenspeicher gehört

datastore_name
Erforderlich
str

Der Datenspeichername

Gibt zurück

Typ Beschreibung

Gibt den DBFS-Datenspeicher zurück.

Hinweise

Wenn Sie Speicher aus einer anderen Region als der Arbeitsbereichsregion anfügen, kann dies zu längeren Wartezeiten und zu zusätzlichen Kosten für die Netzwerknutzung führen.

register_hdfs

Hinweis

Dies ist eine experimentelle Methode, die sich jederzeit ändern kann. Unter https://aka.ms/azuremlexperimental finden Sie weitere Informationen.

Initialisieren eines neuen HDFS-Datenspeichers.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parameter

Name Beschreibung
workspace
Erforderlich

Der Arbeitsbereich, zu dem dieser Datenspeicher gehört

datastore_name
Erforderlich
str

Der Datenspeichername

protocol
Erforderlich
str oder <xref:_restclient.models.enum>

Das Protokoll, das für die Kommunikation mit dem HDFS-Cluster verwendet werden soll. HTTP oder HTTPS. Mögliche Werte: „http“, „https“

namenode_address
Erforderlich
str

Die IP-Adresse oder der DNS-Hostname des HDFS-Namensknotens (NameNode). Enthält optional einen Port.

hdfs_server_certificate
Erforderlich
str, <xref:optional>

Der Pfad zum TLS-Signaturzertifikat des HDFS-Namensknotens, wenn TLS mit einem selbstsigniertem Zertifikat verwendet wird.

kerberos_realm
Erforderlich
str

Der Kerberos-Bereich.

kerberos_kdc_address
Erforderlich
str

Die IP-Adresse oder der DNS-Hostname der Kerberos-KDC-Instanz.

kerberos_principal
Erforderlich
str

Der Kerberos-Prinzipal, der für die Authentifizierung und Autorisierung verwendet werden soll.

kerberos_keytab
Erforderlich
str, <xref:optional>

Der Pfad zur Schlüsseltabellendatei mit den Schlüsseln, die dem Kerberos-Prinzipal entsprechen. Geben Sie entweder diesen Pfad oder ein Kennwort an.

kerberos_password
Erforderlich
str, <xref:optional>

Das Kennwort, das dem Kerberos-Prinzipal entspricht. Geben Sie entweder dieses Kennwort oder den Pfad zu einer Schlüsseltabellendatei an.

overwrite
Erforderlich
bool, <xref:optional>

Überschreibt einen vorhandenen Datenspeicher. Wenn der Datenspeicher nicht vorhanden ist, wird er erstellt. Der Standardwert lautet „False“.

set_as_default

Legt den Standarddatenspeicher fest.

set_as_default()

Parameter

Name Beschreibung
datastore_name
Erforderlich
str

Der Name des Datenspeichers.

unregister

Hebt die Registrierung des Datenspeichers auf. Der zugrundeliegende Speicherdienst wird nicht gelöscht.

unregister()