Datastore Třída
Představuje abstrakci úložiště nad účtem úložiště služby Azure Machine Learning.
Úložiště dat jsou připojená k pracovním prostorům a používají se k ukládání informací o připojení ke službám úložiště Azure, takže na ně můžete odkazovat podle názvu a nemusíte si pamatovat informace o připojení a tajný kód použitý k připojení ke službám úložiště.
Mezi podporované služby Azure Storage, které je možné zaregistrovat jako úložiště dat, patří:
Kontejner objektů blob Azure
Sdílená složka Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
Systém souborů Databricks
Azure Database for MySQL
Tato třída slouží k provádění operací správy, včetně registrace, výpisu, získání a odebrání úložišť dat.
Úložiště dat pro každou službu se vytvářejí pomocí register* metod této třídy. Při použití úložiště dat pro přístup k datům musíte mít oprávnění pro přístup k datům, což závisí na přihlašovacích údajích registrovaných v úložišti dat.
Další informace o úložištích dat a jejich použití ve strojovém učení najdete v následujících článcích:
Získejte úložiště dat podle názvu. Toto volání provede požadavek na službu úložiště dat.
Konstruktor
Datastore(workspace, name=None)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor. |
|
name
|
str, <xref:optional>
Název úložiště dat má výchozí hodnotu None (Žádné), což načte výchozí úložiště dat. Default value: None
|
Poznámky
Pokud chcete pracovat s daty v úložištích dat pro úlohy strojového učení, jako je trénování, vytvořte datovou sadu Azure Machine Learning. Datové sady poskytují funkce, které načítají tabulková data do datového rámce pandas nebo Spark. Datové sady také poskytují možnost stahovat nebo připojovat soubory libovolného formátu ze služby Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database a Azure Database for PostgreSQL. Přečtěte si další informace o tom, jak trénovat pomocí datových sad.
Následující příklad ukazuje, jak vytvořit úložiště dat připojené ke kontejneru objektů blob Azure.
# from azureml.exceptions import UserErrorException
#
# blob_datastore_name='MyBlobDatastore'
# account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
# container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
# account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
#
# try:
# blob_datastore = Datastore.get(ws, blob_datastore_name)
# print("Found Blob Datastore with name: %s" % blob_datastore_name)
# except UserErrorException:
# blob_datastore = Datastore.register_azure_blob_container(
# workspace=ws,
# datastore_name=blob_datastore_name,
# account_name=account_name, # Storage account name
# container_name=container_name, # Name of Azure blob container
# account_key=account_key) # Storage account key
# print("Registered blob datastore with name: %s" % blob_datastore_name)
#
# blob_data_ref = DataReference(
# datastore=blob_datastore,
# data_reference_name="blob_test_data",
# path_on_datastore="testdata")
Úplná ukázka je k dispozici od https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
Metody
| get |
Získejte úložiště dat podle názvu. To je stejné jako volání konstruktoru. |
| get_default |
Získejte výchozí úložiště dat pro pracovní prostor. |
| register_azure_blob_container |
Zaregistrujte kontejner objektů blob Azure do úložiště dat. Podporuje se přístup k datům založeným na přihlašovacích údajích (GA) a identit (Preview). Můžete se rozhodnout použít token SAS nebo klíč účtu úložiště. Pokud se v úložišti dat neuloží žádné přihlašovací údaje, použije se token AAD uživatelů v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experiment.submit pro ověřování přístupu k datům. Další informace najdete tady. |
| register_azure_data_lake |
Inicializace nového úložiště dat Azure Data Lake Podporuje se přístup k datům založeným na přihlašovacích údajích (GA) a identit (Preview). Úložiště dat můžete zaregistrovat pomocí instančního objektu pro přístup k datům založeným na přihlašovacích údajích. Pokud se v úložišti dat neuloží žádné přihlašovací údaje, použije se token AAD uživatelů v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experiment.submit pro ověřování přístupu k datům. Další informace najdete tady. Příklad registrace Azure Data Lake Gen1 jako úložiště dat najdete níže.
|
| register_azure_data_lake_gen2 |
Inicializace nového úložiště dat Azure Data Lake Gen2 Podporuje se přístup k datům založeným na přihlašovacích údajích (GA) a identit (Preview). Úložiště dat můžete zaregistrovat pomocí instančního objektu pro přístup k datům založeným na přihlašovacích údajích. Pokud se v úložišti dat neuloží žádné přihlašovací údaje, použije se token AAD uživatelů v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experiment.submit pro ověřování přístupu k datům. Další informace najdete tady. |
| register_azure_file_share |
Zaregistrujte sdílenou složku Azure do úložiště dat. Můžete použít token SAS nebo klíč účtu úložiště. |
| register_azure_my_sql |
Inicializace nového úložiště dat Azure MySQL Úložiště dat MySQL lze použít pouze k vytvoření dataReference jako vstupu a výstupu do dataTransferStep v kanálech Azure Machine Learning. Další podrobnosti najdete tady. Příklad registrace databáze Azure MySQL jako úložiště dat najdete níže. |
| register_azure_postgre_sql |
Inicializace nového úložiště dat Azure PostgreSQL Příklad registrace databáze Azure PostgreSQL jako úložiště dat najdete níže. |
| register_azure_sql_database |
Inicializace nového úložiště dat databáze Azure SQL Přístup k datům založeným na přihlašovacích údajích (GA) a identit (Preview) se podporuje. Můžete se rozhodnout použít instanční objekt nebo uživatelské jméno a heslo. Pokud se v úložišti dat neuloží žádné přihlašovací údaje, použije se token AAD uživatelů v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experiment.submit pro ověřování přístupu k datům. Další informace najdete tady. Příklad registrace databáze Azure SQL jako úložiště dat najdete níže. |
| register_dbfs |
Inicializace nového úložiště dat systému souborů Databricks (DBFS) Úložiště dat DBFS lze použít pouze k vytvoření DataReference jako vstupu a PipelineData jako výstupu do DatabricksStep v kanálech Azure Machine Learning. Další podrobnosti najdete tady.. |
| register_hdfs |
Poznámka: Jedná se o experimentální metodu a může se kdykoli změnit. Další informace najdete tady: https://aka.ms/acr/connected-registry. Inicializace nového úložiště dat HDFS |
| set_as_default |
Nastavte výchozí úložiště dat. |
| unregister |
Zruší registraci úložiště dat. podkladová služba úložiště se neodstraní. |
get
Získejte úložiště dat podle názvu. To je stejné jako volání konstruktoru.
static get(workspace, datastore_name)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor. |
|
datastore_name
Vyžadováno
|
str, <xref:optional>
Název úložiště dat má výchozí hodnotu None (Žádné), což načte výchozí úložiště dat. |
Návraty
| Typ | Description |
|---|---|
|
Odpovídající úložiště dat pro tento název. |
get_default
Získejte výchozí úložiště dat pro pracovní prostor.
static get_default(workspace)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor. |
Návraty
| Typ | Description |
|---|---|
|
Výchozí úložiště dat pro pracovní prostor |
register_azure_blob_container
Zaregistrujte kontejner objektů blob Azure do úložiště dat.
Podporuje se přístup k datům založeným na přihlašovacích údajích (GA) a identit (Preview). Můžete se rozhodnout použít token SAS nebo klíč účtu úložiště. Pokud se v úložišti dat neuloží žádné přihlašovací údaje, použije se token AAD uživatelů v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experiment.submit pro ověřování přístupu k datům. Další informace najdete tady.
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor. |
|
datastore_name
Vyžadováno
|
Název úložiště dat, nerozlišující malá a velká písmena, může obsahovat pouze alfanumerické znaky a _. |
|
container_name
Vyžadováno
|
Název kontejneru objektů blob Azure. |
|
account_name
Vyžadováno
|
Název účtu úložiště. |
|
sas_token
|
str, <xref:optional>
Token SAS účtu, ve výchozím nastavení none(Žádný). Pro čtení dat vyžadujeme minimálně oprávnění seznamu a čtení pro kontejnery a objekty a pro zápis dat navíc vyžadujeme oprávnění k zápisu a přidání. Default value: None
|
|
account_key
|
str, <xref:optional>
Přístupové klíče vašeho účtu úložiště mají výchozí hodnotu None (Žádné). Default value: None
|
|
protocol
|
str, <xref:optional>
Protokol, který se má použít pro připojení k kontejneru objektů blob. Pokud žádný, použije se výchozí hodnota https. Default value: None
|
|
endpoint
|
str, <xref:optional>
Koncový bod účtu úložiště. Pokud žádná, výchozí hodnota je core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
přepíše existující úložiště dat. Pokud úložiště dat neexistuje, vytvoří se výchozí hodnota False. Default value: False
|
|
create_if_not_exists
|
bool, <xref:optional>
Vytvořte kontejner objektů blob, pokud neexistuje, výchozí hodnota je False. Default value: False
|
|
skip_validation
|
bool, <xref:optional>
přeskočí ověření klíčů úložiště, výchozí hodnota je False. Default value: False
|
|
blob_cache_timeout
|
int, <xref:optional>
Po připojení tohoto objektu blob nastavte časový limit mezipaměti na tento počet sekund. Pokud žádná, výchozí hodnota není časový limit (tj. objekty blob se budou ukládat do mezipaměti po dobu trvání úlohy při čtení). Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Výchozí nastavení je 'False'. Nastavte hodnotu True pro přístup k datům za virtuální sítí ze sady Machine Learning Studio. Díky tomu přístup k datům z nástroje Machine Learning Studio používá pro ověřování spravovanou identitu pracovního prostoru a přidá spravovanou identitu pracovního prostoru jako čtenář úložiště. Abyste mohli vyjádřit výslovný souhlas, musíte být vlastníkem úložiště nebo správcem přístupu uživatele. Požádejte správce, aby ho pro vás nakonfigurovali, pokud nemáte požadovaná oprávnění. https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkDalší informace Default value: False
|
|
subscription_id
|
str, <xref:optional>
ID předplatného účtu úložiště je ve výchozím nastavení Žádné. Default value: None
|
|
resource_group
|
str, <xref:optional>
Ve výchozím nastavení je skupina prostředků účtu úložiště Žádná. Default value: None
|
Návraty
| Typ | Description |
|---|---|
|
Úložiště dat objektů blob. |
Poznámky
Pokud připojujete úložiště z jiné oblasti než v oblasti pracovního prostoru, může to mít za následek vyšší latenci a další náklady na využití sítě.
register_azure_data_lake
Inicializace nového úložiště dat Azure Data Lake
Podporuje se přístup k datům založeným na přihlašovacích údajích (GA) a identit (Preview). Úložiště dat můžete zaregistrovat pomocí instančního objektu pro přístup k datům založeným na přihlašovacích údajích. Pokud se v úložišti dat neuloží žádné přihlašovací údaje, použije se token AAD uživatelů v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experiment.submit pro ověřování přístupu k datům. Další informace najdete tady.
Příklad registrace Azure Data Lake Gen1 jako úložiště dat najdete níže.
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor, do které tento úložiště dat patří. |
|
datastore_name
Vyžadováno
|
Název úložiště dat. |
|
store_name
Vyžadováno
|
Název úložiště ADLS. |
|
tenant_id
|
str, <xref:optional>
ID adresáře nebo ID tenanta instančního objektu použitého pro přístup k datům. Default value: None
|
|
client_id
|
str, <xref:optional>
ID klienta nebo ID aplikace instančního objektu použitého pro přístup k datům. Default value: None
|
|
client_secret
|
str, <xref:optional>
Tajný klíč klienta instančního objektu používaného pro přístup k datům. Default value: None
|
|
resource_url
|
str, <xref:optional>
Adresa URL prostředku, která určuje, jaké operace se budou provádět ve službě Data Lake Store, pokud je výchozí hodnota Default value: None
|
|
authority_url
|
str, <xref:optional>
Adresa URL autority použitá k ověření uživatele, výchozí hodnota Default value: None
|
|
subscription_id
|
str, <xref:optional>
ID předplatného, do které úložiště ADLS patří. Default value: None
|
|
resource_group
|
str, <xref:optional>
Skupina prostředků, do které úložiště ADLS patří. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Zda chcete přepsat existující úložiště dat. Pokud úložiště dat neexistuje, vytvoří se. Výchozí hodnota je False. Default value: False
|
|
grant_workspace_access
|
bool, <xref:optional>
Výchozí nastavení je 'False'. Nastavte hodnotu True pro přístup k datům za virtuální sítí ze sady Machine Learning Studio. Díky tomu přístup k datům z nástroje Machine Learning Studio používá pro ověřování spravovanou identitu pracovního prostoru a přidá spravovanou identitu pracovního prostoru jako čtenář úložiště. Abyste mohli vyjádřit výslovný souhlas, musíte být vlastníkem nebo správcem uživatelských přístupů k úložišti. Požádejte správce, aby ho pro vás nakonfigurovali, pokud nemáte požadovaná oprávnění. https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkDalší informace Default value: False
|
Návraty
| Typ | Description |
|---|---|
|
Vrátí úložiště dat Azure Data Lake. |
Poznámky
Pokud připojujete úložiště z jiné oblasti než v oblasti pracovního prostoru, může to mít za následek vyšší latenci a další náklady na využití sítě.
Poznámka:
Azure Data Lake Datastore podporuje přenos dat a spouštění úloh U-SQL pomocí kanálů Azure Machine Learning.
Můžete ho také použít jako zdroj dat pro datovou sadu Azure Machine Learning, kterou si můžete stáhnout nebo připojit k libovolnému podporovanému výpočetnímu prostředí.
register_azure_data_lake_gen2
Inicializace nového úložiště dat Azure Data Lake Gen2
Podporuje se přístup k datům založeným na přihlašovacích údajích (GA) a identit (Preview). Úložiště dat můžete zaregistrovat pomocí instančního objektu pro přístup k datům založeným na přihlašovacích údajích. Pokud se v úložišti dat neuloží žádné přihlašovací údaje, použije se token AAD uživatelů v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experiment.submit pro ověřování přístupu k datům. Další informace najdete tady.
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor, do které tento úložiště dat patří. |
|
datastore_name
Vyžadováno
|
Název úložiště dat. |
|
filesystem
Vyžadováno
|
Název systému souborů Data Lake Gen2. |
|
account_name
Vyžadováno
|
Název účtu úložiště. |
|
tenant_id
|
str, <xref:optional>
ID adresáře nebo ID tenanta instančního objektu. Default value: None
|
|
client_id
|
str, <xref:optional>
ID klienta nebo ID aplikace instančního objektu. Default value: None
|
|
client_secret
|
str, <xref:optional>
Tajný kód instančního objektu. Default value: None
|
|
resource_url
|
str, <xref:optional>
Adresa URL prostředku, která určuje, jaké operace se budou provádět ve službě Data Lake Store, jsou výchozí hodnoty Default value: None
|
|
authority_url
|
str, <xref:optional>
Adresa URL autority použitá k ověření uživatele, výchozí hodnota Default value: None
|
|
protocol
|
str, <xref:optional>
Protokol, který se má použít pro připojení k kontejneru objektů blob. Pokud žádný, použije se výchozí hodnota https. Default value: None
|
|
endpoint
|
str, <xref:optional>
Koncový bod účtu úložiště. Pokud žádná, výchozí hodnota je core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Zda chcete přepsat existující úložiště dat. Pokud úložiště dat neexistuje, vytvoří se. Výchozí hodnota je False. Default value: False
|
|
subscription_id
|
str, <xref:optional>
ID předplatného, do které úložiště ADLS patří. Default value: None
|
|
resource_group
|
str, <xref:optional>
Skupina prostředků, do které úložiště ADLS patří. Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Výchozí nastavení je 'False'. Nastavte hodnotu True pro přístup k datům za virtuální sítí ze sady Machine Learning Studio. Díky tomu přístup k datům z nástroje Machine Learning Studio používá pro ověřování spravovanou identitu pracovního prostoru a přidá spravovanou identitu pracovního prostoru jako čtenář úložiště. Abyste mohli vyjádřit výslovný souhlas, musíte být vlastníkem úložiště nebo správcem přístupu uživatele. Požádejte správce, aby ho pro vás nakonfigurovali, pokud nemáte požadovaná oprávnění. https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkDalší informace Default value: False
|
Návraty
| Typ | Description |
|---|---|
|
Vrátí úložiště dat Azure Data Lake Gen2. |
Poznámky
Pokud připojujete úložiště z jiné oblasti než v oblasti pracovního prostoru, může to mít za následek vyšší latenci a další náklady na využití sítě.
register_azure_file_share
Zaregistrujte sdílenou složku Azure do úložiště dat.
Můžete použít token SAS nebo klíč účtu úložiště.
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor, do které tento úložiště dat patří. |
|
datastore_name
Vyžadováno
|
Název úložiště dat, nerozlišující malá a velká písmena, může obsahovat pouze alfanumerické znaky a _. |
|
file_share_name
Vyžadováno
|
Název kontejneru souborů Azure. |
|
account_name
Vyžadováno
|
Název účtu úložiště. |
|
sas_token
|
str, <xref:optional>
Token SAS účtu, ve výchozím nastavení none(Žádný). Pro čtení dat vyžadujeme minimálně oprávnění seznamu a čtení pro kontejnery a objekty a pro zápis dat navíc vyžadujeme oprávnění k zápisu a přidání. Default value: None
|
|
account_key
|
str, <xref:optional>
Přístupové klíče vašeho účtu úložiště mají výchozí hodnotu None (Žádné). Default value: None
|
|
protocol
|
str, <xref:optional>
Protokol, který se má použít pro připojení ke sdílené složce. Pokud žádný, použije se výchozí hodnota https. Default value: None
|
|
endpoint
|
str, <xref:optional>
Koncový bod sdílené složky. Pokud žádná, výchozí hodnota je core.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Zda chcete přepsat existující úložiště dat. Pokud úložiště dat neexistuje, vytvoří se. Výchozí hodnota je False. Default value: False
|
|
create_if_not_exists
|
bool, <xref:optional>
Zda chcete vytvořit sdílenou složku, pokud neexistuje. Výchozí hodnota je False. Default value: False
|
|
skip_validation
|
bool, <xref:optional>
Zda se má přeskočit ověření klíčů úložiště. Výchozí hodnota je False. Default value: False
|
Návraty
| Typ | Description |
|---|---|
|
Úložiště dat souboru. |
Poznámky
Pokud připojujete úložiště z jiné oblasti než v oblasti pracovního prostoru, může to mít za následek vyšší latenci a další náklady na využití sítě.
register_azure_my_sql
Inicializace nového úložiště dat Azure MySQL
Úložiště dat MySQL lze použít pouze k vytvoření dataReference jako vstupu a výstupu do dataTransferStep v kanálech Azure Machine Learning. Další podrobnosti najdete tady.
Příklad registrace databáze Azure MySQL jako úložiště dat najdete níže.
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor, do které tento úložiště dat patří. |
|
datastore_name
Vyžadováno
|
Název úložiště dat. |
|
server_name
Vyžadováno
|
Název serveru MySQL. |
|
database_name
Vyžadováno
|
Název databáze MySQL. |
|
user_id
Vyžadováno
|
ID uživatele serveru MySQL. |
|
user_password
Vyžadováno
|
Uživatelské heslo serveru MySQL. |
|
port_number
|
Číslo portu serveru MySQL. Default value: None
|
|
endpoint
|
str, <xref:optional>
Koncový bod serveru MySQL. Pokud žádná, výchozí hodnota je mysql.database.azure.com. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Zda chcete přepsat existující úložiště dat. Pokud úložiště dat neexistuje, vytvoří se. Výchozí hodnota je False. Default value: False
|
Návraty
| Typ | Description |
|---|---|
|
Vrátí úložiště dat databáze MySQL. |
Poznámky
Pokud připojujete úložiště z jiné oblasti než v oblasti pracovního prostoru, může to mít za následek vyšší latenci a další náklady na využití sítě.
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
Inicializace nového úložiště dat Azure PostgreSQL
Příklad registrace databáze Azure PostgreSQL jako úložiště dat najdete níže.
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor, do které tento úložiště dat patří. |
|
datastore_name
Vyžadováno
|
Název úložiště dat. |
|
server_name
Vyžadováno
|
Název serveru PostgreSQL. |
|
database_name
Vyžadováno
|
Název databáze PostgreSQL. |
|
user_id
Vyžadováno
|
ID uživatele serveru PostgreSQL. |
|
user_password
Vyžadováno
|
Heslo uživatele serveru PostgreSQL. |
|
port_number
|
Číslo portu serveru PostgreSQL Default value: None
|
|
endpoint
|
str, <xref:optional>
Koncový bod serveru PostgreSQL. Pokud žádná, výchozí hodnota je postgres.database.azure.com. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Zda chcete přepsat existující úložiště dat. Pokud úložiště dat neexistuje, vytvoří se. Výchozí hodnota je False. Default value: False
|
|
enforce_ssl
|
Označuje požadavek SSL serveru PostgreSQL. Výchozí hodnota je True. Default value: True
|
Návraty
| Typ | Description |
|---|---|
|
Vrátí úložiště dat databáze PostgreSQL. |
Poznámky
Pokud připojujete úložiště z jiné oblasti než v oblasti pracovního prostoru, může to mít za následek vyšší latenci a další náklady na využití sítě.
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
Inicializace nového úložiště dat databáze Azure SQL
Přístup k datům založeným na přihlašovacích údajích (GA) a identit (Preview) se podporuje. Můžete se rozhodnout použít instanční objekt nebo uživatelské jméno a heslo. Pokud se v úložišti dat neuloží žádné přihlašovací údaje, použije se token AAD uživatelů v poznámkovém bloku nebo místním programu Pythonu, pokud přímo volá jednu z těchto funkcí: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identita cílového výpočetního objektu se použije v úlohách odeslaných experiment.submit pro ověřování přístupu k datům. Další informace najdete tady.
Příklad registrace databáze Azure SQL jako úložiště dat najdete níže.
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor, do které tento úložiště dat patří. |
|
datastore_name
Vyžadováno
|
Název úložiště dat. |
|
server_name
Vyžadováno
|
Název serveru SQL. U plně kvalifikovaného názvu domény, jako je sample.database.windows.net, by hodnota server_name měla být "sample" a hodnota koncového bodu by měla být "database.windows.net". |
|
database_name
Vyžadováno
|
Název databáze SQL. |
|
tenant_id
|
ID adresáře nebo ID tenanta instančního objektu. Default value: None
|
|
client_id
|
ID klienta nebo ID aplikace instančního objektu. Default value: None
|
|
client_secret
|
Tajný kód instančního objektu. Default value: None
|
|
resource_url
|
str, <xref:optional>
Adresa URL prostředku, která určuje, jaké operace se budou provádět v úložišti databáze SQL, pokud je výchozí hodnota https://database.windows.net/None . Default value: None
|
|
authority_url
|
str, <xref:optional>
Adresa URL autority použitá k ověření uživatele, výchozí hodnota https://login.microsoftonline.comje . Default value: None
|
|
endpoint
|
str, <xref:optional>
Koncový bod sql serveru. Pokud žádná, výchozí hodnota je database.windows.net. Default value: None
|
|
overwrite
|
bool, <xref:optional>
Zda chcete přepsat existující úložiště dat. Pokud úložiště dat neexistuje, vytvoří se. Výchozí hodnota je False. Default value: False
|
|
username
|
Uživatelské jméno uživatele databáze pro přístup k databázi. Default value: None
|
|
password
|
Heslo uživatele databáze pro přístup k databázi. Default value: None
|
|
skip_validation
Vyžadováno
|
bool, <xref:optional>
Zda se má přeskočit ověření připojení k databázi SQL. Výchozí nastavení je 'False'. |
|
subscription_id
|
str, <xref:optional>
ID předplatného, do které úložiště ADLS patří. Default value: None
|
|
resource_group
|
str, <xref:optional>
Skupina prostředků, do které úložiště ADLS patří. Default value: None
|
|
grant_workspace_access
|
bool, <xref:optional>
Výchozí nastavení je 'False'. Nastavte hodnotu True pro přístup k datům za virtuální sítí ze sady Machine Learning Studio. Díky tomu přístup k datům z nástroje Machine Learning Studio používá pro ověřování spravovanou identitu pracovního prostoru a přidá spravovanou identitu pracovního prostoru jako čtenář úložiště. Abyste mohli vyjádřit výslovný souhlas, musíte být vlastníkem úložiště nebo správcem přístupu uživatele. Požádejte správce, aby ho pro vás nakonfigurovali, pokud nemáte požadovaná oprávnění. https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-networkDalší informace Default value: False
|
Návraty
| Typ | Description |
|---|---|
|
Vrátí úložiště dat databáze SQL. |
Poznámky
Pokud připojujete úložiště z jiné oblasti než v oblasti pracovního prostoru, může to mít za následek vyšší latenci a další náklady na využití sítě.
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
Inicializace nového úložiště dat systému souborů Databricks (DBFS)
Úložiště dat DBFS lze použít pouze k vytvoření DataReference jako vstupu a PipelineData jako výstupu do DatabricksStep v kanálech Azure Machine Learning. Další podrobnosti najdete tady..
static register_dbfs(workspace, datastore_name)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
Pracovní prostor, do které tento úložiště dat patří. |
|
datastore_name
Vyžadováno
|
Název úložiště dat. |
Návraty
| Typ | Description |
|---|---|
|
Vrátí úložiště dat DBFS. |
Poznámky
Pokud připojujete úložiště z jiné oblasti než v oblasti pracovního prostoru, může to mít za následek vyšší latenci a další náklady na využití sítě.
register_hdfs
Poznámka:
Jedná se o experimentální metodu a může se kdykoli změnit. Další informace najdete tady: https://aka.ms/acr/connected-registry.
Inicializace nového úložiště dat HDFS
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
Parametry
| Name | Description |
|---|---|
|
workspace
Vyžadováno
|
pracovní prostor, do které tento úložiště dat patří |
|
datastore_name
Vyžadováno
|
název úložiště dat |
|
protocol
Vyžadováno
|
str nebo
<xref:_restclient.models.enum>
Protokol, který se má použít při komunikaci s clusterem HDFS. http nebo https. Mezi možné hodnoty patří: http, https. |
|
namenode_address
Vyžadováno
|
IP adresa nebo název hostitele DNS uzlu názvů HDFS. Volitelně zahrnuje port. |
|
hdfs_server_certificate
Vyžadováno
|
str, <xref:optional>
Cesta k podpisovým certifikátům TLS uzlu názvů HDFS, pokud používáte protokol TLS s certifikátem podepsaným svým držitelem. |
|
kerberos_realm
Vyžadováno
|
Sféra Kerberos. |
|
kerberos_kdc_address
Vyžadováno
|
IP adresa nebo název hostitele DNS služby Kerberos KDC. |
|
kerberos_principal
Vyžadováno
|
Instanční objekt Kerberos, který se má použít k ověřování a autorizaci. |
|
kerberos_keytab
Vyžadováno
|
str, <xref:optional>
Cesta k souboru keytab obsahujícího klíče odpovídající instančnímu objektu Kerberos. Zadejte buď toto, nebo heslo. |
|
kerberos_password
Vyžadováno
|
str, <xref:optional>
Heslo odpovídající instančnímu objektu Kerberos. Zadejte buď toto, nebo cestu k souboru keytab. |
|
overwrite
Vyžadováno
|
bool, <xref:optional>
přepíše existující úložiště dat. Pokud úložiště dat neexistuje, vytvoří se. Výchozí nastavení je 'False'. |
set_as_default
Nastavte výchozí úložiště dat.
set_as_default()
Parametry
| Name | Description |
|---|---|
|
datastore_name
Vyžadováno
|
Název úložiště dat. |
unregister
Zruší registraci úložiště dat. podkladová služba úložiště se neodstraní.
unregister()