Datastore Klasa
Reprezentuje abstrakcję magazynu na koncie magazynu usługi Azure Machine Learning.
Magazyny danych są dołączone do obszarów roboczych i są używane do przechowywania informacji o połączeniu z usługami Azure Storage, dzięki czemu można odwoływać się do nich według nazwy i nie trzeba pamiętać informacji o połączeniu i wpisów tajnych używanych do łączenia się z usługami magazynu.
Przykłady obsługiwanych usług magazynu platformy Azure, które można zarejestrować jako magazyny danych, to:
Azure Blob Container
Udział plików platformy Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
System plików usługi Databricks
Azure Database for MySQL
Ta klasa służy do wykonywania operacji zarządzania, w tym rejestrowania, wyświetlania listy, pobierania i usuwania magazynów danych.
Magazyny danych dla każdej usługi są tworzone przy użyciu register*
metod tej klasy. W przypadku uzyskiwania dostępu do danych przy użyciu magazynu danych musisz mieć uprawnienia dostępu do tych danych, co zależy od poświadczeń zarejestrowanych w magazynie danych.
Aby uzyskać więcej informacji na temat magazynów danych i sposobu ich użycia w uczeniu maszynowym, zobacz następujące artykuły:
Uzyskiwanie dostępu do danych w usługach magazynu platformy Azure
Trenowanie modeli za pomocą usługi Azure Machine Learning przy użyciu narzędzia do szacowania
Pobierz magazyn danych według nazwy. To wywołanie spowoduje przesłanie żądania do usługi magazynu danych.
- Dziedziczenie
-
builtins.objectDatastore
Konstruktor
Datastore(workspace, name=None)
Parametry
- name
- str, <xref:optional>
Nazwa magazynu danych domyślnie ma wartość None, która pobiera domyślny magazyn danych.
Uwagi
Aby wchodzić w interakcje z danymi w magazynach danych na potrzeby zadań uczenia maszynowego, takich jak trenowanie, utwórz zestaw danych usługi Azure Machine Learning. Zestawy danych udostępniają funkcje, które ładują dane tabelaryczne do biblioteki pandas lub Spark DataFrame. Zestawy danych umożliwiają również pobieranie lub instalowanie plików dowolnego formatu z usługi Azure Blob Storage, Azure Files, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, Azure SQL Database i Azure Database for PostgreSQL. Dowiedz się więcej na temat trenowania za pomocą zestawów danych.
W poniższym przykładzie pokazano, jak utworzyć magazyn danych połączony z kontenerem obiektów blob platformy Azure.
from azureml.exceptions import UserErrorException
blob_datastore_name='MyBlobDatastore'
account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
try:
blob_datastore = Datastore.get(ws, blob_datastore_name)
print("Found Blob Datastore with name: %s" % blob_datastore_name)
except UserErrorException:
blob_datastore = Datastore.register_azure_blob_container(
workspace=ws,
datastore_name=blob_datastore_name,
account_name=account_name, # Storage account name
container_name=container_name, # Name of Azure blob container
account_key=account_key) # Storage account key
print("Registered blob datastore with name: %s" % blob_datastore_name)
blob_data_ref = DataReference(
datastore=blob_datastore,
data_reference_name="blob_test_data",
path_on_datastore="testdata")
Pełna próbka jest dostępna w witrynie https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb
Metody
get |
Pobierz magazyn danych według nazwy. Jest to takie samo, jak wywoływanie konstruktora. |
get_default |
Pobierz domyślny magazyn danych dla obszaru roboczego. |
register_azure_blob_container |
Rejestrowanie kontenera obiektów blob platformy Azure w magazynie danych. Obsługiwany jest dostęp do danych opartych na poświadczeniach (GA) i opartych na tożsamościach (wersja zapoznawcza), a także możesz użyć tokenu SAS lub klucza konta magazynu. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj. |
register_azure_data_lake |
Zainicjuj nowy magazyn danych usługi Azure Data Lake. Obsługiwane są poświadczenia oparte na poświadczeniach i dostęp do danych opartych na tożsamościach (wersja zapoznawcza), można zarejestrować magazyn danych za pomocą jednostki usługi w celu uzyskania dostępu do danych opartych na poświadczeniach. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj. Poniżej przedstawiono przykład rejestrowania usługi Azure Data Lake Gen1 jako magazynu danych.
|
register_azure_data_lake_gen2 |
Zainicjuj nowy magazyn danych usługi Azure Data Lake Gen2. Obsługiwane są poświadczenia oparte na poświadczeniach i dostęp do danych opartych na tożsamościach (wersja zapoznawcza), można zarejestrować magazyn danych za pomocą jednostki usługi w celu uzyskania dostępu do danych opartych na poświadczeniach. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj. |
register_azure_file_share |
Zarejestruj udział plików platformy Azure w magazynie danych. Możesz użyć tokenu sygnatury dostępu współdzielonego lub klucza konta magazynu |
register_azure_my_sql |
Zainicjuj nowy magazyn danych usługi Azure MySQL. Magazyn danych MySQL może służyć tylko do tworzenia danych DataReference jako danych wejściowych i wyjściowych do elementu DataTransferStep w potokach usługi Azure Machine Learning. Więcej szczegółów można znaleźć tutaj. Zapoznaj się z poniższym przykładem rejestrowania bazy danych Azure MySQL jako magazynu danych. |
register_azure_postgre_sql |
Zainicjuj nowy magazyn danych usługi Azure PostgreSQL. Zapoznaj się z poniższym przykładem rejestrowania bazy danych Azure PostgreSQL jako magazynu danych. |
register_azure_sql_database |
Zainicjuj nowy magazyn danych Azure SQL. Dostęp do danych opartych na poświadczeniach (GA) i oparty na tożsamościach (wersja zapoznawcza) jest obsługiwany. Możesz wybrać opcję użycia jednostki usługi lub nazwy użytkownika i hasła. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj. Poniżej przedstawiono przykład rejestrowania bazy danych Azure SQL jako magazynu danych. |
register_dbfs |
Zainicjuj nowy magazyn danych systemu plików usługi Databricks (DBFS). Magazyn danych DBFS może służyć tylko do tworzenia elementu DataReference jako danych wejściowych i PipelineData jako danych wyjściowych do elementu DatabricksStep w potokach usługi Azure Machine Learning. Więcej szczegółów można znaleźć tutaj. |
register_hdfs |
Uwaga Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental. Zainicjuj nowy magazyn danych HDFS. |
set_as_default |
Ustaw domyślny magazyn danych. |
unregister |
Wyrejestrowuje magazyn danych. podstawowa usługa magazynu nie zostanie usunięta. |
get
Pobierz magazyn danych według nazwy. Jest to takie samo, jak wywoływanie konstruktora.
static get(workspace, datastore_name)
Parametry
- datastore_name
- str, <xref:optional>
Nazwa magazynu danych domyślnie ma wartość None, która pobiera domyślny magazyn danych.
Zwraca
Odpowiedni magazyn danych dla tej nazwy.
Typ zwracany
get_default
Pobierz domyślny magazyn danych dla obszaru roboczego.
static get_default(workspace)
Parametry
Zwraca
Domyślny magazyn danych dla obszaru roboczego
Typ zwracany
register_azure_blob_container
Rejestrowanie kontenera obiektów blob platformy Azure w magazynie danych.
Obsługiwany jest dostęp do danych opartych na poświadczeniach (GA) i opartych na tożsamościach (wersja zapoznawcza), a także możesz użyć tokenu SAS lub klucza konta magazynu. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj.
static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)
Parametry
- datastore_name
- str
Nazwa magazynu danych, bez uwzględniania wielkości liter, może zawierać tylko znaki alfanumeryczne i _.
- sas_token
- str, <xref:optional>
Token SYGNATURy dostępu współdzielonego konta domyślnie ma wartość Brak. W przypadku odczytu danych wymagane jest co najmniej uprawnienia Do odczytu & list dla kontenerów & Objects, a w przypadku zapisu danych dodatkowo wymagamy uprawnień Do zapisu & Dodaj.
- account_key
- str, <xref:optional>
Klucze dostępu konta magazynu są domyślnie ustawione na Wartość Brak.
- protocol
- str, <xref:optional>
Protokół używany do nawiązywania połączenia z kontenerem obiektów blob. Jeśli brak, wartość domyślna to https.
- endpoint
- str, <xref:optional>
Punkt końcowy konta magazynu. Jeśli brak, wartość domyślna to core.windows.net.
- overwrite
- bool, <xref:optional>
zastępuje istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony, a wartość domyślna to False
- create_if_not_exists
- bool, <xref:optional>
utwórz kontener obiektów blob, jeśli nie istnieje, wartość domyślna to False
- skip_validation
- bool, <xref:optional>
Pomija walidację kluczy magazynu, a wartość domyślna to False
- blob_cache_timeout
- int, <xref:optional>
Po zamontowaniu tego obiektu blob ustaw limit czasu pamięci podręcznej na tę liczbę sekund. Jeśli brak, domyślnie nie zostanie przekroczony limit czasu (tj. obiekty blob będą buforowane przez czas trwania zadania podczas odczytu).
- grant_workspace_access
- bool, <xref:optional>
Wartość domyślna to False. Ustaw wartość True, aby uzyskać dostęp do danych za siecią wirtualną z usługi Machine Learning Studio. Spowoduje to, że dostęp do danych z usługi Machine Learning Studio korzysta z tożsamości zarządzanej obszaru roboczego do uwierzytelniania, a następnie dodaje tożsamość zarządzaną obszaru roboczego jako Czytelnik magazynu. Aby wyrazić zgodę, musisz być właścicielem lub administratorem dostępu użytkowników magazynu. Poproś administratora o skonfigurowanie go, jeśli nie masz wymaganych uprawnień. Dowiedz się więcej "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"
- subscription_id
- str, <xref:optional>
Identyfikator subskrypcji konta magazynu domyślnie ma wartość Brak.
- resource_group
- str, <xref:optional>
Grupa zasobów konta magazynu domyślnie ma wartość Brak.
Zwraca
Magazyn danych obiektów blob.
Typ zwracany
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienia i dodatkowe koszty użycia sieci.
register_azure_data_lake
Zainicjuj nowy magazyn danych usługi Azure Data Lake.
Obsługiwane są poświadczenia oparte na poświadczeniach i dostęp do danych opartych na tożsamościach (wersja zapoznawcza), można zarejestrować magazyn danych za pomocą jednostki usługi w celu uzyskania dostępu do danych opartych na poświadczeniach. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj.
Poniżej przedstawiono przykład rejestrowania usługi Azure Data Lake Gen1 jako magazynu danych.
adlsgen1_datastore_name='adlsgen1datastore'
store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal
adls_datastore = Datastore.register_azure_data_lake(
workspace=ws,
datastore_name=aslsgen1_datastore_name,
subscription_id=subscription_id, # subscription id of ADLS account
resource_group=resource_group, # resource group of ADLS account
store_name=store_name, # ADLS account name
tenant_id=tenant_id, # tenant id of service principal
client_id=client_id, # client id of service principal
client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)
Parametry
- tenant_id
- str, <xref:optional>
Identyfikator katalogu/identyfikator dzierżawy jednostki usługi używanej do uzyskiwania dostępu do danych.
- client_id
- str, <xref:optional>
Identyfikator klienta/identyfikator aplikacji jednostki usługi używanej do uzyskiwania dostępu do danych.
- client_secret
- str, <xref:optional>
Klucz tajny klienta jednostki usługi używany do uzyskiwania dostępu do danych.
- resource_url
- str, <xref:optional>
Adres URL zasobu, który określa, jakie operacje będą wykonywane w usłudze Data Lake Store, jeśli brak, domyślnie https://datalake.azure.net/
umożliwia wykonywanie operacji systemu plików.
- authority_url
- str, <xref:optional>
Adres URL urzędu używany do uwierzytelniania użytkownika jest domyślnie ustawiona na https://login.microsoftonline.com
.
- subscription_id
- str, <xref:optional>
Identyfikator subskrypcji, do której należy magazyn usługi ADLS.
- resource_group
- str, <xref:optional>
Grupa zasobów, do której należy magazyn usługi ADLS.
- overwrite
- bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False.
- grant_workspace_access
- bool, <xref:optional>
Wartość domyślna to False. Ustaw wartość True, aby uzyskać dostęp do danych za siecią wirtualną z usługi Machine Learning Studio. Spowoduje to, że dostęp do danych z usługi Machine Learning Studio korzysta z tożsamości zarządzanej obszaru roboczego do uwierzytelniania, a następnie dodaje tożsamość zarządzaną obszaru roboczego jako Czytelnik magazynu. Aby wyrazić zgodę, musisz być właścicielem lub administratorem dostępu użytkowników magazynu. Poproś administratora o skonfigurowanie go, jeśli nie masz wymaganych uprawnień. Dowiedz się więcej "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"
Zwraca
Zwraca magazyn danych usługi Azure Data Lake.
Typ zwracany
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
Uwaga
Usługa Azure Data Lake Datastore obsługuje transfer danych i uruchamianie zadań U-Sql przy użyciu potoków usługi Azure Machine Learning.
Można go również użyć jako źródła danych dla zestawu danych usługi Azure Machine Learning, który można pobrać lub zamontować na dowolnym obsługiwanym obiekcie obliczeniowym.
register_azure_data_lake_gen2
Zainicjuj nowy magazyn danych usługi Azure Data Lake Gen2.
Obsługiwane są poświadczenia oparte na poświadczeniach i dostęp do danych opartych na tożsamościach (wersja zapoznawcza), można zarejestrować magazyn danych za pomocą jednostki usługi w celu uzyskania dostępu do danych opartych na poświadczeniach. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj.
static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)
Parametry
- tenant_id
- str, <xref:optional>
Identyfikator katalogu/identyfikator dzierżawy jednostki usługi.
- client_id
- str, <xref:optional>
Identyfikator klienta/identyfikator aplikacji jednostki usługi.
- resource_url
- str, <xref:optional>
Adres URL zasobu, który określa, jakie operacje będą wykonywane w usłudze Data Lake Store, domyślnie https://storage.azure.com/
umożliwia wykonywanie operacji systemu plików.
- authority_url
- str, <xref:optional>
Adres URL urzędu używany do uwierzytelniania użytkownika domyślnie to https://login.microsoftonline.com
.
- protocol
- str, <xref:optional>
Protokół służący do nawiązywania połączenia z kontenerem obiektów blob. Jeśli brak, wartość domyślna to https.
- endpoint
- str, <xref:optional>
Punkt końcowy konta magazynu. Jeśli brak, wartość domyślna to core.windows.net.
- overwrite
- bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False.
- subscription_id
- str, <xref:optional>
Identyfikator subskrypcji, do której należy magazyn usługi ADLS.
- resource_group
- str, <xref:optional>
Grupa zasobów, do której należy magazyn usługi ADLS.
- grant_workspace_access
- bool, <xref:optional>
Wartość domyślna to False. Ustaw wartość True w celu uzyskania dostępu do danych za siecią wirtualną z usługi Machine Learning Studio. Dzięki temu dostęp do danych z usługi Machine Learning Studio używa tożsamości zarządzanej obszaru roboczego do uwierzytelniania i dodaje tożsamość zarządzaną obszaru roboczego jako Czytelnik magazynu. Aby wyrazić zgodę, musisz być właścicielem lub administratorem dostępu użytkowników magazynu. Poproś administratora o skonfigurowanie go, jeśli nie masz wymaganych uprawnień. Dowiedz się więcej "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"
Zwraca
Zwraca magazyn danych usługi Azure Data Lake Gen2.
Typ zwracany
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
register_azure_file_share
Zarejestruj udział plików platformy Azure w magazynie danych.
Możesz użyć tokenu sygnatury dostępu współdzielonego lub klucza konta magazynu
static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)
Parametry
- datastore_name
- str
Nazwa magazynu danych bez uwzględniania wielkości liter może zawierać tylko znaki alfanumeryczne i _.
- sas_token
- str, <xref:optional>
Token sygnatury dostępu współdzielonego konta domyślnie ma wartość Brak. W przypadku odczytu danych wymagane jest co najmniej uprawnienia Listy & odczytu dla kontenerów & Obiektów, a w przypadku zapisu danych wymagane są uprawnienia Do zapisu & Dodaj.
- account_key
- str, <xref:optional>
Klucze dostępu do konta magazynu są domyślnie ustawione na Wartość Brak.
- protocol
- str, <xref:optional>
Protokół używany do nawiązywania połączenia z udziałem plików. Jeśli brak, wartość domyślna to https.
- endpoint
- str, <xref:optional>
Punkt końcowy udziału plików. Jeśli brak, wartość domyślna to core.windows.net.
- overwrite
- bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False.
- create_if_not_exists
- bool, <xref:optional>
Czy utworzyć udział plików, jeśli nie istnieje. Wartość domyślna to False.
- skip_validation
- bool, <xref:optional>
Czy pominąć walidację kluczy magazynu. Wartość domyślna to False.
Zwraca
Magazyn danych plików.
Typ zwracany
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
register_azure_my_sql
Zainicjuj nowy magazyn danych usługi Azure MySQL.
Magazyn danych MySQL może służyć tylko do tworzenia danych DataReference jako danych wejściowych i wyjściowych do elementu DataTransferStep w potokach usługi Azure Machine Learning. Więcej szczegółów można znaleźć tutaj.
Zapoznaj się z poniższym przykładem rejestrowania bazy danych Azure MySQL jako magazynu danych.
static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)
Parametry
- endpoint
- str, <xref:optional>
Punkt końcowy serwera MySQL. Jeśli brak, wartość domyślna to mysql.database.azure.com.
- overwrite
- bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False.
Zwraca
Zwraca magazyn danych bazy danych MySQL.
Typ zwracany
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
mysql_datastore_name="mysqldatastore"
server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.
mysql_datastore = Datastore.register_azure_my_sql(
workspace=ws,
datastore_name=mysql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_postgre_sql
Zainicjuj nowy magazyn danych usługi Azure PostgreSQL.
Zapoznaj się z poniższym przykładem rejestrowania bazy danych Azure PostgreSQL jako magazynu danych.
static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)
Parametry
- endpoint
- str, <xref:optional>
Punkt końcowy serwera PostgreSQL. Jeśli brak, wartość domyślna to postgres.database.azure.com.
- overwrite
- bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False.
- enforce_ssl
- bool
Wskazuje wymaganie protokołu SSL serwera PostgreSQL. Wartość domyślna to True.
Zwraca
Zwraca magazyn danych bazy danych PostgreSQL.
Typ zwracany
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienie i dodatkowe koszty użycia sieci.
psql_datastore_name="postgresqldatastore"
server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password
psql_datastore = Datastore.register_azure_postgre_sql(
workspace=ws,
datastore_name=psql_datastore_name,
server_name=server_name,
database_name=database_name,
user_id=user_id,
user_password=user_password)
register_azure_sql_database
Zainicjuj nowy magazyn danych Azure SQL.
Dostęp do danych opartych na poświadczeniach (GA) i oparty na tożsamościach (wersja zapoznawcza) jest obsługiwany. Możesz wybrać opcję użycia jednostki usługi lub nazwy użytkownika i hasła. Jeśli żadne poświadczenia nie zostaną zapisane w magazynie danych, token usługi AAD użytkowników będzie używany w notesie lub lokalnym programie python, jeśli bezpośrednio wywołuje jedną z następujących funkcji: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files tożsamość obiektu docelowego obliczeniowego będzie używana w zadaniach przesłanych przez Narzędzie Experiment.submit na potrzeby uwierzytelniania dostępu do danych. Więcej informacji można znaleźć tutaj.
Poniżej przedstawiono przykład rejestrowania bazy danych Azure SQL jako magazynu danych.
static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)
Parametry
- server_name
- str
Nazwa serwera SQL. W przypadku w pełni kwalifikowanej nazwy domeny, takiej jak "sample.database.windows.net", wartość server_name powinna mieć wartość "sample", a wartość punktu końcowego powinna mieć wartość "database.windows.net".
- tenant_id
- str
Identyfikator katalogu/identyfikator dzierżawy jednostki usługi.
- client_id
- str
Identyfikator klienta/identyfikator aplikacji jednostki usługi.
- resource_url
- str, <xref:optional>
Adres URL zasobu, który określa, jakie operacje będą wykonywane w magazynie bazy danych SQL, jeśli wartość domyślna https://database.windows.net/to None (Brak).
- authority_url
- str, <xref:optional>
Adres URL urzędu używany do uwierzytelniania użytkownika jest domyślnie ustawiona na https://login.microsoftonline.com.
- endpoint
- str, <xref:optional>
Punkt końcowy serwera SQL. Jeśli brak, wartość domyślna to database.windows.net.
- overwrite
- bool, <xref:optional>
Czy zastąpić istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False.
- username
- str
Nazwa użytkownika bazy danych w celu uzyskania dostępu do bazy danych.
- password
- str
Hasło użytkownika bazy danych w celu uzyskania dostępu do bazy danych.
- skip_validation
- bool, <xref:optional>
Czy pominąć walidację nawiązywania połączenia z bazą danych SQL. Wartość domyślna to False.
- subscription_id
- str, <xref:optional>
Identyfikator subskrypcji, do której należy magazyn usługi ADLS.
- resource_group
- str, <xref:optional>
Grupa zasobów, do której należy magazyn usługi ADLS.
- grant_workspace_access
- bool, <xref:optional>
Wartość domyślna to False. Ustaw wartość True, aby uzyskać dostęp do danych za siecią wirtualną z usługi Machine Learning Studio. Spowoduje to, że dostęp do danych z usługi Machine Learning Studio korzysta z tożsamości zarządzanej obszaru roboczego do uwierzytelniania, a następnie dodaje tożsamość zarządzaną obszaru roboczego jako Czytelnik magazynu. Aby wyrazić zgodę, musisz być właścicielem lub administratorem dostępu użytkowników magazynu. Poproś administratora o skonfigurowanie go, jeśli nie masz wymaganych uprawnień. Dowiedz się więcej "https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network"
Zwraca
Zwraca magazyn danych bazy danych SQL.
Typ zwracany
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienia i dodatkowe koszty użycia sieci.
sql_datastore_name="azuresqldatastore"
server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.
sql_datastore = Datastore.register_azure_sql_database(
workspace=ws,
datastore_name=sql_datastore_name,
server_name=server_name, # name should not contain fully qualified domain endpoint
database_name=database_name,
username=username,
password=password,
endpoint='database.windows.net')
register_dbfs
Zainicjuj nowy magazyn danych systemu plików usługi Databricks (DBFS).
Magazyn danych DBFS może służyć tylko do tworzenia elementu DataReference jako danych wejściowych i PipelineData jako danych wyjściowych do elementu DatabricksStep w potokach usługi Azure Machine Learning. Więcej szczegółów można znaleźć tutaj.
static register_dbfs(workspace, datastore_name)
Parametry
Zwraca
Zwraca magazyn danych DBFS.
Typ zwracany
Uwagi
Jeśli dołączasz magazyn z innego regionu niż region obszaru roboczego, może to spowodować większe opóźnienia i dodatkowe koszty użycia sieci.
register_hdfs
Uwaga
Jest to metoda eksperymentalna i może ulec zmianie w dowolnym momencie. Aby uzyskać więcej informacji, zobacz https://aka.ms/azuremlexperimental.
Zainicjuj nowy magazyn danych HDFS.
static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)
Parametry
- protocol
- str lub <xref:_restclient.models.enum>
Protokół używany podczas komunikowania się z klastrem HDFS. http lub https. Możliwe wartości to: "http", "https"
- namenode_address
- str
Adres IP lub nazwa hosta DNS węzła nazw systemu plików HDFS. Opcjonalnie zawiera port.
- hdfs_server_certificate
- str, <xref:optional>
Ścieżka do certyfikatu podpisywania TLS węzła namenode systemu plików HDFS, jeśli używasz protokołu TLS z certyfikatem z podpisem własnym.
- kerberos_kdc_address
- str
Adres IP lub nazwa hosta DNS centrum dystrybucji kluczy Protokołu Kerberos.
- kerberos_principal
- str
Podmiot zabezpieczeń protokołu Kerberos do użycia na potrzeby uwierzytelniania i autoryzacji.
- kerberos_keytab
- str, <xref:optional>
Ścieżka do pliku keytab zawierającego klucze odpowiadające podmiotowi zabezpieczeń protokołu Kerberos. Podaj to lub hasło.
- kerberos_password
- str, <xref:optional>
Hasło odpowiadające podmiotowi zabezpieczeń protokołu Kerberos. Podaj tę wartość lub ścieżkę do pliku keytab.
- overwrite
- bool, <xref:optional>
zastępuje istniejący magazyn danych. Jeśli magazyn danych nie istnieje, zostanie utworzony. Wartość domyślna to False.
set_as_default
Ustaw domyślny magazyn danych.
set_as_default()
Parametry
unregister
Wyrejestrowuje magazyn danych. podstawowa usługa magazynu nie zostanie usunięta.
unregister()
Opinia
https://aka.ms/ContentUserFeedback.
Dostępne już wkrótce: W 2024 r. będziemy stopniowo wycofywać zgłoszenia z serwisu GitHub jako mechanizm przesyłania opinii na temat zawartości i zastępować go nowym systemem opinii. Aby uzyskać więcej informacji, sprawdź:Prześlij i wyświetl opinię dla