Partilhar via


Datastore Classe

Representa uma abstração de armazenamento numa conta de armazenamento do Azure Machine Learning.

Os arquivos de dados são anexados a áreas de trabalho e são utilizados para armazenar informações de ligação aos serviços de armazenamento do Azure, para que possa fazer referência aos mesmos por nome e não precisa de se lembrar das informações de ligação e do segredo utilizados para ligar aos serviços de armazenamento.

Exemplos de serviços de armazenamento do Azure suportados que podem ser registados como arquivos de dados:

  • Contentor de Blobs do Azure

  • Partilha de Ficheiros do Azure

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Base de Dados SQL do Azure

  • Base de Dados do Azure para PostgreSQL

  • Sistema de Ficheiros do Databricks

  • Base de Dados do Azure para MySQL

Utilize esta classe para realizar operações de gestão, incluindo registar, listar, obter e remover arquivos de dados. Os arquivos de dados para cada serviço são criados com os register* métodos desta classe. Ao utilizar um arquivo de dados para aceder aos dados, tem de ter permissão para aceder a esses dados, o que depende das credenciais registadas no arquivo de dados.

Para obter mais informações sobre os arquivos de dados e como podem ser utilizados no machine learning, veja os seguintes artigos:

Obtenha um arquivo de dados por nome. Esta chamada fará um pedido ao serviço do arquivo de dados.

Herança
builtins.object
Datastore

Construtor

Datastore(workspace, name=None)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho.

name
str, <xref:optional>

O nome do arquivo de dados, predefinido para Nenhum, que obtém o arquivo de dados predefinido.

Default value: None

Observações

Para interagir com dados nos seus arquivos de dados para tarefas de machine learning, como formação, crie um conjunto de dados do Azure Machine Learning. Os conjuntos de dados fornecem funções que carregam dados tabulares para um pandas ou Spark DataFrame. Os conjuntos de dados também fornecem a capacidade de transferir ou montar ficheiros de qualquer formato a partir do armazenamento de Blobs do Azure, Ficheiros do Azure, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2, base de dados SQL do Azure e Base de Dados do Azure para PostgreSQL. Saiba mais sobre como preparar com conjuntos de dados.

O exemplo seguinte mostra como criar um Arquivo de Dados ligado ao Contentor de Blobs do Azure.


   # from azureml.exceptions import UserErrorException
   #
   # blob_datastore_name='MyBlobDatastore'
   # account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   # container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   # account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key
   #
   # try:
   #     blob_datastore = Datastore.get(ws, blob_datastore_name)
   #     print("Found Blob Datastore with name: %s" % blob_datastore_name)
   # except UserErrorException:
   #     blob_datastore = Datastore.register_azure_blob_container(
   #         workspace=ws,
   #         datastore_name=blob_datastore_name,
   #         account_name=account_name, # Storage account name
   #         container_name=container_name, # Name of Azure blob container
   #         account_key=account_key) # Storage account key
   #     print("Registered blob datastore with name: %s" % blob_datastore_name)
   #
   # blob_data_ref = DataReference(
   #     datastore=blob_datastore,
   #     data_reference_name="blob_test_data",
   #     path_on_datastore="testdata")

O exemplo completo está disponível a partir de https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Métodos

get

Obtenha um arquivo de dados por nome. Isto é o mesmo que chamar o construtor.

get_default

Obtenha o arquivo de dados predefinido para a área de trabalho.

register_azure_blob_container

Registe um Contentor de Blobs do Azure no arquivo de dados.

O acesso a dados baseado em credenciais (GA) e baseado em identidades (Pré-visualização) é suportado, pode optar por utilizar o Token de SAS ou a Chave da Conta de Armazenamento. Se não for guardada nenhuma credencial com o arquivo de dados, o token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

register_azure_data_lake

Inicialize um novo Arquivo de Dados do Azure Data Lake.

O acesso a dados baseado em credenciais (GA) e baseado em identidades (Pré-visualização) é suportado. Pode registar um arquivo de dados com o Principal de Serviço para acesso a dados baseados em credenciais. Se não for guardada nenhuma credencial com o arquivo de dados, o token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registar um Azure Data Lake Gen1 como um Datastore.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Inicialize um novo Arquivo de Dados do Azure Data Lake Gen2.

O acesso a dados baseado em credenciais (GA) e baseado em identidades (Pré-visualização) é suportado. Pode registar um arquivo de dados com o Principal de Serviço para acesso a dados baseados em credenciais. Se não for guardada nenhuma credencial com o arquivo de dados, o token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

register_azure_file_share

Registe uma Partilha de Ficheiros do Azure no arquivo de dados.

Pode optar por utilizar o Token de SAS ou a Chave da Conta de Armazenamento

register_azure_my_sql

Inicialize um novo Arquivo de Dados mySQL do Azure.

O arquivo de dados MySQL só pode ser utilizado para criar DataReference como entrada e saída para DataTransferStep em pipelines do Azure Machine Learning. Pode encontrar mais detalhes aqui.

Veja abaixo um exemplo de como registar uma base de dados MySQL do Azure como um Arquivo de Dados.

register_azure_postgre_sql

Inicialize um novo Arquivo de Dados do Azure PostgreSQL.

Veja abaixo um exemplo de como registar uma base de dados do Azure PostgreSQL como um Datastore.

register_azure_sql_database

Inicialize um novo arquivo de dados SQL do Azure Datastore.

O acesso a dados baseados em credenciais (GA) e baseados em identidades (Pré-visualização) é suportado, pode optar por utilizar o Principal de Serviço ou nome de utilizador + palavra-passe. Se não for guardada nenhuma credencial com o arquivo de dados, o token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registar uma base de dados SQL do Azure como um Datastore.

register_dbfs

Inicialize um novo arquivo de dados do Sistema de Ficheiros do Databricks (DBFS).

O arquivo de dados do DBFS só pode ser utilizado para criar DataReference como entrada e PipelineData como saída para o DatabricksStep nos pipelines do Azure Machine Learning. Pode encontrar mais detalhes aqui..

register_hdfs

Nota

Este é um método experimental e pode ser alterado em qualquer altura. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Inicialize um novo arquivo de dados HDFS.

set_as_default

Defina o arquivo de dados predefinido.

unregister

Anule o registo do arquivo de dados. o serviço de armazenamento subjacente não será eliminado.

get

Obtenha um arquivo de dados por nome. Isto é o mesmo que chamar o construtor.

static get(workspace, datastore_name)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho.

datastore_name
Necessário
str, <xref:optional>

O nome do arquivo de dados, predefinido para Nenhum, que obtém o arquivo de dados predefinido.

Devoluções

Tipo Description

O arquivo de dados correspondente para esse nome.

get_default

Obtenha o arquivo de dados predefinido para a área de trabalho.

static get_default(workspace)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho.

Devoluções

Tipo Description

O arquivo de dados predefinido para a área de trabalho

register_azure_blob_container

Registe um Contentor de Blobs do Azure no arquivo de dados.

O acesso a dados baseado em credenciais (GA) e baseado em identidades (Pré-visualização) é suportado, pode optar por utilizar o Token de SAS ou a Chave da Conta de Armazenamento. Se não for guardada nenhuma credencial com o arquivo de dados, o token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho.

datastore_name
Necessário
str

O nome do arquivo de dados, não sensível a maiúsculas e minúsculas, só pode conter carateres alfanuméricos e _.

container_name
Necessário
str

O nome do contentor de blobs do azure.

account_name
Necessário
str

O nome da conta de armazenamento.

sas_token
str, <xref:optional>

Um token de SAS de conta, predefinido para Nenhum. Para leitura de dados, necessitamos de um mínimo de permissões de Lista & Leitura para Objetos & contentores e para escrita de dados, além disso, precisamos de permissões de Escrita & Adicionar.

Default value: None
account_key
str, <xref:optional>

As chaves de acesso da sua conta de armazenamento são predefinidas para Nenhuma.

Default value: None
protocol
str, <xref:optional>

Protocolo a utilizar para ligar ao contentor de blobs. Se Nenhum, a predefinição é https.

Default value: None
endpoint
str, <xref:optional>

O ponto final da conta de armazenamento. Se Nenhum, a predefinição é core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

substitui um arquivo de dados existente. Se o arquivo de dados não existir, irá criar um, predefinição para Falso

Default value: False
create_if_not_exists
bool, <xref:optional>

criar o contentor de blobs se não existir, a predefinição é Falso

Default value: False
skip_validation
bool, <xref:optional>

ignora a validação de chaves de armazenamento, predefinições para Falso

Default value: False
blob_cache_timeout
int, <xref:optional>

Quando este blob estiver montado, defina o tempo limite da cache para estes segundos. Se Nenhum, a predefinição não excede o tempo limite (ou seja, os blobs serão colocados em cache durante o período de leitura da tarefa).

Default value: None
grant_workspace_access
bool, <xref:optional>

Predefinições para Falso. Defina-o como Verdadeiro para aceder aos dados por trás da rede virtual a partir do Machine Learning Studio.Isto faz com que os dados acedam a partir do Machine Learning Studio, utilize a identidade gerida da área de trabalho para autenticação e adiciona a identidade gerida da área de trabalho como Leitor do armazenamento. Tem de ser proprietário ou administrador de acesso de utilizador do armazenamento para optar ativamente por participar. Peça ao administrador para o configurar se não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Default value: False
subscription_id
str, <xref:optional>

O ID da subscrição da conta de armazenamento é predefinido para Nenhum.

Default value: None
resource_group
str, <xref:optional>

O grupo de recursos da conta de armazenamento é predefinido como Nenhum.

Default value: None

Devoluções

Tipo Description

O arquivo de dados de blobs.

Observações

Se estiver a anexar armazenamento de uma região diferente da região da área de trabalho, isso poderá resultar numa latência mais elevada e em custos adicionais de utilização da rede.

register_azure_data_lake

Inicialize um novo Arquivo de Dados do Azure Data Lake.

O acesso a dados baseado em credenciais (GA) e baseado em identidades (Pré-visualização) é suportado. Pode registar um arquivo de dados com o Principal de Serviço para acesso a dados baseados em credenciais. Se não for guardada nenhuma credencial com o arquivo de dados, o token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registar um Azure Data Lake Gen1 como um Datastore.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho a que este arquivo de dados pertence.

datastore_name
Necessário
str

O nome do arquivo de dados.

store_name
Necessário
str

O nome do arquivo do ADLS.

tenant_id
str, <xref:optional>

O ID do Diretório/ID do Inquilino do principal de serviço utilizado para aceder aos dados.

Default value: None
client_id
str, <xref:optional>

O ID de Cliente/ID da Aplicação do principal de serviço utilizado para aceder aos dados.

Default value: None
client_secret
str, <xref:optional>

O Segredo do Cliente do principal de serviço utilizado para aceder aos dados.

Default value: None
resource_url
str, <xref:optional>

O URL do recurso, que determina as operações que serão realizadas no arquivo do Data Lake, se Nenhum, predefine o https://datalake.azure.net/ que nos permite realizar operações de sistema de ficheiros.

Default value: None
authority_url
str, <xref:optional>

O URL de autoridade utilizado para autenticar o utilizador, é predefinido para https://login.microsoftonline.com.

Default value: None
subscription_id
str, <xref:optional>

O ID da subscrição a que pertence o arquivo do ADLS.

Default value: None
resource_group
str, <xref:optional>

O grupo de recursos a que pertence o arquivo do ADLS.

Default value: None
overwrite
bool, <xref:optional>

Quer substituir um arquivo de dados existente. Se o arquivo de dados não existir, irá criar um. A predefinição é Falso.

Default value: False
grant_workspace_access
bool, <xref:optional>

Predefinições para Falso. Defina-o como Verdadeiro para aceder aos dados por trás da rede virtual a partir do Machine Learning Studio.Isto faz com que os dados acedam a partir do Machine Learning Studio, utilize a identidade gerida da área de trabalho para autenticação e adiciona a identidade gerida da área de trabalho como Leitor do armazenamento. Tem de ser Proprietário ou Administrador de Acesso de Utilizador do armazenamento para optar ativamente por participar. Peça ao administrador para o configurar se não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Default value: False

Devoluções

Tipo Description

Devolve o Azure Data Lake Datastore.

Observações

Se estiver a anexar armazenamento de uma região diferente da região da área de trabalho, isso poderá resultar numa latência mais elevada e em custos adicionais de utilização da rede.

Nota

O Azure Data Lake Datastore suporta a transferência de dados e a execução de tarefas U-Sql com o Azure Machine Learning Pipelines.

Também pode utilizá-lo como uma origem de dados para o Conjunto de Dados do Azure Machine Learning que pode ser transferido ou montado em qualquer computação suportada.

register_azure_data_lake_gen2

Inicialize um novo Arquivo de Dados do Azure Data Lake Gen2.

O acesso a dados baseado em credenciais (GA) e baseado em identidades (Pré-visualização) é suportado. Pode registar um arquivo de dados com o Principal de Serviço para acesso a dados baseados em credenciais. Se não for guardada nenhuma credencial com o arquivo de dados, o token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho a que este arquivo de dados pertence.

datastore_name
Necessário
str

O nome do arquivo de dados.

filesystem
Necessário
str

O nome do sistema de ficheiros do Data Lake Gen2.

account_name
Necessário
str

O nome da conta de armazenamento.

tenant_id
str, <xref:optional>

O ID do Diretório/ID do Inquilino do principal de serviço.

Default value: None
client_id
str, <xref:optional>

O ID de Cliente/ID da Aplicação do principal de serviço.

Default value: None
client_secret
str, <xref:optional>

O segredo do principal de serviço.

Default value: None
resource_url
str, <xref:optional>

O URL do recurso, que determina as operações que serão realizadas no data lake store, é predefinido para https://storage.azure.com/ o qual nos permite executar operações de sistema de ficheiros.

Default value: None
authority_url
str, <xref:optional>

O URL de autoridade utilizado para autenticar o utilizador, é predefinido para https://login.microsoftonline.com.

Default value: None
protocol
str, <xref:optional>

Protocolo a utilizar para ligar ao contentor de blobs. Se Nenhum, a predefinição é https.

Default value: None
endpoint
str, <xref:optional>

O ponto final da conta de armazenamento. Se Nenhum, a predefinição é core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Quer substituir um arquivo de dados existente. Se o arquivo de dados não existir, irá criar um. A predefinição é Falso.

Default value: False
subscription_id
str, <xref:optional>

O ID da subscrição a que pertence o arquivo do ADLS.

Default value: None
resource_group
str, <xref:optional>

O grupo de recursos a que pertence o arquivo do ADLS.

Default value: None
grant_workspace_access
bool, <xref:optional>

Predefinições para Falso. Defina-o como Verdadeiro para aceder aos dados por trás da rede virtual a partir do Machine Learning Studio.Isto faz com que os dados acedam a partir do Machine Learning Studio, utilize a identidade gerida da área de trabalho para autenticação e adiciona a identidade gerida da área de trabalho como Leitor do armazenamento. Tem de ser proprietário ou administrador de acesso de utilizador do armazenamento para optar ativamente por participar. Peça ao administrador para o configurar se não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Default value: False

Devoluções

Tipo Description

Devolve o Arquivo de Dados do Azure Data Lake Gen2.

Observações

Se estiver a anexar armazenamento de uma região diferente da região da área de trabalho, isso poderá resultar numa latência mais elevada e em custos adicionais de utilização da rede.

register_azure_file_share

Registe uma Partilha de Ficheiros do Azure no arquivo de dados.

Pode optar por utilizar o Token de SAS ou a Chave da Conta de Armazenamento

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho a que este arquivo de dados pertence.

datastore_name
Necessário
str

O nome do arquivo de dados, não sensível a maiúsculas e minúsculas, só pode conter carateres alfanuméricos e _.

file_share_name
Necessário
str

O nome do contentor de ficheiros do azure.

account_name
Necessário
str

O nome da conta de armazenamento.

sas_token
str, <xref:optional>

Um token de SAS de conta, predefinido para Nenhum. Para leitura de dados, necessitamos de um mínimo de permissões de Lista & Leitura para Objetos & contentores e para escrita de dados, além disso, precisamos de permissões de Escrita & Adicionar.

Default value: None
account_key
str, <xref:optional>

As chaves de acesso da sua conta de armazenamento são predefinidas para Nenhuma.

Default value: None
protocol
str, <xref:optional>

O protocolo a utilizar para ligar à partilha de ficheiros. Se Nenhum, a predefinição é https.

Default value: None
endpoint
str, <xref:optional>

O ponto final da partilha de ficheiros. Se Nenhum, a predefinição é core.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Quer substituir um arquivo de dados existente. Se o arquivo de dados não existir, irá criar um. A predefinição é Falso.

Default value: False
create_if_not_exists
bool, <xref:optional>

Se pretender criar a partilha de ficheiros se não existir. A predefinição é Falso.

Default value: False
skip_validation
bool, <xref:optional>

Se pretende ignorar a validação de chaves de armazenamento. A predefinição é Falso.

Default value: False

Devoluções

Tipo Description

O arquivo de dados de ficheiros.

Observações

Se estiver a anexar armazenamento de uma região diferente da região da área de trabalho, isso poderá resultar numa latência mais elevada e em custos adicionais de utilização da rede.

register_azure_my_sql

Inicialize um novo Arquivo de Dados mySQL do Azure.

O arquivo de dados MySQL só pode ser utilizado para criar DataReference como entrada e saída para DataTransferStep em pipelines do Azure Machine Learning. Pode encontrar mais detalhes aqui.

Veja abaixo um exemplo de como registar uma base de dados MySQL do Azure como um Arquivo de Dados.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho a que este arquivo de dados pertence.

datastore_name
Necessário
str

O nome do arquivo de dados.

server_name
Necessário
str

O nome do servidor MySQL.

database_name
Necessário
str

O nome da base de dados MySQL.

user_id
Necessário
str

O ID de Utilizador do servidor MySQL.

user_password
Necessário
str

A palavra-passe de utilizador do servidor MySQL.

port_number
str

O número de porta do servidor MySQL.

Default value: None
endpoint
str, <xref:optional>

O ponto final do servidor MySQL. Se Nenhuma, a predefinição é mysql.database.azure.com.

Default value: None
overwrite
bool, <xref:optional>

Quer substituir um arquivo de dados existente. Se o arquivo de dados não existir, irá criar um. A predefinição é Falso.

Default value: False

Devoluções

Tipo Description

Devolve o Arquivo de Dados da base de dados MySQL.

Observações

Se estiver a anexar armazenamento de uma região diferente da região da área de trabalho, isso poderá resultar numa latência mais elevada e em custos adicionais de utilização da rede.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Inicialize um novo Arquivo de Dados do Azure PostgreSQL.

Veja abaixo um exemplo de como registar uma base de dados do Azure PostgreSQL como um Datastore.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho a que este arquivo de dados pertence.

datastore_name
Necessário
str

O nome do arquivo de dados.

server_name
Necessário
str

O nome do servidor PostgreSQL.

database_name
Necessário
str

O nome da base de dados PostgreSQL.

user_id
Necessário
str

O ID de Utilizador do servidor PostgreSQL.

user_password
Necessário
str

A Palavra-passe de Utilizador do servidor PostgreSQL.

port_number
str

O Número de Porta do servidor PostgreSQL

Default value: None
endpoint
str, <xref:optional>

O ponto final do servidor PostgreSQL. Se Nenhum, a predefinição é postgres.database.azure.com.

Default value: None
overwrite
bool, <xref:optional>

Quer substituir um arquivo de dados existente. Se o arquivo de dados não existir, irá criar um. A predefinição é Falso.

Default value: False
enforce_ssl

Indica o requisito SSL do servidor PostgreSQL. Predefinições para Verdadeiro.

Default value: True

Devoluções

Tipo Description

Devolve o Arquivo de Dados da base de dados PostgreSQL.

Observações

Se estiver a anexar armazenamento de uma região diferente da região da área de trabalho, isso poderá resultar numa latência mais elevada e em custos adicionais de utilização da rede.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Inicialize um novo arquivo de dados SQL do Azure Datastore.

O acesso a dados baseados em credenciais (GA) e baseados em identidades (Pré-visualização) é suportado, pode optar por utilizar o Principal de Serviço ou nome de utilizador + palavra-passe. Se não for guardada nenhuma credencial com o arquivo de dados, o token do AAD dos utilizadores será utilizado no bloco de notas ou no programa python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files a identidade do destino de computação será utilizada em tarefas submetidas pelo Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registar uma base de dados SQL do Azure como um Datastore.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho a que este arquivo de dados pertence.

datastore_name
Necessário
str

O nome do arquivo de dados.

server_name
Necessário
str

O nome do servidor SQL. Para um nome de domínio completamente qualificado como "sample.database.windows.net", o valor server_name deve ser "exemplo" e o valor do ponto final deve ser "database.windows.net".

database_name
Necessário
str

O nome da base de dados SQL.

tenant_id
str

O ID do Diretório/ID do Inquilino do principal de serviço.

Default value: None
client_id
str

O ID de Cliente/ID da Aplicação do principal de serviço.

Default value: None
client_secret
str

O segredo do principal de serviço.

Default value: None
resource_url
str, <xref:optional>

O URL do recurso, que determina que operações serão realizadas no arquivo da base de dados SQL, se Nenhum, predefine para https://database.windows.net/.

Default value: None
authority_url
str, <xref:optional>

O URL de autoridade utilizado para autenticar o utilizador, é predefinido para https://login.microsoftonline.com.

Default value: None
endpoint
str, <xref:optional>

O ponto final do SQL Server. Se Nenhum, a predefinição é database.windows.net.

Default value: None
overwrite
bool, <xref:optional>

Quer substituir um arquivo de dados existente. Se o arquivo de dados não existir, irá criar um. A predefinição é Falso.

Default value: False
username
str

O nome de utilizador do utilizador da base de dados para aceder à base de dados.

Default value: None
password
str

A palavra-passe do utilizador da base de dados para aceder à base de dados.

Default value: None
skip_validation
Necessário
bool, <xref:optional>

Se pretende ignorar a validação da ligação à base de dados SQL. Predefinições para Falso.

subscription_id
str, <xref:optional>

O ID da subscrição a que pertence o arquivo do ADLS.

Default value: None
resource_group
str, <xref:optional>

O grupo de recursos a que pertence o arquivo do ADLS.

Default value: None
grant_workspace_access
bool, <xref:optional>

Predefinições para Falso. Defina-o como Verdadeiro para aceder aos dados por trás da rede virtual a partir do Machine Learning Studio.Isto faz com que os dados acedam a partir do Machine Learning Studio, utilize a identidade gerida da área de trabalho para autenticação e adiciona a identidade gerida da área de trabalho como Leitor do armazenamento. Tem de ser proprietário ou administrador de acesso de utilizador do armazenamento para optar ativamente por participar. Peça ao administrador para o configurar se não tiver a permissão necessária. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Default value: False

Devoluções

Tipo Description

Devolve o Arquivo de Dados da base de dados SQL.

Observações

Se estiver a anexar armazenamento de uma região diferente da região da área de trabalho, isso poderá resultar numa latência mais elevada e em custos adicionais de utilização da rede.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Inicialize um novo arquivo de dados do Sistema de Ficheiros do Databricks (DBFS).

O arquivo de dados do DBFS só pode ser utilizado para criar DataReference como entrada e PipelineData como saída para o DatabricksStep nos pipelines do Azure Machine Learning. Pode encontrar mais detalhes aqui..

static register_dbfs(workspace, datastore_name)

Parâmetros

Name Description
workspace
Necessário

A área de trabalho a que este arquivo de dados pertence.

datastore_name
Necessário
str

O nome do arquivo de dados.

Devoluções

Tipo Description

Devolve o Arquivo de Dados do DBFS.

Observações

Se estiver a anexar armazenamento de uma região diferente da região da área de trabalho, isso poderá resultar numa latência mais elevada e em custos adicionais de utilização da rede.

register_hdfs

Nota

Este é um método experimental e pode ser alterado em qualquer altura. Para obter mais informações, veja https://aka.ms/azuremlexperimental.

Inicialize um novo arquivo de dados HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parâmetros

Name Description
workspace
Necessário

a área de trabalho a que este arquivo de dados pertence

datastore_name
Necessário
str

o nome do arquivo de dados

protocol
Necessário
str ou <xref:_restclient.models.enum>

O protocolo a utilizar ao comunicar com o cluster do HDFS. http ou https. Os valores possíveis incluem: "http", "https"

namenode_address
Necessário
str

O endereço IP ou o nome do anfitrião DNS do nó de nome HDFS. Opcionalmente, inclui uma porta.

hdfs_server_certificate
Necessário
str, <xref:optional>

O caminho para o certificado de assinatura TLS do nó de nome HDFS, se utilizar o TLS com um certificado autoassinado.

kerberos_realm
Necessário
str

O reino Kerberos.

kerberos_kdc_address
Necessário
str

O endereço IP ou nome do anfitrião DNS do KDC kerberos.

kerberos_principal
Necessário
str

O principal kerberos a utilizar para autenticação e autorização.

kerberos_keytab
Necessário
str, <xref:optional>

O caminho para o ficheiro keytab que contém as chaves correspondentes ao principal kerberos. Indique isto ou uma palavra-passe.

kerberos_password
Necessário
str, <xref:optional>

A palavra-passe correspondente ao principal kerberos. Indique isto ou o caminho para um ficheiro de keytab.

overwrite
Necessário
bool, <xref:optional>

substitui um arquivo de dados existente. Se o arquivo de dados não existir, irá criar um. Predefinições para Falso.

set_as_default

Defina o arquivo de dados predefinido.

set_as_default()

Parâmetros

Name Description
datastore_name
Necessário
str

O nome do arquivo de dados.

unregister

Anule o registo do arquivo de dados. o serviço de armazenamento subjacente não será eliminado.

unregister()