Datastore Classe

Representa uma abstração de armazenamento de uma conta de armazenamento do Azure Machine Learning.

Os armazenamentos de dados são anexados a workspaces e usados para armazenar informações de conexão aos serviços de armazenamento do Azure, para que você possa consultá-los pelo nome e não precise se lembrar das informações de conexão e do segredo usado para se conectar aos serviços de armazenamento.

Os exemplos de serviços de armazenamento do Azure compatíveis que podem ser registrados como armazenamentos de dados são:

  • Contêiner de Blobs do Azure

  • Compartilhamento de Arquivo do Azure

  • Azure Data Lake

  • Azure Data Lake Gen2

  • Banco de Dados SQL do Azure

  • Banco de Dados do Azure para PostgreSQL

  • Sistema de arquivos do Databricks

  • Banco de Dados do Azure para MySQL

Use essa classe para executar operações de gerenciamento, incluindo registrar, listar, obter e remover os armazenamentos de dados. Os armazenamentos de dados para cada serviço são criados com os métodos register* dessa classe. Ao usar um armazenamento de dados para acessar os dados, você deverá ter permissão para acessá-los, o que depende das credenciais registradas no armazenamento de dados.

Para obter mais informações sobre os armazenamentos de dados e como eles podem ser usados no machine learning, consulte os seguintes artigos:

Obter um armazenamento de dados por nome. Essa chamada fará uma solicitação para o serviço de armazenamento de dados.

Herança
builtins.object
Datastore

Construtor

Datastore(workspace, name=None)

Parâmetros

workspace
Workspace
Obrigatório

O workspace.

name
str, <xref:optional>
valor padrão: None

O nome do armazenamento de dados, padronizado como None, que obtém o armazenamento de dados padrão.

Comentários

Para interagir com dados nos armazenamentos de dados para tarefas do machine Learning, como treinamento, crie um conjunto de dados do Azure Machine Learning. Os conjuntos de dados fornecem funções que carregam dados tabulares em um dataframe do Pandas ou do Spark. Os conjuntos de dados também permitem baixar ou montar arquivos em qualquer formato do Armazenamento de Blobs do Azure, dos Arquivos do Azure, do Azure Data Lake Storage Gen1, do Azure Data Lake Storage Gen2, do Banco de Dados SQL do Azure e do Banco de Dados do Azure para PostgreSQL. Saiba mais sobre como treinar com conjuntos de dados.

O exemplo a seguir mostra como criar um Armazenamento de Dados conectado ao Contêiner de Blobs do Azure.


   from azureml.exceptions import UserErrorException

   blob_datastore_name='MyBlobDatastore'
   account_name=os.getenv("BLOB_ACCOUNTNAME_62", "<my-account-name>") # Storage account name
   container_name=os.getenv("BLOB_CONTAINER_62", "<my-container-name>") # Name of Azure blob container
   account_key=os.getenv("BLOB_ACCOUNT_KEY_62", "<my-account-key>") # Storage account key

   try:
       blob_datastore = Datastore.get(ws, blob_datastore_name)
       print("Found Blob Datastore with name: %s" % blob_datastore_name)
   except UserErrorException:
       blob_datastore = Datastore.register_azure_blob_container(
           workspace=ws,
           datastore_name=blob_datastore_name,
           account_name=account_name, # Storage account name
           container_name=container_name, # Name of Azure blob container
           account_key=account_key) # Storage account key
       print("Registered blob datastore with name: %s" % blob_datastore_name)

   blob_data_ref = DataReference(
       datastore=blob_datastore,
       data_reference_name="blob_test_data",
       path_on_datastore="testdata")

O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-data-transfer.ipynb

Métodos

get

Obter um armazenamento de dados por nome. Isso é o mesmo que chamar o construtor.

get_default

Obter o armazenamento de dados padrão para o workspace.

register_azure_blob_container

Registrar um Contêiner de Blobs do Azure no armazenamento de dados.

Há suporte para acesso a dados baseado em credenciais (GA) e baseado em identidade (versão prévia), você pode optar por usar o token SAS ou a chave da conta de armazenamento. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou programa Python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset .to_parquet_files TabularDataset.to_csv_files. A identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

register_azure_data_lake

Inicializa um novo Armazenamento de Dados do Azure Data Lake.

Há suporte para acesso a dados baseados em credenciais (GA) e baseado em identidade (versão prévia). Você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseado em credenciais. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou programa Python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset .to_parquet_files TabularDataset.to_csv_files. A identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registrar um Azure Data Lake Gen1 como um Armazenamento de Dados.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
register_azure_data_lake_gen2

Inicializa um novo Armazenamento de Dados Gen2 do Azure Data Lake.

Há suporte para acesso a dados baseados em credenciais (GA) e baseado em identidade (versão prévia). Você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseado em credenciais. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou programa Python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset .to_parquet_files TabularDataset.to_csv_files. A identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

register_azure_file_share

Registrar um compartilhamento de arquivos do Azure no armazenamento de dados.

Você pode optar por usar o Token SAS ou a chave da Conta de Armazenamento

register_azure_my_sql

Inicializar um novo armazenamento de dados do Azure MySQL.

O armazenamento de dados MySQL somente poderá ser usado para criar DataReference como entrada e saída para DataTransferStep em pipelines do Azure Machine Learning. Encontre mais detalhes aqui.

Veja abaixo um exemplo de como registrar um banco de dados MySQL do Azure como um armazenamento de dados.

register_azure_postgre_sql

Inicializar um novo Armazenamento de Dados PostgreSQL do Azure.

Veja abaixo um exemplo de como registrar um banco de dados PostgreSQL do Azure como um armazenamento de dados.

register_azure_sql_database

Inicializa um novo armazenamento de dados do banco de dados SQL do Azure.

Há suporte para acesso a dados baseado em credenciais (GA) e baseado em identidade (Visualização), você pode optar por usar a Entidade de Serviço ou o nome de usuário + senha. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou programa Python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset .to_parquet_files TabularDataset.to_csv_files. A identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registrar um banco de dados SQL do Azure como um armazenamento de dados.

register_dbfs

Inicializar um novo armazenamento de dados do DBFS (Databricks File System).

O armazenamento de dados do DBFS só poderá ser usado para criar DataReference como entrada e PipelineData como saída para DatabricksStep em pipelines do Azure Machine Learning. Encontre mais detalhes aqui.

register_hdfs

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Inicialize um novo armazenamento de dados HDFS.

set_as_default

Definir o armazenamento de dados padrão.

unregister

Cancela o registro do armazenamento de dados. o serviço de armazenamento subjacente não será excluído.

get

Obter um armazenamento de dados por nome. Isso é o mesmo que chamar o construtor.

static get(workspace, datastore_name)

Parâmetros

workspace
Workspace
Obrigatório

O workspace.

datastore_name
str, <xref:optional>
Obrigatório

O nome do armazenamento de dados, padronizado como None, que obtém o armazenamento de dados padrão.

Retornos

O armazenamento de dados correspondente para esse nome.

Tipo de retorno

get_default

Obter o armazenamento de dados padrão para o workspace.

static get_default(workspace)

Parâmetros

workspace
Workspace
Obrigatório

O workspace.

Retornos

O armazenamento de dados padrão para o workspace

Tipo de retorno

register_azure_blob_container

Registrar um Contêiner de Blobs do Azure no armazenamento de dados.

Há suporte para acesso a dados baseado em credenciais (GA) e baseado em identidade (versão prévia), você pode optar por usar o token SAS ou a chave da conta de armazenamento. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou programa Python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset .to_parquet_files TabularDataset.to_csv_files. A identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

static register_azure_blob_container(workspace, datastore_name, container_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False, blob_cache_timeout=None, grant_workspace_access=False, subscription_id=None, resource_group=None)

Parâmetros

workspace
Workspace
Obrigatório

O workspace.

datastore_name
str
Obrigatório

O nome do armazenamento de dados, sem diferenciar maiúsculas e minúsculas, só pode conter caracteres alfanuméricos e _.

container_name
str
Obrigatório

O nome do contêiner de blob do Azure.

account_name
str
Obrigatório

O nome da conta de armazenamento.

sas_token
str, <xref:optional>
valor padrão: None

O valor padrão de um token SAS de conta é Nenhum. Para leitura de dados, exigimos um mínimo de permissões de List & Read para Contêineres & Objetos e, para gravação de dados, também exigimos permissões de Gravação & Adicionar.

account_key
str, <xref:optional>
valor padrão: None

O padrão das chaves de acesso da sua conta de armazenamento é Nenhum.

protocol
str, <xref:optional>
valor padrão: None

Protocolo a ser usado para se conectar ao contêiner de blob. Se for Nenhum, usará o valor padrão de https.

endpoint
str, <xref:optional>
valor padrão: None

O ponto de extremidade da conta de armazenamento. Se for Nenhum, usará o valor padrão de core.windows.net.

overwrite
bool, <xref:optional>
valor padrão: False

substitui um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um, o padrão é False

create_if_not_exists
bool, <xref:optional>
valor padrão: False

criará o contêiner de blobs se ele não existir, o padrão é False

skip_validation
bool, <xref:optional>
valor padrão: False

ignora a validação de chaves de armazenamento, o padrão é False

blob_cache_timeout
int, <xref:optional>
valor padrão: None

Quando esse blob estiver montado, defina o tempo limite do cache para esse número de segundos. Se for None, o padrão será sem tempo limite (ou seja, os blobs serão armazenados em cache durante a duração do trabalho quando lidos).

grant_workspace_access
bool, <xref:optional>
valor padrão: False

Usa False como padrão. Defina-o como True para acessar os dados por trás da rede virtual do Machine Learning Studio. Isso faz com que o acesso a dados do Machine Learning Studio use a identidade gerenciada do workspace para autenticação e adiciona a identidade gerenciada do workspace como Leitor do armazenamento. É necessário ter a permissão de proprietário ou de administrador de acesso do usuário do armazenamento para aceitar. Se você não tiver a permissão necessária, solicite ao administrador para configurá-la. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

subscription_id
str, <xref:optional>
valor padrão: None

A ID de assinatura da conta de armazenamento, o padrão é None.

resource_group
str, <xref:optional>
valor padrão: None

O grupo de recursos da conta de armazenamento, o padrão é None.

Retornos

O armazenamento de dados de blobs.

Tipo de retorno

Comentários

Se você está anexando o armazenamento de uma região diferente da região do workspace, o resultado pode ser o aumento da latência e custos de uso de rede adicionais.

register_azure_data_lake

Inicializa um novo Armazenamento de Dados do Azure Data Lake.

Há suporte para acesso a dados baseados em credenciais (GA) e baseado em identidade (versão prévia). Você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseado em credenciais. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou programa Python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset .to_parquet_files TabularDataset.to_csv_files. A identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registrar um Azure Data Lake Gen1 como um Armazenamento de Dados.


   adlsgen1_datastore_name='adlsgen1datastore'

   store_name=os.getenv("ADL_STORENAME", "<my_datastore_name>") # the ADLS name
   subscription_id=os.getenv("ADL_SUBSCRIPTION", "<my_subscription_id>") # subscription id of the ADLS
   resource_group=os.getenv("ADL_RESOURCE_GROUP", "<my_resource_group>") # resource group of ADLS
   tenant_id=os.getenv("ADL_TENANT", "<my_tenant_id>") # tenant id of service principal
   client_id=os.getenv("ADL_CLIENTID", "<my_client_id>") # client id of service principal
   client_secret=os.getenv("ADL_CLIENT_SECRET", "<my_client_secret>") # the secret of service principal

   adls_datastore = Datastore.register_azure_data_lake(
       workspace=ws,
       datastore_name=aslsgen1_datastore_name,
       subscription_id=subscription_id, # subscription id of ADLS account
       resource_group=resource_group, # resource group of ADLS account
       store_name=store_name, # ADLS account name
       tenant_id=tenant_id, # tenant id of service principal
       client_id=client_id, # client id of service principal
       client_secret=client_secret) # the secret of service principal
static register_azure_data_lake(workspace, datastore_name, store_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, subscription_id=None, resource_group=None, overwrite=False, grant_workspace_access=False)

Parâmetros

workspace
Workspace
Obrigatório

O workspace ao qual esse armazenamento de dados pertence.

datastore_name
str
Obrigatório

O nome do armazenamento de dados.

store_name
str
Obrigatório

O nome do armazenamento ADLS.

tenant_id
str, <xref:optional>
valor padrão: None

A ID do diretório/ID do locatário da entidade de serviço usada para acessar dados.

client_id
str, <xref:optional>
valor padrão: None

A ID do cliente/ID do aplicativo da entidade de serviço usada para acessar dados.

client_secret
str, <xref:optional>
valor padrão: None

O Segredo do Cliente da entidade de serviço usado para acessar dados.

resource_url
str, <xref:optional>
valor padrão: None

A URL do recurso, que determina quais operações serão executadas no armazenamento do Data Lake. Se for None, o padrão será https://datalake.azure.net/ que permitirá realizar operações do sistema de arquivos.

authority_url
str, <xref:optional>
valor padrão: None

O padrão da URL de autoridade usada para autenticar o usuário é https://login.microsoftonline.com.

subscription_id
str, <xref:optional>
valor padrão: None

A ID da assinatura à qual o repositório do ADLS pertence.

resource_group
str, <xref:optional>
valor padrão: None

O grupo de recursos ao qual o repositório do ADLS pertence.

overwrite
bool, <xref:optional>
valor padrão: False

Se um banco de dados existente deve ser substituído. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

grant_workspace_access
bool, <xref:optional>
valor padrão: False

Usa False como padrão. Defina-o como True para acessar os dados por trás da rede virtual do Machine Learning Studio. Isso faz com que o acesso a dados do Machine Learning Studio use a identidade gerenciada do workspace para autenticação e adiciona a identidade gerenciada do workspace como Leitor do armazenamento. É necessário ter a permissão de Proprietário ou de Administrador de Acesso do Usuário do armazenamento para aceitar. Se você não tiver a permissão necessária, solicite ao administrador para configurá-la. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Retornos

Retorna o Armazenamento de Dados do Azure Data Lake.

Tipo de retorno

Comentários

Se você está anexando o armazenamento de uma região diferente da região do workspace, o resultado pode ser o aumento da latência e custos de uso de rede adicionais.

Observação

O Azure Data Lake Datastore dá suporte à transferência de dados e à execução de trabalhos U-SQL usando Pipelines do Azure Machine Learning.

Você também pode usá-lo como uma fonte de dados para o conjunto de dados do Azure Machine Learning que pode ser baixado ou montado em qualquer computação compatível.

register_azure_data_lake_gen2

Inicializa um novo Armazenamento de Dados Gen2 do Azure Data Lake.

Há suporte para acesso a dados baseados em credenciais (GA) e baseado em identidade (versão prévia). Você pode registrar um armazenamento de dados com a Entidade de Serviço para acesso a dados baseado em credenciais. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou programa Python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset .to_parquet_files TabularDataset.to_csv_files. A identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

static register_azure_data_lake_gen2(workspace, datastore_name, filesystem, account_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, protocol=None, endpoint=None, overwrite=False, subscription_id=None, resource_group=None, grant_workspace_access=False)

Parâmetros

workspace
Workspace
Obrigatório

O workspace ao qual esse armazenamento de dados pertence.

datastore_name
str
Obrigatório

O nome do armazenamento de dados.

filesystem
str
Obrigatório

O nome do sistema de arquivos do Data Lake Gen2.

account_name
str
Obrigatório

O nome da conta de armazenamento.

tenant_id
str, <xref:optional>
valor padrão: None

A ID do diretório/ID do locatário da entidade de serviço.

client_id
str, <xref:optional>
valor padrão: None

A ID do cliente/ID do aplicativo da entidade de serviço.

client_secret
str, <xref:optional>
valor padrão: None

O segredo da entidade de serviço.

resource_url
str, <xref:optional>
valor padrão: None

A URL do recurso, que determina quais operações serão executadas no armazenamento do Data Lake. Se for None, o padrão será https://storage.azure.com/ que permitirá realizar operações do sistema de arquivos.

authority_url
str, <xref:optional>
valor padrão: None

O padrão da URL de autoridade usada para autenticar o usuário é https://login.microsoftonline.com.

protocol
str, <xref:optional>
valor padrão: None

Protocolo a ser usado para se conectar ao contêiner de blob. Se for Nenhum, usará o valor padrão de https.

endpoint
str, <xref:optional>
valor padrão: None

O ponto de extremidade da conta de armazenamento. Se for Nenhum, usará o valor padrão de core.windows.net.

overwrite
bool, <xref:optional>
valor padrão: False

Se um banco de dados existente deve ser substituído. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

subscription_id
str, <xref:optional>
valor padrão: None

A ID da assinatura à qual o repositório do ADLS pertence.

resource_group
str, <xref:optional>
valor padrão: None

O grupo de recursos ao qual o repositório do ADLS pertence.

grant_workspace_access
bool, <xref:optional>
valor padrão: False

Usa False como padrão. Defina-o como True para acessar os dados por trás da rede virtual do Machine Learning Studio. Isso faz com que o acesso a dados do Machine Learning Studio use a identidade gerenciada do workspace para autenticação e adiciona a identidade gerenciada do workspace como Leitor do armazenamento. É necessário ter a permissão de proprietário ou de administrador de acesso do usuário do armazenamento para aceitar. Se você não tiver a permissão necessária, solicite ao administrador para configurá-la. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Retornos

Retorna o Armazenamento de Dados do Azure Data Lake Gen2.

Tipo de retorno

Comentários

Se você está anexando o armazenamento de uma região diferente da região do workspace, o resultado pode ser o aumento da latência e custos de uso de rede adicionais.

register_azure_file_share

Registrar um compartilhamento de arquivos do Azure no armazenamento de dados.

Você pode optar por usar o Token SAS ou a chave da Conta de Armazenamento

static register_azure_file_share(workspace, datastore_name, file_share_name, account_name, sas_token=None, account_key=None, protocol=None, endpoint=None, overwrite=False, create_if_not_exists=False, skip_validation=False)

Parâmetros

workspace
Workspace
Obrigatório

O workspace ao qual esse armazenamento de dados pertence.

datastore_name
str
Obrigatório

O nome do armazenamento de dados, sem diferenciar maiúsculas e minúsculas, só pode conter caracteres alfanuméricos e _.

file_share_name
str
Obrigatório

O nome do contêiner de arquivos do Azure.

account_name
str
Obrigatório

O nome da conta de armazenamento.

sas_token
str, <xref:optional>
valor padrão: None

O valor padrão de um token SAS de conta é Nenhum. Para leitura de dados, exigimos um mínimo de permissões de Lista & Leitura para Contêineres & Objetos e, para gravação de dados, também exigimos permissões de Gravação & Adicionar.

account_key
str, <xref:optional>
valor padrão: None

O padrão das chaves de acesso da sua conta de armazenamento é Nenhum.

protocol
str, <xref:optional>
valor padrão: None

O protocolo a ser usado para conectar o compartilhamento de arquivos. Se for Nenhum, usará o valor padrão de https.

endpoint
str, <xref:optional>
valor padrão: None

O ponto de extremidade do compartilhamento de arquivos. Se for Nenhum, usará o valor padrão de core.windows.net.

overwrite
bool, <xref:optional>
valor padrão: False

Se um banco de dados existente deve ser substituído. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

create_if_not_exists
bool, <xref:optional>
valor padrão: False

Se o compartilhamento de arquivos deve ser criado, caso não exista. O padrão é False.

skip_validation
bool, <xref:optional>
valor padrão: False

Se a validação de chaves de armazenamento deve ser ignorada. O padrão é False.

Retornos

O armazenamento de dados do arquivo.

Tipo de retorno

Comentários

Se você está anexando o armazenamento de uma região diferente da região do workspace, o resultado pode ser o aumento da latência e custos de uso de rede adicionais.

register_azure_my_sql

Inicializar um novo armazenamento de dados do Azure MySQL.

O armazenamento de dados MySQL somente poderá ser usado para criar DataReference como entrada e saída para DataTransferStep em pipelines do Azure Machine Learning. Encontre mais detalhes aqui.

Veja abaixo um exemplo de como registrar um banco de dados MySQL do Azure como um armazenamento de dados.

static register_azure_my_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, **kwargs)

Parâmetros

workspace
Workspace
Obrigatório

O workspace ao qual esse armazenamento de dados pertence.

datastore_name
str
Obrigatório

O nome do armazenamento de dados.

server_name
str
Obrigatório

O nome do servidor MySQL.

database_name
str
Obrigatório

O nome do banco de dados MySQL.

user_id
str
Obrigatório

A ID de usuário do servidor MySQL.

user_password
str
Obrigatório

A senha do usuário do servidor MySQL.

port_number
str
valor padrão: None

O número da porta do servidor MySQL.

endpoint
str, <xref:optional>
valor padrão: None

O ponto de extremidade do servidor MySQL. Se for None, o padrão será mysql.database.azure.com.

overwrite
bool, <xref:optional>
valor padrão: False

Se um banco de dados existente deve ser substituído. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

Retornos

Retorna o Armazenamento de Dados do banco de dados MySQL.

Tipo de retorno

Comentários

Se você está anexando o armazenamento de uma região diferente da região do workspace, o resultado pode ser o aumento da latência e custos de uso de rede adicionais.


   mysql_datastore_name="mysqldatastore"
   server_name=os.getenv("MYSQL_SERVERNAME", "<my_server_name>") # FQDN name of the MySQL server
   database_name=os.getenv("MYSQL_DATBASENAME", "<my_database_name>") # Name of the MySQL database
   user_id=os.getenv("MYSQL_USERID", "<my_user_id>") # The User ID of the MySQL server
   user_password=os.getenv("MYSQL_USERPW", "<my_user_password>") # The user password of the MySQL server.

   mysql_datastore = Datastore.register_azure_my_sql(
       workspace=ws,
       datastore_name=mysql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_postgre_sql

Inicializar um novo Armazenamento de Dados PostgreSQL do Azure.

Veja abaixo um exemplo de como registrar um banco de dados PostgreSQL do Azure como um armazenamento de dados.

static register_azure_postgre_sql(workspace, datastore_name, server_name, database_name, user_id, user_password, port_number=None, endpoint=None, overwrite=False, enforce_ssl=True, **kwargs)

Parâmetros

workspace
Workspace
Obrigatório

O workspace ao qual esse armazenamento de dados pertence.

datastore_name
str
Obrigatório

O nome do armazenamento de dados.

server_name
str
Obrigatório

O nome do servidor PostgreSQL.

database_name
str
Obrigatório

O nome do banco de dados PostgreSQL.

user_id
str
Obrigatório

A ID de usuário do servidor PostgreSQL.

user_password
str
Obrigatório

A senha do usuário do servidor PostgreSQL.

port_number
str
valor padrão: None

O número da porta do servidor PostgreSQL

endpoint
str, <xref:optional>
valor padrão: None

O ponto de extremidade do servidor PostgreSQL. Se None, o padrão é postgres.database.azure.com.

overwrite
bool, <xref:optional>
valor padrão: False

Se um banco de dados existente deve ser substituído. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

enforce_ssl
bool
valor padrão: True

Indica o requisito SSL do servidor PostgreSQL. O padrão é True.

Retornos

Retorna o armazenamento de dados do banco de dados PostgreSQL.

Tipo de retorno

Comentários

Se você está anexando o armazenamento de uma região diferente da região do workspace, o resultado pode ser o aumento da latência e custos de uso de rede adicionais.


   psql_datastore_name="postgresqldatastore"
   server_name=os.getenv("PSQL_SERVERNAME", "<my_server_name>") # FQDN name of the PostgreSQL server
   database_name=os.getenv("PSQL_DATBASENAME", "<my_database_name>") # Name of the PostgreSQL database
   user_id=os.getenv("PSQL_USERID", "<my_user_id>") # The database user id
   user_password=os.getenv("PSQL_USERPW", "<my_user_password>") # The database user password

   psql_datastore = Datastore.register_azure_postgre_sql(
       workspace=ws,
       datastore_name=psql_datastore_name,
       server_name=server_name,
       database_name=database_name,
       user_id=user_id,
       user_password=user_password)

register_azure_sql_database

Inicializa um novo armazenamento de dados do banco de dados SQL do Azure.

Há suporte para acesso a dados baseado em credenciais (GA) e baseado em identidade (Visualização), você pode optar por usar a Entidade de Serviço ou o nome de usuário + senha. Se nenhuma credencial for salva com o armazenamento de dados, o token do AAD dos usuários será usado no notebook ou programa Python local se chamar diretamente uma destas funções: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset .to_parquet_files TabularDataset.to_csv_files. A identidade do destino de computação será usada em trabalhos enviados por Experiment.submit para autenticação de acesso a dados. Saiba mais aqui.

Veja abaixo um exemplo de como registrar um banco de dados SQL do Azure como um armazenamento de dados.

static register_azure_sql_database(workspace, datastore_name, server_name, database_name, tenant_id=None, client_id=None, client_secret=None, resource_url=None, authority_url=None, endpoint=None, overwrite=False, username=None, password=None, subscription_id=None, resource_group=None, grant_workspace_access=False, **kwargs)

Parâmetros

workspace
Workspace
Obrigatório

O workspace ao qual esse armazenamento de dados pertence.

datastore_name
str
Obrigatório

O nome do armazenamento de dados.

server_name
str
Obrigatório

O nome do SQL Server. Para nome de domínio totalmente qualificado como "sample.database.windows.net", o valor server_name deve ser "sample" e o valor do ponto de extremidade deve ser "database.windows.net".

database_name
str
Obrigatório

Nome do banco de dados SQL.

tenant_id
str
valor padrão: None

A ID do diretório/ID do locatário da entidade de serviço.

client_id
str
valor padrão: None

A ID do cliente/ID do aplicativo da entidade de serviço.

client_secret
str
valor padrão: None

O segredo da entidade de serviço.

resource_url
str, <xref:optional>
valor padrão: None

A URL do recurso, que determina quais operações serão executadas no armazenamento do banco de dados SQL. Se for None, o padrão será https://database.windows.net/.

authority_url
str, <xref:optional>
valor padrão: None

O padrão da URL de autoridade usada para autenticar o usuário é https://login.microsoftonline.com.

endpoint
str, <xref:optional>
valor padrão: None

O ponto de extremidade do SQL Server. Se for None, o padrão será database.windows.net.

overwrite
bool, <xref:optional>
valor padrão: False

Se um banco de dados existente deve ser substituído. Se o armazenamento de dados não existir, ele criará um. O padrão é False.

username
str
valor padrão: None

O nome do usuário do banco de dados para acessar o banco de dados.

password
str
valor padrão: None

A senha do usuário do banco de dados para acessar o banco de dados.

skip_validation
bool, <xref:optional>
Obrigatório

Se a validação da conexão com o banco de dados SQL deverá ser ignorada. Usa False como padrão.

subscription_id
str, <xref:optional>
valor padrão: None

A ID da assinatura à qual o repositório do ADLS pertence.

resource_group
str, <xref:optional>
valor padrão: None

O grupo de recursos ao qual o repositório do ADLS pertence.

grant_workspace_access
bool, <xref:optional>
valor padrão: False

Usa False como padrão. Defina-o como True para acessar os dados por trás da rede virtual do Machine Learning Studio. Isso faz com que o acesso a dados do Machine Learning Studio use a identidade gerenciada do workspace para autenticação e adiciona a identidade gerenciada do workspace como Leitor do armazenamento. É necessário ter a permissão de proprietário ou de administrador de acesso do usuário do armazenamento para aceitar. Se você não tiver a permissão necessária, solicite ao administrador para configurá-la. Saiba mais 'https://docs.microsoft.com/azure/machine-learning/how-to-enable-studio-virtual-network'

Retornos

Retorna o armazenamento de dados do banco de dados SQL.

Tipo de retorno

Comentários

Se você está anexando o armazenamento de uma região diferente da região do workspace, o resultado pode ser o aumento da latência e custos de uso de rede adicionais.


   sql_datastore_name="azuresqldatastore"
   server_name=os.getenv("SQL_SERVERNAME", "<my_server_name>") # Name of the Azure SQL server
   database_name=os.getenv("SQL_DATABASENAME", "<my_database_name>") # Name of the Azure SQL database
   username=os.getenv("SQL_USER_NAME", "<my_sql_user_name>") # The username of the database user.
   password=os.getenv("SQL_USER_PASSWORD", "<my_sql_user_password>") # The password of the database user.

   sql_datastore = Datastore.register_azure_sql_database(
       workspace=ws,
       datastore_name=sql_datastore_name,
       server_name=server_name,  # name should not contain fully qualified domain endpoint
       database_name=database_name,
       username=username,
       password=password,
       endpoint='database.windows.net')

register_dbfs

Inicializar um novo armazenamento de dados do DBFS (Databricks File System).

O armazenamento de dados do DBFS só poderá ser usado para criar DataReference como entrada e PipelineData como saída para DatabricksStep em pipelines do Azure Machine Learning. Encontre mais detalhes aqui.

static register_dbfs(workspace, datastore_name)

Parâmetros

workspace
Workspace
Obrigatório

O workspace ao qual esse armazenamento de dados pertence.

datastore_name
str
Obrigatório

O nome do armazenamento de dados.

Retornos

Retorna o Armazenamento de Dados do DBFS.

Tipo de retorno

Comentários

Se você está anexando o armazenamento de uma região diferente da região do workspace, o resultado pode ser o aumento da latência e custos de uso de rede adicionais.

register_hdfs

Observação

Esse é um método experimental e pode mudar a qualquer momento. Consulte https://aka.ms/azuremlexperimental para obter mais informações.

Inicialize um novo armazenamento de dados HDFS.

static register_hdfs(workspace, datastore_name, protocol, namenode_address, hdfs_server_certificate, kerberos_realm, kerberos_kdc_address, kerberos_principal, kerberos_keytab=None, kerberos_password=None, overwrite=False)

Parâmetros

workspace
Workspace
Obrigatório

o workspace ao qual esse armazenamento de dados pertence

datastore_name
str
Obrigatório

o nome do armazenamento de dados

protocol
str ou <xref:_restclient.models.enum>
Obrigatório

O protocolo a ser usado ao se comunicar com o cluster HDFS. http ou https. Os valores possíveis incluem: 'http' e 'https'

namenode_address
str
Obrigatório

O endereço IP ou o nome do host do DNS do namenode do HDFS. Opcionalmente, inclui uma porta.

hdfs_server_certificate
str, <xref:optional>
Obrigatório

O caminho para o certificado de autenticação TLS do namenode do HDFS, se você estiver usando o TLS com um certificado autoassinado.

kerberos_realm
str
Obrigatório

O realm do Kerberos.

kerberos_kdc_address
str
Obrigatório

O endereço IP ou o nome do host DNS do KDC do Kerberos.

kerberos_principal
str
Obrigatório

A entidade de segurança do Kerberos a ser usada para autenticação e autorização.

kerberos_keytab
str, <xref:optional>
Obrigatório

O caminho para o arquivo keytab que contém as chaves correspondentes à entidade de segurança Kerberos. Forneça isso ou uma senha.

kerberos_password
str, <xref:optional>
Obrigatório

A senha correspondente à entidade de segurança Kerberos. Forneça isso ou o caminho para um arquivo keytab.

overwrite
bool, <xref:optional>
Obrigatório

substitui um armazenamento de dados existente. Se o armazenamento de dados não existir, ele criará um. Usa False como padrão.

set_as_default

Definir o armazenamento de dados padrão.

set_as_default()

Parâmetros

datastore_name
str
Obrigatório

O nome do armazenamento de dados.

unregister

Cancela o registro do armazenamento de dados. o serviço de armazenamento subjacente não será excluído.

unregister()