Share via


Conectar-se ao Infoworks

Importante

Esse recurso está em uma versão prévia.

O InfoWorks DataFoundry é um sistema de orquestração e operações de dados empresariais automatizados que é executado nativamente em Azure Databricks e aproveita todo o potencial do Azure Databricks para fornecer uma solução fácil para integração de dados — uma primeira etapa importante na operacionalização do data Lake. O DataFoundry não apenas automatiza a ingestão de dados, mas também automatiza a principal funcionalidade que deve acompanhar a ingestão para estabelecer uma base para análise. A integração de dados com o DataFoundry automatiza:

  • Ingestão de dados: de todas as fontes de dados externas e empresariais
  • Sincronização de dados: CDC para manter os dados sincronizados com a origem
  • Governança de dados: catalogação, linhagem, gerenciamento de metadados, auditoria e histórico

Aqui estão as etapas para usar o Infoworks com o Azure Databricks.

Etapa 1: Gerar um token de acesso pessoal do Databricks

O Infoworks autenticam com o Azure Databricks um token de acesso pessoal do Azure Databricks.

Observação

Como melhor prática de segurança, ao autenticar com ferramentas, sistemas, scripts e aplicativos automatizados, o Databricks recomenda que você use tokens de acesso pertencentes às entidades de serviço e não aos usuários do workspace. Para criar tokens para entidades de serviço, confira Gerenciar tokens para uma entidade de serviço.

Etapa 2: Configurar um cluster para dar suporte às necessidades de integração

O Infoworks gravará os dados em um caminho do Azure Data Lake Storage, e o cluster de integração do Azure Databricks lerá os dados desse local. Portanto, o cluster de integração exige acesso seguro ao caminho do Azure Data Lake Storage.

Proteger o acesso a um caminho do Azure Data Lake Storage

Para proteger o acesso aos dados do ADLS (Azure Data Lake Storage), use uma chave de acesso da conta de armazenamento do Azure (recomendado) ou uma entidade de serviço do Microsoft Entra ID.

Usar uma chave de acesso da conta de armazenamento do Azure

É possível configurar uma chave de acesso da conta de armazenamento no cluster de integração como parte da configuração do Spark. Verifique se a conta de armazenamento tem acesso ao contêiner do ADLS e ao sistema de arquivos usado para o preparo de dados, bem como ao contêiner do ADLS e ao sistema de arquivos no qual deseja gravar as tabelas do Delta Lake. Para configurar o cluster de integração para usar a chave, siga as etapas em Conectar-se ao Azure Data Lake Storage Gen2 e Armazenamento de Blobs.

Usar uma entidade de serviço do Microsoft Entra ID

É possível configurar uma entidade de serviço no cluster de integração do Azure Databricks como parte da configuração do Spark. Verifique se a entidade de serviço tem acesso ao contêiner do ADLS usado para o preparo de dados e ao contêiner do ADLS no qual deseja gravar as tabelas Delta. Para configurar o cluster de integração a fim de usar a entidade de serviço, siga as etapas descritas em Acessar o ADLS Gen2 com uma entidade de serviço.

Especificar a configuração de cluster

  1. Defina o Modo de cluster como Standard.

  2. Defina Versão do Databricks Runtime como uma versão do Databricks Runtime.

  3. Habilite gravações otimizadas e compactação automática adicionando as seguintes propriedades à configuração do Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configure o cluster de acordo com as suas necessidades de integração e de dimensionamento.

Para obter detalhes da configuração do cluster, confira Referência de configuração de computação.

Confira Obter detalhes de conexão para um recurso de computação do Azure Databricks para obter as etapas para obter a URL JDBC e o caminho HTTP.

Etapa 3: Obter os detalhes da conexão JDBC e ODBC para se conectar a um cluster

Para conectar um cluster do Azure Databricks ao Syncsort, você precisará das seguintes propriedades de conexão JDBC/ODBC:

  • JDBC URL
  • Caminho HTTP

Etapa 4: Obter o InfoWorks para Azure Databricks

Acesse InfoWorks para saber mais e obter uma demonstração.

Recursos adicionais

Suporte