Compartilhar via


Conectar-se a tabelas do Delta no Azure Data Lake Storage

Conecte-se a dados em tabelas Delta e os traga para o Dynamics 365 Customer Insights - Data.

Delta é um termo introduzido com Delta Lake, o fundamento para armazenamento de dados e tabelas na Plataforma Databricks Lakehouse. Delta Lake é uma camada de armazenamento de código aberto que leva transações ACID (atomicidade, consistência, isolamento e durabilidade) para cargas de trabalho do big data. Para obter mais informações, consulte a Página de documentação do Delta Lake.

Principais motivos para se conectar a dados armazenados no formato Delta:

  • Importe diretamente dados formatados em Delta para economizar tempo e esforço.
  • Elimine os custos de computação e armazenamento associados à transformação e ao armazenamento de uma cópia dos dados do lakehouse.
  • Aumente automaticamente a confiabilidade da ingestão de dados no Customer Insights - Data oferecida pelo controle de versão Delta.

Pré-requisitos

  • O Azure Data Lake Storage deve estar no mesmo locatário e na mesma região do Azure do Customer Insights - Data.

  • A entidade de serviço do Customer Insights - Data deve ter permissões de Colaborador de Dados do Blob de Armazenamento para ter acesso à conta de armazenamento. Para obter mais informações, consulte Conceder permissões à entidade de serviço para acessar a conta de armazenamento.

  • O usuário que configura ou atualiza a fonte de dados precisa de, pelo menos, permissões de Leitor de Dados do Blob de Armazenamento na conta do Azure Data Lake Storage.

  • Os dados armazenados em serviços online podem ser armazenados em um local diferente daquele onde os dados são processados ou armazenados. Ao importar ou se conectar a dados armazenados em serviços online, você concorda que os dados podem ser transferidos. Saiba mais em Microsoft Trust Center.

  • As tabelas Delta devem estar em uma pasta no contêiner de armazenamento e não podem estar no diretório raiz do contêiner. Por exemplo:

    storageaccountcontainer/
        DeltaDataRoot/
           ADeltaTable/
                 _delta_log/
                     0000.json
                     0001.json
                 part-0001-snappy.parquet
                 part-0002-snappy.parquet
    
  • Os dados no Azure Data Lake Storage devem estar em tabelas Delta. O Customer Insights - Data depende da propriedade version no histórico da tabela para identificar as alterações mais recentes para processamento incremental.

Conectar-se aos dados Delta no Azure Data Lake Storage

  1. Acesse Dados>Fontes de dados.

  2. Selecione Adicionar uma fonte de dados.

  3. Selecione Tabelas Delta do Azure Data Lake.

    Caixa de diálogo para inserir detalhes da conexão para o Data Lake.

  4. Insira um Nome da fonte de dados e uma Descrição opcional. O nome é referenciado em processos downstream e não será possível alterá-lo após a criação da fonte de dados.

  5. Escolha uma das opções a seguir para Conectar seu armazenamento usando.

    • Assinatura do Azure: selecione Subscrição e, em seguida, Grupo de recursos e Conta de armazenamento.
    • Recurso do Azure: insira o ID do recurso.
  6. Opcionalmente, se você quiser ingerir dados de uma conta de armazenamento por meio de um Link Privado do Azure, selecione Habilitar Link Privado. Para obter mais informações, consulte Links Privados.

  7. Escolha o nome do Contêiner que contém a pasta dos dados e selecione Próximo.

  8. Navegue até a pasta que contém os dados em tabelas Delta e os selecione. Em seguida, selecione Próximo. Uma lista de tabelas disponíveis é exibida.

  9. Selecione as tabelas que deseja incluir.

  10. Para tabelas selecionadas nas quais uma chave primária não tiver sido definida, Obrigatório será exibido em Chave primária. Para cada uma destas tabelas:

    1. Selecione Obrigatória. O painel Editar tabela é exibido.
    2. Escolha a Chave primária. A chave primária é um atributo exclusivo da tabela. Para um atributo ser uma chave primária válida, ele não deve ter valores duplicados, valores ausentes ou valores nulos. Os atributos de tipo de dados de cadeia de caracteres, inteiro e GUID são compatíveis como chaves primárias.
    3. Selecione Fechar para salvar e fechar o painel.

    Caixa de diálogo mostrando Obrigatório para Chave primária

  11. Para habilitar a criação de perfil de dados em qualquer uma das colunas, selecione o número de Colunas para a tabela. A página Gerenciar atributos é exibida.

    Caixa de diálogo para selecionar a criação de perfil de dados.

    1. Selecione Criação de perfil de dados para toda a tabela ou para colunas específicas. Por padrão, nenhuma tabela está habilitada para criação de perfil de dados.
    2. Escolha Concluído.
  12. Selecione Salvar. A página Fontes de dados abre mostrando a nova fonte de dados no status Atualizando.

    Gorjeta

    Existem status para tarefas e processos. A maioria dos processos depende de outros processos upstream, como atualizações de fontes de dados e perfis de dados.

    Selecione o status para abrir o painel Detalhes de progresso e exibir o progresso das tarefas. Para cancelar o trabalho, selecione Cancelar trabalho na parte inferior do painel.

    Em cada tarefa, você pode selecionar Ver detalhes para obter mais informações sobre o andamento, como tempo de processamento, a data do último processamento e possíveis erros e avisos aplicáveis associados à tarefa ou ao processo. Selecione Exibir status do sistema na parte inferior do painel para ver outros processos no sistema.

O carregamento de dados pode levar algum tempo. Após uma atualização bem-sucedida, os dados ingeridos podem ser revisados na página Tabelas.

Gerenciar alterações feitas no esquema

Quando uma coluna é adicionada ou removida do esquema de uma fonte de dados de pastas Delta, o sistema executa uma atualização completa dos dados. As atualizações completas demoram mais para processar todos os dados do que as atualizações incrementais.

Adicionar uma coluna

Quando uma coluna é adicionada à fonte de dados, as informações são anexadas automaticamente aos dados no Customer Insights - Data assim que ocorre uma atualização. Se você já tiver configurado a unificação para a tabela, a nova coluna deverá ser adicionada ao processo de unificação.

  1. Na etapa Dados do cliente, escolha Selecione tabelas e colunas e a nova coluna.

  2. Na etapa Exibição de dados unificada, verifique se a coluna não foi excluída do perfil do cliente. Selecione Excluído e leia a coluna.

  3. Na etapa Executar atualizações feitas no perfil unificado, selecione Unificar perfis e dependências de cliente.

Alterar ou remover uma coluna

Quando uma coluna é removida de uma fonte de dados, o sistema verifica dependências em outros processos. Se houver uma dependência das colunas, o sistema vai parar a atualização e apresentar um erro indicando as dependências que devem ser removidas. Essas dependências são exibidas em uma notificação para ajudar você a localizar e removê-las.

Validar uma alteração no esquema

Após a atualização da fonte de dados, vá até a página Dados>Tabelas. Selecione a tabela da fonte de dados e verifique o esquema.

Viagem no tempo delta lake e atualizações de dados

A viagem no tempo delta lake é a capacidade de consultar versões da tabela com base em um carimbo de data/hora ou um número de versão. As alterações feitas nas pastas Delta têm versões, e o Customer Insights - Data usa as versões de pasta Delta para controlar quais dados processar. Em uma atualização regular da tabela delta, os dados são extraídos de todas as versões da tabela de dados desde a atualização mais recente. Contanto que todas as versões estejam presentes, o Customer Insights - Data pode processar apenas os elementos alterados e oferecer resultados mais rápidos. Saiba mais sobre viagem no tempo.

Por exemplo, se tiver sido sincronizado pela última vez com a versão 23 dos dados da pasta Delta, o Customer Insights – Data deverá encontrar a versão 23 e possivelmente versões subsequentes disponíveis. Se as versões de dados esperadas não estiverem disponíveis, a sincronização de dados vai falhar e exigir uma atualização de dados completa manual. A sincronização de dados poderá falhar se os dados da pasta Delta forem excluídos e, então, recriados. Ou se o Customer Insights - Data não conseguir se conectar às pastas Delta por um longo período enquanto as versões avançavam.

Para evitar a necessidade de uma atualização de dados completa, é recomendável manter uma lista de pendências de histórico razoável, como 15 dias.

Executar manualmente uma atualização de dados completa em uma pasta de tabela Delta

Uma atualização completa utiliza todos os dados de uma tabela no formato Delta e os recarrega a partir da versão zero (0) da tabela Delta. As alterações feitas no esquema de pasta Delta disparam uma atualização completa automática. Para disparar manualmente uma atualização completa, execute as etapas a seguir.

  1. Acesse Dados>Fontes de dados.

  2. Selecione a fonte de dados Tabelas Delta do Azure Data Lake.

  3. Selecione a tabela que você deseja atualizar. O painel Editar tabela é exibido.

    Edite o painel da tabela para selecionar atualização completa única.

  4. Selecione Executar atualização completa única.

  5. Selecione Salvar para executar a atualização. A página Fontes de dados é aberta mostrando a fonte de dados no status Atualizando, mas somente a tabela selecionada está sendo atualizada.

  6. Repita o processo para outras tabelas, se aplicável.

Falha na sincronização de dados

A sincronização de dados poderá falhar se os dados da pasta Delta forem excluídos e, então, recriados. Ou se o Customer Insights - Data não conseguir se conectar às pastas Delta por um longo período enquanto as versões avançavam. Para minimizar o impacto quando uma falha no pipeline de dados intermitente cria a necessidade de uma atualização completa, é recomendável manter uma lista de pendências histórica razoável, como 15 dias.

Próximas etapas