Conectar-se a tabelas do Delta no Azure Data Lake Storage
Conecte-se a dados em tabelas Delta e os traga para o Dynamics 365 Customer Insights - Data.
Principais motivos para se conectar a dados armazenados no formato Delta:
- Importe diretamente dados formatados em Delta para economizar tempo e esforço.
- Elimine os custos de computação e armazenamento associados à transformação e ao armazenamento de uma cópia dos dados do lakehouse.
- Aumente automaticamente a confiabilidade da ingestão de dados no Customer Insights - Data oferecida pelo controle de versão Delta.
Recursos e versões do Databricks com suporte
Customer Insights - Data suporta recursos do Databricks com uma 'minReaderVersion' de 2 ou anterior. Os recursos do Databricks que exigem o leitor Databricks versão 3 ou posterior não são suportados. A tabela mostra os recursos do Databricks suportados e não suportados.
Recursos com suporte | Recursos não suportados |
---|---|
Funcionalidade básica | Vetores de exclusão |
Alterar feed de dados | Agrupamento de líquidos |
Verifique as restrições | Características da tabela escrevem |
Mapeamento de colunas | Carimbo de data/horaNTZ |
Gerar colunas | Ampliação de tipo |
Colunas de identidade | Variante |
Rastreamento de linha | |
Características da tabela lidas | |
Uniforme |
Saiba mais: Como o Databricks gerencia a compatibilidade dos recursos do Delta Lake?.
Pré-requisitos
O Azure Data Lake Storage deve estar no mesmo locatário e na mesma região do Azure do Customer Insights - Data.
A entidade de serviço do Customer Insights - Data deve ter permissões de Colaborador de Dados do Blob de Armazenamento para ter acesso à conta de armazenamento. Para obter mais informações, consulte Conceder permissões à entidade de serviço para acessar a conta de armazenamento.
O usuário que configura ou atualiza a fonte de dados precisa de, pelo menos, permissões de Leitor de Dados do Blob de Armazenamento na conta do Azure Data Lake Storage.
Os dados armazenados em serviços online podem ser armazenados em um local diferente daquele onde os dados são processados ou armazenados. Ao importar ou se conectar a dados armazenados em serviços online, você concorda que os dados podem ser transferidos. Saiba mais no Microsoft Trust Center.
O Customer Insights - Data dá suporte ao leitor Databricks versão 2. As tabelas delta que usam recursos que exigem o leitor Databricks versão 3 ou superior não são compatíveis. Saiba mais: Recursos suportados do Databricks.
As tabelas Delta devem estar em uma pasta no contêiner de armazenamento e não podem estar no diretório raiz do contêiner. Por exemplo:
storageaccountcontainer/ DeltaDataRoot/ ADeltaTable/ _delta_log/ 0000.json 0001.json part-0001-snappy.parquet part-0002-snappy.parquet
- Os dados no Azure Data Lake Storage devem estar em tabelas Delta. O Customer Insights - Data depende da propriedade version no histórico da tabela para identificar as alterações mais recentes para processamento incremental.
Conectar-se aos dados Delta no Azure Data Lake Storage
Acesse Dados>Fontes de dados.
Selecione Adicionar uma fonte de dados.
Selecione Tabelas Delta do Azure Data Lake.
Insira um Nome da fonte de dados e uma Descrição opcional. O nome é referenciado em processos downstream e não será possível alterá-lo após a criação da fonte de dados.
Escolha uma das opções a seguir para Conectar seu armazenamento usando.
- Assinatura do Azure: Select a Assinatura e depois o Grupo de recursos e a Conta de armazenamento.
- Recurso do Azure: Insira o ID do recurso.
Opcionalmente, se você quiser ingerir dados de uma conta de armazenamento por meio de um Link Privado do Azure, selecione Habilitar Link Privado. Para obter mais informações, consulte Links Privados.
Escolha o nome do Contêiner que contém a pasta dos dados e selecione Próximo.
Navegue até a pasta que contém os dados em tabelas Delta e os selecione. Em seguida, selecione Próximo. Uma lista de tabelas disponíveis é exibida.
Selecione as tabelas que deseja incluir.
Para tabelas selecionadas nas quais uma chave primária não esteja definida, Obrigatório é exibido em Chave primária. Para cada uma destas tabelas:
- Selecione Obrigatória. O painel Editar tabela é exibido.
- Escolha a Chave primária. A chave primária é um atributo exclusivo da tabela. Para um atributo ser uma chave primária válida, ele não deve ter valores duplicados, valores ausentes ou valores nulos. Os atributos de tipo de dados de cadeia de caracteres, inteiro e GUID são compatíveis como chaves primárias.
- Selecione Fechar para salvar e fechar o painel.
Para habilitar a criação de perfil de dados em qualquer uma das colunas, selecione o número de Colunas para a tabela. A página Gerenciar atributos é exibida.
- Selecione Criação de perfil de dados para toda a tabela ou para colunas específicas. Por padrão, nenhuma tabela está habilitada para criação de perfil de dados.
- Escolha Concluído.
Selecione Salvar. A página Fontes de dados abre mostrando a nova fonte de dados no status Atualizando.
Gorjeta
Existem status para tarefas e processos. A maioria dos processos depende de outros processos upstream, como atualizações de fontes de dados e perfis de dados.
Selecione o status para abrir o painel Detalhes de progresso e exibir o progresso das tarefas. Para cancelar o trabalho, selecione Cancelar trabalho na parte inferior do painel.
Em cada tarefa, você pode selecionar Ver detalhes para obter mais informações sobre o andamento, como tempo de processamento, a data do último processamento e possíveis erros e avisos aplicáveis associados à tarefa ou ao processo. Selecione Exibir status do sistema na parte inferior do painel para ver outros processos no sistema.
O carregamento de dados pode levar algum tempo. Após uma atualização bem-sucedida, os dados ingeridos podem ser revisados na página Tabelas.
Gerenciar alterações feitas no esquema
Quando uma coluna é adicionada ou removida do esquema de uma fonte de dados de pastas Delta, o sistema executa uma atualização completa dos dados. As atualizações completas demoram mais para processar todos os dados do que as atualizações incrementais.
Adicionar uma coluna
Quando uma coluna é adicionada à fonte de dados, as informações são anexadas automaticamente aos dados no Customer Insights - Data assim que ocorre uma atualização. Se a unificação já estiver configurada para a tabela, a nova coluna deverá ser adicionada ao processo de unificação.
Na etapa Dados do cliente, escolha Selecione tabelas e colunas e a nova coluna.
Na etapa Exibição de dados unificada, verifique se a coluna não foi excluída do perfil do cliente. Selecione Excluído e leia a coluna.
Na etapa Executar atualizações feitas no perfil unificado, selecione Unificar perfis e dependências de cliente.
Alterar ou remover uma coluna
Quando uma coluna é removida de uma fonte de dados, o sistema verifica dependências em outros processos. Se houver uma dependência das colunas, o sistema vai parar a atualização e apresentar um erro indicando as dependências que devem ser removidas. Essas dependências são exibidas em uma notificação para ajudar você a localizar e removê-las.
Validar uma alteração no esquema
Após a atualização da fonte de dados, vá até a página Dados>Tabelas. Selecione a tabela da fonte de dados e verifique o esquema.
Viagem no tempo delta lake e atualizações de dados
A viagem no tempo delta lake é a capacidade de consultar versões da tabela com base em um carimbo de data/hora ou um número de versão. As alterações feitas nas pastas Delta têm versões, e o Customer Insights - Data usa as versões de pasta Delta para controlar quais dados processar. Em uma atualização regular da tabela delta, os dados são extraídos de todas as versões da tabela de dados desde a atualização mais recente. Contanto que todas as versões estejam presentes, o Customer Insights - Data pode processar apenas os elementos alterados e oferecer resultados mais rápidos. Saiba mais sobre viagem no tempo.
Por exemplo, se tiver sido sincronizado pela última vez com a versão 23 dos dados da pasta Delta, o Customer Insights – Data deverá encontrar a versão 23 e possivelmente versões subsequentes disponíveis. Se as versões de dados esperadas não estiverem disponíveis, a sincronização de dados vai falhar e exigir uma atualização de dados completa manual. A sincronização de dados poderá falhar se os dados da pasta Delta forem excluídos e, então, recriados. Ou se o Customer Insights - Data não conseguir se conectar às pastas Delta por um longo período enquanto as versões avançavam.
Para evitar a necessidade de uma atualização de dados completa, é recomendável manter uma lista de pendências de histórico razoável, como 15 dias.
Executar manualmente uma atualização de dados completa em uma pasta de tabela Delta
Uma atualização completa utiliza todos os dados de uma tabela no formato Delta e os recarrega a partir da versão zero (0) da tabela Delta. As alterações feitas no esquema de pasta Delta disparam uma atualização completa automática. Para disparar manualmente uma atualização completa, execute as etapas a seguir.
Acesse Dados>Fontes de dados.
Selecione a fonte de dados Tabelas Delta do Azure Data Lake.
Selecione a tabela que você deseja atualizar. O painel Editar tabela é exibido.
Selecione Executar atualização completa única.
Selecione Salvar para executar a atualização. A página Fontes de dados é aberta mostrando a fonte de dados no status Atualizando, mas somente a tabela selecionada está sendo atualizada.
Repita o processo para outras tabelas, se aplicável.
Falha na sincronização de dados
A sincronização de dados poderá falhar se os dados da pasta Delta forem excluídos e, então, recriados. Ou se o Customer Insights - Data não conseguir se conectar às pastas Delta por um longo período enquanto as versões avançavam. Para minimizar o impacto quando uma falha no pipeline de dados intermitente cria a necessidade de uma atualização completa, é recomendável manter uma lista de pendências histórica razoável, como 15 dias.