Share via


Opções de Configuração Avançada no Azure Synapse Link

O Azure Synapse Link oferece várias formas de escrever e ler os seus dados para adaptação a vários cenários analíticos.

Nota

O Azure Synapse Link for Dataverse era anteriormente conhecido como o serviço Exportar para data lake. O serviço foi renomeado a partir de maio de 2021 e continuará a exportar dados para o Azure Data Lake, bem como Azure Synapse Analytics.

Este artigo abrange:

  1. Atualizações no local versus escritas Acrescentar apenas.
  2. Criação de partições de dados especificada pelo utilizador.

Atualizações no local vs. escritas apenas para acrescentar

Ao escrever dados de tabela do Dataverse para o Azure data lake, com base no valor createdOn, que é a data e hora em que o registo foi criado, existem duas definições diferentes para escolher. Estas são, Atualização colocada e Só anexar.

A predefinição (para tabelas onde createdOn está disponível) é fazer uma atualização colocada ou upsert (atualizar ou inserir) dos dados incrementais no destino. Se a alteração for nova e não existir uma linha correspondente no lake, no caso de uma criação, os ficheiros de destino são digitalizados e as alterações são inseridas na partição de ficheiros correspondente no lake. Se a alteração for uma atualização e existir uma linha no lake, o ficheiro correspondente no lake é atualizado, em vez de inserido, com os dados incrementais. Por outras palavras, a predefinição para todas as alterações CUD (criar, atualizar, eliminar) em tabelas do Dataverse, onde createdOn está disponível, é fazer uma atualização colocada no destino, no Azure data lake.

Pode alternar o comportamento predefinido de uma atualização colocada utilizando uma definição opcional chamada Só anexar. Em vez de uma Atualização colocada, no modo Só anexar, os dados incrementais das tabelas do Dataverse são anexados à partição de ficheiros correspondente no lake. Esta é uma definição por tabela e está disponível como caixa de verificação em Avançadas > Mostrar definições de configuração avançadas. Para tabelas do Dataverse com Só anexar ativado, todas as alterações CUD são incrementalmente anexadas aos ficheiros de destino correspondentes no lake. Quando escolhe esta opção, a estratégia de partição assume a predefinição como Ano e, quando os dados são escritos para o data lake, são particionados numa base anual. Só anexar é também a predefinição para tabelas do Dataverse que não têm o valor createdOn.

A tabela abaixo descreve como as linhas são processadas no lake contra eventos CUD para cada uma das opções de escrita de dados.

Evento Atualização colocada Acrescentar apenas
Criar A linha é inserida no ficheiro de partição e baseia-se no valor createdOn da linha. A linha é adicionada ao fim do ficheiro de partição e baseia-se no valor createdOn do registo.
Atualizar Se a linha existir no ficheiro de partição, é substituída ou atualizada por dados atualizados. Se não existe, está inserido no ficheiro. A linha, juntamente com a versão atualizada, é adicionada ao fim do ficheiro de partição.
Delete Se a linha existe no ficheiro de partição, é removida do ficheiro. A linha é adicionada ao fim do ficheiro de partição com IsDelete column = True.

Nota

Para as tabelas Dataverse em que Só anexar está ativado, a eliminação de uma linha na origem não eliminará nem removerá a linha do lake. Em vez disso, a linha eliminada é anexada como uma nova linha no lago e a coluna isDeleted é definida como Verdadeiro.

A leitura de dados ainda não alocados (ALLOW_INCONSISTENT_READS) para sem servidor está ativada para o modo anexar apenas. ALLOW_INCONSISTENT_READS significa que o utilizador pode ler os ficheiros que podem ser modificados constantemente enquanto a consulta SELECT está em execução. Os resultados serão consistentes e equivalentes à leitura de um instantâneo do ficheiro. (Não é equivalente ao isolamento do instantâneo da base de dados devido ao tempo de geração de instantâneos diferente.)

Nem todas as alterações ao CUD serão capturadas em acrescentar apenas: a Synapse Link processa as alterações aos dados em grupos ou "lotes" antes de os publicar no Data Lake. Como resultado, se o utilizador efetuar alterações num curto intervalo de tempo, nem todas as alterações ao CUD serão capturadas no Data Lake.

Eis mais alguns detalhes sobre quando utilizar uma das opções.

  • Atualização no local: esta opção é a predefinição e é recomendada apenas se pretender ligar diretamente aos dados no lake e precisar do estado atual (não alterações ao histórico ou incrementais). O ficheiro contém o conjunto de dados completo e pode ser utilizado através do Power BI ou copiando todo a conjunto de dados para pipelines ETL (Extrair, Transferir, Carregar).
  • Só anexar: selecione esta opção se não estiver a ligar diretamente aos dados no lake e pretender copiar gradualmente dados para outro alvo utilizando os pipelines ETL. Esta opção fornece um histórico de alterações para ativar cenários de IA e ML.

Pode alternar as Mostrar definições de configuração avançadas em Avançado em Azure Synapse Link for Dataverse para personalizar a sua estratégia de partição de dados e selecionar opções para escrever no Azure Data Lake.

Mostrar a configuração avançada.

Criação de partições de dados

Quando escreve dados de tabela do Dataverse para o Azure Data Lake Storage com o Azure Synapse Link, as tabelas são particionadas (em vez de um único ficheiro) no lake baseado no valor createdOn em cada linha na origem. A estratégia de partição predefinida é mensal e são criadas partições de dados no Azure data lake numa base mensal.

Com base no volume da tabela do Dataverse e na distribuição de dados, poderá optar por criar partições dos seus dados por ano. Com esta opção, quando os dados da tabela do Dataverse são escritos no Azure data lake, este será particionado anualmente com base no valor createdOn de cada linha na origem. Para tabelas sem a coluna createdOn, as filas de dados são particionadas num novo ficheiro a cada 5.000.000 de registos. Esta é uma definição por tabela e está disponível como caixa de verificação em Avançadas > Mostrar definições de configuração avançadas.

Mais detalhes com exemplos de como os dados são processados no lake com uma estratégia de partição anual ou mensal:

Estratégia de Partição.

Consulte também

Azure Synapse Link for Dataverse

Nota

Pode indicar-nos as suas preferências no que se refere ao idioma da documentação? Responda a um breve inquérito. (tenha em atenção que o inquérito está em inglês)

O inquérito irá demorar cerca de sete minutos. Não são recolhidos dados pessoais (declaração de privacidade).