O que é disputa de dados?

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

As organizações precisam ter a capacidade de explorar seus dados de negócios críticos para preparação e disputa de dados, a fim de fornecer uma análise precisa de dados complexos que continuam a crescer a cada dia. A preparação de dados é necessária para que as organizações possam usá-los em vários processos de negócios e reduzir o tempo de valorização.

O Data Factory permite-lhe preparar dados sem código à escala da nuvem de forma iterativa utilizando o Power Query. O Data Factory integra-se com o Power Query Online e disponibiliza funções do Power Query M como uma atividade de pipeline.

O Data Factory traduz M gerado pelo Power Query Online Mashup Editor em código spark para execução em escala de nuvem convertendo M em Fluxos de Dados do Azure Data Factory. A disputa de dados com o Power Query e os fluxos de dados são especialmente úteis para engenheiros de dados ou "integradores de dados cidadãos".

Casos de utilização

Rápida exploração e preparação interativa de dados

Vários engenheiros de dados e integradores de dados cidadãos podem explorar e preparar conjuntos de dados interativamente em escala de nuvem. Com o aumento do volume, variedade e velocidade dos dados em data lakes, os usuários precisam de uma maneira eficaz de explorar e preparar conjuntos de dados. Por exemplo, pode ser necessário criar um conjunto de dados que "tenha todas as informações demográficas do cliente para novos clientes desde 2017". Você não está mapeando para um destino conhecido. Você está explorando, disputando e preparando conjuntos de dados para atender a um requisito antes de publicá-lo no lago. A disputa é frequentemente usada para cenários de análise menos formais. Os conjuntos de dados preparados podem ser usados para fazer transformações e operações de aprendizado de máquina a jusante.

Preparação ágil de dados sem código

Os integradores de dados cidadãos passam mais de 60% do seu tempo à procura e preparação de dados. Eles estão procurando fazer isso de uma maneira livre de código para melhorar a produtividade operacional. Permitir que os integradores de dados dos cidadãos enriqueçam, moldem e publiquem dados utilizando ferramentas conhecidas como o Power Query Online de uma forma escalável melhora drasticamente a sua produtividade. A disputa no Azure Data Factory permite que o conhecido editor de mashup do Power Query Online permita que os integradores de dados cidadãos corrijam erros rapidamente, padronizem dados e produzam dados de alta qualidade para apoiar decisões de negócios.

Validação e exploração de dados

Analise visualmente seus dados de maneira livre de código para remover quaisquer discrepâncias, anomalias e adaptá-los a uma forma para análises rápidas.

Origens suportadas

Conector Formato dos dados Authentication type
Armazenamento de Blobs do Azure CSV, Parquet, Excel Chave de Conta, Entidade de Serviço, MSI
Armazenamento do Azure Data Lake Ger1 CSV, Parquet, Excel Entidade de Serviço, MSI
Azure Data Lake Storage Gen2 (Armazenamento do Azure Data Lake Gen2) CSV, Parquet, Excel Chave de Conta, Entidade de Serviço, MSI
Base de Dados SQL do Azure - Autenticação SQL, MSI, Service Principal
Azure Synapse Analytics - Autenticação SQL, MSI, Service Principal

O editor de mashup

Quando cria uma atividade do Power Query, todos os conjuntos de dados de origem tornam-se consultas de conjunto de dados e são colocados na pasta ADFResource . Por padrão, o UserQuery apontará para a primeira consulta de conjunto de dados. Todas as transformações devem ser feitas no UserQuery, pois as alterações nas consultas do conjunto de dados não são suportadas nem serão persistentes. Atualmente, não há suporte para renomear, adicionar e excluir consultas.

Wrangling

Atualmente, nem todas as funções do Power Query M são suportadas para disputa de dados, apesar de estarem disponíveis durante a criação. Ao criar as suas atividades do Power Query, ser-lhe-á apresentada a seguinte mensagem de erro se uma função não for suportada:

The Power Query Spark Runtime does not support the function

Para obter mais informações sobre transformações suportadas, consulte Funções de disputa de dados do Power Query.

Saiba como criar um mash-up de disputa de dados do Power Query.