Share via


O que é estruturação de dados?

Aplica-se a: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

As organizações precisam ter a capacidade de explorar os dados críticos para seus negócios para a preparação e a estruturação de dados, a fim de obter uma análise precisa dos dados complexos que continuam aumentando diariamente. A preparação de dados é necessária para que as organizações possam usar os dados em vários processos empresariais e reduzir o tempo de retorno.

O Data Factory possibilita que você prepare dados sem código iterativamente e em escala de nuvem usando Power Query. O Data Factory se integra ao Power Query Online e torna as funções do Power Query M disponíveis como uma atividade de pipeline.

O Data Factory converte o M gerado pelo Editor de Mashup Online do Power Query em código spark para execução em escala de nuvem, convertendo M em fluxos de dados do Azure Data Factory. Estruturar dados com o Power Query e fluxos de dados é útil principalmente para engenheiros de dados ou 'integradores de dados cidadãos'.

Casos de uso

Rápida exploração e preparação de dados interativos

Diversos engenheiros de dados e integradores de dados cidadãos podem explorar e preparar conjuntos de dados interativamente em escala de nuvem. Com o aumento de volume, variedade e velocidade de dados em data lakes, os usuários precisam de uma maneira eficaz para explorar e preparar conjuntos de dados. Por exemplo, talvez seja necessário criar um conjunto de dados que tenha todas as informações demográficas de clientes para os novos clientes desde 2017. Você não estará mapeando para um destino conhecido. Você está explorando, estruturando e preparando conjuntos de dados para atender um requisito antes de publicá-los no lake. A estruturação de dados costuma ser usada em cenários de análise menos formais. Os conjuntos de dados preparados podem ser usados para fazer transformações e operações de aprendizado de máquina downstream.

Preparação de dados agile sem código

Os integradores de dados cidadãos gastam mais de 60% do tempo procurando e preparando dados. Eles têm buscado fazer isso de uma maneira livre de códigos para assim melhorar a produtividade operacional. Permitir que os integradores de dados cidadãos enriqueçam, formem e publiquem dados usando ferramentas conhecidas como o Power Query Online de forma escalonável aumenta drasticamente a produtividade. A estruturação de dados no Azure Data Factory possibilita ao conhecido editor de mashup do Power Query Online permitir que os integradores de dados do cidadão corrijam erros rapidamente, padronizem dados e produzam dados de alta qualidade para dar suporte a decisões de negócios.

Validação e exploração de dados

Examine visualmente seus dados de forma livre de código para remover exceções, anomalias e formá-los para análise rápida.

Fontes compatíveis

Connector Formato de dados Tipo de autenticação
Armazenamento de Blobs do Azure CSV, parquet, Excel Chave de conta, Entidade de Serviço
Azure Data Lake Storage Gen1 CSV, parquet, Excel Entidade de Serviço, MSI
Azure Data Lake Storage Gen2 CSV, parquet, Excel Chave de conta, Entidade de Serviço
Banco de Dados SQL do Azure - autenticação SQL, MSI, entidade de serviço
Azure Synapse Analytics - autenticação SQL, MSI, entidade de serviço

O editor de mashup

Quando você cria uma atividade de Power Query, todos os conjuntos de fontes de origem se tornam consultas de conjunto de dados e são colocados na pasta ADFResource. Por padrão, o UserQuery aponta a primeira consulta de conjuntos de dados. Qualquer transformação deve ser feita no UserQuery, pois alterações nas consultas de conjuntos de dados não terão suporte e nem serão persistentes. No momento, não há suporte para a renomeação, a adição ou a exclusão de consultas.

Wrangling

Atualmente, não há suporte a todas as funções M do Power Query para a estruturação de dados, apesar de estarem disponíveis durante a criação. Ao compilar as suas atividades de Power Query, a seguinte mensagem de erro será exibida caso não haja suporte a uma função:

The Power Query Spark Runtime does not support the function

Para mais informações sobre as transformações com suporte, consulte Funções de estruturação de dados do Power Query.

Saiba como criar um mashup de estruturação de dados do Power Query.