Explorar o lakehouse do Microsoft Fabric

Concluído

Um lakehouse é semelhante a um banco de dados e é criado com base em um data lake usando tabelas no formato Delta. Os lakehouses combinam os recursos de análise baseados em SQL de um data warehouse relacional com a flexibilidade e a escalabilidade de um data lake. Os lakehouses armazenam todos os formatos de dados e podem ser usados com diversas ferramentas de análise e linguagens de programação. Como soluções baseadas em nuvem, os lakehouses podem ser escalados automaticamente e fornecer alta disponibilidade e recuperação de desastre.

Diagrama de um lakehouse, exibindo a estrutura de pastas de um data lake e os recursos relacionais de um data warehouse.

Alguns benefícios de um lakehouse incluem o seguinte:

  • Os lakehouses usam os mecanismos Spark e SQL para processar dados em grande escala e dar suporte ao aprendizado de máquina ou à análise de modelagem preditiva.
  • Os dados do lakehouse são organizados em um formato de esquema baseado em leitura, o que significa que você define o esquema conforme necessário, em vez de ter um esquema predefinido.
  • Os lakehouses dão suporte a transações ACID (atomicidade, consistência, isolamento, durabilidade) por meio de tabelas formatadas do Delta Lake para consistência e integridade de dados.
  • Os lakehouses são um local único para engenheiros de dados, cientistas de dados e analistas de dados acessarem e usarem dados.

Um lakehouse é uma ótima opção se você deseja uma solução de análise escalonável que mantém a consistência dos dados. É importante avaliar seus requisitos específicos para determinar qual solução é a mais adequada.

Lakehouses do Microsoft Fabric

No Microsoft Fabric, é possível criar um lakehouse em qualquer workspace da camada Premium. Depois de criar um lakehouse, é possível carregar dados (em qualquer formato comum) de diversas fontes, incluindo arquivos locais, bancos de dados ou APIs. A ingestão de dados também pode ser automatizada usando pipelines do Data Factory ou fluxos de dados (Gen2) no Microsoft Fabric. Além disso, é possível criar atalhos do Fabric para dados em fontes externas, como o Azure Data Lake Store Gen2 ou um local do Microsoft OneLake fora do próprio armazenamento do lakehouse. O Lakehouse Explorer permite navegar por arquivos, pastas, atalhos e tabelas, além de exibir o respectivo conteúdo na plataforma Fabric.

Depois de ingerir os dados no lakehouse, é possível usar notebooks ou fluxos de dados (Gen2) para explorá-los e transformá-los.

Observação

Os fluxos de dados (Gen2) são baseados no Power Query, uma ferramenta familiar para analistas de dados que usam o Excel ou o Power BI que fornece representação visual de transformações como uma alternativa à programação tradicional.

Os pipelines do Data Factory podem ser usados para orquestrar atividades do Spark, de fluxo de dados, entre outras, permitindo a implementação de processos complexos de transformação de dados.

Depois de transformar seus dados, você pode consultá-los usando SQL, usá-los para treinar modelos de machine learning, executar inteligência em tempo real ou desenvolver relatórios no Power BI.

Também é possível aplicar políticas de governança de dados ao lakehouse, como classificação de dados e controle de acesso.