Explore o Microsoft Fabric Lakehouse

Concluído

Um Lakehouse se apresenta como um banco de dados e é construído sobre um data lake usando tabelas de formato Delta. Lakehouses combinam os recursos analíticos baseados em SQL de um data warehouse relacional e a flexibilidade e escalabilidade de um data lake. Lakehouses armazena todos os formatos de dados e pode ser usado com várias ferramentas de análise e linguagens de programação. Como soluções baseadas em nuvem, as lakehouses podem ser dimensionadas automaticamente e fornecer alta disponibilidade e recuperação de desastres.

Diagrama de uma lakehouse, exibindo a estrutura de pastas de um data lake e as capacidades relacionais de um data warehouse.

Alguns benefícios de uma casa no lago incluem:

  • A Lakehouses usa mecanismos Spark e SQL para processar dados em grande escala e dar suporte a aprendizado de máquina ou análise de modelagem preditiva.
  • Os dados do Lakehouse são organizados em um formato de esquema em leitura, o que significa que você define o esquema conforme necessário, em vez de ter um esquema predefinido.
  • Lakehouses suportam transações ACID (Atomicidade, Consistência, Isolamento, Durabilidade) através de tabelas formatadas Delta Lake para consistência e integridade de dados.
  • Lakehouses são um único local para engenheiros de dados, cientistas de dados e analistas de dados acessarem e usarem dados.

Um Lakehouse é uma ótima opção se você quiser uma solução de análise escalável que mantenha a consistência dos dados. É importante avaliar seus requisitos específicos para determinar qual solução é a mais adequada.

Casas de lago do Microsoft Fabric

No Microsoft Fabric, você pode criar uma lakehouse em qualquer espaço de trabalho de camada premium . Depois de criar um lakehouse, você pode carregar dados - em qualquer formato comum - de várias fontes; incluindo arquivos locais, bancos de dados ou APIs. A ingestão de dados também pode ser automatizada usando o Data Factory Pipelines ou Dataflows (Gen2) no Microsoft Fabric. Além disso, você pode criar atalhos do Fabric para dados em fontes externas, como o Azure Data Lake Store Gen2 ou um local do Microsoft OneLake fora do próprio armazenamento do lakehouse. O Lakehouse Explorer permite que você navegue por arquivos, pastas, atalhos e tabelas; e visualizar seus conteúdos dentro da plataforma Fabric.

Depois de ingerir os dados no Lakehouse, você pode usar Notebooks ou Dataflows (Gen2) para explorá-los e transformá-los.

Nota

Os fluxos de dados (Gen2) baseiam-se no Power Query - uma ferramenta familiar para analistas de dados que utilizam Excel ou Power BI que fornece representação visual de transformações como alternativa à programação tradicional.

Os pipelines do Data Factory podem ser usados para orquestrar o Spark, o Dataflow e outras atividades; permitindo que você implemente processos complexos de transformação de dados.

Depois de transformar seus dados, você pode consultá-los usando SQL, usá-los para treinar modelos de aprendizado de máquina, executar inteligência em tempo real ou desenvolver relatórios no Power BI.

Você também pode aplicar políticas de governança de dados à sua Lakehouse, como classificação de dados e controle de acesso.