Explorar o lakehouse do Microsoft Fabric
Um lakehouse apresenta-se como um banco de dados e é criado sobre um data lake usando tabelas de formato Delta. Os lakehouses combinam os recursos de análise baseados em SQL de um data warehouse relacional com a flexibilidade e a escalabilidade de um data lake. Os lakehouses armazenam todos os formatos de dados e podem ser usados com diversas ferramentas de análise e linguagens de programação. Como soluções baseadas em nuvem, os lakehouses podem ser escalados automaticamente e fornecer alta disponibilidade e recuperação de desastre.
Alguns benefícios de um lakehouse incluem o seguinte:
- Os lakehouses usam os mecanismos Spark e SQL para processar dados em grande escala e dar suporte ao aprendizado de máquina ou à análise de modelagem preditiva.
- Os dados do lakehouse são organizados em um formato de esquema baseado em leitura, o que significa que você define o esquema conforme necessário, em vez de ter um esquema predefinido.
- Os lakehouses dão suporte a transações ACID (atomicidade, consistência, isolamento, durabilidade) por meio de tabelas formatadas do Delta Lake para consistência e integridade de dados.
- Os lakehouses são um local único para engenheiros de dados, cientistas de dados e analistas de dados acessarem e usarem dados.
Um lakehouse é uma ótima opção se você quiser uma solução de análise escalonável que mantenha a consistência dos dados. É importante avaliar seus requisitos específicos para determinar qual solução é a mais adequada.
Carregar dados em um lakehouse
Os lakehouses do Fabric são um elemento central para sua solução de análise. Você pode seguir o processo ETL (Extrair, Transformar, Carregar) para ingerir e transformar os dados antes de carregar no lakehouse.
Você pode ingerir os dados em muitos formatos comuns de várias fontes, incluindo arquivos locais, bancos de dados ou APIs. Você também pode criar atalhos do Fabric para dados em fontes externas, como o Azure Data Lake Store Gen2 ou o OneLake. Use o Lakehouse Explorer para navegar por arquivos, pastas, atalhos e tabelas, além de exibir o respectivo conteúdo na plataforma do Fabric.
Os dados ingeridos podem ser transformados e carregados usando o Apache Spark com notebooks ou Dataflows Gen2. Use pipelines do Data Factory para orquestrar suas diferentes atividades de ETL e colocar os dados preparados em seu lakehouse.
Observação
Os fluxos de dados Gen2 são baseados no Power Query, uma ferramenta familiar para analistas de dados que usam o Excel ou o Power BI que fornece representação visual de transformações como uma alternativa à programação tradicional.
Você pode usar sua lakehouse por vários motivos, incluindo:
- Analisar usando o SQL.
- Treinar modelos de aprendizado de máquina.
- Executar análises em dados em tempo real.
- Desenvolver relatórios no Power BI.
Proteger um lakehouse
O acesso ao Lakehouse é gerenciado por meio do workspace ou do compartilhamento em nível de item. As funções de workspaces devem ser usadas para colaboradores porque elas concedem acesso a todos os itens dentro do workspace. O compartilhamento em nível de item é mais indicado para conceder acesso somente leitura, como em análises ou desenvolvimento de relatórios no Power BI.
Os lakehouses do Fabric também dão suporte a recursos de governança de dados, incluindo rótulos de confidencialidade, e pode ser estendido usando o Microsoft Purview com seu locatário do Fabric.
Observação
Para obter mais informações, confira a documentação Segurança no Microsoft Fabric.