Compartilhar via


Melhor juntos - lakehouse e warehouse

Aplica-se a: ponto de extremidade de análise do SQL e Warehouse no Microsoft Fabric

Este artigo explica a carga de trabalho de data warehousing com o ponto de extremidade de análise SQL do Lakehouse, além de abordar cenários para uso do Lakehouse no data warehousing.

O que é um ponto de extremidade de análise do SQL do Lakehouse?

No Fabric, quando você cria um lakehouse, um Warehouse é criado automaticamente.

O ponto de extremidade de análise do SQL permite que você consulte dados no Lakehouse usando a linguagem T-SQL e o protocolo TDS. Cada Lakehouse tem um ponto de extremidade de análise do SQL e cada workspace pode ter mais de um Lakehouse. O número de pontos de extremidade de análise do SQL em um workspace corresponde ao número de itens do Lakehouse.

  • O ponto de extremidade de análise do SQL é gerado automaticamente para cada Lakehouse e expõe tabelas Delta Lakehouse como tabelas SQL que podem ser consultadas usando a linguagem T-SQL.
  • Cada tabela delta de um Lakehouse é representada como uma tabela. Os dados devem estar no formato delta.
  • O modelo semântico padrão do Power BI é criado para cada ponto de extremidade de análise do SQL e segue a convenção de nomenclatura dos objetos Lakehouse.

Não é necessário criar um ponto de extremidade de análise do SQL no Microsoft Fabric. Os usuários do Microsoft Fabric não podem criar um ponto de extremidade de análise do SQL em um workspace. Um ponto de extremidade SQL é criado automaticamente para cada Lakehouse. Para obter um ponto de extremidade SQL, crie um Lakehouse e um ponto de extremidade de análise do SQL será criado automaticamente para o Lakehouse.

Observação

Nos bastidores, o ponto de extremidade de análise do SQL está usando o mesmo mecanismo que o Warehouse para atender a consultas de SQL de alto desempenho e baixa latência.

Descoberta automática de metadados

Um processo contínuo lê os logs delta e da pasta de arquivos e garante que os metadados do SQL para tabelas, como estatísticas, estejam sempre atualizados. Não é necessária nenhuma ação do usuário e não é necessário importar, copiar dados ou configurar a infraestrutura. Para obter mais informações, consulte Esquema gerado automaticamente no ponto de extremidade de análise do SQL.

Cenários que o Lakehouse habilita para armazenamento de dados

No Fabric, oferecemos um warehouse.

O Lakehouse, com seu ponto de extremidade de análise do SQL, alimentado pelo Warehouse, pode simplificar a árvore de decisão tradicional de padrões de arquitetura de lote, streaming ou lambda. Junto com um warehouse, o lakehouse permite muitos cenários de análise aditiva. Essa seção explora como usar um Lakehouse junto com um Warehouse para obter uma melhor estratégia de análise.

Análise com a camada de ouro do Fabric Lakehouse

Uma das estratégias conhecidas para a organização lake data é uma arquitetura de medalhão em que os arquivos são organizados em camadas brutas (bronze), consolidadas (prata) e refinadas (ouro). Um ponto de extremidade de análise do SQL pode ser usado para analisar dados na camada de ouro da arquitetura de medalhão se os arquivos estiverem armazenados no formato Delta Lake, mesmo que estejam armazenados fora do Microsoft Fabric OneLake.

Você pode usar atalhos do OneLake para fazer referência a pastas de ouro em contas de armazenamento do Azure Data Lake externas gerenciadas por mecanismos do Synapse Spark ou do Azure Databricks.

Os warehouses também podem ser adicionados como soluções orientadas a área de assunto ou domínio para um assunto específico que possa ter requisitos de análise sob medida.

Se você optar por manter seus dados no Fabric, eles sempre estarão abertos e acessíveis por meio de APIs, formato Delta e, claro, T-SQL.

Consultar como um serviço em suas tabelas delta do Lakehouse e outros itens do hub de dados do OneLake

Há casos de uso em que um analista, cientista de dados ou engenheiro de dados poderá precisar consultar dados em um data lake. No Fabric, essa experiência de ponta a ponta é completamente SaaSified.

O OneLake é um data lake unificado e lógico para toda a organização. O OneLake é o OneDrive para dados. O OneLake pode conter vários workspaces, por exemplo, ao longo de suas divisões organizacionais. Cada item no Fabric torna os dados acessíveis por meio do OneLake.

Os dados em um Lakehouse do Microsoft Fabric são fisicamente armazenados no OneLake com a seguinte estrutura de pastas:

  • A pasta /Files contém arquivos brutos e não consolidados (bronze) que devem ser processados por engenheiros de dados antes de serem analisados. Os arquivos podem estar em vários formatos, como CSV, Parquet, diferentes tipos de imagens etc.
  • A pasta /Tables contém dados refinados e consolidados (ouro) prontos para análise de negócios. Os dados consolidados estão no formato do Delta Lake.

Um ponto de extremidade de análise do SQL pode ler dados na pasta /tables do OneLake. A análise é tão simples quanto consultar o ponto de extremidade de análise do SQL do Lakehouse. Junto com o Warehouse, você também obtém consultas entre bancos de dados e a capacidade de alternar perfeitamente de consultas somente leitura para criar lógica de negócios adicional sobre seus dados do OneLake com o Data Warehouse do Synapse.

Engenharia de Dados com Spark e Serving com SQL

As empresas controladas por dados precisam manter seus sistemas de back-end e análise quase em tempo real com aplicativos voltados para o cliente. O impacto das transações deve refletir com precisão por meio de processos de ponta a ponta, aplicativos relacionados e sistemas OLTP (processamento de transações online).

No Fabric, você pode usar o Streaming ou a Engenharia de Dados do Spark para coletar seus dados. Você pode usar o ponto de extremidade de análise do SQL do Lakehouse para validar a qualidade dos dados e para processos T-SQL existentes. Isso pode ser feito em uma arquitetura de medalhão ou em várias camadas de seu Lakehouse, servindo dados de bronze, prata, ouro ou preparo, coletados e refinados. Você pode personalizar as pastas e tabelas criadas por meio do Spark para atender aos seus requisitos de engenharia de dados e de negócios. Quando estiver pronto, um Warehouse poderá atender a todos os seus aplicativos de business intelligence downstream e outros casos de uso de análise, sem copiar dados, usar visualizações ou refinar dados usando CREATE TABLE AS SELECT (CTAS), procedimentos armazenados e outros comandos DML/DDL.

Integração com a camada de ouro do Open Lakehouse

Um ponto de extremidade de análise do SQL não tem escopo para análise de dados apenas no Fabric Lakehouse. Um ponto de extremidade de análise do SQL permite que você analise dados do Lake em qualquer Lakehouse, usando o Spark do Synapse, o Azure Databricks ou qualquer outro mecanismo de engenharia de dados centrado em lake. Os dados podem ser armazenados no Azure Data Lake Storage ou no Amazon S3.

Essa integração bidirecional apertada com o Fabric Lakehouse é sempre acessível por meio de qualquer mecanismo com APIs abertas, o formato Delta e, claro, t-SQL.

Virtualização de dados de data lakes externos com atalhos

Você pode usar atalhos do OneLake para fazer referência a pastas de ouro em contas de armazenamento do Azure Data Lake externas gerenciadas por mecanismos do Synapse Spark ou do Azure Databricks, assim como qualquer tabela delta armazenada no Amazon S3.

Qualquer pasta referenciada usando um atalho pode ser analisada de um ponto de extremidade de análise do SQL e uma tabela SQL é criada para os dados referenciado. A tabela SQL pode ser usada para expor dados em data lakes gerenciados externamente e habilitar a análise neles.

Esse atalho atua como um warehouse virtual que pode ser aproveitado de um warehouse para requisitos adicionais de análise downstream ou consultado diretamente.

Use as seguintes etapas para analisar dados em contas externas do Data Lake Storage:

  1. Crie um atalho que faça referência a uma pasta no Azure Data Lake Storage ou na conta do Amazon S3. Depois de inserir detalhes e credenciais de conexão, um atalho é mostrado no Lakehouse.
  2. Alterne para o ponto de extremidade de análise do SQL do Lakehouse e localize uma tabela SQL que tenha um nome que corresponda ao nome do atalho. Esta tabela SQL faz referência à pasta na pasta ADLS/S3.
  3. Consulte a tabela SQL que faz referência a dados no ADLS/S3. A tabela pode ser usada como qualquer outra tabela no ponto de extremidade de análise do SQL. Você pode unir tabelas que fazem referência a dados em contas de armazenamento diferentes.

Observação

Se a tabela SQL não for mostrada imediatamente no ponto de extremidade de análise do SQL, talvez seja necessário aguardar alguns minutos. A tabela SQL que faz referência a dados na conta de armazenamento externo é criada com um atraso.

Analisar dados arquivados ou históricos em um data lake

O particionamento de dados é uma técnica conhecida de otimização de acesso a dados em data lakes. Os conjuntos de dados particionados são armazenados nas estruturas de pastas hierárquicas no formato /year=<year>/month=<month>/day=<day> onde year, month e day são as colunas de particionamento. Isso permite que você armazene dados históricos logicamente separados em um formato que permite que os mecanismos de computação leiam os dados conforme necessário com a filtragem de desempenho, em vez de ler todo o diretório e todas as pastas e arquivos contidos dentro.

Os dados particionados permitem acesso mais rápido se as consultas estiverem filtrando nos predicados que comparam colunas de predicado com um valor.

Um ponto de extremidade de análise do SQL pode ler facilmente esse tipo de dados sem a necessidade de configuração. Por exemplo, você pode usar qualquer aplicativo para arquivar dados em um data lake, incluindo SQL Server 2022 ou Instância Gerenciada de SQL do Azure. Depois de particionar dados e colocá-los em um lake para fins de arquivamento com tabelas externas, um ponto de extremidade de análise do SQL pode ler tabelas particionadas do Delta Lake como tabelas SQL e permitir que sua organização as analise. Isso reduz o custo total de propriedade, reduz a duplicação de dados e valoriza Big Data, IA e outros cenários de análise.

Virtualização de dados do Fabric com atalhos

No Fabric, os workspaces permitem separar dados com base em requisitos complexos de negócios, geográficos ou regulatórios.

Um ponto de extremidade de análise do SQL permite que você deixe os dados em vigor e ainda analise dados no Warehouse ou no Lakehouse, e até em outros workspaces do Microsoft Fabric, por meio de uma virtualização perfeita. Todo Lakehouse do Microsoft Fabric armazena dados no OneLake.

Os atalhos permitem que você faça referência a pastas em qualquer local do OneLake.

Cada Warehouse do Microsoft Fabric armazena dados de tabela no OneLake. Se uma tabela for somente acréscimo, os dados da tabela serão expostos como dados do Delta Lake no OneLake. Os atalhos permitem que você faça referência a pastas em qualquer OneLake em que as tabelas do Warehouse sejam expostas.

Compartilhamento e consulta entre workspaces

Embora os workspaces permitam separar dados com base em requisitos complexos de negócios, geográficos ou regulatórios, às vezes você precisa facilitar o compartilhamento entre essas linhas para necessidades de análise específicas.

Um ponto de extremidade de análise do SQL do Lakehouse pode habilitar o compartilhamento fácil de dados entre departamentos e usuários, em que um usuário pode trazer sua própria capacidade e warehouse. Os workspaces organizam departamentos, unidades de negócios ou domínios analíticos. Usando atalhos, os usuários podem encontrar qualquer warehouse ou dados do Lakehouse. Os usuários podem executar instantaneamente suas próprias análises personalizadas dos mesmos dados compartilhados. Além de ajudar com os encargos departamentais e a alocação de uso, essa também é uma versão de cópia zero dos dados.

O ponto de extremidade de análise do SQL permite a consulta de qualquer tabela e compartilhamento fácil. Os controles adicionados de funções de workspace e funções de segurança que podem ser mais em camadas para atender aos requisitos de negócios adicionais.

Use as seguintes etapas para habilitar a análise de dados entre workspaces:

  1. Crie um atalho do OneLake que referencie uma tabela ou uma pasta em um workspace que você possa acessar.
  2. Escolha um Lakehouse ou Warehouse que contenha uma tabela ou pasta Delta Lake que você deseja analisar. Depois de selecionar uma tabela/pasta, um atalho é mostrado no Lakehouse.
  3. Alterne para o ponto de análise de extremidade SQL do Lakehouse e localize a tabela SQL que tem um nome que corresponde ao nome do atalho. Esta tabela SQL faz referência à pasta em outro workspace.
  4. Consulte a tabela SQL que faz referência a dados em outro workspace. A tabela pode ser usada como qualquer outra tabela no ponto de extremidade de análise do SQL. Você pode unir as tabelas que fazem referência a dados em workspaces diferentes.

Observação

Se a tabela SQL não for mostrada imediatamente no ponto de extremidade de análise do SQL, talvez seja necessário aguardar alguns minutos. A tabela SQL que faz referência a dados em outro workspace é criada com um atraso.

Analisar dados particionados

O particionamento de dados é uma técnica conhecida de otimização de acesso a dados em data lakes. Os conjuntos de dados particionados são armazenados nas estruturas de pastas hierárquicas no formato /year=<year>/month=<month>/day=<day> onde year, month e day são as colunas de particionamento. Os conjuntos de dados particionados habilitam um acesso mais rápido a dados se as consultas estiverem filtrando dados usando os predicados que filtram dados comparando colunas de predicado com um valor.

Um ponto de extremidade de análise do SQL pode representar conjuntos de dados do Delta Lake particionados como tabelas SQL e permitir que você os analise.