O que é data warehousing no Microsoft Fabric?

Aplica-se a: ponto de extremidade de análise SQL e Warehouse no Microsoft Fabric

O Microsoft Fabric oferece aos clientes um produto unificado que aborda todos os aspetos de seu patrimônio de dados, oferecendo uma plataforma completa de dados, análises e IA baseada em SaaS, que é centrada no lago e aberta. A base do Microsoft Fabric permite que o usuário iniciante até o profissional experiente aproveite as cargas de trabalho de banco de dados, análises, mensagens, integração de dados e Business Intelligence por meio de uma experiência SaaS rica, fácil de usar e compartilhada com o Microsoft OneLake como peça central.

Uma experiência SaaS centrada no lago criada para qualquer nível de habilidade

O Microsoft Fabric apresenta um data warehouse centrado no lago construído em um mecanismo de processamento distribuído de nível empresarial que permite o desempenho líder do setor em escala e, ao mesmo tempo, elimina a necessidade de configuração e gerenciamento. Por meio de uma experiência SaaS fácil de usar que é totalmente integrada ao Power BI para facilitar a análise e a geração de relatórios, o Warehouse in Microsoft Fabric converge o mundo dos data lakes e armazéns com o objetivo de simplificar muito o investimento de uma organização em seu patrimônio de análise. As cargas de trabalho de armazenamento de dados se beneficiam dos recursos avançados do mecanismo SQL em um formato de dados aberto, permitindo que os clientes se concentrem na preparação, análise e emissão de relatórios de dados em uma única cópia de seus dados armazenados no Microsoft OneLake.

O Warehouse foi criado para qualquer nível de habilidade - desde o desenvolvedor cidadão até o desenvolvedor profissional, DBA ou engenheiro de dados. O rico conjunto de experiências incorporadas no espaço de trabalho do Microsoft Fabric permite que os clientes reduzam seu tempo para obter informações ao ter um modelo semântico facilmente consumível e sempre conectado que é integrado ao Power BI no modo DirectLake. Isso permite um desempenho inigualável e líder do setor, garantindo que o relatório de um cliente sempre tenha os dados mais recentes para análise e emissão de relatórios. A consulta entre bancos de dados pode ser aproveitada para usar de forma rápida e transparente várias fontes de dados que abrangem vários bancos de dados para insights rápidos e zero duplicação de dados.

Armazéns virtuais com consulta cruzada de banco de dados

O Microsoft Fabric oferece aos clientes a capacidade de levantar armazéns virtuais contendo dados de praticamente qualquer fonte usando atalhos. Os clientes podem criar um armazém virtual criando atalhos para seus dados onde quer que eles residam. Um depósito virtual pode consistir em dados do OneLake, do Armazenamento do Azure Data Lake ou de qualquer outro armazenamento de fornecedor de nuvem dentro de um único limite e sem duplicação de dados.

Desbloqueie facilmente o valor de uma variedade de fontes de dados por meio da riqueza da consulta entre bancos de dados no Microsoft Fabric. A consulta entre bancos de dados permite que os clientes usem várias fontes de dados de forma rápida e transparente para obter insights rápidos e sem duplicação de dados. Os dados armazenados em diferentes fontes podem ser facilmente unidos, permitindo que os clientes forneçam informações valiosas que anteriormente exigiam um esforço significativo das equipes de engenharia e integração de dados.

As consultas entre bancos de dados podem ser criadas por meio do editor de Consultas Visuais, que oferece um caminho sem código para insights em várias tabelas. O editor de Consultas SQL ou outras ferramentas familiares, como o SQL Server Management Studio (SSMS), também podem ser usados para criar consultas entre bancos de dados.

Gestão autónoma da carga de trabalho

Os armazéns no Microsoft Fabric aproveitam um mecanismo de processamento de consultas distribuído líder do setor, que fornece aos clientes cargas de trabalho com um limite de isolamento natural. Não há botões para girar com a alocação autônoma e a renúncia de recursos para oferecer o melhor desempenho da raça com escala automática e simultaneidade incorporadas. O verdadeiro isolamento é alcançado separando cargas de trabalho com características diferentes, garantindo que os trabalhos de ETL nunca interfiram com suas cargas de trabalho de análise e relatório ad hoc.

Formato aberto para interoperabilidade perfeita do motor

Os dados no Warehouse são armazenados no formato de arquivo parquet e publicados como Delta Lake Logs, permitindo transações ACID e interoperabilidade entre mecanismos que podem ser aproveitadas por meio de outras cargas de trabalho do Microsoft Fabric, como Spark, Pipelines, Power BI e Azure Data Explorer. Os clientes não precisam mais criar várias cópias de seus dados para habilitar profissionais de dados com diferentes conjuntos de habilidades. Os engenheiros de dados que estão acostumados a trabalhar em Python podem facilmente usar os mesmos dados que foram modelados e servidos por um profissional de data warehouse que está acostumado a trabalhar em SQL. Em paralelo, os profissionais de BI podem usar rápida e facilmente os mesmos dados para criar um conjunto avançado de visualizações no Power BI com desempenho de registro e sem duplicação de dados.

Separação entre armazenamento e computação

A computação e o armazenamento são dissociados em um armazém, o que permite que os clientes escalem quase instantaneamente para atender às demandas de seus negócios. Isso permite que vários mecanismos de computação leiam de qualquer fonte de armazenamento suportada com segurança robusta e garantias transacionais ACID completas.

Ingera, carregue e transforme facilmente em escala

Os dados podem ser ingeridos no Warehouse por meio de Pipelines, Dataflows, consulta entre bancos de dados ou o comando COPY INTO. Uma vez ingeridos, os dados podem ser analisados por vários grupos de negócios por meio de funcionalidades como compartilhamento e consulta entre bancos de dados. O tempo para insights é acelerado através de uma experiência de BI totalmente integrada através de modelagem gráfica de dados, experiência web fácil de usar para consultas dentro do Editor de armazém.

Itens de armazenamento de dados no Microsoft Fabric

Há dois itens distintos de armazenamento de dados: o ponto de extremidade de análise SQL do Lakehouse e o Warehouse.

Ponto de extremidade de análise SQL do Lakehouse

Um ponto de extremidade de análise SQL é um depósito gerado automaticamente a partir de um Lakehouse no Microsoft Fabric. Um cliente pode fazer a transição da visualização "Lake" da Lakehouse (que suporta engenharia de dados e Apache Spark) para a visualização "SQL" da mesma Lakehouse. O ponto de extremidade de análise SQL é somente leitura e os dados só podem ser modificados por meio da visualização "Lake" do Lakehouse usando o Spark.

Por meio do ponto de extremidade de análise SQL do Lakehouse, o usuário tem um subconjunto de comandos SQL que podem definir e consultar objetos de dados, mas não manipular os dados. Você pode executar as seguintes ações no ponto de extremidade de análise SQL:

  • Consulte as tabelas que fazem referência a dados em suas pastas Delta Lake no lago.
  • Crie exibições, TVFs embutidos e procedimentos para encapsular sua semântica e lógica de negócios em T-SQL.
  • Gerencie permissões nos objetos.

Em um espaço de trabalho do Microsoft Fabric, um ponto de extremidade de análise SQL é rotulado como "Ponto de extremidade de análise SQL" na coluna Tipo . Cada Lakehouse tem um ponto de extremidade de análise SQL gerado automaticamente que pode ser aproveitado por meio de ferramentas SQL familiares, como o SQL Server Management Studio, o Azure Data Studio e o Editor de Consultas SQL do Microsoft Fabric.

Captura de tela mostrando o tipo de ponto de extremidade da análise SQL no espaço de trabalho.

Para começar a usar o ponto de extremidade de análise SQL, consulte Better together: the lakehouse and warehouse in Microsoft Fabric.

Armazém de Dados do Azure Synapse

Em um espaço de trabalho do Microsoft Fabric, um Synapse Data Warehouse ou Warehouse é rotulado como 'Warehouse' na coluna Tipo . Um armazém suporta transações, consultas DDL e DML.

Captura de tela mostrando o tipo de depósito no espaço de trabalho.

Ao contrário de um ponto de extremidade de análise SQL que suporta apenas consultas somente leitura e criação de exibições e TVFs, um Warehouse tem suporte total a DDL e DML transacional e é criado por um cliente. Um Armazém é preenchido por um dos métodos de ingestão de dados suportados, como COPY INTO, Pipelines, Dataflows, ou opções de ingestão entre bancos de dados, como CREATE TABLE AS SELECT (CTAS), INSERT.. SELECT ou SELECT INTO.

Para começar a usar o Warehouse, consulte Criar um depósito no Microsoft Fabric.

Compare o Warehouse e o ponto de extremidade de análise SQL do Lakehouse

Esta seção descreve as diferenças entre o ponto de extremidade de análise do Warehouse e do SQL no Microsoft Fabric.

Diagrama do espaço de trabalho Fabric para data warehouse, incluindo o ponto de extremidade de análise SQL e o Warehouse.

O ponto de extremidade de análise SQL é um armazém somente leitura que é gerado automaticamente após a criação a partir de um Lakehouse no Microsoft Fabric. As tabelas delta criadas por meio do Spark em um Lakehouse são automaticamente detetáveis no ponto de extremidade de análise SQL como tabelas. O ponto de extremidade de análise SQL permite que os engenheiros de dados criem uma camada relacional sobre dados físicos no Lakehouse e os exponham a ferramentas de análise e relatório usando a cadeia de conexão SQL. Os analistas de dados podem usar o T-SQL para acessar os dados do Lakehouse usando o Synapse Data Warehouse. Use o ponto de extremidade de análise SQL para projetar seu armazém para as necessidades de BI e servir dados.

O Synapse Data Warehouse ou Warehouse é um armazém de dados "tradicional" e suporta todos os recursos transacionais do T-SQL, como um armazém de dados corporativo. Ao contrário do ponto de extremidade de análise SQL, onde tabelas e dados são criados automaticamente, você tem total controle sobre a criação de tabelas, carregamento, transformação e consulta de seus dados no data warehouse usando o portal Microsoft Fabric ou comandos T-SQL.

Para obter mais informações sobre como consultar seus dados no Microsoft Fabric, consulte Consultar o ponto de extremidade de análise SQL ou Warehouse no Microsoft Fabric.

Compare diferentes capacidades de armazenagem

Para melhor atender aos seus casos de uso de análise, há uma variedade de recursos disponíveis para você. Geralmente, o armazém pode ser pensado como um superconjunto de todos os outros recursos, fornecendo uma relação sinérgica entre todas as outras ofertas de análise que fornecem T-SQL.

Dentro da malha, há usuários que podem precisar decidir entre um Warehouse, Lakehouse e até mesmo um datamart do Power BI.

Oferta do Microsoft Fabric

Armazém

Ponto de extremidade de análise SQL do Lakehouse

Datamart do Power BI


Licenciamento

Malha ou Power BI Premium

Malha ou Power BI Premium

Apenas Power BI Premium


Capacidades primárias

Compatível com ACID, armazenamento de dados completo com suporte a transações em T-SQL.

Somente leitura, ponto de extremidade de análise SQL gerado pelo sistema para Lakehouse para consulta e veiculação de T-SQL. Suporta análises nas tabelas Lakehouse Delta e nas pastas Delta Lake referenciadas através de atalhos.

Armazenamento de dados sem código e consulta T-SQL


Perfil do desenvolvedor

Desenvolvedores SQL ou desenvolvedores cidadãos

Engenheiros de Dados ou Desenvolvedores SQL

Apenas desenvolvedor cidadão


Caso de uso recomendado

  • Data Warehousing para uso empresarial
  • Data Warehousing que suporta o uso departamental, da unidade de negócios ou de autosserviço
  • Análise de dados estruturados em T-SQL com tabelas, views, procedimentos e funções e suporte SQL avançado para BI
  • Explorando e consultando tabelas delta da casa do lago
  • Dados de preparo e zona de arquivamento para análise
  • Arquitetura Medallion lakehouse com zonas para análise de bronze, prata e ouro
  • Emparelhamento com o Warehouse para casos de uso de análise empresarial
  • Casos de uso de armazenagem de pequenos departamentos ou unidades de negócios
  • Casos de uso de armazenamento de dados de autoatendimento
  • Zona de aterrissagem para fluxos de dados do Power BI e suporte SQL simples para BI

Experiência de desenvolvimento

  • Editor de armazém com suporte total para experiências de ingestão, modelagem, desenvolvimento e consulta de dados T-SQL UI para ingestão, modelagem e consulta de dados
  • Suporte de leitura/escrita para ferramentas de 1ª e 3ª partes
  • Ponto de extremidade de análise SQL Lakehouse com suporte limitado a T-SQL para exibições, funções com valor de tabela e consultas SQL
  • Experiências de interface do usuário para modelagem e consulta
  • Suporte limitado a T-SQL para ferramentas de 1ª e 3ª partes
  • Editor Datamart com suporte a consultas e experiências de interface do usuário
  • Experiências de interface do usuário para ingestão, modelagem e consulta de dados
  • Suporte somente leitura para ferramentas de 1ª e 3ª partes

Recursos do T-SQL

Suporte completo a DQL, DML e DDL T-SQL, suporte total a transações

DQL completo, sem DML, suporte limitado a DDL T-SQL, como Visualizações SQL e TVFs

Apenas DQL completo


Carregamento de dados

SQL, pipelines, fluxos de dados

Faísca, pipelines, fluxos de dados, atalhos

Apenas fluxos de dados


Suporte de tabela delta

Lê e grava tabelas Delta

Lê tabelas delta

ND


Camada de armazenamento

Formato de Dados Abertos - Delta

Formato de Dados Abertos - Delta

ND


Esquema gerado automaticamente no ponto de extremidade de análise SQL do Lakehouse

O ponto de extremidade da análise SQL gerencia as tabelas geradas automaticamente para que os usuários do espaço de trabalho não possam modificá-las. Os usuários podem enriquecer o modelo de banco de dados adicionando seus próprios esquemas SQL, exibições, procedimentos e outros objetos de banco de dados.

Para cada tabela Delta em sua Lakehouse, o ponto de extremidade de análise SQL gera automaticamente uma tabela.

As tabelas no ponto de extremidade de análise SQL são criadas com atraso. Depois de criar ou atualizar a pasta/tabela Delta Lake no lago, a tabela de depósito que faz referência aos dados do lago não será imediatamente criada/atualizada. As alterações serão aplicadas no armazém após 5-10 segundos.

Para tipos de dados de esquema gerados automaticamente para o ponto de extremidade de análise SQL, consulte Tipos de dados no Microsoft Fabric.