Arquiteturas de referência Lakehouse (disponível para download)

2025-06-11

Este artigo aborda a orientação arquitetónica para o lakehouse em termos de fonte de dados, ingestão, transformação, consulta e processamento, disponibilização, análise e armazenamento.

Cada arquitetura de referência tem um PDF para download em formato 11 x 17 (A3).

Enquanto o lakehouse no Databricks é uma plataforma aberta que se integra a um grande ecossistema de ferramentas de parceiros, as arquiteturas de referência se concentram apenas nos serviços do Azure e no Lakehouse do Databricks. Os serviços do fornecedor de serviços de computação em nuvem apresentados são selecionados para ilustrar os conceitos e não são exaustivos.

Arquitetura de referência para o Azure Databricks lakehouse.

Download: Arquitetura de referência para o Azure Databricks lakehouse

A arquitetura de referência do Azure mostra os seguintes serviços específicos do Azure para ingestão, armazenamento, serviço e análise:

Azure Synapse e SQL Server como sistemas de origem para Lakehouse Federation
Hub IoT do Azure e Centros de Eventos do Azure para ingestão de streaming
Azure Data Factory para ingestão em lote
Azure Data Lake Storage Gen 2 (ADLS) como o armazenamento de objetos para dados e ativos de IA
Azure SQL DB e Azure Cosmos DB como bancos de dados operacionais
Azure Purview como o catálogo empresarial para o qual a UC exporta informações de esquema e linhagem
Power BI como a ferramenta de BI
O Azure OpenAI pode ser usado pelo Serviço de Modelo como um LLM externo.

Organização das arquiteturas de referência

A arquitetura de referência é estruturada nas raias Origem, Ingestão, Transformação, Consulta/Processo, Serviço, Análise e Armazenamento:

Fonte

Existem três formas de integrar dados externos na Plataforma de Inteligência de Dados:
- ETL: A plataforma permite a integração com sistemas que fornecem dados semiestruturados e não estruturados (como sensores, dispositivos IoT, mídia, arquivos e logs), bem como dados estruturados de bancos de dados relacionais ou aplicativos de negócios.
- Lakehouse Federation: fontes SQL, como bancos de dados relacionais, podem ser integradas ao lakehouse e ao Unity Catalog sem ETL. Nesse caso, os dados do sistema de origem são governados pelo Unity Catalog, e as consultas são enviadas para o sistema de origem.
- Federação de catálogos: Os catálogos do Hive Metastore também podem ser integrados ao Unity Catalog por meio da federação de catálogos, permitindo que o Unity Catalog controle as tabelas armazenadas no Hive Metastore.
Ingerir

Ingerir dados no lakehouse por lote ou por streaming.
- Databricks Lakeflow Connect oferece conectores integrados para ingestão de aplicativos corporativos e bancos de dados. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e Lakeflow Declarative Pipelines.
- Os arquivos entregues ao armazenamento em nuvem podem ser carregados diretamente usando o Databricks Auto Loader.
- Para a ingestão em lote de dados de aplicações empresariais no Delta Lake, o Databricks lakehouse conta com ferramentas de ingestão de parceiros com adaptadores específicos para esses sistemas de registo.
- Os eventos de streaming podem ser ingeridos diretamente de sistemas de streaming de eventos, como o Kafka, usando o Databricks Structured Streaming. As fontes de streaming podem ser sensores, IoT ou alterar processos de captura de dados .
Armazenamento
- Os dados são normalmente armazenados no sistema de armazenamento em nuvem, onde os pipelines ETL usam a arquitetura medallion para armazenar dados de forma selecionada como arquivos/tabelas Delta ou tabelas Apache Iceberg.
Transformar e Consultar/processar
- O lago Databricks usa seus motores Apache Spark e Photon para todas as transformações e consultas.
- Lakeflow Declarative Pipelines é uma estrutura declarativa para simplificar e otimizar pipelines de processamento de dados confiáveis, sustentáveis e testáveis.
- Alimentada pelo Apache Spark e Photon, a Databricks Data Intelligence Platform suporta ambos os tipos de cargas de trabalho: consultas SQL via armazéns SQL e cargas de trabalho SQL, Python e Scala via clusters de espaço de trabalho.
- Para ciência de dados (Modelagem de ML e Gen AI), a plataforma Databricks IA e Aprendizagem de Máquina fornece tempos de execução de ML especializados para AutoML e para codificação de trabalhos de ML. Todos os fluxos de trabalho de ciência de dados e MLOps são melhor suportados pelo MLflow.
Servir

Para casos de uso de armazenamento de dados (DWH) e BI, o Databricks lakehouse fornece Databricks SQL, o data warehouse alimentado por armazéns SQL e armazéns SQL sem servidor.
- Para aprendizado de máquina, o Mosaic AI Model Serving é um recurso de serviço de modelo escalável, em tempo real e de nível empresarial hospedado no plano de controle Databricks. O Mosaic AI Gateway é uma solução Databricks para controlar e monitorar o acesso a modelos de IA generativa suportados e seus endpoints de serviço de modelo associados.
- Bancos de dados operacionais: Sistemas externos, como bancos de dados operacionais, podem ser usados para armazenar e entregar produtos de dados finais para aplicativos de usuários.
- Colaboração: Os parceiros de negócios obtêm acesso seguro aos dados de que precisam por meio do Delta Sharing. Com base no Delta Sharing, o Databricks Marketplace é um fórum aberto para a troca de produtos de dados.
- As Salas Limpas são ambientes seguros e que protegem a privacidade, onde vários usuários podem trabalhar juntos em dados corporativos confidenciais sem acesso direto aos dados uns dos outros.
Análise
- As aplicações finais de negócio estão nesta raia. Exemplos incluem clientes personalizados, como aplicativos de IA conectados ao Mosaic AI Model Serving para inferência em tempo real ou aplicativos que acessam dados enviados da casa do lago para um banco de dados operacional.
- Para casos de uso de BI, os analistas normalmente usam ferramentas de BI para acessar o data warehouse. Os desenvolvedores de SQL também podem usar o Editor SQL Databricks (não mostrado no diagrama) para consultas e painéis.
- A plataforma de inteligência de dados também oferece painéis para criar visualizações de dados e compartilhar insights.
Integrar
- A plataforma Databricks integra-se com provedores de identidade padrão para gerenciamento de usuários e logon único (SSO).
- Serviços externos de IA como OpenAI,LangChain ou HuggingFace podem ser usados diretamente de dentro da Databricks Intelligence Platform.
- Os orquestradores externos podem usar a abrangente API REST ou conectores dedicados para ferramentas de orquestração externas, como o Apache Airflow .
- O Unity Catalog é usado para todos os dados e governança de IA na Databricks Intelligence Platform e pode integrar outros bancos de dados em sua governança por meio da Lakehouse Federation.
  
  Além disso, o Unity Catalog pode ser integrado em outros catálogos corporativos, por exemplo, Purview. Entre em contato com o fornecedor do catálogo corporativo para obter detalhes.

Recursos comuns para todas as cargas de trabalho

Além disso, o Databricks lakehouse vem com recursos de gerenciamento que suportam todas as cargas de trabalho:

Governança de dados e IA

O sistema central de governança de dados e IA na plataforma de inteligência de dados Databricks é o Unity Catalog. O Unity Catalog fornece um único local para gerenciar políticas de acesso a dados que se aplicam a todos os espaços de trabalho e suportam todos os ativos criados ou usados na lakehouse, como tabelas, volumes, recursos (repositório de recursos) e modelos (registro de modelo). O Unity Catalog também pode ser usado para capturar linhagens de dados de tempo de execução em consultas executadas no Databricks.

O Databricks de monitoramento de lakehouse permite que você monitore a qualidade dos dados de todas as tabelas em sua conta. Ele também pode acompanhar o desempenho de modelos de aprendizado de máquina e endpoints de disponibilização de modelos.

Para observabilidade, as tabelas do sistema são um armazenamento analítico hospedado pelo Databricks dos dados operacionais da sua conta. As tabelas do sistema podem ser usadas para observabilidade histórica em toda a sua conta.
Mecanismo de inteligência de dados

A plataforma de inteligência de dados Databricks permite que toda a sua organização use dados e IA, combinando IA generativa com os benefícios de unificação de uma casa de lago para entender a semântica única de seus dados. Consulte Funcionalidades baseadas em IA do Databricks.

O Assistente Databricks está disponível em notebooks Databricks, editor SQL, editor de arquivos e em outros lugares como um assistente de IA sensível ao contexto para usuários.
Automação e orquestração

O Lakeflow Jobs orquestra o processamento de dados, o aprendizado de máquina e os pipelines de análise na plataforma de inteligência de dados Databricks. Os pipelines declarativos Lakeflow permitem que você construa pipelines ETL confiáveis e fáceis de manter com sintaxe declarativa. A plataforma suporta também CI/CD e MLOps

Casos de uso de alto nível para a Plataforma de Inteligência de Dados no Azure

Ingestão integrada de aplicativos e bancos de dados SaaS com o Lakeflow Connect

Ingestão com LFC no Azure Databricks.

Download: Arquitetura de referência do Lakeflow Connect para Azure Databricks.

O Databricks Lakeflow Connect oferece conectores integrados para ingestão de aplicativos corporativos e bancos de dados. O pipeline de ingestão resultante é governado pelo Unity Catalog e é alimentado por computação sem servidor e Lakeflow Declarative Pipelines.

O Lakeflow Connect aproveita leituras e gravações incrementais eficientes para tornar a ingestão de dados mais rápida, escalável e econômica, enquanto seus dados permanecem atualizados para consumo downstream.

Ingestão em lote e ETL

Arquitetura de referência para ETL em lote no Azure Databricks.

Download: Arquitetura de referência de ETL em lote para o Azure Databricks

As ferramentas de ingestão usam adaptadores específicos da fonte para ler dados da fonte e, em seguida, armazená-los no armazenamento em nuvem de onde Auto Loader pode lê-los ou chamar o Databricks diretamente (por exemplo, com ferramentas de ingestão de parceiros integradas no lakehouse do Databricks). Para carregar os dados, o ETL do Databricks e o mecanismo de processamento executam as consultas por meio do Lakeflow Declarative Pipelines. Orquestre trabalhos de tarefa única ou múltipla usando o Lakeflow Jobs e controle-os usando o Unity Catalog (controle de acesso, auditoria, linhagem e assim por diante). Para fornecer acesso a tabelas douradas específicas para sistemas operacionais de baixa latência, exporte as tabelas para um banco de dados operacional, como um RDBMS ou armazenamento de chave-valor no final do pipeline de ETL.

Streaming e captura de dados das alterações (CDC)

Arquitetura de streaming estruturada do Spark no Azure Databricks.

Download: Arquitetura de streaming estruturada do Spark para o Azure Databricks

O mecanismo ETL do Databricks usa o Spark Structured Streaming para ler filas de eventos como Apache Kafka ou Hub de Eventos do Azure. As etapas subsequentes seguem a abordagem do caso de uso em lote acima.

A captura de dados de alteração em tempo real (CDC) normalmente usa uma fila de eventos para armazenar os eventos extraídos. A partir daí, o caso de uso segue o modelo de streaming.

Se o CDC for realizado em lote, onde os registos extraídos são inicialmente armazenados na nuvem, o Databricks Autoloader pode lê-los, e assim, o caso de uso segue o modelo de ETL em lote.

Machine learning e IA (tradicional)

Arquitetura de referência de aprendizado de máquina e IA para o Azure Databricks.

Download: Aprendizado de máquina e arquitetura de referência de IA para o Azure Databricks

Para aprendizado de máquina, a Databricks Data Intelligence Platform fornece Mosaic AI, que vem com bibliotecas de aprendizado profundo e de máquina de última geração. Ele fornece funcionalidades como Feature Store e Model Registry (ambos integrados no Unity Catalog), funcionalidades de low-code com AutoML e integração do MLflow no ciclo de vida da ciência de dados.

Todos os ativos relacionados à ciência de dados (tabelas, recursos e modelos) são governados pelo Unity Catalog e os cientistas de dados podem usar o Lakeflow Jobs para orquestrar seus trabalhos.

Para implantar modelos de forma escalável e de nível empresarial, use os recursos MLOps para publicar os modelos no serviço de modelos.

Aplicações do AI Agent (Gen AI)

Arquitetura de referência de aplicativo Gen AI para Azure Databricks.

Download: Arquitetura de referência de aplicativo Gen AI para Azure Databricks

Para implantar modelos de forma escalável e de nível empresarial, use os recursos MLOps para publicar os modelos no serviço de modelos.

Análise de BI e SQL

Arquitetura de referência de análise de BI e SQL para o Azure Databricks.

Download: arquitetura de referência de análise de BI e SQL para Azure Databricks

Para casos de uso de BI, os analistas de negócios podem usar painéis, o editor Databricks SQL ou ferramentas de BI , como Tableau ou Power BI. Em todos os casos, o mecanismo é Databricks SQL (serverless ou non-serverless), e o Unity Catalog fornece descoberta de dados, exploração e controle de acesso.

Federação Lakehouse

Arquitetura de referência de federação Lakehouse para Azure Databricks.

Download: Arquitetura de referência de federação Lakehouse para Azure Databricks

A Lakehouse Federation permite que bancos de dados SQL externos (como MySQL, Postgres, SQL Server ou Azure Synapse) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem beneficiar-se disso sem a necessidade de enviar os dados para armazenamento de objetos através de ETL primeiro. O catálogo de origem externa é integrado ao catálogo Unity, e o controlo de acesso detalhado pode ser aplicado através da plataforma Databricks.

Federação de catálogos

Arquitetura de referência de federação de catálogo para o Azure Databricks.

Download: Arquitetura de referência de federação de catálogo para o Azure Databricks

A federação de catálogos permite que Metastores Hive externos (como MySQL, Postgres, SQL Server ou Azure Synapse) sejam integrados ao Databricks.

Todas as cargas de trabalho (IA, DWH e BI) podem beneficiar-se disso sem a necessidade de enviar os dados para armazenamento de objetos através de ETL primeiro. O catálogo de origem externa é adicionado ao Unity Catalog onde o controle de acesso refinado é aplicado por meio da plataforma Databricks.

Arquitetura de referência de compartilhamento de dados corporativos para o Azure Databricks.

Download: Partilhar dados com ferramentas de terceiros através da arquitetura de referência para o Azure Databricks

O compartilhamento de dados de nível empresarial com terceiros de 3ª parte é fornecido pela Delta Sharing. Ele permite o acesso direto aos dados no repositório de objetos protegido pelo Unity Catalog. Esse recurso também é usado no Databricks Marketplace, um fórum aberto para troca de produtos de dados.

Consumir dados compartilhados do Databricks

Consuma dados compartilhados do Databricks para Azure Databricks.

Download: Consumir dados compartilhados da arquitetura de referência do Databricks para o Azure Databricks

O protocolo Delta Sharing Databricks-to-Databricks permite compartilhar dados com segurança com qualquer usuário Databricks, independentemente da conta ou host na nuvem, desde que esse usuário tenha acesso a um espaço de trabalho habilitado para o Unity Catalog.