Partilhar via


Usar base de dados SQL em ETL inverso

Aplica-se a:Base de dados SQL em Microsoft Fabric

Este artigo descreve como usar uma base de dados SQL no Fabric como um alvo de ETL inverso dentro de um conjunto de dados baseado em Fabric. Fornece orientação arquitetónica, padrões operacionais e considerações de implementação para transferir dados selecionados de fontes analíticas (como Microsoft Fabric Data Warehouse ou Fabric Lakehouse) para uma base de dados SQL no Fabric para consumo operacional por aplicações, APIs e experiências em tempo real.

O que é o ETL invertido em Fabric?

Muitos clientes investiram tempo e esforço significativos na criação de processos de extração, transformação, carregamento (ETL ) para transformar dados operacionais brutos em dados analíticos mais refinados, que podem ser usados em relatórios empresariais. O resultado final de um processo ETL é tipicamente um armazenamento analítico, como um armazém ou uma casa de lago, ao qual uma camada de reporte como o Power BI acede. Esta arquitetura serve bem os utilizadores empresariais, mas os relatórios são relativamente estáticos e os insights só podem ser obtidos por intervenção humana. Ao usar ETL reverso, pode alimentar os dados transformados de volta para os sistemas operacionais, permitindo que aplicações e agentes obtenham insights a partir desses dados analisados em tempo real. ETL reverso transfere dados de factos e dimensões em armazenamentos analíticos para uma camada de serviço onde podem ser acedidos por intermédio de endpoints, tais como GraphQL ou diretamente através de consultas TDS (Tabular Data Stream).

Embora possa ligar aplicações operacionais diretamente a um armazém ou a uma casa de lago, estes armazenamentos de dados são concebidos para cargas de trabalho analíticas. Os repositórios de dados operacionais, tal como as bases de dados SQL no Fabric, são concebidos para suportar consultas transacionais e proporcionam melhor desempenho e escalabilidade para cargas de trabalho operacionais. As bases de dados operacionais também oferecem a opção de enriquecer ainda mais os dados com embeddings vetoriais e metadados adicionais para facilitar a pesquisa vetorial e híbrida, bem como a geração aumentada por recuperação (RAG).

  • Neste padrão, o armazém ou a casa do lago continua a ser o sistema analítico de registo.
  • A base de dados SQL no Fabric serve como uma loja operacional que oferece baixa latência, indexação refinada, restrições rigorosas de dados e relações, e os SLAs esperados pelas equipas de aplicação.

Alvos comuns de ETL inverso

Os alvos de ETL inverso comuns normalmente representam fatias de dados curadas e de alto valor que os sistemas operacionais podem consumir com transformação mínima. Estes alvos são concebidos para fornecer acesso de baixa latência a dados confiáveis, preservando a lógica de negócio aplicada na camada analítica. Os exemplos incluem:

  • Dados de clientes e utilizadores (por exemplo, métricas de envolvimento como atividade de sessões, utilização de funcionalidades e interações)
  • Dados de vendas e marketing (por exemplo, métricas de pontuação como propensão para comprar, scores de envolvimento, probabilidade de converter)
  • Dados operacionais e transacionais (por exemplo, dados de encomendas e inventário como níveis de stock, estado das encomendas e prazos de entrega)
  • Dados derivados de IA/ML (por exemplo, recomendações personalizadas de produtos, pontuações preditivas como risco de churn ou propensão para upsell, ou análise de sentimento)

Mecanismos de movimentação de dados

O processo começa por definir os seus dados de origem, definir o destino e depois selecionar um mecanismo de movimentação de dados. Escolha um ou mais dos seguintes mecanismos para transferir dados do seu armazenamento analítico para uma base de dados SQL no Fabric.

Sugestão

Como regra geral, utilize:

  • Pipelines para cópias simples e cargas agendadas.
  • Dataflows Gen2 para transformações de baixo código.
  • Spark para processamento complexo e em grande escala (incluindo aprendizagem automática).
  • Cross-item T-SQL quando disponível para manter as operações centradas em SQL, por exemplo, unir uma tabela numa base de dados SQL a uma tabela num armazém de dados ou num endpoint analítico SQL.
Mecanismo Utilização quando Pontos fortes Considerações
Pipelines de dados de estrutura Precisa de cargas geridas e repetíveis (lote ou microlote) de operações de cópia de dados Integração de alto nível; suporta marcação d'água digital e procedimentos armazenados Concorrência; escala base de dados SQL durante os carregamentos
Fluxo de dados Gen2 Precisas de transformações de dados em low-code e de lógica de processos melhorada. Favorável aos negócios; suporta a modelação e a limpeza da coluna Menor débito para volumes grandes; Partição de planos
Spark (cadernos/tarefas) Precisas de transformações complexas baseadas em código e remodelação em grande escala Controle total do código; leituras Delta eficientes; suporte de escrita JDBC Autenticação e agrupamento; Evite transações grandes
Consultas T-SQL entre vários itens Precisas de mover SQL no banco de dados entre itens do Fabric Canalização mínima; SQL nativo; Fácil de agendar

Arquitetura de referência: ETL reverso para base de dados SQL no Fabric

A arquitetura de referência para ETL reverso no Fabric reúne os blocos essenciais necessários para operacionalizar dados analíticos curados. Mostra como os dados fluem de fontes analíticas confiáveis através de camadas de transformação para uma base de dados SQL estruturada. A base de dados operacional serve como interface para sistemas a jusante. Este padrão garante que aplicações, APIs e ferramentas de relatórios possam aceder a dados de baixa latência e alta qualidade sem comprometer a integridade do sistema analítico de registo.

Os componentes centrais deste fluxo incluem:

  • Fonte: Conjuntos de dados selecionados de um Fabric Data Warehouse ou Lakehouse (Delta).
  • Transformações: Transformações ETL inversas aplicadas usando Pipelines, Dataflow Gen2, Spark ou T-SQL entre itens.
  • Alvo: base de dados SQL em Fabric com esquemas definidos de aterragem, histórico (opcional), quarentena e serviço.
  • Consumidores: Aplicações via GraphQL ou TDS, APIs e Power BI para painéis e relatórios em tempo real.

Diagrama de uma arquitetura de referência ETL inversa envolvendo base de dados SQL em Fabric.

Components

Os seguintes componentes estão envolvidos no fluxo geral para usar uma base de dados SQL no Fabric como alvo de ETL inverso.

Esquemas de serviço e desembarque

  • Mapear os dados de origem para esquemas de aterragem apropriados na base de dados SQL no Fabric.
  • Opcionalmente, mantenha um history esquema para auditabilidade.
  • Use um quarantine esquema para rejeições (questões de qualidade dos dados).
  • Defina um serving esquema para consumo a jusante com restrições e indexação apropriadas.

Orquestração

  • Agendar transferências no Fabric utilizando Pipelines, Dataflows ou Spark Jobs.
  • Use o agendamento incorporado para configurar cadência, hora de início e fuso horário.
  • Agende Spark Notebooks através da API ou do portal Fabric.
  • Monitorize execuções de ponta a ponta no hub de Monitorização Fabric.

Consumo

  • Expor dados através de endpoints GraphQL ou T-SQL via TDS usando bibliotecas clientes como ADO.NET (e outras).
  • Constrói dashboards e visualizações do Power BI diretamente sobre a base de dados SQL no Fabric.

Governação e segurança

  • Use o ID Microsoft Entra para autenticação e autorização.
  • Combinar as permissões dos papéis de espaço de trabalho do Fabric e as permissões SQL para um controlo mais granular.
  • Opcionalmente, configure chaves geridas pelo cliente para encriptação de dados em repouso.
  • Audite o acesso e proteja os dados durante o trânsito utilizando o Private Link.

Serviço de aplicações

Depois de curar e atualizar os dados na base de dados SQL, mude o foco para permitir um acesso rápido e fiável aos consumidores operacionais. Neste contexto, servir aplicações significa expor conjuntos de dados de confiança através de interfaces de baixa latência que se alinham com padrões de aplicação modernos.

Depois de os dados serem recolhidos e atualizados na base de dados SQL no Fabric:

  • Para servir cargas de trabalho operacionais, expor dados por meio de endpoints GraphQL ou do protocolo TDS, para serem consumidos por meio de bibliotecas ADO.NET e de outros clientes. Por exemplo, forneça informações sobre produtos, cadeia de abastecimento ou casos de uso de atendimento ao cliente.
  • Combine o conjunto de dados com o Power BI para fornecer dashboards em tempo real e análises de autosserviço.

Considerações específicas do tecido

A base de dados SQL no Fabric utiliza o mesmo Motor de Base de Dados SQL do Azure SQL Database e é controlada, segura, faturada e operada através do portal Fabric. Também oferece espelhamento integrado em ficheiros Delta/Parquet armazenados no Microsoft OneLake, acedido através de um endpoint de análise SQL. Como está no ambiente Microsoft Fabric, há algumas considerações a considerar ao criar o seu design:

  • Paridade de funcionalidades: a base de dados SQL no Fabric está a convergir com a Azure SQL Database. Valide as funcionalidades específicas de que necessita para garantir que são adequadas ao propósito e monitorize as atualizações do roteiro.
  • Modelo de segurança: A base de dados SQL no Fabric utiliza apenas autenticação Microsoft Entra ID . Planeie as identidades para os trabalhos de Pipelines, Dataflows e Spark em conformidade.
  • Replicação: A base de dados SQL no Fabric replica automaticamente os dados de apenas leitura para o OneLake. Esta sincronização é útil para necessidades de relatórios e análise, enquanto a base de dados permanece disponível para cargas de trabalho operacionais de leitura/escrita.