Partilhar via


Normas de processamento de dados para IA e análise de dados

Uma plataforma de dados unificada depende de padrões consistentes de ingestão, transformação e publicação, para que os líderes possam confiar nos dados para análises e IA. Recomendação: Estabelecer normas organizacionais que controlem que dados entram na OneLake, como as equipas refinam esses dados e como os produtos de dados regulados chegam aos consumidores (ver Figura 1). Para aplicar esta recomendação, use este artigo como uma lista de verificação:

Diagrama que mostra os três principais passos na definição de normas operacionais. Primeiro, definir padrões de processamento de dados, como como mover dados através das camadas de bronze, prata e ouro. Em segundo lugar, definir padrões de segurança para proteger produtos de dados em diferentes serviços Microsoft. Terceiro, definir padrões de consumo e ciclo de vida para produtos de dados. Figura 1. Três passos para definir padrões operacionais para dados.

1. Definir padrões de ingestão de dados

O OneLake serve como o centro de dados para análise e IA no Microsoft Fabric, pelo que os líderes têm de controlar o que entra. Recomendação: Defina limites claros para que as equipas absorvam apenas dados que suportem resultados de negócio definidos. Para aplicar esta recomendação, utilize a seguinte lista de verificação.

  1. Que dados é que unificam? Unificação de dados no OneLake significa selecionar dados que suportem um produto de dados ligado a um resultado empresarial mensurável. Boas práticas: Só traz dados para o OneLake se este suportar um produto de dados e acrescentar valor ao negócio. Trate a ingestão de dados como uma decisão do produto e não como um padrão técnico. Orientação para a decisão: Decida ingerir dados quando estes explicam ou medem um processo ou resultado de negócio que os líderes acompanham. Escolha deixar dados em sistemas operacionais ou armazenamento departamental quando não existir um caso de uso ativo. Esta escolha reduz o custo de armazenamento e a sobrecarga de governação.

  2. Mantenha o conteúdo de colaboração e conhecimento no Microsoft 365. Os dados do Microsoft 365 suportam agentes Microsoft 365 Copilot. Estes agentes recuperam documentos, emails e artefactos de colaboração respeitando as permissões existentes. Ver arquitetura do Microsoft 365 Copilot. Boas práticas: Use o Microsoft 365 como sistema de registo para conteúdos cujo principal objetivo é colaboração, referência ou recuperação de conhecimento. Utilize o guia de adoção do Microsoft 365 para preparar estes dados.

  3. Integrar bases de dados operacionais através de padrões suportados. As bases de dados operacionais frequentemente fornecem análises e cenários de IA, mas o acesso direto cria risco e instabilidade. Boas práticas: Use padrões suportados pelo Microsoft Fabric, como atalhos para acesso virtual e espelhamento para acesso replicado. As bases de dados Azure frequentemente requerem espelhamento para uma integração fiável. Orientação para a decisão: Escolha atalhos quando o acesso virtual satisfaz as necessidades de desempenho. Escolha o espelhamento quando o desempenho analítico, isolamento ou reutilização a jusante requer uma cópia física no OneLake.

  4. Integre os lagos de dados existentes. Muitas organizações já operam data lakes, como o Azure Data Lake Storage (ADLS), Google Cloud Storage ou Amazon S3. Boas práticas: Tratar os lagos existentes como parte do património unificado de dados, em vez de forçar a migração imediata. Usa atalhos ou espelho. Orientação para a decisão: Decide com base na prontidão e no risco. Para evitar duplicações, escolha atalhos. Escolha o espelhamento quando consistência, desempenho ou conformidade superam o custo de duplicação.

  5. O Surface Azure Databricks produz resultados no OneLake. O Azure Databricks muitas vezes já produz dados analíticos curados. Boas práticas: Mantenha os pipelines Databricks no lugar e faça as saídas finais de ouro no OneLake. Orientação para a decisão: Escolha atalhos para evitar a replicação e quando o acesso remoto atende às necessidades. Escolha o espelhamento quando os padrões de governação ou consumo exigem dados locais.

  6. Separe a entrada de dados interna e externa. Os dados de análise interna e os dados voltados para o exterior requerem controlos diferentes. Boas práticas: Crie espaços de trabalho separados ou áreas de lago para produtos de dados externos. Armazena apenas conjuntos de dados externos aprovados nessas localizações. Orientação para a decisão: Decida cedo se os dados apoiam decisões internas ou partilha externa. Escolha a separação física para reduzir a exposição acidental e simplificar a aplicação das políticas de segurança.

2. Definir padrões de transformação de dados

Colocar dados no OneLake é apenas o primeiro passo. O verdadeiro valor vem da transformação de dados brutos em produtos de dados de alta qualidade e prontos a usar. Os líderes não desenham pipelines, mas definem plataformas e padrões arquitetónicos que evitam a fragmentação. Recomendação: Padronizar as plataformas de transformação e impor uma arquitetura de refinamento consistente. Para aplicar esta recomendação, utilize a seguinte lista de verificação:

2.1. Utilize a plataforma certa de dados

A sua escolha de plataforma define requisitos operacionais para os seus produtos de dados em ambientes Microsoft e Azure. Recomendação: Para cada produto de dados, equilibre a simplicidade e integração com a necessidade de capacidades de engenharia especializadas. Para aplicar esta recomendação, utilize a seguinte lista de verificação:

  1. Tecido (padrão). A Fabric fornece motores integrados de engenharia de dados, análise e BI que operam diretamente no OneLake, que atua como o património unificado de dados governado da organização. Boas práticas: Use o Fabric para análises padrão, relatórios e preparação de dados. Prefira motores nativos de Fabric, como Dataflows Gen2, Spark e SQL, para simplificar o controlo de acesso, a linhagem e a gestão de custos. Usa o OneLake como única camada de armazenamento. Orientação para a decisão: Escolha o Fabric quando os requisitos se encaixam nas capacidades incorporadas e quando a liderança valoriza a governação e faturação unificadas. Aceitar personalização limitada em troca de menor sobrecarga operacional.

  2. Azure Databricks. Muitas pessoas preferem o Azure Databricks. Suporta processamento em grande escala e cenários avançados de aprendizagem automática. Boas práticas: Continue a usar Databricks onde já exista especialização ou escala. Exigir que os outputs sejam colocados no OneLake ou se conectem através de atalhos do OneLake, para que a governação, segurança e descoberta permaneçam centralizadas. Orientação para a decisão: Escolha Databricks quando o Fabric não cumpre os requisitos atuais. Aceita uma maior integração e sobrecarga de competências como compensação.

  3. Impor limites de propriedade para plataformas. Limites claros da plataforma evitam custos duplicados e lógica inconsistente entre sistemas. Boas práticas: Atribuir a responsabilidade por cada classe de carga de trabalho a uma plataforma. Exija uma revisão arquitetónica antes de aprovar o processamento multiplataforma. Orientação para a decisão: Decida qual a plataforma responsável pelos resultados de ingestão, transformação e análise. Evite transformações duplicadas e pipelines sobrepostos que entreguem o mesmo resultado empresarial.

2.2. Aplicar a arquitetura em medalhão

A arquitetura medallion estabelece confiança, consistência e governação em todos os produtos de dados, definindo uma progressão clara dos dados brutos para os resultados prontos para o negócio. Recomendação: Exija que todos os produtos de dados no OneLake sigam uma estrutura de bronze, prata e ouro e impeça o uso de atalhos que contornam estas camadas. Para aplicar esta recomendação, utilize a seguinte lista de verificação:

  1. Exigir uma camada de bronze como sistema de registo (ingestão bruta): A camada de bronze capta os dados exatamente como chegam ao OneLake e preserva a fidelidade da fonte original. Boas práticas: Armazene os dados apenas como acréscimos e imutáveis. Proibir correções ou enriquecimento nesta fase. Exige que todos os conjuntos de dados de entrada sejam armazenados primeiro na camada bronze. Orientação para a decisão: Decidir que o bronze existe apenas para preservar a verdade dos sistemas fonte. Aceitar uma usabilidade mais lenta em troca de auditabilidade e rastreabilidade.

  2. Estabelecer a camada prateada como a visão confiável. A camada de prata contém dados validados, padronizados e limpos nos quais as equipas dependem para uma análise consistente. Boas práticas: Aplicar regras de qualidade de dados, alinhamento de formatos e validação básica de negócios. Documente os conjuntos de dados de prata de forma clara e gere as alterações através de processos de governação. Guia de decisão: Escolha prata como camada limpa e autoritativa. Proíbe as equipas de processar novamente os dados brutos de forma independente, o que gera interpretações contraditórias.

  3. Ouro (contexto empresarial, produtos de dados): Certificar conjuntos de dados de ouro como produtos de dados empresariais. A camada ouro fornece produtos de dados governados que os líderes utilizam para decisões, acompanhamento de desempenho e relatórios. Boas práticas: Alinhe os dados de ouro com definições e métricas de negócio aprovadas. Otimize as estruturas para o consumo. Registe cada conjunto de dados gold como produto de dados na Microsoft Purview com dados de propriedade, propósito e detalhes de atualização. Orientação para a decisão: Decidir que qualquer conjunto de dados usado entre equipas ou para decisões deve existir em ouro. Rejeite conjuntos de dados não geridos ou não certificados que contornam a governação.

  4. Crie produtos desinfetados para uso externo. A partilha externa requer uma separação deliberada dos dados operacionais internos. Boas práticas: Produzir conjuntos de dados selecionados que removam ou mascarem campos sensíveis e reduzam detalhes quando necessário. Atribuir a propriedade e aplicar rótulos claros, como Uso Público ou Externo. Armazene estes conjuntos de dados em locais aprovados. Orientação para a decisão: Escolha tratar conjuntos de dados externos como produtos independentes. Aceite medidas adicionais de governação para reduzir riscos legais e de segurança.

O Fabric suporta este modelo através de vistas de lago materializadas que podem gerir automaticamente as transformações. Ver Medallion Lakehouse Architecture no Fabric. Para uma arquitetura analítica, consulte Analytics End-to-End with Microsoft Fabric.

Tabela. Exemplo de arquitetura de medalhões. A camada ouro combina dados de dois conjuntos de dados.

Conjunto de dados Camada Dados de exemplo O que aconteceu
Transações de vendas Bronze OrderID=984321 · StoreID=17 · Quantia="1.200" · TxnDate="2026-01-05T14:32:09Z" Este disco chegou do sistema de vendas exatamente como foi enviado. O valor é texto. O timestamp segue o formato do sistema. Não é aplicado qualquer significado.
Prata OrderID=984321 · StoreID=17 · Montante=1200,00 · TxnData=2026-01-05 A transação é padronizada e validada. A quantidade é numérica. A data segue as regras empresariais. Os dados são agora fiáveis.
Referência da loja Bronze StoreID="17" · NomeRegião="ESTE " Este registo chegou de um sistema de localização. A formatação reflete a fonte.
Prata StoreID=17 · Região=Este Os identificadores de loja alinham-se com os dados de vendas. Os valores das regiões são limpos e consistentes.
Receita diária por região Ouro Região=Este · Data=2026-01-05 · Receita Total=425000 Este valor combina transações de vendas de prata com dados de referência de lojas de prata. Os registos individuais são resumidos para responder a uma questão empresarial.

2.3. Considere uma camada de ouro adaptativa

O Adaptive Gold está incluído aqui como uma consideração para o futuro. A ideia é usar agentes de IA para criar camadas de ouro. Os agentes podem observar padrões que tu talvez não consigas observar. Se os utilizadores pedirem frequentemente "principais problemas de clientes por região por mês", os agentes de IA podem materializar esse conjunto de dados. Esta funcionalidade não é disponibilizada de fábrica no Microsoft Fabric atualmente. Isto exigiria construir um agente de IA personalizado que operasse com telemetria Fabric e Power BI.

3. Definir padrões de publicação de produtos de dados

As normas de publicação definem como a sua organização expõe produtos de dados confiáveis através do Microsoft Fabric, OneLake e Microsoft Purview. O objetivo é escalar a reutilização, impor a governação e reduzir o risco em análises e cargas de trabalho em IA. Recomendação: Estabelecer um único padrão de publicação que torne cada produto de dados aprovado descobrível, regulado e claramente destinado a um público definido antes de uma utilização alargada. Para aplicar esta recomendação, utilize a seguinte lista de verificação:

  1. Padronizar a publicação através do Catálogo OneLake. OneLake Catalog fornece uma superfície de acesso unificada para produtos de dados através do Fabric e de plataformas de processamento externas, como o Databricks. Boas práticas: Use o OneLake como camada padrão de execução e consumo para todos os produtos de dados aprovados. Trate o Microsoft Purview como o sistema de registo para a governação e definições de negócios. Este alinhamento permite que Power BI, agentes de dados Fabric e Azure AI Search consumam dados de forma consistente, ao mesmo tempo que possibilitam uma visibilidade centralizada da governação.

  2. Garantir a descoberta. A capacidade de descoberta garante que decisores e consumidores possam encontrar produtos de dados confiáveis sem depender de conhecimento informal. Boas práticas: Configure a visibilidade do espaço de trabalho do Fabric para que os públicos relevantes possam descobrir os itens. Não precisam de acesso, apenas da possibilidade de pedir acesso. Ative os fluxos de trabalho de pedidos de acesso ao Purview para que os utilizadores possam pedir permissão diretamente ao catálogo. Orientação para a decisão: Escolha a descoberta ampla quando o objetivo é a reutilização entre domínios. Escolha a descoberta limitada quando se aplicarem restrições regulatórias ou de confidencialidade. Equilibra a visibilidade com os controlos de acesso em vez de esconder os ativos.

  3. Exigir o enriquecimento de metadados na publicação. Os metadados fornecem contexto que permite aos líderes avaliar a aptidão física, a confiança e a reutilização de um produto de dados. Boas práticas: Exigir metadados descritivos na publicação. Use etiquetas no Fabric para classificar produtos por domínio de negócio ou iniciativa. Certifique-se de que as descrições explicam o propósito e o âmbito dos dados. Esta prática apoia a pesquisa por catálogo e aumenta a confiança na reutilização. Orientação para a decisão: Decida se os requisitos de metadados permanecem mínimos ou se aplica um esquema padrão. Escolha um esquema padrão quando a organização opera múltiplos domínios e necessita de consistência. Escolha uma abordagem mais leve para as fases iniciais de maturidade.

  4. Endossar e certificar quando apropriado. Defina critérios de endosso e certificação. O endosso sinaliza o nível de confiança e maturidade na governação da organização. Boas práticas: Utilize a palavra 'Promovido' para indicar produtos recomendados pelo domínio. Use Certificado para indicar produtos que passaram numa revisão formal de governação. Aplique certificação a conjuntos de dados Gold que suportem relatórios executivos ou análises críticas. Consulte a orientação sobre aprovações da Referência Fabric em Endosso. Orientação para a decisão: Decida quais os produtos que requerem certificação. Escolha a certificação obrigatória para cargas de trabalho executivas ou regulatórias. Escolha a certificação opcional quando a velocidade e a experimentação têm prioridade. Aceita uma integração mais lenta como compensação por maior confiança.

  5. Publique como produto de dados no Purview. Os produtos de dados Purview fornecem uma visão de nível mais elevado que agrupa os ativos num ciclo de vida gerido do produto. Boas práticas: Crie uma entrada de produto de dados Purview para cada produto de dados publicado. Inclua o nome do produto, descrição, proprietários, estado de qualidade e ativos relacionados, como tabelas, modelos e relatórios. Produtos de Dados de Referência no Catálogo Unificado. Orientação para a decisão: Decida se os produtos de dados Purview são necessários para todos os ativos publicados ou apenas para produtos estratégicos. Escolha cobertura total quando a visibilidade do portfólio for relevante. Escolha cobertura seletiva quando a capacidade de governação for limitada.

  6. Declare o público e o uso pretendidos. A intenção clara previne o uso indevido e apoia a conformidade em análises e cenários de IA. Boas práticas: Exigir que cada produto de dados indique o seu público-alvo e o tipo de carga de trabalho suportado. Especifique o uso interno, parceiro ou público. Identifique cenários de IA, analytics, BI ou web pública. Use metadados do Purview, termos do glossário e etiquetas de sensibilidade em conjunto para expressar esta intenção de forma consistente. Orientação para a decisão: Decida se o uso externo ou de agente requer aprovação adicional. Escolha uma aprovação mais rigorosa quando os dados saem dos limites organizacionais. Aceite uma publicação mais lenta como compensação para reduzir o risco.

Próximo passo