Compartilhar via


Padrões de processamento de dados para IA e análise

Uma plataforma de dados unificada depende de padrões consistentes de ingestão, transformação e publicação para que os líderes possam confiar em dados para análise e IA. Recomendação: Estabeleça padrões de toda a organização que controlam quais dados entram no OneLake, como as equipes refinam esses dados e como os produtos de dados controlados alcançam os consumidores (consulte a Figura 1). Para aplicar essa recomendação, use este artigo como uma lista de verificação:

Diagrama mostrando as três etapas principais na definição de padrões operacionais. Primeiro, defina padrões de processamento de dados, como mover dados pelas camadas bronze, prata e ouro. Em segundo lugar, defina padrões de segurança para como proteger produtos de dados em diferentes serviços da Microsoft. Em terceiro lugar, defina padrões de consumo e ciclo de vida para produtos de dados. Figura 1. Três etapas para definir padrões operacionais para dados.

1. Definir padrões de ingestão de dados

O OneLake serve como o data lake central para análise e IA no Microsoft Fabric, portanto, os líderes devem controlar o que entra. Recomendação: Defina limites claros para que as equipes ingeram apenas dados que dão suporte a resultados de negócios definidos. Para aplicar essa recomendação, use a lista de verificação a seguir.

  1. Quais dados você unifica? A unificação de dados no OneLake significa selecionar dados que dão suporte a um produto de dados vinculado a um resultado de negócios mensurável. Práticas recomendadas: Só traga dados para o OneLake se ele der suporte a um produto de dados e adicionar valor comercial. Trate a ingestão de dados como uma decisão do produto em vez de um padrão técnico. Diretrizes de decisão: Decida ingerir dados quando ele explica ou mede um processo de negócios ou resultado que os líderes acompanham. Escolha deixar dados em sistemas operacionais ou armazenamento departamental quando não houver nenhum caso de uso ativo. Essa opção reduz o custo de armazenamento e a sobrecarga de governança.

  2. Mantenha o conteúdo de colaboração e conhecimento no Microsoft 365. Os dados do Microsoft 365 dão suporte a agentes do Microsoft 365 Copilot. Esses agentes recuperam documentos, emails e artefatos de colaboração, respeitando as permissões existentes. Consulte a arquitetura do Microsoft 365 Copilot. Práticas recomendadas: Use o Microsoft 365 como o sistema de registro para conteúdo cuja finalidade principal é colaboração, referência ou recuperação de conhecimento. Use o guia de adoção do Microsoft 365 para preparar esses dados.

  3. Integre bancos de dados operacionais por meio de padrões com suporte. Os bancos de dados operacionais geralmente fornecem análises e cenários de IA, mas o acesso direto cria risco e instabilidade. Práticas recomendadas: Use padrões compatíveis com o Microsoft Fabric, como atalhos para acesso virtual e espelhamento para acesso replicado. Os bancos de dados do Azure geralmente exigem espelhamento para uma integração confiável. Orientação para decisões: Optar por atalhos quando o acesso virtual satisfaz os requisitos de desempenho. Escolha espelhamento quando o desempenho da análise, o isolamento ou a reutilização downstream exigir uma cópia física no OneLake.

  4. Integrar data lakes existentes. Muitas organizações já operam data lakes, como a ADLS (Azure Data Lake Storage), o Google Cloud Storage ou o Amazon S3. Práticas recomendadas: Trate os lagos existentes como parte do patrimônio de dados unificado em vez de forçar a migração imediata. Use atalhos ou espelhamento. Diretrizes de decisão: Decida com base na preparação e no risco. Para evitar a duplicação, escolha atalhos. Escolha espelhamento quando a consistência, o desempenho ou a conformidade superam o custo de duplicação.

  5. Torne visíveis as saídas do Azure Databricks no OneLake. O Azure Databricks geralmente já produz dados de análise coletados. Práticas recomendadas: Mantenha os pipelines do Databricks em funcionamento e exiba as saídas finais Gold no OneLake. Diretrizes de decisão: Escolha atalhos para evitar a replicação e quando o acesso remoto atender às necessidades. Escolha espelhamento quando os padrões de governança ou consumo exigirem dados locais.

  6. Separar a ingestão de dados interna e externa. Dados de análise interna e dados voltados para o externo exigem controles diferentes. Práticas recomendadas: Crie espaços de trabalho separados ou áreas de lago para produtos de dados externos. Armazene somente conjuntos de dados externos aprovados nesses locais. Diretrizes de decisão: Decida antecipadamente se os dados dão suporte a decisões internas ou compartilhamento externo. Escolha a separação física para reduzir a exposição acidental e simplificar a imposição da política de segurança.

2. Definir padrões de transformação de dados

A obtenção de dados no OneLake é apenas a primeira etapa. O valor real vem da transformação de dados brutos em produtos de dados prontos para uso de alta qualidade. Os líderes não projetam pipelines, mas definem plataformas e padrões arquitetônicos que impedem a fragmentação. Recomendação: Padronizar plataformas de transformação e impor uma arquitetura de refinamento consistente. Para aplicar essa recomendação, use a seguinte lista de verificação:

2.1. Usar a plataforma de dados correta

Sua escolha de plataforma define requisitos operacionais para seus produtos de dados em ambientes da Microsoft e do Azure. Recomendação: Para cada produto de dados, balancee a simplicidade e a integração com a necessidade de recursos especializados de engenharia. Para aplicar essa recomendação, use a seguinte lista de verificação:

  1. Tecido (padrão). O Fabric fornece mecanismos integrados de engenharia de dados, análise e BI que operam diretamente no OneLake, que atua como o patrimônio de dados controlado unificado para a organização. Práticas recomendadas: Use o Fabric para análise padrão, relatórios e preparação de dados. Favoreça mecanismos nativos do Fabric, como Dataflows Gen2, Spark e SQL, para simplificar o controle de acesso, a linhagem e o gerenciamento de custos. Use o OneLake como a única camada de armazenamento. Diretrizes de decisão: Escolha o Fabric quando os requisitos se ajustarem às funcionalidades internas e quando os valores de liderança unificam a governança e a cobrança. Aceite a personalização limitada em troca de uma sobrecarga operacional mais baixa.

  2. Azure Databricks. Muitas pessoas preferem o Azure Databricks. Ele dá suporte ao processamento em larga escala e a cenários avançados de aprendizado de máquina. Práticas recomendadas: Continue usando o Databricks, em que a experiência ou a escala já existem. Exigir saídas para pousar no OneLake ou se conectar por meio de atalhos do OneLake para que a governança, a segurança e a descoberta permaneçam centralizadas. Diretrizes de decisão: Escolha o Databricks quando o Fabric não atender aos requisitos atuais. Aceite maior integração e sobrecarga de habilidade como a compensação.

  3. Impor limites de propriedade da plataforma. Limites claros de plataforma impedem custos duplicados e lógica inconsistente em todos os sistemas. Práticas recomendadas: Atribua a responsabilidade por cada classe de carga de trabalho a uma plataforma. Exigir uma revisão de arquitetura antes de aprovar o processamento entre plataformas. Diretrizes de decisão: Decida qual plataforma possui resultados de ingestão, transformação e análise. Evite transformações duplicadas e pipelines sobrepostos que fornecem o mesmo resultado de negócios.

2.2. Aplicar arquitetura de medalhão

A arquitetura de medalhão estabelece confiança, consistência e governança em todos os produtos de dados definindo uma progressão clara de dados brutos para saídas prontas para os negócios. Recomendação: Exija que todos os produtos de dados no OneLake sigam uma estrutura bronze, prata e ouro e proíbam atalhos que ignorem essas camadas. Para aplicar essa recomendação, use a seguinte lista de verificação:

  1. Exigir uma camada de bronze como o sistema de registro (ingestão bruta): a camada bronze captura dados exatamente quando chegam ao OneLake e preserva a fidelidade da fonte original. Práticas recomendadas: Armazene dados como somente acréscimo e imutáveis. Proibir correções ou enriquecimento neste estágio. Exigir que cada conjunto de dados de entrada aterrisse primeiro em bronze. Diretrizes de decisão: Decida que o bronze existe apenas para preservar a verdade dos sistemas de origem. Aceite usabilidade mais lenta em troca de auditoria e rastreabilidade.

  2. Estabeleça a camada prateada como a exibição confiável. A camada de prata contém dados validados, padronizados e limpos dos quais as equipes dependem para uma análise consistente. Práticas recomendadas: Aplique regras de qualidade de dados, alinhamento de formato e validação básica de negócios. Documente os conjuntos de dados silver claramente e gerencie as alterações por meio de processos de governança. Diretrizes de decisão: Escolha prata como a camada purificada autorizada. Proibir as equipes de limpar novamente dados brutos de forma independente, o que cria interpretações conflitantes.

  3. Ouro (contexto de negócios, produtos de dados): Certificar conjuntos de dados de ouro como produtos de dados de negócios. A camada de ouro fornece produtos de dados controlados que os líderes usam para decisões, acompanhamento de desempenho e relatórios. Práticas recomendadas: Alinhe dados de referência a definições empresariais e métricas aprovadas. Otimize as estruturas para consumo. Registre cada "gold dataset" como um produto de dados no Microsoft Purview, incluindo detalhes de propriedade, finalidade e atualização. Diretrizes de decisão: Decida que qualquer conjunto de dados usado entre equipes ou para decisões deve existir em ouro. Rejeite conjuntos de dados não gerenciados ou não certificados que ignorem a governança.

  4. Crie produtos higienizados para uso externo. O compartilhamento externo requer a separação deliberada dos dados operacionais internos. Práticas recomendadas: Produza conjuntos de dados coletados que removem ou mascaram campos confidenciais e reduzem os detalhes quando necessário. Atribua a propriedade e aplique rótulos claros, como uso público ou externo. Armazene esses conjuntos de dados em locais aprovados. Diretrizes de decisão: Escolha tratar conjuntos de dados externos como produtos independentes. Aceite as etapas de governança adicionadas para reduzir o risco legal e de segurança.

O Fabric dá suporte a esse modelo por meio de exibições de lago materializadas que podem gerenciar automaticamente as transformações. Consulte a Arquitetura Medallion Lakehouse no Fabric. Para obter uma arquitetura de análise, consulte Análise de ponta a ponta com o Microsoft Fabric.

Tabela. Exemplo de arquitetura de medalhão. A camada gold combina dados de dois conjuntos de dados.

Conjunto de dados Camada Dados de exemplo O que aconteceu
Transações de vendas Bronze OrderID=984321 · StoreID=17 · Amount="1.200" · TxnDate="2026-01-05T14:32:09Z" Esse registro chegou do sistema de vendas exatamente como enviado. O valor está em texto. O carimbo de data/hora segue o formato do sistema. Nenhum significado é aplicado.
Prata OrderID=984321 · StoreID=17 · Amount=1200.00 · TxnDate=2026-01-05 A transação é padronizada e validada. O valor é numérico. A data segue as regras da empresa. Os dados agora são confiáveis.
Referência do repositório Bronze StoreID="17" · RegionName="EAST" Esse registro chegou de um sistema de localização. A formatação reflete a origem.
Prata StoreID=17 · Região=Leste Os identificadores da loja se alinham aos dados de vendas. Os valores de região são limpos e consistentes.
Receita diária por região Ouro Região=Leste · Date=2026-01-05 · TotalRevenue=425000 Esse valor combina transações de vendas Silver com dados de referência do repositório Silver. Registros individuais são resumidos para responder a uma pergunta de negócios.

2.3. Considere uma camada de ouro adaptável

O Ouro Adaptável está incluído aqui como uma consideração prospectiva. A ideia é que você use agentes de IA para criar camadas de ouro. Os agentes podem observar padrões que talvez você não consiga. Se os usuários frequentemente solicitarem "principais problemas do cliente por região por mês", os agentes de IA poderão materializar esse conjunto de dados. Essa funcionalidade não é fornecida como padrão no Microsoft Fabric atualmente. Isso exigiria a criação de um agente de IA personalizado que opera no Fabric e na telemetria do Power BI.

3. Definir padrões de publicação de produtos de dados

Os padrões de publicação definem como sua organização expõe produtos de dados confiáveis por meio do Microsoft Fabric OneLake e do Microsoft Purview. A meta é dimensionar a reutilização, impor a governança e reduzir o risco entre cargas de trabalho de análise e IA. Recomendação: Estabeleça um único padrão de publicação que torne todos os produtos de dados aprovados detectáveis, regidos e claramente destinados a um público definido antes do uso amplo. Para aplicar essa recomendação, use a seguinte lista de verificação:

  1. Padronizar a publicação por meio do Catálogo do OneLake. O Catálogo OneLake fornece uma superfície de acesso unificada para produtos de dados em plataformas de processamento do Fabric e externas, como Databricks. Práticas recomendadas: Use o OneLake como a camada de execução e consumo padrão para todos os produtos de dados aprovados. Trate o Microsoft Purview como o sistema de registro para definições de governança e negócios. Esse alinhamento permite que o Power BI, os agentes de dados do Fabric e o Azure AI Search consumam dados de forma consistente, permitindo a visibilidade centralizada da governança.

  2. Verifique a capacidade de descoberta. A descoberta de dados garante que os tomadores de decisão e os consumidores possam encontrar produtos de dados confiáveis sem depender exclusivamente do conhecimento informal. Práticas recomendadas: Configure a visibilidade do workspace do Fabric para que o público relevante possa descobrir itens. Eles não precisam de acesso, apenas a capacidade de solicitar acesso. Habilite os fluxos de trabalho de solicitação de acesso do Purview para que os usuários possam solicitar permissão diretamente do catálogo. Diretrizes de decisão: Escolha a ampla capacidade de descoberta quando a meta for reutilizar entre domínios. Escolha a capacidade de descoberta limitada quando as restrições regulatórias ou de confidencialidade se aplicarem. Balancee a visibilidade com controles de acesso em vez de ocultar ativos.

  3. Exigir enriquecimento de metadados na publicação. Os metadados fornecem contexto que permite aos líderes avaliar a aptidão, a confiança e a reutilização de um produto de dados. Práticas recomendadas: Exigir metadados descritivos na publicação. Use etiquetas no Fabric para classificar produtos por domínio ou iniciativa de negócios. Verifique se as descrições explicam a finalidade e o escopo dos dados. Essa prática dá suporte à pesquisa de catálogo e melhora a confiança na reutilização. Diretrizes de decisão: Decida se os requisitos de metadados permanecem mínimos ou impõem um esquema padrão. Escolha um esquema padrão quando a organização opera vários domínios e precisa de consistência. Escolha uma abordagem mais leve para estágios de maturidade precoce.

  4. Endossar e certificar quando apropriado. Defina critérios de endosso e certificação. O endosso sinaliza o nível de confiança e a maturidade da governança para a organização. Práticas recomendadas: Use o Promoted para indicar produtos recomendados pelo domínio. Use Certified para indicar produtos que passaram por uma revisão de governança formal. Aplique a certificação a conjuntos de dados Gold que dão suporte a relatórios executivos ou análise crítica. Diretrizes de endosso do Reference Fabric no Endosso. Diretrizes de decisão: Decida quais produtos exigem certificação. Escolha a certificação obrigatória para cargas de trabalho executivas ou regulatórias. Escolha a certificação opcional quando a velocidade e a experimentação forem priorizadas. Aceite a integração mais lenta como a compensação por maior confiança.

  5. Publicar como um produto de dados no Purview. Os produtos de dados do Purview fornecem uma exibição de nível superior que agrupa ativos em um ciclo de vida de produto gerenciado. Práticas recomendadas: Crie uma entrada de produto de dados do Purview para cada produto de dados publicado. Inclua nome do produto, descrição, proprietários, status de qualidade e ativos relacionados, como tabelas, modelos e relatórios. Produtos de dados de referência no Catálogo Unificado. Diretrizes de decisão: Decida se os produtos de dados do Purview são necessários para todos os ativos publicados ou apenas para produtos estratégicos. Escolha a cobertura completa quando a visibilidade do portfólio for importante. Escolha a cobertura seletiva quando a capacidade de governança for limitada.

  6. Declare o público-alvo e o uso pretendidos. A intenção clara impede o uso indevido e dá suporte à conformidade em cenários de análise e IA. Práticas recomendadas: Exigir que cada produto de dados declare seu público-alvo pretendido e o tipo de carga de trabalho com suporte. Especifique o uso interno, parceiro ou público. Identifique IA, analytics, BI ou cenários públicos da Web. Use os metadados do Purview, termos de glossário e rótulos de confidencialidade juntos para expressar essa intenção de forma consistente. Diretrizes de decisão: Decida se o uso externo ou por agentes requer aprovação extra. Escolha uma aprovação mais rigorosa quando os dados deixarem os limites organizacionais. Aceite a publicação mais lenta como a compensação por risco reduzido.

Próxima etapa