Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Microsoft Fabric é uma plataforma SaaS alimentada por IA para análises empresariais completas. Ele suporta de forma eficiente várias funções de dados em toda a organização. Para otimizar a consistência e a acessibilidade dos dados, a Microsoft usou o Fabric para aprimorar sua infraestrutura interna de análise durante os rápidos avanços da IA. A Microsoft estabeleceu a organização IDEAS (Insights, Data, Engineering, Analytics, Systems) para criar e manter uma plataforma abrangente de análise de dados. O IDEAS visa unificar fontes de dados, eliminar silos e criar uma única fonte de verdade, aumentando a produtividade e a adoção de IA em toda a Microsoft. Inicialmente suportando produtos do Office, o IDEAS agora fornece insights orientados por dados no Microsoft 365, Segurança e mais de 600 equipes internas impulsionando a adoção e a produtividade da IA. Este artigo detalha a jornada do IDEAS com a adoção do Fabric.
Uma função chave do IDEAS é servir como o motor central de dados e crescimento para as divisões de Experiências e Dispositivos (E+D) e Segurança. O IDEAS também atua como o plano de dados central para todas as experiências do Copilot, impulsionando o sucesso do Copilot agregando insights importantes, permitindo pesquisas e alimentando experiências de IA em toda a Microsoft. Ele gerencia 420 PiB (Pebibyte) de dados de 2.700 fontes, personalizando experiências em mais de 350 superfícies de produtos e bilhões de interações com clientes anualmente.
Devido à sua escala e papel na capacitação de iniciativas importantes da Microsoft, como o Copilot, o IDEAS serve como um campo de testes do mundo real para tecnologias de dados emergentes. O IDEAS é um usuário piloto e um "cliente zero" estratégico para o Microsoft Fabric. Ele fornece feedback valioso e valida os recursos do Fabric em vários níveis. O IDEAS fornece informações importantes que moldam o desenvolvimento do Fabric, enquanto o Fabric permite que o IDEAS alcance sua visão para o futuro de sua plataforma de dados orientada por IA. Especificamente, o Fabric oferece benefícios importantes nas seguintes quatro áreas principais:
Ativando dados para inovação em IA: a integração perfeita do Fabric com ferramentas da Microsoft, como Office e Azure AI, acelera a criação de modelos e soluções de IA personalizados.
Simplificando a análise com uma cadeia de ferramentas unificada: Ao fornecer uma cadeia de ferramentas unificada para todas as funções de dados, o Fabric capacita todos dentro do IDEAS para aprimorar a colaboração, simplificar fluxos de trabalho e maximizar o valor dos dados.
Aumentar a colaboração e a flexibilidade: o Fabric permite a colaboração entre diferentes personas de dados usando os mesmos conjuntos de dados e ferramentas. Essa flexibilidade simplifica o trabalho com diversos formatos de dados e locais, otimiza os processos de engenharia e permite que as equipes trabalhem de forma mais eficaz.
Redução de custos e riscos: o data lake unificado do Fabric minimiza a movimentação de dados, reduzindo os custos de engenharia e os riscos de conformidade, permitindo que vários mecanismos de computação operem na mesma cópia de dados. Ao manter uma única cópia dos dados, as equipes podem usá-los de forma eficiente para vários fins, que oferecem suporte à governança e conformidade de dados eficazes.
Esta parceria visa proporcionar um valor substancial de negócios e produtividade, criando uma plataforma de dados moderna para atender às demandas tecnológicas atuais. Este artigo explica a jornada do IDEAS com a adoção do Fabric.
Construindo uma base de dados escalável com o OneLake e o lago Delta
Uma base sólida e escalável é a chave para qualquer plataforma de dados moderna. No núcleo do Microsoft Fabric está o Delta Lake, uma camada de armazenamento de código aberto que garante confiabilidade, desempenho e gerenciamento de dados para data lakes. Sua ampla compatibilidade com ferramentas de análise de dados suporta um ecossistema de dados unificado.
O Delta Lake é a base do OneLake, o data lake lógico unificado da Fabric. O OneLake otimiza o valor dos dados eliminando a duplicação e garantindo uma única fonte de verdade. Todas as experiências do Fabric armazenam ou espelham dados automaticamente no OneLake usando o formato Delta Lake. O OneLake integra-se perfeitamente com o armazenamento ADLS Gen2 existente, permitindo uma transição suave para conjuntos de dados existentes. Os atalhos para o ADLS Gen2 evitam migrações de dados em grande escala e melhoram a capacidade de gerenciamento por meio de acesso centralizado e governança. Ele também suporta várias ferramentas de análise, incluindo Spark, SQL e Power BI.
O modo Direct Lake do Power BI aprimora essa experiência unificada ao permitir consultas e visualizações rápidas de dados diretamente do OneLake, eliminando a movimentação de dados e a necessidade de data marts tradicionais. Esse acesso direto ao Delta Lake simplifica os fluxos de trabalho de análise. O Fabric está também totalmente integrado com o Copilot e a IA em todas as plataformas. Esses recursos aumentam a produtividade por meio de codificação assistida por IA e análise de dados, apoiando a tomada de decisão baseada em dados.
Para aplicar esses recursos no IDEAS, o primeiro passo foi garantir que os pipelines de integração de dados pudessem gerar tabelas Delta Lake sem problemas. O IDEAS utiliza os seguintes dois sistemas de engenharia de dados com certificação ISO:
Pharos: Uma plataforma low-code para preparação e gestão de dados. Ele simplifica a transformação de dados, concentrando-se em formas de dados bem definidas com metadados consistentes e definições declarativas para geração de saída.
Nitro Hubs: Um sistema abrangente de engenharia de dados para criação e gerenciamento de pipeline, com fortes controles de privacidade e conformidade de dados.
O IDEAS aprimorou esses serviços para gerar saídas Delta Lake otimizadas usando o mecanismo Fabric Spark, empregando técnicas como ordem v , particionamento e tamanhos de grupo de linhas apropriados. Ao armazenar dados, o IDEAS se concentra em organizá-los para uma recuperação rápida e eficiente, já que as cargas de trabalho são intensivas em leitura. A integração desse recurso com os principais serviços que gerenciam milhares de pipelines permitiu a gravação rápida de vários milhares de ativos de dados no armazenamento ADLS Gen2.
A análise do IDEAS requer 13 meses de dados históricos, mas devido aos identificadores pessoais, devemos aderir ao Regulamento Geral de Proteção de Dados (GDPR). Para cumprir, ampliamos os recursos de processamento do GDPR do Nitro Hubs para lidar com solicitações de exclusão em tabelas Delta Lake, usando comandos de mesclagem em notebooks Fabric Spark. Também implementamos a expiração do Time-To-Live (TTL) para tabelas Delta particionadas por data, garantindo a remoção de dados pessoais dentro dos prazos do GDPR. Em contraste, os nossos dados da camada Gold (usando a arquitetura medalhão ) são agregados e livres de identificadores pessoais. Atualmente, armazenamos mais de 4 PiB de dados no IDEAS OneLake.
Impulsionando o Microsoft 365 Copilot Analytics com o Fabric da Microsoft
O IDEAS gerencia 420 PiB de dados em mais de 600 equipes dentro da Microsoft. A plataforma de dados é construída inteiramente no Azure para usar escalabilidade para uma equipe de mais de 600 pessoas. Ao estender as capacidades do Azure, o IDEAS desenvolveu um sistema robusto e adaptável. Para saber mais sobre os principais sistemas que impulsionam o ciclo de vida dos dados, consulte Produtividade de dados em ideias
O acesso eficiente aos dados é essencial para o IDEAS, e o Microsoft Fabric tornou-se um facilitador fundamental em nossa estratégia. Queríamos encurtar o ciclo de feedback para consultas interativas e capacitar a criação mais rápida de relatórios e painéis. Nossa base é o Unified Data Model (UDM), um conjunto de ativos de dados duráveis e extensíveis projetados para reutilização em toda a empresa. Essa reutilização é fundamental para manter a consistência e a eficiência.
O IDEAS emprega a arquitetura medalhão para organizar dados em três camadas: Bronze (dados brutos), Prata (dados limpos e enriquecidos para análise) e Ouro (dados agregados com curadoria para inteligência empresarial e relatórios com ferramentas como Power BI e Excel).
Ao disponibilizar nossas camadas de ouro e prata como ativos UDM no Fabric através do Delta Lake, aprimoramos o plano de análise do Microsoft 365 Copilot. Fornecemos acesso direto aos dados pré-processados do Microsoft 365 Copilot da camada Silver como tabelas Delta Lake no OneLake. Ele melhorou drasticamente o desempenho da consulta e a renderização do painel, eliminando transformações repetidas.
Além disso, a apresentação das nossas métricas da camada Gold do Microsoft 365 Copilot sob a forma de tabelas Delta Lake simplificou a descoberta e a utilização de dados. Ele permitiu a criação de painéis avançados que apoiam líderes de negócios e equipes de produto com a adoção, desempenho e crescimento do Copilot. Essa abordagem reduziu a movimentação de dados, simplificou o gráfico de dados e reduziu os custos de infraestrutura. Como resultado, a análise do Microsoft 365 Copilot, agora alimentada pelo Fabric, desempenha um papel vital em vários projetos da Microsoft.
Governança, dimensionamento e automação no Fabric
Nossas próximas prioridades foram organizar espaços de trabalho, otimizar a estrutura do lakehouse e automatizar as operações em milhares de ativos gerenciados no Fabric. Em nossa escala, a governança exige a estrita adesão às políticas que concedem acesso apenas para cenários legítimos de uso de dados, inviabilizando operações manuais. Para resolver isso, fizemos uma parceria estreita com as equipes de SDK/API do Fabric para garantir a disponibilidade de APIs que nos permitem criar artefatos do Fabric de forma programática e aplicar permissões granulares às identidades apropriadas. Essa abordagem totalmente automatizada fornece consistência e escalabilidade.
Organizamos nossos espaços de trabalho em ambientes de produção, desenvolvimento e exploração. Os dados de produção podem ser acessados por meio de atalhos no espaço de trabalho de produção. Apenas uma identidade específica de espaço de trabalho tem acesso privilegiado para os criar e modificar, enquanto todos os outros utilizadores têm acesso de leitura apenas. Lakehouses são parte integrante do espaço de trabalho de produção com amplo acesso de leitura e são referenciados através de acessos rápidos internos nos espaços de trabalho de exploração. Essa abordagem isola efetivamente os dados de produção, permitindo que os usuários interajam com eles em um ambiente de não produção.
As próximas seções se aprofundarão em nossos espaços de trabalho semânticos dedicados a hospedar apenas modelos semânticos e relatórios. As casas de lago por trás do modelo semântico estão no espaço de trabalho de produção para controlar o controle de versão e o gerenciamento de alterações. À medida que os recursos de segurança unificados do Fabric evoluem, continuamos refinando nossa configuração de acesso à lakehouse para simplificar ainda mais nossos processos de governança de acesso. Essa abordagem automatizada e orientada por API é essencial para o gerenciamento de dados em escala e para um acesso consistente e seguro.
Simplificando os relatórios com o Direct Lake
Um dos principais impulsionadores para a adoção precoce do Fabric pelo IDEAS é o modelo semântico Direct Lake. Esse recurso permite relatórios unificados, eliminando a necessidade de gerenciar infraestrutura SQL e SSAS separada e permitindo que os usuários trabalhem em uma interface de malha integrada.
O IDEAS utiliza modelos semânticos para vários casos de uso, que incluem:
- Relatórios de tabela única
- Cubos do Azure Analysis Services
- Esquemas estrela no modo de importação com várias dimensões
- Análise de coorte para o plano de análise do Microsoft 365 Copilot
Nossa validação da abordagem Direct Lake envolveu a migração de relatórios e modelos existentes para o Fabric, produzindo várias descobertas importantes, que incluem:
A importância de uma modelagem de dados eficaz. Para modelos que contêm bilhões de linhas, um esquema em estrela robusto com chaves numéricas é crucial para alcançar o desempenho ideal da consulta.
A otimização de dados com o V-Order durante a criação usando o Fabric Spark é fundamental para maximizar o desempenho do Direct Lake.
O particionamento adequado da tabela Delta e o dimensionamento do grupo de linhas são vitais para otimizar o desempenho das consultas em cache frio e quente.
Esse esforço levou à migração completa do plano de análise do Microsoft 365 Copilot para o Fabric em dezembro de 2024. Este avião agora fornece informações de negócios importantes para o Microsoft 365 Copilot em toda a Microsoft.
Gerenciando o ciclo de vida de desenvolvimento do Fabric para fins de conformidade e confiabilidade
O IDEAS garante conformidade e confiabilidade por meio de gerenciamento rigoroso de mudanças, isolamento de produção e validação. Para atender a esses requisitos no Fabric, implementamos um ciclo de vida de desenvolvimento robusto usando a integração Git e uma organização de espaço de trabalho bem definida. Essa abordagem garante que as alterações sejam exaustivamente testadas e validadas antes de chegarem à produção, minimizando interrupções e preservando a integridade dos dados.
Criamos "espaços de trabalho semânticos" dedicados para modelos semânticos e artefatos de relatório, garantindo uma separação clara das preocupações. Como mencionado anteriormente, os artefatos lakehouse residem em um espaço de trabalho de produção seguro e somente leitura, com espaços de trabalho semânticos referentes a esses ativos de dados centralizados. Essa arquitetura suporta conformidade e desempenho.
Nosso ciclo de vida do modelo semântico envolve indivíduos fazendo alterações dentro de um espaço de trabalho dedicado a essa categoria de desenvolvimento. Após a validação, a integração Git do Fabric comete essas alterações no ramo de pré-produção certo. Por meio dos pipelines de release do Azure DevOps (ADO), essas alterações são promovidas para a ramificação Git de produção e, posteriormente, sincronizadas com os espaços de trabalho semânticos de produção. Isso garante que os espaços de trabalho semânticos de produção (onde residem modelos e relatórios voltados para o usuário final) sempre reflitam as alterações validadas e aprovadas. Desta forma, contribui para a estabilidade e fiabilidade dos nossos serviços.
Para melhorar ainda mais a confiabilidade de nossa implantação do Fabric, desenvolvemos um painel de experiência do usuário e desempenho usando telemetria de espaço de trabalho. Os registos analíticos do espaço de trabalho Fabric fornecem dados sobre tempos de execução de consultas e erros em modelos semânticos e relatórios do Power BI. Nosso painel, construído em casas de eventos do Fabric, rastreia as principais métricas de desempenho de consulta e monitora as categorias e taxas de erro para cada consulta.
Além de identificar e abordar possíveis problemas, monitoramos o impacto dos problemas e o número de usuários afetados. Esta abordagem dupla permite-nos abordar proativamente os problemas antes que se espalhem e compreender e orientar a fiabilidade dos nossos relatórios e modelos semânticos através do feedback dos utilizadores. Ao monitorar a frequência e a amplitude dos problemas relatados pelo usuário, podemos correlacionar diretamente nossas metas de confiabilidade com o uso no mundo real e reduzir o impacto do usuário ao longo do tempo.
À medida que o grupo de produtos Fabric melhora a telemetria e os dados de log, incorporaremos KPIs e métricas mais avançados em nosso painel. Essas melhorias melhoram nossa capacidade de detetar problemas proativamente, garantindo desempenho e confiabilidade ideais. Na próxima fase, planeamos estender esse processo de monitorização a outros itens do Fabric, incluindo notebooks Spark e endpoints Lakehouse SQL.
Habilitando análises interativas com o Fabric
Os usuários de dados geralmente começam com relatórios do Power BI, mas rapidamente precisam de uma exploração mais profunda além da camada de relatórios. O Fabric oferece duas opções poderosas para análise interativa: o Fabric Spark e o endpoint de análise SQL, permitindo que os usuários explorem dados nas camadas Silver e Gold do Unified Data Model (UDM). O OneLake Data Hub, o Lakehouse Explorer e o Lineage View fornecem acesso rápido a dependências de dados e fontes upstream. No entanto, à medida que a complexidade e o tamanho dos dados aumentam de Ouro para Bronze, a consulta torna-se mais desafiadora.
Para construir uma plataforma de dados escalável e evitar a fragmentação, o IDEAS implementou uma estratégia de federação para os principais ativos da camada UDM Silver, servindo como fontes autorizadas de verdade. Isso permitiu que as equipes de parceiros estendessem esses ativos com atributos específicos do domínio. Um processo de governança robusto que engloba revisão, refinamento do projeto de extensão, definição da interface de dados e controle de exposição, garante a integridade e a conformidade dos dados.
Embora as extensões resolvam gargalos de dados e separem os dados principais dos atributos externos, elas introduziram um desafio de desempenho para consultas interativas, que normalmente exigem tempos de resposta inferiores a 60 segundos. A dependência de junções repetitivas entre dados de base e extensões criou um gargalo. Para superar esse desafio, aprimorámos os nossos sistemas de engenharia de dados para criar visualizações materializadas, pré-unindo dados de base com extensões para minimizar as operações de junção durante a execução da consulta. Os recursos de mesclagem e bloqueio do Delta Lake permitiram atualizações eficientes de partições e a fusão de dados de extensão por entidade. Essas tabelas Delta pré-calculadas agora são expostas como atalhos dentro de nossos armazéns de dados para acesso tanto ao Fabric SQL como ao Spark. Também estamos colaborando com o grupo de produtos Fabric para explorar a possível integração nativa dessa funcionalidade. Além disso, desenvolvemos módulos Python com entrada multiparâmetro para otimizar a filtragem de linhas e a seleção de colunas, fornecendo acesso rápido a descrições de colunas e atualização de dados dentro do ambiente do notebook.
Os testes iniciais com consultas do Fabric Spark nesses ativos materializados mostraram ganhos de desempenho significativos superiores a 30 vezes.
Protegendo nosso ambiente de malha: uma abordagem holística à governança de dados
No ano passado, progredimos de um espaço de trabalho exploratório do Fabric para o gerenciamento de vários espaços de trabalho de produção F2048 com mais de 4 PiB de dados no formato Delta Lake. No entanto, a descoberta de dados e a conformidade continuam a ser desafios complexos, especialmente à medida que as regulamentações de privacidade evoluem. À medida que o IDEAS disponibiliza mais dados no Fabric, nossas obrigações de conformidade vão além do GDPR e do compromisso da Microsoft com a residência de dados dentro do Limite de Dados da UE, garantindo que os dados pessoais comerciais sejam armazenados e processados exclusivamente na Europa.
A escala global da Microsoft e o tratamento de dados confidenciais impulsionam o forte compromisso do IDEAS com a privacidade e a governança de dados. Isso vai além dos requisitos básicos, aderindo a vários padrões internacionais e específicos do setor. Isso se traduz em controles e processos robustos para gerenciar o acesso aos dados.
No IDEAS, aderimos fortemente ao princípio de menor privilégio e uso de dados baseado em cenários para segurança e conformidade. Este princípio significa conceder acesso aos dados apenas a utilizadores ou identidades com aprovação legítima para casos de utilização específicos. Para evitar transferências de dados não autorizadas, o IDEAS monitora ativamente a exfiltração de dados nos espaços de trabalho do Fabric. Enquanto o Fabric fornece monitoramento no nível do locatário, a Microsoft exige um controle mais granular no nível do espaço de trabalho.
Para resolver isso, o IDEAS desenvolveu o Data Exfiltration Monitoring (DEM), um recurso personalizado que coleta dados de telemetria do Fabric em um armazenamento centralizado de metadados e aplica regras para detetar violações. Quando uma violação é detetada, o DEM aciona ações corretivas, como notificar o usuário, revogar o acesso ou bloquear o acesso futuro. Isso permite que o IDEAS disponibilize dados confidenciais no Fabric, mantendo a estrita conformidade. Combinado com nossos investimentos na automação do provisionamento de espaços de trabalho, podemos gerenciar espaços de trabalho compatíveis em todos os limites de dados em expansão. A proteção contra exfiltração de dados é uma área-chave de foco para o grupo de produtos Fabric, e estamos ansiosos para melhorias adicionais neste espaço.
Em última análise, acreditamos que a privacidade e a governança de dados não são apenas um fardo de conformidade, mas um componente fundamental da construção de confiança e uma vantagem competitiva significativa no mundo atual orientado por dados. A Microsoft prioriza a confiança, enfatizando a privacidade dos dados, o controle do usuário e o tratamento responsável de dados em todos os serviços e produtos. O IDEAS subscreve plenamente este ethos, reconhecendo que uma governação de dados robusta é fundamental para o sucesso e sustentabilidade da nossa plataforma de dados.
Conclusão
A integração do Microsoft Fabric na plataforma de dados IDEAS melhorou o acesso aos dados e aumentou a produtividade de nossos cientistas e engenheiros de dados. Ao construir uma base unificada com o OneLake e o Delta Lake, permitindo análises interativas e estabelecendo uma forte governança, a Fabric forneceu um ambiente robusto de análise de dados. À medida que continuamos a explorar e implementar os recursos do Fabric, particularmente em áreas como análise em tempo real e integração avançada de IA, estamos confiantes de que estamos construindo uma plataforma unificada e inovadora que gerará mais insights e impacto para a Microsoft.