Compartilhar via


Implementar a arquitetura de medalhão com vista materializada para o lago

Este tutorial descreve as etapas e considerações para implementar uma arquitetura de medalhão usando exibições materializadas do lago. Ao final deste tutorial, você aprenderá os principais recursos e funcionalidades de exibições de lago materializadas e poderá criar um fluxo de trabalho de transformação de dados automatizado. Esse tutorial não se destina a ser uma arquitetura de referência, uma lista exaustiva de recursos e funcionalidades ou uma recomendação de melhores práticas específicas.

Pré-requisitos

Como pré-requisitos para este tutorial, conclua as seguintes etapas:

  1. Entre em sua conta do Power BI ou, se você ainda não tiver uma conta, inscreva-se para uma avaliação gratuita.
  2. Habilite o Microsoft Fabric em seu locatário. Selecione o ícone padrão do Power BI na parte inferior esquerda da tela e selecione Fabric.
  3. Crie um Workspace habilitado para Microsoft Fabric.
  4. Selecione um workspace na guia Workspaces, selecione + Novo item e escolha Pipeline. Forneça um nome para o pipeline e selecione Criar.
  5. Crie um Lakehouse com esquemas habilitados. Nomeie-o SalesLakehouse e carregue arquivos de dados de exemplo no Lakehouse. Para obter mais informações, consulte o tutorial do Lakehouse.

Visão geral do cenário

Neste tutorial, você usará um exemplo de uma organização de varejo fictícia, a Contoso, que usa uma arquitetura de medalhão para análise de dados para obter insights acionáveis sobre suas operações de vendas no varejo. Ele tem como objetivo simplificar o processo de análise e gerar insights mais profundos sobre o desempenho dos negócios organizando seus dados em três camadas: bronze (dados brutos), prata (dados limpos e enriquecidos) e ouro (dados agregados e analisados).

O diagrama a seguir representa entidades diferentes em cada camada de arquitetura de medalhão no SalesLakehouse:

Captura de tela mostrando a arquitetura do medalhão.

Entidades

  1. Pedidos: essa entidade inclui detalhes sobre cada pedido do cliente, como data do pedido, detalhes da remessa, categoria do produto e subcategoria. Insights podem ser extraídos para otimizar estratégias de remessa, identificar categorias de produtos populares e melhorar a administração de pedidos.

  2. Vendas: Analisando dados de vendas, a Contoso pode avaliar as principais métricas, como receita total, margens de lucro, prioridades de pedidos e descontos. As correlações entre esses fatores fornecem uma compreensão mais clara dos comportamentos de compra do cliente e da eficiência das estratégias de desconto.

  3. Localização: isso captura a dimensão geográfica de vendas e pedidos, incluindo cidades, estados, regiões e segmentos de clientes. Ele ajuda a Contoso a identificar regiões de alto desempenho, abordar áreas de baixo desempenho e personalizar estratégias para segmentos de clientes específicos.

  4. Desempenho do agente: Com detalhes sobre os agentes que gerenciam transações, suas comissões e dados de vendas, a Contoso pode avaliar o desempenho individual do agente, incentivar os melhores desempenhos e projetar estruturas de comissão eficazes.

  5. Comissões de agente: a incorporação de dados da comissão garante a transparência e permite um melhor gerenciamento de custos. Entender a correlação entre as taxas de comissão e o desempenho do agente ajuda a refinar sistemas de incentivo.

Conjunto de dados de exemplo

A Contoso mantém seus dados brutos de operações de varejo no formato CSV no ADLS Gen2. Utilizamos esses dados para criar a camada de bronze e, em seguida, usamos a camada de bronze para criar as vistas materializadas do lago que formam as camadas de prata e ouro da arquitetura medalhão. Primeiro baixe os arquivos CSV de exemplo do repositório de exemplos do Fabric.

Criar o pipeline

As etapas de alto nível são as seguintes:

  1. Camada Bronze: Ingerir dados brutos na forma de arquivos CSV na camada lakehouse.
  2. Camada Prata: limpar dados usando exibições de lago materializadas.
  3. Camada de Ouro: coletar dados para análise e relatórios usando exibições de lago materializadas.

Criar a camada bronze da arquitetura de medalhão para análise de vendas

  1. Carregue os arquivos CSV correspondentes a entidades diferentes dos dados baixados no Lakehouse. Para fazer isso, navegue até o lakehouse e faça o upload dos dados baixados na seção Arquivos do lakehouse. Ele cria uma pasta chamada tutorial.

  2. Em seguida, crie um atalho para ele na seção Tabelas . Selecione ... ao lado da seção Tabelas e selecione Novo atalho de esquema e, em seguida, Microsoft OneLake. Escolha o SalesLakehouse entre os tipos de fonte de dados. Expanda a seção Arquivos e escolha a pasta do tutorial e selecione Criar. Você também pode usar outras opções alternativas para obter dados no Lakehouse.

    Captura de tela mostrando como criar um atalho para colocar os dados em tabelas.

  3. Na seção Tabelas , renomeie a pasta do tutorial como bronze.

    Captura de tela mostrando a criação da camada bronze.

Criar camadas de prata e ouro com arquitetura de medalhão

  1. Carregue o arquivo de notebook baixado para sua área de trabalho.

    Captura de tela mostrando a criação de uma vista do lago com aspecto prateado.

  2. Abra o Bloco de Anotações do Lakehouse. Para mais informações, veja Explore os dados do lakehouse com um notebook.

  3. Execute todas as células do notebook usando o SPARK SQL para criar exibições de lago materializadas com restrições de qualidade de dados. Depois que todas as células forem executadas com êxito, atualize a fonte SalesLakehouse para exibir as vistas do lago materializadas recém-criadas para o esquema de prata e ouro .

    Captura de tela mostrando o notebook de execução.

Agendar o fluxo de trabalho

  1. Depois que as visualizações materializadas do lago para camadas de prata e ouro forem criadas, navegue até o lakehouse e selecione Visualização materializada do lago gerenciada para ver a visualização de linhagem. Ele é gerado automaticamente com base em dependências, cada exibição de lago materializada dependente forma os nós da linhagem.

    Captura de tela mostrando a exibição materializada do lago.

    Captura de tela mostrando a criação de linhagem.

  2. Selecione Agendar na faixa de opções de navegação. Ative a atualização e configure o agendamento.

    Captura de tela mostrando o agendamento para executar as exibições materializadas do lago.

Monitoramento e solução de problemas

  1. O menu suspenso lista os processos atuais e os históricos.

    Captura de tela mostrando a execução do agendamento.

  2. Selecionando qualquer uma das execuções, você pode encontrar os detalhes materializados da vista do lago no painel direito. O painel de atividades localizado na parte inferior fornece uma visão geral de alto nível sobre o status de execução do nó.

    Captura de tela mostrando os detalhes da execução.

  3. Selecione qualquer nó na linhagem para ver os detalhes de execução do nó e acessar logs detalhados. Se o status do nó falhar, uma mensagem de erro também será exibida.

    Captura de tela mostrando logs de detalhes de execução.

  4. Selecionar o link Logs detalhados redirecionará você para o Monitor Hub, de onde você pode acessar os logs de erros do Spark para mais solução de problemas.

    Captura de tela mostrando logs do Spark.

  5. Selecione o botão Relatório de qualidade de dados na faixa de opções da página de visualizações materializadas de lago para criar ou visualizar um relatório de qualidade de dados gerado automaticamente.