Editar

Arquitetura de análise moderna com o Azure Databricks

Azure Data Factory
Azure Data Lake Storage
Azure Databricks
Azure Synapse Analytics
Power BI

Ideias de soluções

Este artigo é uma ideia de solução. Se você quiser que expandamos o conteúdo com mais informações, como possíveis casos de uso, serviços alternativos, considerações de implementação ou orientação de preços, informe-nos fornecendo feedback do GitHub.

Esta solução descreve uma arquitetura de dados moderna. O Azure Databricks forma o núcleo da solução. Esta plataforma funciona perfeitamente com outros serviços, como o Azure Data Lake Storage Gen2, o Azure Data Factory, o Azure Synapse Analytics e o Power BI.

Apache® e Apache Spark™ são marcas registadas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou noutros países. Nenhum endosso da Apache Software Foundation está implícito no uso dessas marcas.

Arquitetura

Architecture diagram showing how a modern data architecture collects, processes, analyzes, and visualizes data.

Transfira um ficheiro do Visio desta arquitetura.

Fluxo de dados

  1. O Azure Databricks ingere dados brutos de streaming dos Hubs de Eventos do Azure.

  2. O Data Factory carrega dados brutos em lote no Data Lake Storage Gen2.

  3. Para armazenamento de dados:

    • O Data Lake Storage Gen2 abriga dados de todos os tipos, como estruturados, não estruturados e semiestruturados. Ele também armazena dados em lote e streaming.

    • O Delta Lake forma a camada curada do data lake. Ele armazena os dados refinados em um formato de código aberto.

    • O Azure Databricks funciona bem com uma arquitetura medallion que organiza os dados em camadas:

      • Bronze: Contém dados brutos.
      • Prata: contém dados limpos e filtrados.
      • Gold: armazena dados agregados que são úteis para análises de negócios.
  4. A plataforma analítica ingere dados de diferentes fontes de lote e streaming. Os cientistas de dados usam esses dados para estas tarefas:

    • Preparação de dados.
    • Exploração de dados.
    • Preparação do modelo.
    • Modelo de formação.

    O MLflow gerencia o rastreamento de parâmetros, métricas e modelos em execuções de código de ciência de dados. As possibilidades de codificação são flexíveis:

    • O código pode estar em SQL, Python, R e Scala.
    • O código pode usar bibliotecas e estruturas de código aberto populares, como Koalas, Pandas e scikit-learn, que são pré-instaladas e otimizadas.
    • Os profissionais podem otimizar o desempenho e o custo com opções de computação de nó único e de vários nós.
  5. Os modelos de aprendizagem automática estão disponíveis em vários formatos:

    • O Azure Databricks armazena informações sobre modelos no Registro de Modelo MLflow. O registro disponibiliza modelos por meio de APIs em lote, streaming e REST.
    • A solução também pode implantar modelos nos serviços Web do Azure Machine Learning ou no Serviço Kubernetes do Azure (AKS).
  6. Os serviços que trabalham com os dados se conectam a uma única fonte de dados subjacente para garantir a consistência. Por exemplo, os usuários podem executar consultas SQL no data lake com o Azure Databricks SQL Analytics. Este serviço:

  7. O Power BI gera relatórios e painéis analíticos e históricos a partir da plataforma de dados unificada. Este serviço usa estes recursos ao trabalhar com o Azure Databricks:

    • Um conector interno do Azure Databricks para visualizar os dados subjacentes.
    • Drivers JDBC (Optimized Java Database Connectivity) e ODBC (Open Database Connectivity).
  8. Os usuários podem exportar conjuntos de dados ouro do data lake para o Azure Synapse por meio do conector Synapse otimizado. Os pools SQL no Azure Synapse fornecem um ambiente de armazenamento de dados e computação.

  9. A solução usa os serviços do Azure para colaboração, desempenho, confiabilidade, governança e segurança:

    • O Microsoft Purview fornece serviços de descoberta de dados, classificação de dados confidenciais e insights de governança em todo o conjunto de dados.

    • O Azure DevOps oferece integração contínua e implantação contínua (CI/CD) e outros recursos integrados de controle de versão.

    • O Azure Key Vault gerencia segredos, chaves e certificados com segurança.

    • O Microsoft Entra ID fornece logon único (SSO) para usuários do Azure Databricks. O Azure Databricks dá suporte ao provisionamento automatizado de usuários com a ID do Microsoft Entra para estas tarefas:

      • Criação de novos usuários.
      • Atribuir a cada utilizador um nível de acesso.
      • Remover utilizadores e negar-lhes acesso.
    • O Azure Monitor coleta e analisa a telemetria de recursos do Azure. Ao identificar problemas de forma proativa, este serviço maximiza o desempenho e a fiabilidade.

    • O Azure Cost Management and Billing fornece serviços de governança financeira para cargas de trabalho do Azure.

Componentes

A solução usa os seguintes componentes.

Componentes centrais

  • O Azure Databricks é uma plataforma de análise de dados. Seus clusters Spark totalmente gerenciados processam grandes fluxos de dados de várias fontes. O Azure Databricks limpa e transforma conjuntos de dados sem estrutura. Combina os dados processados com dados estruturados de bases de dados operacionais ou armazéns de dados. O Azure Databricks também treina e implanta modelos escaláveis de aprendizado de máquina e aprendizado profundo.

  • Os Hubs de Eventos são uma plataforma de streaming de big data. Como uma plataforma como serviço (PaaS), esse serviço de ingestão de eventos é totalmente gerenciado.

  • O Data Factory é um serviço híbrido de integração de dados. Você pode usar essa solução totalmente gerenciada e sem servidor para criar, agendar e orquestrar fluxos de trabalho de transformação de dados.

  • O Data Lake Storage Gen2 é um data lake escalável e seguro para cargas de trabalho de análise de alto desempenho. Esse serviço pode gerenciar vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência. Os dados podem ser estruturados, semi-estruturados ou não estruturados. Normalmente vem de várias fontes heterogêneas, como logs, arquivos e mídia.

  • O Azure Databricks SQL Analytics executa consultas em data lakes. Este serviço também visualiza dados em painéis.

  • O Machine Learning é um ambiente baseado em nuvem que ajuda você a criar, implantar e gerenciar soluções de análise preditiva. Com esses modelos, você pode prever comportamentos, resultados e tendências.

  • O AKS é um serviço Kubernetes altamente disponível, seguro e totalmente gerenciado. O AKS facilita a implantação e o gerenciamento de aplicativos em contêineres.

  • O Azure Synapse é um serviço de análise para armazéns de dados e sistemas de big data. Este serviço integra-se com o Power BI, Machine Learning e outros serviços do Azure.

  • Os conectores do Azure Synapse fornecem uma maneira de acessar o Azure Synapse a partir do Azure Databricks. Esses conectores transferem com eficiência grandes volumes de dados entre clusters do Azure Databricks e instâncias do Azure Synapse.

  • Os pools SQL fornecem um ambiente de armazenamento de dados e computação no Azure Synapse. Os pools são compatíveis com o Armazenamento do Azure e o Data Lake Storage Gen2.

  • Delta Lake é uma camada de armazenamento que usa um formato de arquivo aberto. Essa camada é executada sobre o armazenamento em nuvem, como o Data Lake Storage Gen2. O Delta Lake suporta versionamento, reversão e transações de dados para atualização, exclusão e mesclagem de dados.

  • O MLflow é uma plataforma de código aberto para o ciclo de vida do aprendizado de máquina. Seus componentes monitoram modelos de aprendizado de máquina durante o treinamento e a corrida. O MLflow também armazena modelos e os carrega em produção.

Componentes de relatórios e de governação

  • O Power BI é uma coleção de serviços de software e aplicativos. Esses serviços criam e compartilham relatórios que conectam e visualizam fontes de dados não relacionadas. Juntamente com o Azure Databricks, o Power BI pode fornecer determinação de causa raiz e análise de dados brutos.

  • O Microsoft Purview gerencia dados locais, multicloud e software como serviço (SaaS). Este serviço de governança mantém mapas de paisagem de dados. Os recursos incluem descoberta automatizada de dados, classificação de dados confidenciais e linhagem de dados.

  • O Azure DevOps é uma plataforma de orquestração de DevOps . Este SaaS fornece ferramentas e ambientes para criar, implantar e colaborar em aplicativos.

  • O Azure Key Vault armazena e controla o acesso a segredos como tokens, palavras-passe e chaves de API. O Cofre de Chaves também cria e controla chaves de criptografia e gerencia certificados de segurança.

  • O Microsoft Entra ID oferece serviços de gerenciamento de identidade e acesso baseados em nuvem. Esses recursos fornecem uma maneira para os usuários entrarem e acessarem recursos.

  • O Azure Monitor coleta e analisa dados em ambientes e recursos do Azure. Esses dados incluem telemetria de aplicativos, como métricas de desempenho e registros de atividades.

  • O Azure Cost Management and Billing gere os gastos na nuvem. Através de orçamentos e recomendações, este serviço organiza as despesas e mostra como reduzir custos.

Detalhes do cenário

As arquiteturas de dados modernas atendem a estes critérios:

  • Unifique dados, análises e cargas de trabalho de IA.
  • Execute de forma eficiente e confiável em qualquer escala.
  • Forneça informações por meio de painéis de análise, relatórios operacionais ou análises avançadas.

Esta solução descreve uma arquitetura de dados moderna que atinge esses objetivos. O Azure Databricks forma o núcleo da solução. Esta plataforma funciona perfeitamente com outros serviços. Em conjunto, estes serviços fornecem uma solução com as seguintes qualidades:

  • Simples: análises unificadas, ciência de dados e aprendizado de máquina simplificam a arquitetura de dados.
  • Aberto: A solução suporta código aberto, padrões abertos e estruturas abertas. Ele também trabalha com ambientes de desenvolvimento integrado (IDEs) populares, bibliotecas e linguagens de programação. Através de conectores nativos e APIs, a solução também funciona com uma ampla gama de outros serviços.
  • Colaborativo: engenheiros de dados, cientistas de dados e analistas trabalham em conjunto com esta solução. Eles podem usar blocos de anotações colaborativos, IDEs, painéis e outras ferramentas para acessar e analisar dados subjacentes comuns.

Potenciais casos de utilização

O sistema que o Swiss Re Group construiu para a sua divisão Property & Casualty Reinsurance inspirou esta solução. Além do setor de seguros, qualquer área que trabalhe com big data ou machine learning também pode se beneficiar dessa solução. Exemplos incluem:

  • Sector da energia
  • Retalho e comércio eletrónico
  • Banca e finanças
  • Medicina e cuidados de saúde

Próximos passos

Para saber mais sobre as soluções relacionadas, consulte estas informações: