Este artigo fornece uma abordagem arquitetônica para preparar assinaturas de zona de destino do Azure para uma implantação escalonável e de segurança aprimorada do Azure Synapse Analytics. O Azure Synapse, um serviço de análise empresarial, combina armazenamento de dados, processamento de Big Data, integração de dados e gerenciamento.
O artigo pressupõe que você já implementou a base de plataforma necessária para construir e operacionalizar efetivamente uma zona de destino.
Apache®, Apache Spark e o logotipo da chama são marcas registradas ou marcas comerciais da Apache Software Foundation nos Estados Unidos e/ou em outros países. O uso desta marca não implica aprovação por parte da Apache Software Foundation.
Arquitetura
Baixe um Arquivo Visio dessa arquitetura.
Fluxo de dados
- O componente principal dessa arquitetura é o Azure Synapse, um serviço unificado que fornece uma variedade de funções, desde ingestão de dados e processamento de dados até serviço e análise. O Azure Synapse em um de Rede Virtual Gerenciada fornece isolamento de rede para o workspace. Ao habilitar proteção contra exfiltração de dados, você pode limitar a conectividade de saída a apenas destinos aprovados.
- Os recursos do Azure Synapse, o Azure Integration Runtime e os pools do Spark localizados na Rede Virtual Gerenciada podem se conectar ao Azure Data Lake Storage, ao Azure Key Vault e a outros armazenamentos de dados do Azure com segurança reforçada usando pontos de extremidade privados gerenciados. Os pools de SQL do Azure Synapse hospedados fora da Rede Virtual Gerenciada podem se conectar aos serviços do Azure por meio de ponto de extremidade privado na rede virtual corporativa.
- Os administradores podem impor conectividade privada ao workspace do Azure Synapse, ao Data Lake Storage, ao Key Vault, ao Log Analytics e a outros armazenamentos de dados por meio de políticas do Azure aplicadas entre zonas de destino de dados no nível do grupo de gerenciamento. Eles também podem habilitar a proteção contra exfiltração de dados para fornecer segurança aprimorada para o tráfego de saída.
- Os usuários acessam o Synapse Studio usando um navegador da Web de uma rede local restrita por meio do Hubs de Link Privado do Azure Synapse. Os Hubs de Link Privado são usados para carregar o Synapse Studio por links privados com segurança aprimorada. Um único recurso dos Hubs de Link Privado do Azure Synapse é implantado em uma assinatura de conectividade com um ponto de extremidade privado na rede virtual do hub. A rede virtual do hub está conectada à rede local por meio do Azure ExpressRoute. O recurso Hubs de Link Privado pode ser usado para se conectar a todos os workspaces do Azure Synapse por meio do Synapse Studio.
- Os engenheiros de dados usam a atividade Copy de pipelines do Azure Synapse, executada em um runtime de integração auto-hospedada, para ingerir dados entre um armazenamento de dados hospedado em um ambiente local e armazenamentos de dados de nuvem, como o Data Lake Storage e pools de SQL. O ambiente local é conectado por meio do ExpressRoute à rede virtual do hub no Azure.
- Os engenheiros de dados usam a atividade do Fluxo de Dados do Azure Synapse e os pools do Spark para transformar dados hospedados em armazenamentos de dados de nuvem conectados à Rede Virtual Gerenciada do Azure Synapse por meio de pontos de extremidade privados gerenciados. Para dados localizados no ambiente local, a transformação com pools do Spark requer conectividade por meio do serviço de Link Privado personalizado. O serviço de Link Privado personalizado usa VMs NAT (Conversão de Endereços de Rede) para se conectar ao armazenamento de dados local. Para obter informações sobre como configurar o serviço de Link Privado para acessar armazenamentos de dados locais de uma Rede Virtual Gerenciada, consulte Como acessar o SQL Server local por meio da VNet Gerenciada do Data Factory usando o ponto de extremidade privado.
- Se a proteção contra exfiltração de dados estiver habilitada no Azure Synapse, o registro em log do aplicativo Spark no workspace do Log Analytics será roteado por meio de um escopo de link privado do Azure Monitor recurso conectado à Rede Virtual Gerenciada do Azure Synapse por meio do ponto de extremidade privado gerenciado. Conforme mostrado no diagrama, um único recurso de Escopo de Link Privado do Azure Monitor é hospedado em uma assinatura de conectividade com ponto de extremidade privado na rede virtual do hub. Todos os workspaces do Log Analytics e os recursos do Application Insights podem ser acessados privadamente por meio do Escopo de Link Privado do Azure Monitor.
Componentes
- Azure Synapse Analytics é um serviço de análise empresarial que acelera o tempo de insight entre data warehouses e sistemas de Big Data.
- A Rede virtual gerenciada do Azure Synapse fornece isolamento de rede para workspaces do Azure Synapse de outros workspaces.
- Pontos de extremidade privados do Azure Synapse gerenciado são pontos de extremidade privados criados em uma Rede Virtual Gerenciada associada a um workspace do Azure Synapse. Os pontos de extremidade privados gerenciados estabelecem conectividade de vínculo privado com recursos do Azure fora da Rede Virtual Gerenciada.
- O workspace do Azure Synapse com proteção contra exfiltração de dados impede a exfiltração de dados confidenciais para locais que estão fora do escopo de uma organização.
- Os hubs de Link Privado do Azure são recursos do Azure que atuam como conectores entre sua rede protegida e a experiência da Web do Synapse Studio.
- O runtime de integração é a infraestrutura de computação que os pipelines do Azure Synapse usam para fornecer funcionalidades de integração de dados nos diferentes ambientes de rede. Execute a atividade Fluxo de Dados no runtime de integração de computação do Azure gerenciado ou na atividade Copy entre redes usando um runtime de integração de computação auto-hospedada.
- O Link Privado do Azure fornece acesso privado a serviços hospedados no Azure. O Serviço de Link Privado do Azure é a referência para o seu próprio serviço que é fornecido pelo Link Privado. Você pode habilitar seu serviço em execução por trás do balanceador de carga padrão do Azure para acesso ao Link Privado. Em seguida, você pode estender o serviço de Link Privado para a Rede Virtual Gerenciada do Azure Synapse por meio do ponto de extremidade privado gerenciado.
- Apache Spark no Azure Synapse é uma das várias implementações da Microsoft do Apache Spark na nuvem. O Azure Synapse facilita a criação e a configuração de recursos do Spark no Azure.
- O Data Lake Storage usa o Armazenamento do Azure a fundação para a criação de data lakes empresariais no Azure.
- O Key Vault permite armazenar segredos, chaves e certificados com segurança aprimorada.
- Aszonas de destino do Azure são a saída de um ambiente de várias assinaturas do Azure que levam em conta escala, governança, segurança, rede e identidade. Uma zona de destino permite a migração, a modernização e a inovação em escala corporativa no Azure.
Detalhes do cenário
Este artigo fornece uma abordagem para preparar assinaturas de zona de destino do Azure para uma implantação escalonável e de segurança aprimorada do Azure Synapse. A solução segue o Cloud Adoption Framework para as melhores práticas do Azure e se concentra nas diretrizes de design para zonas de destino em escala empresarial.
Muitas grandes organizações com unidades de negócios descentralizadas e autônomas desejam adotar soluções de análise e ciência de dados em escala. É fundamental que elas criem a base certa. O Azure Synapse e o Data Lake Storage são os componentes centrais para implementar a análise em escala de nuvem e uma arquitetura de malha de dados.
Este artigo fornece recomendações para implantar o Azure Synapse entre grupos de gerenciamento, topologia de assinatura, rede, identidade e segurança.
Usando essa solução, você pode obter:
- Uma plataforma de análise de segurança bem governada e aprimorada que é dimensionada de acordo com suas necessidades em várias zonas de destino de dados.
- Sobrecarga operacional reduzida para equipes de aplicativos de dados. Elas podem se concentrar na engenharia e análise de dados e deixar o gerenciamento da plataforma do Azure Synapse para a equipe de operações da zona de destino de dados.
- Imposição centralizada de conformidade organizacional entre zonas de destinho de dados.
Possíveis casos de uso
Essa arquitetura é útil para organizações que precisam de:
- Um plano de dados e controle operacional totalmente integrado para cargas de trabalho do Azure Synapse desde o início.
- Uma implementação de segurança aprimorada do Azure Synapse, com foco na segurança e privacidade de dados.
Essa arquitetura pode funcionar como ponto de partida para implantações de grande escala de cargas de trabalho do Azure Synapse entre assinaturas de zona de destino de dados.
Topologia de assinatura
As organizações que criam plataformas de análise e dados em larga escala buscam maneiras de dimensionar seus esforços de forma consistente e eficiente ao longo do tempo.
- Usando assinaturas como uma unidade de escala para zonas de destino de dados, as organizações podem superar as limitações no nível da assinatura, garantir o isolamento e o gerenciamento de acesso adequados e obter um crescimento futuro flexível para o volume da plataforma de dados. Em uma zona de destino de dados, você pode agrupar o Azure Synapse e outros ativos de dados para casos de uso de análise específicos em um grupo de recursos.
- A configuração dos grupos de gerenciamento e assinaturas é responsabilidade do proprietário da plataforma de zona de destino que fornece o acesso necessário aos administradores da plataforma de dados para provisionar o Azure Synapse e outros serviços.
- Todas as políticas de conformidade de dados em toda a organização são aplicadas no nível do grupo de gerenciamento para impor a conformidade entre as zonas de destino de dados.
Topologia da rede
Para obter recomendações para zonas de destino que usam topologia de rede WAN virtual (hub e spoke), consulte topologia de rede de WAN Virtual. Essas recomendações estão alinhadas com práticas recomendadas do Cloud Adoption Framework.
A seguir estão algumas recomendações para a topologia de rede do Azure Synapse:
Implemente o isolamento de rede para recursos do Azure Synapse por meio da Rede Virtual Gerenciada. Implemente a proteção contra exfiltração de dados restringindo o acesso de saída somente a destinos aprovados.
Configure a conectividade de Link Privado para:
- Serviços do Azure, como Data Lake Storage, Key Vault e SQL do Azure, por meio de pontos de extremidade privados gerenciados.
- Armazenamentos de dados locais e aplicativos no ExpressRoute, por meio de um runtime de integração auto-hospedada. Use o serviço de Link Privado personalizado para conectar recursos do Spark a armazenamentos de dados locais se você não puder usar um runtime de integração auto-hospedada.
- Synapse Studio, por meio de hubs de link privado que são implantados em uma assinatura de conectividade.
- O workspace do Log Analytics, por meio do Escopo de Link Privado do Azure Monitor, implantado em uma assinatura de conectividade.
Gerenciamento de identidade e acesso
As empresas normalmente usam uma abordagem menos privilegiada para acesso operacional. Eles usam a ID do Microsoft Entra, RBAC (controle de acesso baseado em função) do Azure e definições de função personalizadas para gerenciamento de acesso.
- Implemente controles de acesso refinados no Azure Synapse usando funções do Azure, funções do Azure Synapse, funções SQL e permissões Git. Para obter mais informações sobre o controle de acesso do workspace do Azure Synapse, consulte esta visão geral.
- As funções do Azure Synapse fornecem conjuntos de permissões que podem ser aplicadas em escopos diferentes. Essa granularidade facilita a concessão de acesso apropriado a administradores, desenvolvedores, pessoal de segurança e operadores para computar recursos e dados.
- Você pode simplificar o controle de acesso usando grupos de segurança alinhados com funções de trabalho. Para gerenciar o acesso, basta adicionar e remover usuários de grupos de segurança apropriados.
- Você pode fornecer segurança para a comunicação entre o Azure Synapse e outros serviços do Azure, como o Data Lake Storage e o Key Vault, usando identidades gerenciadas atribuídas pelo usuário. Isso elimina a necessidade de gerenciar credenciais. As identidades gerenciadas fornecem uma identidade que os aplicativos usam ao se conectarem a recursos que oferecem suporte à autenticação do Microsoft Entra.
Automação de aplicativos e DevOps
- A integração e a entrega contínuas de um workspace do Azure Synapse são obtidas por meio da integração e promoção do Git de todas as entidades de um ambiente (desenvolvimento, teste, produção) para outro ambiente.
- Implemente a automação do Bicep / Azure Resource Manager para criar ou atualizar recursos do workspace (pools e workspace). Migre artefatos como scripts SQL e notebooks, definições de trabalho do Spark, pipelines, conjuntos de dados e outros artefatos usando ferramentas de Implantação do Workspace do Synapse no Azure DevOps ou no GitHub, conforme descrito em Integração e entrega contínuas para um workspace do Azure Synapse Analytics.
Considerações
Essas considerações implementam os pilares do Azure Well-Architected Framework, um conjunto de princípios orientadores que você poderá usar para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.
Confiabilidade
A confiabilidade garante que seu aplicativo possa cumprir os compromissos que você deve assumir com seus clientes. Para obter mais informações, confira Visão geral do pilar de confiabilidade.
- O Azure Synapse, o Data Lake Storage e o Key Vault são serviços de PaaS (plataforma gerenciada como serviço) que têm alta disponibilidade e resiliência internas. Você pode usar nós redundantes para tornar o runtime de integração auto-hospedada e as VMs NAT na arquitetura altamente disponíveis.
- Para obter informações sobre SLA (contrato de nível de serviço), consulte SLA para o Azure Synapse Analytics.
- Para obter recomendações de continuidade de negócios e recuperação de desastres para o Azure Synapse, consulte pontos de restauração de banco de dados para o Azure Synapse Analytics.
Segurança
A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.
- Essa linha de base de segurança aplica diretrizes do Azure Security Benchmark 2.0 aos pools de SQL dedicados do Azure Synapse.
- Para obter informações sobre os controles de segurança do Azure Policy para o Azure Synapse, consulte controles de Conformidade Regulatória do Azure Policy para o Azure Synapse Analytics.
- Para obter políticas internas importantes para o workspace do Azure Synapse, consulte definições internas do Azure Policy para o Azure Synapse Analytics.
Otimização de custo
A otimização de custos consiste em reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.
- Os recursos de análise são medidos em DWUs (Unidades de Data Warehouse), que rastreiam o uso de CPU, memória e E/S. Recomendamos que você comece com pequenas DWUs e meça o desempenho para operações com uso intensivo de recursos, como carregamento ou transformação de dados pesados. Isso pode ajudar a determinar quantas unidades você precisa para otimizar sua carga de trabalho.
- Economize dinheiro com preços de pagamento conforme o uso usando SCUs (Unidades de Confirmação do Azure Synapse) pré-compradas.
- Para explorar as opções de preços e estimar o custo de implementação do Azure Synapse, consulte Preços do Azure Synapse Analytics.
- Essa estimativa de preços contém os custos de implantação de serviços usando as etapas de automação descritas na próxima seção.
Implantar este cenário
Pré-requisitos: você deve ter uma conta do Azure. Caso você não tenha uma assinatura do Azure, crie uma conta gratuita antes de começar.
Todo o código para esse cenário está disponível no repositório Synapse Enterprise Codebase no GitHub.
A implantação automatizada usa modelos Bicep para implantar os seguintes componentes:
- Um grupo de recursos
- Uma rede virtual e sub-redes
- Camadas de armazenamento (Bronze, Prata e Ouro) com pontos de extremidade privados
- Um workspace do Azure Synapse com uma Rede Virtual Gerenciada
- Serviço de Link Privado e pontos de extremidade
- Balanceador de carga e VMs NAT
- Um recurso de runtime de integração auto-hospedada
Um script do PowerShell para orquestrar a implantação está disponível no repositório. Você pode executar o script do PowerShell ou usar o arquivo pipeline.yml para implantá-lo como um pipeline no Azure DevOps.
Para obter mais informações sobre os modelos, as etapas de implantação e as suposições do Bicep, consulte o arquivoreadme.
Colaboradores
Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.
Principais autores:
- Vidya Narasimhan | Arquiteto Principal de Soluções de Nuvem
- Sabyasachi Samaddar | Arquiteto Sênior de Soluções de Nuvem
Outro colaborador:
- Mick Alberts | Escritor técnico
Para ver perfis não públicos do LinkedIn, entre no LinkedIn.
Próximas etapas
- Para obter informações sobre como criar uma plataforma de análise e dados de ponta a ponta, consulte Diretrizes de análise em escala de nuvem.
- Explore a malha de dados como um padrão de arquitetura usado para implementar plataformas de dados corporativos em organizações complexas e de grande porte.
- Confira o White paper de segurança do Azure Synapse.
Para obter mais informações sobre os serviços descritos neste artigo, consulte estes recursos: