Metodologia de sucesso da implementação do Synapse: avaliar o design de integração de dados

Observação

Este artigo faz parte da série de artigos Sucesso por design da implementação do Azure Synapse. Para obter uma visão geral da série, confira Sucesso por design da implementação do Azure Synapse.

O Azure Synapse Analytics contém o mesmo mecanismo de integração de dados e as mesmas experiências do ADF (Azure Data Factory), permitindo que você crie pipelines de ETL avançados em escala sem sair do Azure Synapse Analytics.

Image shows the components of Azure Synapse, with the Data Integration component highlighted.

Este artigo descreve como avaliar o design dos componentes de integração de dados do seu projeto. Mais especificamente, ele ajuda você a determinar se os pipelines do Azure Synapse são os mais adequados para seus requisitos de integração de dados. O tempo investido na avaliação do design antes do desenvolvimento da solução pode ajudar a eliminar alterações inesperadas de design que podem afetar a linha do tempo ou o custo do projeto.

Análise fit-gap

Você deve executar uma análise fit-gap completa de sua estratégia de integração de dados. Se você escolher pipelines do Azure Synapse como a ferramenta de integração de dados, examine os pontos a seguir para garantir que eles serão os mais adequados para seus requisitos de integração de dados e orquestração. Mesmo se você escolher diferentes ferramentas de integração de dados, ainda deverá examinar os pontos a seguir para validar se todos os principais pontos de design foram considerados e que sua ferramenta escolhida dará suporte às suas necessidades de solução. Essas informações devem ter sido capturadas durante a avaliação executada anteriormente nesta metodologia.

  • Examine suas fontes e destinos de dados:
  • Examine os pontos de gatilho da integração de dados e a frequência:
    • Os pipelines do Azure Synapse dão suporte a agendamento, janela em cascata e gatilhos de evento de armazenamento.
    • Valide que o intervalo mínimo de recorrência e os eventos de armazenamento com suporte estão de acordo com seus requisitos.
  • Examine os modos obrigatórios de integração de dados:
  • Examine o design de computação:
    • A computação exigida pelos pipelines precisa ser sem servidor ou provisionada?
    • Os pipelines do Azure Synapse dão suporte a ambos os modos de IR (runtime de integração): sem servidor ou auto-hospedados em um computador Windows.
    • Valide portas e firewalls e a configuração de proxy ao usar o IR auto-hospedado (provisionado).
  • Examine os requisitos de segurança, a rede e a configuração de firewall do ambiente e compare-os com o design de configuração de segurança, rede e firewall:
    • Examine como as fontes de dados são protegidas e ficam em rede.
    • Examine como os armazenamentos de dados de destino são protegidos e ficam em rede. Os pipelines do Azure Synapse têm diferentes estratégias de acesso a dados que fornecem uma maneira segura de conectar armazenamentos de dados por meio de pontos de extremidade privados ou redes virtuais.
    • Use o Azure Key Vault para armazenar credenciais sempre que aplicável.
    • Use o ADF para criptografia CMK (chave gerenciada pelo cliente) de credenciais e armazene-as no IR auto-hospedado.
  • Examine o design para monitoramento contínuo de todos os componentes de integração de dados.

Considerações sobre arquitetura

Ao examinar o design de integração de dados, considere as recomendações e diretrizes a seguir para garantir que os componentes de integração de dados da sua solução forneçam excelência operacional, eficiência de desempenho, confiabilidade e segurança contínuas.

Excelência operacional

Para excelência operacional, avalie os pontos a seguir.

  • Ambiente: ao planejar seus ambientes, separe-os por desenvolvimento/teste, UAT (teste de aceitação do usuário) e produção. Use as opções organizacionais de pasta para organizar seus pipelines e conjuntos de dados por trabalhos de negócios/ETL a fim de permitir uma melhor manutenção. Use anotações para marcar seus pipelines a fim de monitorá-los facilmente. Crie pipelines reutilizáveis usando parâmetros e atividades de iteração e condicionais.
  • Monitoramento e alertas: os workspaces do Synapse incluem o Hub do Monitor, que tem informações avançadas de monitoramento de cada execução de pipeline. Ele também se integra ao Log Analytics para análise de log e alertas adicionais. Você deve implementar esses recursos para fornecer notificações de erro proativas. Além disso, use os caminhos Após a falha para implementar o tratamento de erros personalizado.
  • Implantação e teste automatizados: os pipelines do Azure Synapse são integrados ao workspace do Synapse para que você possa aproveitar a automação e a implantação do workspace. Use Modelos do ARM para minimizar as atividades manuais na hora de criar workspaces do Synapse. Além disso, integre workspaces do Synapse ao Azure DevOps para criar controle de versão de código e automatizar a publicação.

Eficiência do desempenho

Para obter eficiência no desempenho, avalie os pontos a seguir.

  • Siga as diretrizes de desempenho e os recursos de otimização ao trabalhar com a atividade de cópia.
  • Escolha conectores otimizados para transferência de dados em vez de conectores genéricos. Por exemplo, use o PolyBase em vez da inserção em massa ao mover dados do ALDS Gen2 (Azure Data Lake Storage Gen2) para um pool de SQL dedicado.
  • Ao criar um Azure IR, defina o local da região como resolução automática ou selecione a mesma região que os armazenamentos de dados.
  • Em IR auto-hospedado, escolha o tamanho da VM (máquina virtual) do Azure com base nos requisitos de integração.
  • Escolha uma conexão de rede estável, como o Azure ExpressRoute, para obter largura de banda rápida e consistente.

Confiabilidade

Quando você executa um pipeline usando o Azure IR, ele é sem servidor por natureza e, portanto, fornece resiliência pronta para uso. Sobra pouco para os clientes gerenciarem. No entanto, quando um pipeline é executado em um IR auto-hospedado, recomendamos executá-lo usando uma configuração de alta disponibilidade em VMs do Azure. Essa configuração garante que os pipelines de integração não serão interrompidos mesmo quando uma VM fica offline. Além disso, recomendamos que você use o Azure ExpressRoute para uma conexão de rede rápida e confiável entre o local e o Azure.

Segurança

Uma plataforma de dados protegida é um dos principais requisitos de cada organização. Você deve planejar completamente a segurança para toda a plataforma em vez de apenas nos componentes individuais. Aqui estão algumas diretrizes de segurança para soluções de pipeline do Azure Synapse.

Próximas etapas

No próximo artigo da série Sucesso por design do Azure Synapse, saiba como avaliar o design do pool de SQL dedicado para identificar problemas e validar que ele atende às diretrizes e aos requisitos.