Synapse POC playbook: Exploração do data lake com pool SQL sem servidor no Azure Synapse Analytics

Este artigo apresenta uma metodologia de alto nível para preparar e executar um projeto de prova de conceito (POC) eficaz do Azure Synapse Analytics para pool SQL sem servidor.

Nota

Este artigo faz parte da série de artigos do manual de prova de conceito do Azure Synapse. Para obter uma visão geral da série, consulte Azure Synapse proof of concept playbook.

Prepare-se para o POC

Um projeto POC pode ajudá-lo a tomar uma decisão de negócios informada sobre a implementação de um ambiente de big data e análise avançada em uma plataforma baseada em nuvem que aproveita o pool SQL sem servidor no Azure Synapse. Se você precisar explorar ou obter insights de dados no data lake, ou otimizar seu pipeline de transformação de dados existente, poderá se beneficiar do uso do pool SQL sem servidor. É adequado para os seguintes cenários:

  • Descoberta e exploração básicas: raciocine rapidamente sobre os dados armazenados em vários formatos (Parquet, CSV, JSON) em seu data lake, para que você possa planejar como desbloquear insights a partir deles.
  • Data warehouse lógico: produza uma abstração relacional sobre dados brutos ou díspares sem realocá-los ou transformá-los, fornecendo uma visão sempre atualizada de seus dados.
  • Transformação de dados: execute consultas de data lake simples, escaláveis e de alto desempenho usando T-SQL. Você pode alimentar os resultados da consulta para ferramentas de business intelligence (BI) ou carregá-los em um banco de dados relacional. Os sistemas de destino podem incluir pools SQL dedicados do Azure Synapse ou o Banco de Dados SQL do Azure.

Diferentes funções profissionais podem se beneficiar do pool SQL sem servidor:

  • Os engenheiros de dados podem explorar o data lake, transformar e preparar dados usando o pool SQL sem servidor e simplificar seus pipelines de transformação de dados.
  • Os cientistas de dados podem raciocinar rapidamente sobre o conteúdo e a estrutura dos dados armazenados no data lake usando a função OPENROWSET T-SQL e sua inferência automática de esquema.
  • Os analistas de dados podem escrever consultas T-SQL em suas ferramentas de consulta preferidas, que podem se conectar ao pool SQL sem servidor. Eles podem explorar dados em tabelas externas do Spark que foram criadas por cientistas de dados ou engenheiros de dados.
  • Os profissionais de BI podem criar rapidamente relatórios do Power BI que se conectam a tabelas de data lake ou Spark.

Um projeto POC de pool SQL sem servidor identificará suas principais metas e drivers de negócios que o pool SQL sem servidor foi projetado para suportar. Ele também testará os principais recursos e reunirá métricas para apoiar suas decisões de implementação. Um POC não foi projetado para ser implantado em um ambiente de produção. Em vez disso, é um projeto de curto prazo que se concentra em questões-chave, e seu resultado pode ser descartado.

Antes de começar a planejar seu projeto POC do Pool SQL sem servidor:

  • Identifique quaisquer restrições ou diretrizes que sua organização tenha sobre a movimentação de dados para a nuvem.
  • Identifique patrocinadores executivos ou de negócios para um projeto de plataforma de big data e análise avançada. Proteja o suporte para migração para a nuvem.
  • Identifique a disponibilidade de especialistas técnicos e usuários empresariais para apoiá-lo durante a execução do POC.

Antes de começar a se preparar para o projeto POC, recomendamos que você leia primeiro a documentação do pool SQL sem servidor.

Gorjeta

Se você é novo em pools SQL sem servidor, recomendamos que você trabalhe com o caminho de aprendizado Criar soluções de análise de dados usando o caminho de aprendizado de pools SQL sem servidor do Azure Synapse.

Estabeleça os objetivos

Um projeto POC bem-sucedido requer planejamento. Comece identificando por que você está fazendo um POC para entender completamente as reais motivações. As motivações podem incluir modernização, redução de custos, melhoria de desempenho ou experiência integrada. Certifique-se de documentar objetivos claros para o seu POC e os critérios que definirão o seu sucesso. Pergunte a si mesmo:

  • O que você quer como saídas do seu POC?
  • O que você vai fazer com esses resultados?
  • Quem utilizará os resultados?
  • O que definirá um POC de sucesso?

Tenha em mente que um POC deve ser um esforço curto e focado para provar rapidamente um conjunto limitado de conceitos e capacidades. Esses conceitos e capacidades devem ser representativos da carga de trabalho global. Se você tiver uma longa lista de itens para provar, você pode querer planejar mais de um POC. Nesse caso, defina portas entre os POCs para determinar se você precisa continuar com o próximo. Dadas as diferentes funções profissionais que podem usar um pool SQL sem servidor (e os diferentes cenários que o pool SQL sem servidor suporta), você pode optar por executar vários POCs. Por exemplo, um POC poderia se concentrar em requisitos para a função de cientista de dados, como descoberta e exploração de dados em diferentes formatos. Outro poderia se concentrar em requisitos para a função de engenharia de dados, como transformação de dados e a criação de um data warehouse lógico.

Ao considerar suas metas POC, faça a si mesmo as seguintes perguntas para ajudá-lo a moldar as metas:

  • Você está migrando de uma plataforma de big data e análise avançada existente (local ou na nuvem)?
  • Você está migrando, mas deseja fazer o mínimo possível de alterações na ingestão e no processamento de dados existentes?
  • Você está migrando, mas quer fazer algumas melhorias extensas ao longo do caminho?
  • Você está construindo uma plataforma de big data e análise avançada totalmente nova (projeto greenfield)?
  • Quais são os seus pontos problemáticos atuais? Por exemplo, escalabilidade, desempenho ou flexibilidade.
  • Que novos requisitos de negócios você precisa suportar?
  • Quais são os SLAs que você é obrigado a cumprir?
  • Quais serão as cargas de trabalho? Por exemplo, exploração de dados em diferentes formatos de dados, exploração básica, um data warehouse lógico, preparação e/ou transformação de dados, análise interativa T-SQL, consulta T-SQL de tabelas Spark ou consultas de relatório sobre o data lake.
  • Quais são as competências dos utilizadores que serão os proprietários do projeto (caso o POC seja implementado)?

Aqui estão alguns exemplos de definição de metas POC:

  • Por que estamos fazendo um POC?
    • Precisamos saber se podemos explorar todos os formatos de arquivo bruto que armazenamos usando o pool SQL sem servidor.
    • Precisamos saber se nossos engenheiros de dados podem avaliar rapidamente novos feeds de dados.
    • Precisamos saber se o desempenho da consulta data lake usando o pool SQL sem servidor atenderá aos nossos requisitos de exploração de dados.
    • Precisamos saber se o pool SQL sem servidor é uma boa opção para algumas de nossas visualizações e requisitos de relatórios.
    • Precisamos saber se o pool SQL sem servidor é uma boa escolha para alguns de nossos requisitos de ingestão e processamento de dados.
    • Precisamos saber se nossa mudança para o Azure Synapse atenderá ao nosso orçamento.
  • Na conclusão desta PoC:
    • Teremos os dados para identificar as transformações de dados que são adequadas para o pool SQL sem servidor.
    • Teremos os dados para identificar quando o pool SQL sem servidor pode ser melhor usado durante a visualização de dados.
    • Teremos os dados para saber a facilidade com que nossos engenheiros de dados e cientistas de dados podem adotar a nova plataforma.
    • Teremos obtido informações para estimar melhor o esforço necessário para concluir o projeto de implementação ou migração.
    • Teremos uma lista de itens que podem precisar de mais testes.
    • Nosso POC será bem-sucedido se tivermos os dados necessários e tivermos concluído os testes identificados para determinar como o pool SQL sem servidor suportará nossa plataforma de big data e análise avançada baseada em nuvem.
    • Teremos determinado se podemos passar para a próxima fase ou se mais testes POC são necessários para finalizar nossa decisão.
    • Seremos capazes de tomar uma decisão de negócios sólida apoiada por pontos de dados específicos.

Planear o projeto

Use suas metas para identificar testes específicos e fornecer os resultados identificados. É importante certificar-se de que você tem pelo menos um teste para apoiar cada objetivo e resultado esperado. Além disso, identifique tarefas específicas de exploração e análise de dados, transformações específicas e processamento existente específico que você deseja testar. Identifique um conjunto de dados e uma base de código específicos que você pode usar.

Aqui está um exemplo do nível necessário de especificidade no planejamento:

  • Objetivo: Precisamos saber se os engenheiros de dados podem alcançar o processamento equivalente do processo ETL existente chamado "Daily Batch Raw File Validation" dentro do SLA necessário.
  • Saída: Teremos os dados para determinar se podemos usar consultas T-SQL para executar o processo ETL "Daily Batch Raw File Validation" dentro do SLA necessário.
  • Teste: As consultas de validação A, B e C são identificadas pela engenharia de dados e representam as necessidades gerais de processamento de dados. Compare o desempenho dessas consultas com o benchmark obtido a partir do sistema existente.

Avaliar o conjunto de dados POC

Usando os testes específicos identificados, selecione um conjunto de dados para dar suporte aos testes. Dedique algum tempo a rever este conjunto de dados. Você deve verificar se o conjunto de dados representará adequadamente seu processamento futuro em termos de conteúdo, complexidade e escala. Não use um conjunto de dados muito pequeno porque ele não fornecerá desempenho representativo. Por outro lado, não use um conjunto de dados muito grande porque o POC não deve se tornar uma migração de dados completa. Certifique-se de obter os benchmarks apropriados dos sistemas existentes para que você possa usá-los para comparações de desempenho.

Importante

Certifique-se de verificar com os proprietários de empresas se há bloqueadores antes de mover quaisquer dados para a nuvem. Identifique quaisquer preocupações de segurança ou privacidade ou qualquer necessidade de ofuscação de dados que deve ser feita antes de mover dados para a nuvem.

Criar uma arquitetura de alto nível

Com base na arquitetura de alto nível da futura arquitetura de estado proposta, identifique os componentes que farão parte do seu POC. Sua arquitetura de estado futuro de alto nível provavelmente contém muitas fontes de dados, vários consumidores de dados, componentes de big data e, possivelmente, consumidores de dados de aprendizado de máquina e inteligência artificial (IA). Sua arquitetura POC deve identificar especificamente os componentes que farão parte do POC. É importante ressaltar que ele deve identificar quaisquer componentes que não farão parte do teste POC.

Se você já estiver usando o Azure, identifique todos os recursos que você já tem em vigor (ID do Microsoft Entra, Rota Expressa e outros) que você pode usar durante o POC. Identifique também as regiões do Azure que sua organização usa. Agora é um ótimo momento para identificar a taxa de transferência de sua conexão de Rota Expressa e verificar com outros usuários corporativos se seu POC pode consumir parte dessa taxa de transferência sem impacto adverso nos sistemas de produção.

Identificar recursos POC

Identifique especificamente os recursos técnicos e os compromissos de tempo necessários para dar suporte ao seu POC. O seu POC necessitará de:

  • Um representante comercial para supervisionar os requisitos e resultados.
  • Um especialista em dados de aplicação, para obter os dados para o POC e fornecer conhecimento dos processos e lógica existentes.
  • Um especialista em pool SQL sem servidor.
  • Um expert advisor, para otimizar os testes POC.
  • Recursos que serão necessários para componentes específicos do seu projeto POC, mas não necessariamente necessários para a duração do POC. Esses recursos podem incluir administradores de rede, administradores do Azure, administradores do Ative Directory, administradores do portal do Azure e outros.
  • Certifique-se de que todos os recursos de serviços do Azure necessários sejam provisionados e que o nível necessário de acesso seja concedido, incluindo acesso a contas de armazenamento.
  • Certifique-se de ter uma conta que tenha as permissões de acesso a dados necessárias para recuperar dados de todas as fontes de dados no escopo POC.

Gorjeta

Recomendamos contratar um consultor especialista para ajudar com seu POC. A comunidade de parceiros da Microsoft tem disponibilidade global de consultores especializados que podem ajudá-lo a avaliar, avaliar ou implementar o Azure Synapse.

Definir a linha do tempo

Reveja os detalhes de planeamento do seu POC e as necessidades do seu negócio para identificar um período de tempo para o seu POC. Faça estimativas realistas do tempo que será necessário para completar as metas do POC. O tempo para concluir seu POC será influenciado pelo tamanho do seu conjunto de dados POC, o número e a complexidade dos testes e o número de interfaces a serem testadas. Se você estima que seu POC será executado por mais de quatro semanas, considere reduzir o escopo do POC para se concentrar nos objetivos de prioridade mais alta. Certifique-se de obter aprovação e compromisso de todos os recursos principais e patrocinadores antes de continuar.

Colocar o POC em prática

Recomendamos que execute o seu projeto POC com a disciplina e o rigor de qualquer projeto de produção. Execute o projeto de acordo com o planejado e gerencie um processo de solicitação de alteração para evitar o crescimento descontrolado do escopo do POC.

Aqui estão alguns exemplos de tarefas de alto nível:

  1. Crie um espaço de trabalho Synapse, contas de armazenamento e os recursos do Azure identificados no plano POC.
  2. Configure a rede e a segurança de acordo com as suas necessidades.
  3. Conceda acesso apropriado aos membros da equipe POC. Consulte este artigo sobre permissões para acessar arquivos diretamente do Armazenamento do Azure.
  4. Carregue o conjunto de dados POC.
  5. Implemente e configure os testes e/ou migre o código existente para scripts e exibições de pool SQL sem servidor.
  6. Execute os testes:
    • Muitos testes podem ser executados em paralelo.
    • Registe os seus resultados num formato consumível e facilmente compreensível.
  7. Monitore a solução de problemas e o desempenho.
  8. Avalie os seus resultados e apresente resultados.
  9. Trabalhe com as partes interessadas técnicas e a empresa para planejar a próxima etapa do projeto. A próxima etapa pode ser um POC de acompanhamento ou uma implementação de produção.

Interpretar os resultados do POC

Ao concluir todos os testes POC, você avalia os resultados. Comece por avaliar se os objetivos do POC foram atingidos e se os resultados desejados foram recolhidos. Determine se mais testes são necessários ou se alguma dúvida precisa ser resolvida.

Próximos passos