White paper de segurança do Azure Synapse Analytics: Introdução
Resumo: O Azure Synapse Analytics é uma plataforma de análise ilimitada da Microsoft que integra armazenamento de dados corporativos e processamento de big data em um único ambiente gerenciado sem necessidade de integração de sistema. O Azure Synapse fornece as ferramentas de ponta a ponta para seu ciclo de vida analítico com:
- Pipelines para integração de dados.
- Pool do Apache Spark para processamento de big data.
- Data Explorer para análise de log e séries temporais.
- Pool SQL sem servidor para exploração de dados no Azure Data Lake.
- Pool SQL dedicado (anteriormente SQL DW) para armazenamento de dados corporativos.
- Integração profunda com o Power BI, Azure Cosmos DB e Azure Machine Learning.
A segurança e a privacidade dos dados do Azure Synapse não são negociáveis. O objetivo deste white paper é fornecer uma visão geral abrangente dos recursos de segurança do Azure Synapse, que são de nível empresarial e líderes do setor. O Livro Branco compreende uma série de artigos que abrangem as seguintes cinco camadas de segurança:
- Proteção de dados
- Controlo de acesso
- Autenticação
- Segurança da rede
- Proteção contra ameaças
Este white paper destina-se a todas as partes interessadas em segurança empresarial. Eles incluem administradores de segurança, administrações de rede, administradores do Azure, administradores de espaço de trabalho e administradores de banco de dados.
Escritores: Vengatesh Parasuraman, Fretz Nuson, Ron Dunn, Khendr'a Reid, John Hoang, Nithesh Krishnappa, Mykola Kovalenko, Brad Schacht, Pedro Martinez, Mark Pryce-Maher e Arshad Ali.
Revisores técnicos: Nandita Valsan, Rony Thomas, Abhishek Narain, Daniel Crawford e Tammy Richter Jones.
Aplica-se a: Azure Synapse Analytics, pool SQL dedicado (anteriormente SQL DW), pool SQL sem servidor e pool Apache Spark.
Importante
Este white paper não se aplica ao Banco de Dados SQL do Azure, à Instância Gerenciada SQL do Azure, ao Azure Machine Learning ou ao Azure Databricks.
Introdução
Violações de dados, infeções por malware e injeção de código malicioso fazem muitas vezes as manchetes e estão na extensa lista de preocupações de segurança das empresas que pretendem modernizar a cloud. O cliente empresarial precisa de um fornecedor de cloud ou de uma solução de serviço que possa resolver as suas preocupações, uma vez que não se pode dar ao luxo de errar.
Algumas questões de segurança comuns incluem:
- Como posso controlar quem pode ver que dados?
- Quais são as opções para verificar a identidade de um utilizador?
- Como é que os meus dados estão protegidos?
- Que tecnologia de segurança de rede posso utilizar para proteger a integridade, a confidencialidade e o acesso das minhas redes e dos meus dados?
- Quais são as ferramentas que detetam e me notificam de ameaças?
O objetivo deste white paper é fornecer respostas a essas perguntas comuns de segurança e muitas outras.
Arquitetura de componentes
O Azure Synapse é um serviço de análise de plataforma como serviço (PaaS) que reúne vários componentes independentes, como pools SQL dedicados, pools SQL sem servidor, pools Apache Spark e pipelines de integração de dados. Esses componentes são projetados para trabalhar juntos para fornecer uma experiência de plataforma analítica perfeita.
Pools SQL dedicados são clusters provisionados que fornecem recursos de armazenamento de dados corporativos para cargas de trabalho SQL. Os dados são ingeridos no armazenamento gerenciado com o Armazenamento do Azure, que também é um serviço PaaS. A computação é isolada do armazenamento, permitindo que os clientes dimensionem a computação independentemente de seus dados. Os pools SQL dedicados também fornecem a capacidade de consultar arquivos de dados diretamente em contas de Armazenamento do Azure gerenciadas pelo cliente usando tabelas externas.
Os pools SQL sem servidor são clusters sob demanda que fornecem uma interface SQL para consultar e analisar dados diretamente em contas de Armazenamento do Azure gerenciadas pelo cliente. Como eles não têm servidor, não há armazenamento gerenciado e os nós de computação são dimensionados automaticamente em resposta à carga de trabalho de consulta.
Apache Spark no Azure Synapse é uma das implementações da Microsoft de código aberto Apache Spark na nuvem. As instâncias do Spark são provisionadas sob demanda com base nas configurações de metadados definidas nos pools do Spark. Cada usuário recebe sua própria instância dedicada do Spark para executar seus trabalhos. Os arquivos de dados processados pelas instâncias do Spark são gerenciados pelo cliente em suas próprias contas de Armazenamento do Azure.
Os pipelines são um agrupamento lógico de atividades que executam a movimentação e a transformação de dados em escala. O fluxo de dados é uma atividade de transformação em um pipeline que é desenvolvida usando uma interface de usuário low-code. Ele pode executar transformações de dados em escala. Nos bastidores, os fluxos de dados usam clusters Apache Spark do Azure Synapse para executar código gerado automaticamente. Pipelines e fluxos de dados são serviços somente de computação e não têm nenhum armazenamento gerenciado associado a eles.
Os pipelines usam o Integration Runtime (IR) como a infraestrutura de computação escalável para executar atividades de movimentação e despacho de dados. As atividades de movimentação de dados são executadas no IR, enquanto as atividades de despacho são executadas em vários outros mecanismos de computação, incluindo o Banco de Dados SQL do Azure, o Azure HDInsight, o Azure Databricks, os clusters Apache Spark do Azure Synapse e outros. O Azure Synapse dá suporte a dois tipos de RI: Azure Integration Runtime e Self-hosted Integration Runtime. O IR do Azure fornece uma infraestrutura de computação totalmente gerenciada, escalável e sob demanda. O IR auto-hospedado é instalado e configurado pelo cliente em sua própria rede, seja em máquinas locais ou em máquinas virtuais de nuvem do Azure.
Os clientes podem optar por associar seu espaço de trabalho Synapse a uma rede virtual de espaço de trabalho gerenciado. Quando associados a uma rede virtual de espaço de trabalho gerenciado, os IRs do Azure e os clusters Apache Spark usados por pipelines, fluxos de dados e pools do Apache Spark são implantados dentro da rede virtual do espaço de trabalho gerenciado. Essa configuração garante o isolamento de rede entre os espaços de trabalho para pipelines e cargas de trabalho do Apache Spark.
O diagrama a seguir descreve os vários componentes do Azure Synapse.
Isolamento de componentes
Cada componente individual do Azure Synapse descrito no diagrama fornece seus próprios recursos de segurança. Os recursos de segurança fornecem proteção de dados, controle de acesso, autenticação, segurança de rede e proteção contra ameaças para proteger a computação e os dados associados que são processados. Além disso, o Armazenamento do Azure, sendo um serviço PaaS, fornece segurança adicional própria, que é configurada e gerenciada pelo cliente em suas próprias contas de armazenamento. Esse nível de isolamento de componentes limita e minimiza a exposição se houver uma vulnerabilidade de segurança em qualquer um de seus componentes.
Camadas de segurança
O Azure Synapse implementa uma arquitetura de segurança em várias camadas para proteção de ponta a ponta de seus dados. Existem cinco camadas:
- Proteção de dados para identificar e classificar dados sensíveis e criptografar dados em repouso e em movimento.
- Controle de acesso para determinar o direito de um usuário de interagir com dados.
- Autenticação para comprovar a identidade de usuários e aplicativos.
- Segurança de rede para isolar o tráfego de rede com pontos de extremidade privados e redes privadas virtuais.
- Proteção contra ameaças para identificar possíveis ameaças à segurança, como locais de acesso incomuns, ataques de injeção de SQL, ataques de autenticação e muito mais.
Próximos passos
No próximo artigo desta série de white papers, saiba mais sobre proteção de dados.