Notas del producto sobre seguridad de Azure Synapse Analytics: introducción
Resumen: Azure Synapse Analytics es una plataforma de análisis sin límites de Microsoft que integra el almacenamiento de datos empresariales y el procesamiento de macrodatos en un único entorno administrado sin necesidad de integración del sistema. Azure Synapse proporciona herramientas de un extremo a otro para el ciclo de vida de los análisis:
- Pipelines para la integración de datos.
- Grupo de Apache Spark para el procesamiento de macrodatos.
- Data Explorer para el análisis de registros y series temporales.
- Grupo de SQL sin servidor para la exploración de datos a través de Azure Data Lake.
- Grupo de SQL dedicado (anteriormente SQL DW) para el almacenamiento de datos empresariales.
- Integración profunda con Power BI, Azure Cosmos DB y Azure Machine Learning.
La privacidad y seguridad de los datos de Azure Synapse no son negociables. El propósito de estas notas del producto es proporcionar una visión general completa de las características de seguridad de Azure Synapse, que son de nivel empresarial y líderes del sector. Las notas del producto constan de una serie de artículos que abarcan las cinco capas de seguridad siguientes:
- Protección de los datos
- Control de acceso
- Authentication
- Seguridad de las redes
- Protección contra amenazas
Estas notas del producto van dirigidas a todas las partes interesadas de la seguridad empresarial, entre las que se incluyen administradores de seguridad, administradores de red, administradores de Azure, administradores de áreas de trabajo y administradores de bases de datos.
Autores: Vengatesh Parasuraman, Fretz Nuson, Ron Dunn, Khendr'a Reid, John Hoang, Nithesh Krishnappa, Mykola Kovalenko, Brad Schacht, Pedro Martinez, Mark Pryce-Maher y Arshad Ali.
Revisores técnicos: Nandita Valsan, Rony Thomas, Abhishek Narain, Daniel Crawford y Tammy Richter Jones.
Se aplica a: Azure Synapse Analytics, grupo de SQL dedicado (anteriormente SQL DW), grupo de SQL sin servidor y grupo de Apache Spark.
Importante
Estas notas del producto no se aplican a Azure SQL Database, Azure SQL Managed Instance, Azure Machine Learning ni Azure Databricks.
Introducción
Los titulares frecuentes de las infracciones de datos, las infecciones de malware y la inyección de código malintencionado se encuentran entre una amplia lista de problemas de seguridad para las empresas que buscan la modernización de la nube. El cliente empresarial requiere un proveedor de nube o una solución de servicios que pueda resolver sus problemas, ya que no puede permitirse el error.
Estas son algunas preguntas sobre seguridad habituales:
- ¿Cómo puedo controlar quién puede ver los distintos datos?
- ¿Cuáles son las opciones para comprobar la identidad de un usuario?
- ¿Cómo se protegen mis datos?
- ¿Qué tecnología de seguridad de red puedo usar para proteger la integridad, la confidencialidad y el acceso a mis redes y datos?
- ¿Cuáles son las herramientas que detectan amenazas y las notifican?
El propósito de estas notas del producto es ofrecer respuestas a estas preguntas habituales sobre seguridad, y a muchas otras.
Arquitectura de los componentes
Azure Synapse es un servicio de análisis de plataforma como servicio (PaaS) que reúne varios componentes independientes, como grupos de SQL dedicados, grupos de SQL sin servidor, grupos de Apache Spark y canalizaciones de integración de datos. Estos componentes están diseñados para funcionar juntos con el fin de proporcionar una experiencia de plataforma analítica sin problemas.
Los grupos de SQL dedicados son clústeres aprovisionados que proporcionan funcionalidades de almacenamiento de datos empresariales para cargas de trabajo de SQL. Los datos se ingieren en el almacenamiento administrado con tecnología de Azure Storage, que también es un servicio de PaaS. El proceso está aislado del almacenamiento, lo que permite a los clientes escalar el proceso independientemente de sus datos. Los grupos de SQL dedicados también ofrecen la capacidad de consultar archivos de datos directamente a través de cuentas de Azure Storage administradas por el cliente mediante tablas externas.
Los grupos de SQL sin servidor son clústeres a petición que proporcionan una interfaz de SQL para consultar y analizar datos directamente a través de cuentas de Azure Storage administradas por el cliente. Dado que no tienen servidor, no hay almacenamiento administrado y los nodos de proceso se escalan automáticamente en respuesta a la carga de trabajo de consulta.
Apache Spark en Azure Synapse es una de las implementaciones de Microsoft de Apache Spark de código abierto en la nube. Las instancias de Spark se aprovisionan a petición en función de las configuraciones de metadatos definidas en los grupos de Spark. Cada usuario obtiene su propia instancia de Spark dedicada para ejecutar los trabajos. El cliente administra en sus propias cuentas de Azure Storage los archivos de datos procesados por las instancias de Spark.
Las canalizaciones son una agrupación lógica de actividades que realizan el movimiento de datos y la transformación de datos a escala. El flujo de datos es una actividad de transformación en una canalización que se desarrolla mediante una interfaz de usuario con poco código. Puede ejecutar transformaciones de datos a gran escala. En segundo plano, los flujos de datos usan clústeres de Apache Spark de Azure Synapse para ejecutar código generado automáticamente. Las canalizaciones y los flujos de datos son servicios solo de proceso y no tienen asociado ningún almacenamiento administrado.
Las canalizaciones usan Integration Runtime (IR) como infraestructura de proceso escalable para realizar actividades de envío y movimiento de datos. Las actividades de movimiento de datos se ejecutan en IR, mientras que las actividades de distribución se ejecutan en diversos motores de proceso, como Azure SQL Database, Azure HDInsight, Azure Databricks, clústeres de Apache Spark de Azure Synapse y otros. Azure Synapse admite dos tipos de IR: Azure Integration Runtime y el entorno de ejecución de integración autohospedado. Azure IR proporciona una infraestructura de proceso totalmente administrada, escalable y a petición. El entorno de ejecución de integración autohospedado lo instala y lo configura el cliente en su propia red, ya sea en máquinas locales o en máquinas virtuales en la nube de Azure.
Los clientes pueden optar por asociar su área de trabajo de Synapse a una red virtual de área de trabajo administrada. Cuando se asocia a una red virtual de área de trabajo administrada, las instancias de Azure IR y los clústeres de Apache Spark empleados por las canalizaciones, los flujos de datos y los grupos de Apache Spark se implementan dentro de la red virtual del área de trabajo administrada. Esta configuración garantiza el aislamiento de red entre las áreas de trabajo de las canalizaciones y las cargas de trabajo de Apache Spark.
En el diagrama siguiente se muestran los distintos componentes de Azure Synapse.
Aislamiento de componentes
Cada componente de Azure Synapse que se representa en el diagrama proporciona sus propias características de seguridad. Las características de seguridad proporcionan protección de datos, control de acceso, autenticación, seguridad de red y protección contra amenazas para proteger el proceso y los datos asociados que se procesan. Además, como Azure Storage es un servicio de PaaS, proporciona seguridad adicional propia, que el cliente configura y administra en sus propias cuentas de almacenamiento. Este nivel de aislamiento de componentes limita y minimiza la exposición si se produce una vulnerabilidad de seguridad en cualquiera de sus componentes.
Capas de seguridad
Azure Synapse implementa una arquitectura de seguridad de varias capas para la protección de los datos de un extremo a otro. Hay cinco capas:
- Protección de datos para identificar y clasificar datos confidenciales, y cifrar datos tanto en reposo como en movimiento.
- Control de acceso para determinar el derecho de un usuario a interactuar con los datos.
- Autenticación para probar la identidad de usuarios y aplicaciones.
- Seguridad de red para aislar el tráfico de red con puntos de conexión privados y redes privadas virtuales.
- Protección contra amenazas para identificar posibles amenazas a la seguridad, como ubicaciones de acceso inusuales, ataques por inyección de código SQL, ataques de autenticación, etc.
Pasos siguientes
En el siguiente artículo de esta serie de notas del producto, obtendrá información sobre la protección de los datos.