Entorno de investigación seguro para datos regulados

Azure Data Science Virtual Machine
Azure Machine Learning
Azure Data Factory

Esta arquitectura muestra un entorno de investigación seguro diseñado para permitir que los investigadores accedan a datos confidenciales con un mayor nivel de control y protección de datos. Este artículo es aplicable a las organizaciones que están obligadas a cumplir con la normativa o con otros requisitos estrictos de seguridad.

Architecture

Diagrama de un entorno de investigación seguro.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

  1. Los propietarios de datos cargan los conjuntos de datos en una cuenta pública de almacenamiento de blobs. Los datos se cifran mediante claves administradas por Microsoft.

  2. Azure Data Factory usa un desencadenador que comienza a copiar el conjunto de datos cargado en una ubicación específica (ruta de acceso de importación) de otra cuenta de almacenamiento con controles de seguridad. Solo se puede acceder a la cuenta de almacenamiento mediante un punto de conexión privado. Además, una entidad de servicio tiene acceso a ella con permisos limitados. Data Factory elimina la copia original, lo que hace que el conjunto de datos sea inmutable.

  3. Los investigadores acceden al entorno seguro mediante una aplicación de streaming con Azure Virtual Desktop como un jumpbox con privilegios.

  4. El conjunto de datos de la cuenta de almacenamiento seguro se presenta a las VM de ciencia de datos aprovisionadas en un entorno de red seguro para el trabajo de investigación. Gran parte de la preparación de los datos se realiza en esas VM.

  5. El entorno seguro tiene un proceso de Azure Machine Learning que puede acceder al conjunto de datos mediante un punto de conexión privado para los usuarios para las funcionalidades de Azure Machine Learning, como entrenar, implementar, automatizar y administrar los modelos de aprendizaje automático. En este momento, se crean modelos que cumplen las directrices normativas. Se elimina la información personal de todos los datos del modelo para que sean anónimos.

  6. Los modelos o datos anónimos se guardan en una ubicación independiente del almacenamiento seguro (ruta de acceso de exportación). Cuando se agregan nuevos datos a la ruta de exportación, se desencadena una aplicación lógica. En esta arquitectura, la aplicación lógica se encuentra fuera del entorno seguro porque no se envía ningún dato a la aplicación lógica. Su única función es enviar una notificación e iniciar el proceso de aprobación manual.

    La aplicación inicia un proceso de aprobación que solicita una revisión de los datos que se ponen en cola para exportarse. Los revisores manuales garantizan que no se exporten datos confidenciales. Después del proceso de revisión, los datos se aprueban o se deniegan.

    Nota

    Si no se requiere un paso de aprobación en la filtración, el paso de la aplicación lógica podría omitirse.

  7. Si se aprueban los datos anónimos, se envían a la instancia de Data Factory.

  8. Data Factory traslada los datos a la cuenta de almacenamiento pública en un contenedor independiente para permitir que los investigadores externos tengan acceso a sus modelos y datos exportados. Como alternativa, se puede aprovisionar otra cuenta de almacenamiento en un entorno de seguridad inferior.

Componentes

Esta arquitectura se compone de varios servicios de Azure que escalan los recursos según sea necesario. Aquí se describen los servicios y sus roles. Para obtener vínculos a la documentación del producto para comenzar a trabajar con estos servicios, consulte Pasos siguientes.

Componentes principales de la carga de trabajo

Estos son los componentes principales que trasladan los datos de investigación y los procesan.

  • Data Science Virtual Machine (DSVM) de Azure: VM configuradas con herramientas que se usan para el análisis de datos y el aprendizaje automático.

  • Azure Machine Learning: se usa para entrenar, implementar, automatizar y administrar modelos de aprendizaje automático y para administrar la asignación y el uso de recursos de proceso de aprendizaje automático.

  • Proceso de Azure Machine Learning: clúster de nodos que se usa para entrenar y probar modelos de aprendizaje automático y de IA. El proceso se asigna a petición en función de una opción de escalado automático.

  • Almacenamiento de Azure Blob: hay dos instancias. La instancia pública se usa para almacenar temporalmente los datos cargados por los propietarios de los datos. Además, almacena datos anónimos después del modelado en un contenedor independiente. La segunda instancia es privada. Recibe los conjuntos de datos de entrenamiento y prueba de Machine Learning usados por los scripts de entrenamiento. El almacenamiento se monta como una unidad virtual en cada nodo de un clúster de Proceso de Machine Learning.

  • Azure Data Factory: traslada automáticamente los datos entre cuentas de almacenamiento de distintos niveles de seguridad para garantizar la separación de tareas.

  • Azure Virtual Desktop se usa como un jumpbox para obtener acceso a los recursos del entorno seguro con aplicaciones de streaming y un escritorio completo, según sea necesario. También se puede usar Azure Bastion. Pero conviene tener claras las diferencias de control de seguridad entre las dos opciones. Virtual Desktop tiene algunas ventajas:

    • Capacidad de transmitir una aplicación como Microsoft Visual Studio Code para ejecutar cuadernos en los recursos de proceso de aprendizaje automático.
    • Capacidad de limitar las operaciones de copiar, pegar y las capturas de pantalla.
    • Compatibilidad con la autenticación de Microsoft Entra en DSVM.
  • Azure Logic Apps proporciona un flujo de trabajo automatizado de poco código para desarrollar las partes del desencadenador y de la versión del proceso de aprobación manual.

Componentes de administración de posición

Estos componentes supervisan continuamente la posición de la carga de trabajo y su entorno. Su finalidad es detectar y mitigar los riesgos en cuanto se detecten.

  • Microsoft Defender for Cloud se usa para evaluar la posición de seguridad general de la implementación y proporcionar un mecanismo de atestación para el cumplimiento normativo. Los problemas que se encontraron anteriormente durante las auditorías o valoraciones se pueden descubrir con anticipación. Use características para supervisar el progreso, como la puntuación de seguridad y la de cumplimiento.

  • Microsoft Sentinel es la solución de Administración de eventos e información de seguridad (SIEM) y respuesta automatizada de orquestación de seguridad (orquestación de seguridad, automatización y respuesta (SOAR)). Se pueden ver de forma centralizada los registros y alertas de varios orígenes y aprovechar las ventajas de los análisis avanzados de la IA y la seguridad para detectar amenazas buscarlas, evitarlas y responder a ellas.

  • Azure Monitor proporciona observabilidad en todo el entorno. Vea métricas, registros de actividad y registros de diagnóstico de la mayoría de los recursos de Azure sin una configuración agregada. Las herramientas de administración, como las de Microsoft Defender for Cloud, también envían cambios de datos de registro a Azure Monitor.

Componentes de la gobernanza

  • Azure Policy ayuda a aplicar los estándares de la organización y a evaluar el cumplimiento a gran escala.

Alternativas

  • La solución usa Data Factory para trasladas los datos a la cuenta de almacenamiento pública en un contenedor independiente, para permitir que los investigadores externos tengan acceso a sus modelos y datos exportados. Como alternativa, se puede aprovisionar otra cuenta de almacenamiento en un entorno de seguridad inferior.
  • Esta solución usa Azure Virtual Desktop como un jumpbox para obtener acceso a los recursos del entorno seguro con aplicaciones de streaming y un escritorio completo. También se puede usar Azure Bastion. Sin embargo, Virtual Desktop tiene algunas ventajas, que incluyen la capacidad de transmitir una aplicación, limitar las capturas de pantalla y copiar y pegar, y admitir la autenticación de AAC. También puede considerar la posibilidad de configurar VPN de punto a sitio para el entrenamiento sin conexión localmente. Esto también ayudará a ahorrar costos al tener varias máquinas virtuales para estaciones de trabajo.
  • Para proteger los datos en reposo, esta solución cifra todas las instancias de Azure Storage con claves administradas por Microsoft mediante una criptografía segura. O bien se pueden usar claves administradas por el cliente. Las claves se deben almacenar en un almacén de claves administrado.

Detalles del escenario

Posibles casos de uso

Esta arquitectura se creó originalmente para instituciones de investigación de educación superior con requisitos de la Ley de Portabilidad y Responsabilidad de Seguros Médicos (HIPAA). Sin embargo, este diseño se puede usar en cualquier sector que requiera un aislamiento de datos para perspectivas de investigación. Estos son algunos ejemplos:

  • Sectores que tratan datos regulados según los requisitos del Instituto Nacional de Estándares y Tecnología (NIST)
  • Centros médicos que colaboran con investigadores internos o externos
  • Banca y finanzas

Si sigue las instrucciones, puede mantener el control total de los datos de investigación, separar las tareas y cumplir los estándares estrictos de cumplimiento normativo. Además, puede facilitar la colaboración entre los roles típicos implicados en una carga de trabajo orientada a la investigación, los propietarios de datos, los investigadores y los aprobadores.

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

El objetivo principal de esta arquitectura es proporcionar un entorno de investigación seguro y de confianza que limite de forma estricta la filtración de datos desde el área segura.

Seguridad de las redes

Los recursos de Azure usados para almacenar, probar y entrenar conjuntos de datos de investigación se aprovisionan en un entorno seguro. Ese entorno es una instancia de Azure Virtual Network que tiene reglas de grupos de seguridad de red (NSG) para restringir el acceso, principalmente:

  • Acceso entrante y saliente a la red pública de Internet y en la red virtual.

  • Acceso entre puertos y servicios específicos. Por ejemplo, esta arquitectura bloquea todos los rangos de puertos, excepto los necesarios para los servicios de Azure (como Azure Monitor). Puede encontrar una lista completa de etiquetas de servicio y los servicios correspondientes en Etiquetas de servicio de red virtual.

    Además, se acepta el acceso desde la red virtual con Azure Virtual Desktop (AVD) en puertos limitados a los mecanismos de acceso aprobados, y se deniega el resto del tráfico. En comparación con este entorno, la otra red virtual (con AVD) es relativamente abierta.

El almacenamiento de blobs principal del entorno seguro se encuentra fuera de la red pública de Internet. Solo es accesible dentro de la red virtual mediante las conexiones de punto de conexión privado y los firewalls de Azure Storage. Se usa para limitar las redes desde las que los clientes pueden conectarse a los recursos compartidos de archivos de Azure.

Esta arquitectura usa la autenticación basada en credenciales para el almacén de datos principal que se encuentra en el entorno seguro. En este caso, la información de conexión, como el identificador de suscripción y la autorización del token, se almacena en un almacén de claves. Otra opción es crear el acceso a datos basado en identidades, donde se usa la cuenta de Azure para confirmar si tiene acceso al servicio Storage. En el escenario de acceso a datos basado en identidades, no se guardarán las credenciales de autenticación. Para más información sobre cómo usar el acceso a datos basado en identidades, consulte Conectar al almacenamiento mediante el acceso a datos basado en identidades.

El clúster de proceso solo puede comunicarse dentro de la red virtual mediante el ecosistema de Azure Private Link y los puntos de conexión privados o de servicio, en lugar de usar la dirección IP pública para la comunicación. Asegúrese de habilitar Ninguna dirección IP pública. Para más información sobre esta característica, que se encuentra actualmente en versión preliminar (a partir del 7 de marzo de 2022), consulte No hay ninguna dirección IP pública para instancias de proceso.

El entorno seguro tiene un proceso de Azure Machine Learning que puede acceder al conjunto de datos mediante un punto de conexión privado. Además, Azure Firewall puede usar para controlar el acceso saliente desde el proceso de Azure Machine Learning. Para obtener información sobre cómo configurar Azure Firewall para controlar el acceso a un proceso de Azure Machine Learning, que reside en un área de trabajo de aprendizaje automático, consulte Configuración del tráfico de red entrante y saliente.

Para obtener información sobre una de las formas de proteger un entorno de Azure Machine Learning, consulte la entrada de blog Entorno de Secure Azure Machine Learning Service (AMLS).

En el caso de los servicios de Azure que no se pueden configurar eficazmente con puntos de conexión privados o para proporcionar una inspección de paquetes con estado, considere la posibilidad de usar Azure Firewall o una aplicación virtual de red (NVA) de terceros.

Administración de identidades

El acceso a Blob Storage se obtiene mediante controles de acceso basados en roles de Azure.

Azure Virtual Desktop admite la autenticación de Microsoft Entra en DSVM.

Data Factory usa una identidad administrada para acceder a los datos desde el almacenamiento de blobs. Las DSVM también usan una identidad administrada para las tareas de corrección.

Seguridad de los datos

Para proteger los datos en reposo, todas las instancias de Azure Storage se cifran con claves administradas por Microsoft mediante una criptografía segura.

O bien se pueden usar claves administradas por el cliente. Las claves se deben almacenar en un almacén de claves administrado. En esta arquitectura, Azure Key Vault se implementa en el entorno seguro para almacenar secretos como claves de cifrado y certificados. Los recursos de la red virtual segura acceden a Key Vault mediante un punto de conexión privado.

Consideraciones de gobernanza

Habilite Azure Policy para aplicar estándares y proporcionar una corrección automatizada para que los recursos cumplan las directivas específicas. Las directivas se pueden aplicar a una suscripción de proyecto o a un nivel de grupo de administración como una única directiva o como parte de una iniciativa normativa.

Por ejemplo, en esta arquitectura, la configuración de invitado de Azure Policy se aplicó a todas las VM del ámbito. La directiva puede auditar los sistemas operativos y la configuración de las máquinas de Data Science VM.

Imagen de la máquina virtual

Las instancias de Data Science VM ejecutan imágenes de base personalizadas. Para compilar la imagen de base, se recomienda usar tecnologías como Azure Image Builder. De este modo, puede crear una imagen repetible que se pueda implementar cuando sea necesario.

Es posible que la imagen de base necesite actualizaciones, tales como más archivos binarios. Esos archivos binarios deben cargarse en el almacenamiento de blobs público y fluir por el entorno seguro, del mismo modo que los propietarios de datos cargan los conjuntos de datos.

Otras consideraciones

La mayoría de las soluciones de investigación son cargas de trabajo temporales y no es necesario que estén disponibles durante períodos prolongados. Esta arquitectura está diseñada como una implementación de una sola región con zonas de disponibilidad. Si los requisitos empresariales exigen mayor disponibilidad, replique esta arquitectura en varias regiones. Necesitará otros componentes, como el equilibrador de carga global y el distribuidor, para enrutar el tráfico a todas esas regiones. Como parte de la estrategia de recuperación, se recomienda capturar y crear una copia de la imagen de base personalizada con Azure Image Builder.

El tamaño y el tipo de las instancias de Data Science VM deben ser adecuados para el estilo de trabajo que se realice. Esta arquitectura está diseñada para admitir un único proyecto de investigación y la escalabilidad se logra mediante el ajuste del tamaño y el tipo de las VM y de las opciones adoptadas para los recursos de proceso disponibles para Azure Machine Learning.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

El costo de las DSVM depende de la elección de la serie de VM subyacentes. Dado que la carga de trabajo es temporal, se recomienda el plan de consumo para el recurso de aplicación lógica. Use la calculadora de precios de Azure para calcular los costos en función del dimensionamiento estimado de los recursos necesarios.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Autor principal:

Pasos siguientes