Compartir a través de


Escenario de seguridad de un extremo a otro de Microsoft Fabric

La seguridad es un aspecto clave de cualquier solución de análisis de datos, especialmente cuando implica datos sensibles o confidenciales. Por este motivo, Microsoft Fabric proporciona un conjunto completo de características de seguridad que le permiten proteger los datos en reposo y en tránsito, así como controlar el acceso y los permisos de los usuarios y las aplicaciones.

En este artículo, obtendrá información sobre los conceptos y características de seguridad de Microsoft Fabric que pueden ayudarle a crear de manera fiable su propia solución analítica con Fabric.

Fondo

En este artículo se presenta un escenario en el que es ingeniero de datos que trabaja para una organización sanitaria en los Estados Unidos. La organización recopila y analiza los datos de pacientes procedentes de diferentes sistemas, incluidas las historias clínicas electrónicas, los resultados del laboratorio, las reclamaciones de seguros y los dispositivos ponibles.

Tiene previsto construir un almacén de lago mediante la arquitectura de medallón en Fabric, que consta de tres capas: bronce, plata y oro.

  • La capa de bronce almacena los datos sin procesar a medida que llegan de los orígenes de datos.
  • La capa de plata aplica las transformaciones y comprobaciones de calidad de los datos para preparar los datos para el análisis.
  • La capa de oro proporciona datos agregados y enriquecidos para la creación de informes y la visualización.

Aunque algunos orígenes de datos se encuentran en la red local, otros están detrás de firewalls y requieren acceso seguro y autenticado. También hay algunos orígenes de datos administrados en Azure, como Azure SQL Database y Azure Storage. Debe conectarse a estos orígenes de datos de Azure de una manera que no exponga los datos a la red pública de Internet.

Ha decidido usar Fabric porque puede ingerir, almacenar, procesar y analizar los datos de forma segura en la nube. Sobre todo, lo hace al cumplir con las regulaciones de su sector y las directivas de su organización.

Dado que Fabric es software como servicio (SaaS), no es necesario aprovisionar recursos individuales, como recursos de almacenamiento o de proceso. Todo lo que necesita es una capacidad de Fabric.

Debe configurar los requisitos de acceso a los datos. En concreto, debe asegurarse de que solo usted y sus compañeros ingenieros de datos tengan acceso a los datos de las capas de bronce y plata del almacén de lago. Estas capas son donde planea realizar la limpieza, la validación, la transformación y el enriquecimiento de los datos. También debe restringir el acceso a los datos de la capa de oro. Solo los usuarios autorizados, incluidos los analistas de datos y los usuarios empresariales, deben tener acceso a la capa de oro. Requieren este acceso para usar los datos con diversos fines analíticos, como informes, aprendizaje automático y análisis predictivo. El rol y el departamento del usuario deben restringir aún más el acceso a los datos.

Conectar a Fabric (protección de entrada)

En primer lugar, se debe configurar la protección de entrada, que tiene que con la manera en la que inicia sesión y otros usuarios inician sesión y tienen acceso a Fabric.

Dado que Fabric se implementa en un inquilino de Microsoft Entra, Microsoft Entra controla la autenticación y la autorización. Inicia sesión con una cuenta de organización de Microsoft Entra (cuenta profesional o educativa). A continuación, analice cómo se conectarán otros usuarios a Fabric.

El inquilino de Microsoft Entra es un límite de seguridad de identidad que está bajo el control del departamento de TI. Dentro de este límite de seguridad, los administradores de TI realizan la administración de objetos de Microsoft Entra (como cuentas de usuario) y la configuración de los valores de todo el inquilino. Al igual que cualquier servicio SaaS, Fabric aísla lógicamente los inquilinos. Otros inquilinos no pueden acceder a los datos y los recursos del inquilino a menos que los autorice explícitamente para hacerlo.

Esto es lo que sucede cuando un usuario inicia sesión en Fabric.

Diagrama que muestra una representación de alto nivel de la arquitectura de seguridad de Fabric. Los elementos del diagrama se describen en la tabla siguiente.

Elemento Descripción
Elemento 1. El usuario abre un navegador (o una aplicación cliente) e inicia sesión en el portal de Fabric.
Elemento 2. El usuario se redirige inmediatamente a Microsoft Entra ID y es necesario que se autentique. La autenticación comprueba que es la persona correcta la que inicia sesión.
Elemento 3. Una vez que la autenticación se realiza correctamente, el front-end web recibe la solicitud del usuario y entrega el contenido de front-end (HTML y CSS) desde la ubicación más cercana. También enruta la solicitud a la plataforma de metadatos y a la plataforma de capacidad de back-end.
Elemento 4. La plataforma de metadatos, que reside en la región principal del inquilino, almacena los metadatos del inquilino, como las áreas de trabajo y los controles de acceso. Esta plataforma garantiza que el usuario esté autorizado para acceder a las áreas de trabajo pertinentes y a los elementos de Fabric.
Elemento 5. La plataforma de capacidad de back-end realiza operaciones de proceso y almacena los datos. Se encuentra en la región de capacidad. Cuando se asigna un área de trabajo a la capacidad de Fabric, todos los datos que residen en el área de trabajo, incluido el almacén de lago de datos OneLake, se almacenan y procesan en la región de capacidad.

La plataforma de metadatos y la plataforma de capacidad de back-end se ejecutan en redes virtuales protegidas. Estas redes exponen una serie de puntos de conexión seguros a Internet para que puedan recibir solicitudes de usuarios y otros servicios. Además de estos puntos de conexión, los servicios están protegidos por reglas de seguridad de red que bloquean el acceso desde la red pública de Internet.

Cuando los usuarios inician sesión en Fabric, puede aplicar otras capas de protección. De este modo, el inquilino solo es accesible para determinados usuarios y cuando se cumplen otras condiciones, como la ubicación de red y el cumplimiento de dispositivos. Esta capa de protección se denomina protección de entrada.

En este escenario, es responsable de la información sensible del paciente en Fabric. Por lo tanto, su organización ha ordenado que todos los usuarios que accedan a Fabric deben realizar la autenticación multifactor (MFA) y que deben estar en la red corporativa, ya que la protección de la identidad del usuario no es suficiente.

Su organización también proporciona flexibilidad a los usuarios al permitirles trabajar desde cualquier lugar y usar sus dispositivos personales. Dado que Microsoft Intune admite que traiga su propia licencia (BYOD), inscribe dispositivos de usuario aprobados en Intune.

Además, debe asegurarse de que estos dispositivos cumplan las directivas de la organización. En concreto, estas directivas requieren que los dispositivos solo puedan conectarse cuando tengan instalado el sistema operativo y las revisiones de seguridad más recientes. Configure estos requisitos de seguridad mediante el acceso condicional de Microsoft Entra.

El acceso condicional ofrece varias maneras de proteger el inquilino. Puede:

En caso de que necesite bloquear todo el inquilino de Fabric, puede usar una red virtual y bloquear el acceso público a Internet. El acceso a Fabric solo se permite desde dentro de esa red virtual segura. Este requisito se configura habilitando vínculos privados en el nivel de inquilino para Fabric. De esta manera, se garantiza que todos los puntos de conexión de Fabric se resuelvan en una dirección IP privada de la red virtual, incluido el acceso a todos los informes de Power BI. (La habilitación de los puntos de conexión privados afecta a muchos elementos de Fabric, por lo que debe leer exhaustivamente este artículo antes de habilitarlos).

Protección del acceso a los datos fuera de Fabric (protección de salida)

A continuación, configurará la protección de salida, que está relacionada con el acceso seguro a los datos detrás de firewalls o puntos de conexión privados.

Su organización tiene algunos orígenes de datos que se encuentran en la red local. Dado que estos orígenes de datos están detrás de firewalls, Fabric requiere acceso seguro. Para permitir que Fabric se conecte de forma segura al origen de datos local, instale una puerta de enlace de datos local.

Los flujos de datos y las canalizaciones de datos de Data Factory pueden usar la puerta de enlace para ingerir, preparar y transformar los datos locales y, a continuación, cargarlos en OneLake con una actividad de copia. Data Factory admite un conjunto completo de conectores que permiten conectarse a más de 100 almacenes de datos diferentes.

A continuación, cree flujos de datos con Power Query, que proporciona una experiencia intuitiva con una interfaz con poco código. Se usa para ingerir datos de los orígenes de datos y transformarlos mediante cualquiera de las más de 300 transformaciones de datos. A continuación, creará y orquestará un proceso complejo de extracción, transformación y carga (ETL) con canalizaciones de datos. Los procesos de ETL pueden actualizar flujos de datos y realizar muchas tareas diferentes a gran escala, pues procesan petabytes de datos.

En este escenario, ya tiene varios procesos ETL. En primer lugar, tiene algunas canalizaciones en Azure Data Factory (ADF). Actualmente, estas canalizaciones ingieren los datos locales y los cargan en un lago de datos de Azure Storage mediante el entorno de ejecución de integración autohospedado. En segundo lugar, tiene un marco de ingesta de datos en Azure Databricks escrito en Spark.

Ahora que usa Fabric, simplemente redirige el destino de salida de las canalizaciones de ADF para usar el conector de almacén de lago. Además, para el marco de ingesta en Azure Databricks, se usan las API de OneLake compatibles con el controlador del sistema de archivos de blog de Azure (ABFS) para integrar OneLake con Azure Databricks. (También puede usar el mismo método para integrar OneLake con Azure Synapse Analytics mediante Apache Spark).

Además, hay algunos orígenes de datos que están en Azure SQL Database. Debe conectarse a estos orígenes de datos mediante puntos de conexión privados. En este caso, decide configurar una puerta de enlace de datos de red virtual (VNet) y usar flujos de datos para conectarse de forma segura a los datos de Azure y cargarlos en Fabric. Con las puertas de enlace de datos de red virtual, no tiene que aprovisionar ni administrar la infraestructura (como debe hacer para la puerta de enlace de datos local). Esto se debe a que Fabric crea de forma segura y dinámica los contenedores en Azure Virtual Network.

Si va a desarrollar o migrar el marco de ingesta de datos en Spark, puede conectarse a orígenes de datos de Azure de forma segura y privada desde cuadernos y trabajos de Fabric con la ayuda de puntos de conexión privados administrados. Los puntos de conexión privados administrados se pueden crear en las áreas de trabajo de Fabric para conectarse a orígenes de datos de Azure que han bloqueado el acceso público a Internet. Son compatibles con puntos de conexión privados, como Azure SQL Database y Azure Storage. Los puntos de conexión privados administrados se aprovisionan y administran en una red virtual administrada específica para un área de trabajo de Fabric. A diferencia de las redes virtuales de Azure habituales, las redes virtuales administradas y los puntos de conexión privados administrados no se encontrarán en Azure Portal. Esto se debe a que están totalmente administrados por Fabric y los encuentra en la configuración del área de trabajo.

Dado que ya tiene muchos datos almacenados en cuentas de Azure Data Lake Storage (ADLS) Gen2, ahora solo tiene que conectar cargas de trabajo de Fabric, como Spark y Power BI, a ella. Además, gracias a los accesos directos de OneLake ADLS, puede conectarse fácilmente a los datos existentes desde cualquier experiencia de Fabric, como canalizaciones de integración de datos, cuadernos de ingeniería de datos e informes de Power BI.

Las áreas de trabajo de Fabric que tienen una identidad de área de trabajo pueden acceder de forma segura a las cuentas de almacenamiento de ADLS Gen2, incluso cuando se ha deshabilitado la red pública. Esto es posible mediante el acceso al área de trabajo de confianza. Permite a Fabric conectarse de forma segura a las cuentas de almacenamiento mediante una red troncal de Microsoft. Esto significa que la comunicación no usa la red pública de Internet, lo que permite deshabilitar el acceso de red pública a la cuenta de almacenamiento, pero también que determinadas áreas de trabajo de Fabric se conecten a ellas.

Cumplimiento normativo

Quiere usar Fabric para ingerir, almacenar, procesar y analizar los datos de forma segura en la nube, a la vez que mantiene el cumplimiento de los reglamentos de su sector y las directivas de su organización.

Fabric forma parte de los servicios principales de Microsoft Azure y se rige por los términos de Microsoft Online Services y la Declaración de privacidad de Microsoft Enterprise. Aunque las certificaciones suelen producirse después del lanzamiento de un producto (disponibilidad general o GA), Microsoft integra los procedimientos recomendados de cumplimiento desde el principio y en todo el ciclo de vida de desarrollo. Este enfoque proactivo garantiza una base sólida para futuras certificaciones, aunque sigan los ciclos de auditoría establecidos. En términos más sencillos, priorizamos el cumplimiento desde el principio del proceso de desarrollo, incluso si la certificación formal viene más adelante.

Fabric es compatible con muchos estándares del sector, como las ISO 27001, 27017, 27018 y 27701. Fabric también es compatible con la HIPAA, que es fundamental para la privacidad y la seguridad de los datos sanitarios. Puede consultar los apéndices A y B en las ofertas de cumplimiento de Microsoft Azure para obtener información detallada sobre qué servicios en la nube están en el ámbito de las certificaciones. También puede acceder a la documentación de auditoría desde el Portal de confianza de servicios (STP).

El cumplimiento es una responsabilidad compartida. Para cumplir con las leyes y reglamentos, los proveedores de servicios en la nube y sus clientes pasan a tener una responsabilidad compartida para asegurarse de que cada uno hace su parte. A medida que considera y evalúa los servicios en la nube pública, es fundamental que comprenda el modelo de responsabilidad compartida y qué tareas de seguridad administra el proveedor de servicios en la nube y cuáles administra usted.

Manejo de datos

Dado que está tratando con información sensible del paciente, debe asegurarse de que todos los datos estén suficientemente protegidos tanto en reposo como en tránsito.

El cifrado en reposo proporciona protección de datos para los datos almacenados (en reposo). Los ataques contra los datos en reposo incluyen intentos de obtener acceso físico al hardware en el que se almacenan los datos y, a continuación, poner en peligro los datos de ese hardware. El cifrado en reposo está diseñado para evitar que un atacante obtenga acceso a los datos sin cifrar asegurándose de que los datos se cifran en el disco. El cifrado en reposo es una medida obligatoria necesaria para el cumplimiento de algunos de los estándares y reglamentos del sector, como la Organización Internacional de Normalización (ISO) y la Ley de transferencia y resposabilidad de seguros de salud (HIPAA).

Todos los almacenes de datos de Fabric están cifrados en reposo mediante claves administradas por Microsoft, que proporciona protección para los datos del cliente y también para los datos y metadatos del sistema. Los datos nunca se conservan en el almacenamiento permanente mientras están en un estado sin cifrar. Con las claves administradas por Microsoft, se beneficia del cifrado de los datos en reposo sin el riesgo ni el coste de una solución de administración de claves personalizada.

También se cifran en tránsito. Todo el tráfico entrante a los puntos de conexión de Fabric desde los sistemas cliente exige un mínimo de Seguridad de la capa de transporte (TLS) 1.2. Fabric negocia también TLS 1.3 siempre que sea posible. TLS proporciona una autenticación sólida, privacidad de mensajes e integridad (lo que permite la detección de la manipulación, interceptación y falsificación de mensajes), interoperabilidad, flexibilidad de algoritmo, y facilidad de implementación y uso.

Además del cifrado, el tráfico de red entre servicios Microsoft siempre se enruta a través de la red global de Microsoft, que es una de las redes troncales más grandes del mundo.

Residencia de datos

Como está tratando con los datos de los pacientes, por motivos de cumplimiento, su organización ha ordenado que los datos nunca salgan del límite geográfico de los Estados Unidos. Las principales operaciones de su organización tienen lugar en Nueva York y su oficina central en Seattle. Al configurar Power BI, la organización ha elegido la región Este de EE. UU. como región principal del inquilino. En el caso de las operaciones, ha creado una capacidad de Fabric en la región Oeste de EE. UU., que está más cerca de los orígenes de datos. Dado que OneLake está disponible en todo el mundo, le preocupa si puede cumplir las directivas de residencia de datos de su organización al usar Fabric.

En Fabric, aprenderá que puede crear capacidades multigeográficas, que son capacidades ubicadas en zonas geográficas distintas de la región principal del inquilino. Asigne las áreas de trabajo de Fabric a esas capacidades. En este caso, el proceso y el almacenamiento (incluido OneLake y el almacenamiento específico de la experiencia) de todos los elementos del área de trabajo se encuentran en la región multigeográfica, pero los metadatos del inquilino permanecen en la región principal. Los datos solo se almacenarán y procesarán en estas dos zonas geográficas, lo que garantiza que se cumplen los requisitos de residencia de datos de su organización.

Control de acceso

Concretamente, debe asegurarse de que solo usted y sus compañeros ingenieros de datos tienen acceso total a los datos de las capas de bronce y plata de la casa del lago. Estas capas le permiten realizar la limpieza, la validación, la transformación y el enriquecimiento de datos. Debe restringir el acceso a los datos de la capa de oro solo a usuarios autorizados, como analistas de datos y usuarios empresariales, que pueden usar los datos con diversos fines analíticos, como la presentación de informes y análisis.

Fabric proporciona un modelo de permisos flexible que permite controlar el acceso a elementos y datos de las áreas de trabajo. Un área de trabajo es una entidad lógica protegible para agrupar elementos en Fabric. Los roles de área de trabajo se usan para controlar el acceso a los elementos de las áreas de trabajo. Los cuatro roles básicos de un área de trabajo son:

  • Administrador: puede ver, modificar, compartir y administrar todo el contenido del área de trabajo, incluida la gestión de permisos.
  • Miembro: puede ver, modificar y compartir todo el contenido del área de trabajo.
  • Colaborador: puede ver y modificar todo el contenido del área de trabajo.
  • Espectador: puede ver todo el contenido del área de trabajo, pero no puede modificarlo.

En este escenario, se crean tres áreas de trabajo, una para cada una de las capas de medallón (bronce, plata y oro). Dado que creó el área de trabajo, se le asigna automáticamente el rol de Administrador.

A continuación, agregue un grupo de seguridad al rol de Colaborador de esas tres áreas de trabajo. Dado que el grupo de seguridad incluye a sus compañeros ingenieros como miembros, pueden crear y modificar elementos de Fabric en esas áreas de trabajo, pero no pueden compartir ningún elemento con nadie más. Tampoco pueden conceder acceso a otros usuarios.

En las áreas de trabajo de bronce y plata, usted y sus compañeros ingenieros crean elementos de Fabric para ingerir datos, almacenarlos y procesarlos. Los elementos de Fabric componen un almacén de lago, canalizaciones y cuadernos. En el área de trabajo de oro, creará dos almacenes de lago, varias canalizaciones y cuadernos, y un modelo semántico de Direct Lake, que ofrece un rendimiento rápido de las consultas de los datos almacenados en uno de los almacenes de lago.

A continuación, debe analizar detenidamente cómo los analistas de datos y los usuarios empresariales pueden acceder a los datos a los que pueden acceder. En concreto, solo pueden acceder a los datos relevantes para su rol y departamento.

La primera instancia de almacén de datos contiene los datos reales y no aplica ningún permiso de datos en su punto de conexión de análisis de SQL. La segunda instancia de almacén de datos contiene accesos directos al primer almacén de datos y aplica permisos de datos pormenorizados en su punto de conexión de análisis de SQL. El modelo semántico se conecta al primer almacén de lago. Para aplicar los permisos de datos adecuados para los usuarios (por lo que solo pueden acceder a los datos relevantes para su rol y departamento), no comparta el primer almacén de lago con los usuarios. En su lugar, solo comparte el modelo semántico de Direct Lake y el segundo almacén de lago que exige permisos de datos en su punto de conexión de análisis de SQL.

Configure el modelo semántico para usar una identidad fija y, a continuación, implemente la seguridad a nivel de fila (RLS) en el modelo semántico para aplicar reglas de modelo para controlar los datos a los que pueden acceder los usuarios. A continuación, solo comparte el modelo semántico con los analistas de datos y los usuarios empresariales, ya que no deben acceder a los demás elementos del área de trabajo, como las canalizaciones y los cuadernos. Por último, conceda permiso de compilación en el modelo semántico para que los usuarios puedan crear informes de Power BI. De este modo, el modelo semántico se convierte en un modelo semántico compartido y un origen para sus informes de Power BI.

Los analistas de datos necesitan acceder al segundo almacén de lago del área de trabajo de oro. Se conectarán al punto de conexión de análisis de SQL de ese almacén de lago para escribir consultas SQL y realizar análisis. Por lo tanto, compartirá ese almacén de datos con ellos y proporcionará acceso solo a los objetos que necesitan (como tablas, filas y columnas con reglas de enmascaramiento) en el punto de conexión de análisis de SQL del almacén de lago mediante el modelo de seguridad de SQL. Los analistas de datos ahora solo pueden acceder a los datos relevantes para su rol y departamento y no pueden acceder a los demás elementos del área de trabajo, como las canalizaciones y los cuadernos.

Escenarios de seguridad comunes

En la tabla siguiente se enumeran los escenarios de seguridad comunes y las herramientas que puede usar para lograrlos.

Escenario Herramientas Dirección
Soy un desarrollador de ETL y quiero cargar grandes volúmenes de datos en Fabric a gran escala desde varios sistemas de origen y tablas. Los datos de origen son locales (o están en otra nube) y están detrás de firewalls u orígenes de datos de Azure con puntos de conexión privados. Use la puerta de enlace de datos local con canalizaciones de datos (actividad de copia). Salida
Soy un usuario avanzado y quiero cargar datos en Fabric desde sistemas de origen a los que tengo acceso. Como no soy desarrollador, necesito transformar los datos mediante una interfaz con poco código. Los datos de origen son locales (o están en otra nube) y están detrás de firewalls. Utilice la puerta de enlace de datos local con flujo de datos Gen 2. Salida
Soy un usuario avanzado y quiero cargar datos en Fabric desde sistemas de origen a los que tengo acceso. Los datos de origen están en Azure detrás de puntos de conexión privados y no quiero instalar y mantener la infraestructura de puerta de enlace de datos local. Use una puerta de enlace de datos de red virtual con flujo de datos Gen 2. Salida
Soy un desarrollador que puede escribir código de ingesta de datos mediante cuadernos de Spark. Quiero cargar datos en Fabric desde sistemas de origen a los que tengo acceso. Los datos de origen están en Azure detrás de puntos de conexión privados y no quiero instalar y mantener la infraestructura de puerta de enlace de datos local. Use cuadernos de Fabric con puntos de conexión privados de Azure. Salida
Tengo muchas canalizaciones existentes en Azure Data Factory (ADF) y canalizaciones de Synapse que se conectan a mis orígenes de datos y cargan datos en Azure. Ahora quiero modificar esas canalizaciones para cargar datos en Fabric. Use el conector del almacén de lago en las canalizaciones existentes. Salida
Tengo un marco de ingesta de datos desarrollado en Spark que se conecta a mis orígenes de datos de forma segura y los carga en Azure. Lo estoy ejecutando en Azure Databricks o Synapse Spark. Quiero seguir usando Azure Databricks o Synapse Spark para cargar datos en Fabric. Uso de OneLake y la API de Azure Data Lake Storage (ADLS) Gen2 (controlador de sistema de archivos de blobs de Azure) Salida
Quiero asegurarme de que mis puntos de conexión de Fabric están protegidos de la red pública de Internet. Como servicio SaaS, el back-end de Fabric ya está protegido de la red pública de Internet. Para obtener más protección, use las directivas de acceso condicional de Microsoft Entra para Fabric o habilite vínculos privados en el nivel de inquilino para Fabric y bloquee el acceso público a Internet. Entrada
Quiero asegurarme de que solo se pueda acceder a Fabric desde mi red corporativa o desde dispositivos compatibles. Use directivas de acceso condicional en Microsoft Entra para Fabric. Entrada
Quiero asegurarme de que cualquier persona que acceda a Fabric deba realizar la autenticación multifactor. Use directivas de acceso condicional en Microsoft Entra para Fabric. Entrada
Quiero bloquear todo mi inquilino de Fabric desde la red pública de Internet y permitir el acceso solo desde mis redes virtuales. Habilite vínculos privados en el nivel de inquilino para Fabric y bloquee el acceso público a Internet. Entrada

Para obtener más información acerca de la seguridad de Fabric, consulte los siguientes recursos: