Conexión a Azure Data Lake Storage en Microsoft Purview
Artículo
En este artículo se describe el proceso para registrar y controlar un origen de datos de Azure Data Lake Storage (ADLS Gen2) en Microsoft Purview, incluidas instrucciones para autenticarse e interactuar con el origen de ADLS Gen2.
Al examinar Azure Data Lake Storage Gen2 origen, Microsoft Purview admite la extracción de metadatos técnicos, entre los que se incluyen:
Cuenta de almacenamiento
servicio Data Lake Storage Gen2
Sistema de archivos (contenedor)
Folders
Archivos
Conjuntos de recursos
Al configurar el examen, puede elegir examinar todas las carpetas ADLS Gen2 o selectivas. Obtenga información sobre el formato de archivo admitido aquí.
Tendrá que ser administrador del origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Consulte nuestra página Permisos de Microsoft Purview para obtener más información.
Esta sección le permitirá registrar el origen de datos de ADLS Gen2 para el examen y el recurso compartido de datos en Purview.
Requisitos previos para el registro
Tendrá que ser un Administración de origen de datos y uno de los demás roles de Purview (por ejemplo, Lector de datos o colaborador de Data Share) para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Consulte nuestra página Permisos de Microsoft Purview para obtener más información.
Pasos para registrarse
Es importante registrar el origen de datos en Microsoft Purview antes de configurar un examen para el origen de datos.
Vaya al portal de gobernanza de Microsoft Purview:
Cree la jerarquía de colecciones mediante el menú Colecciones y asigne permisos a subcolecciones individuales, según sea necesario.
Vaya a la colección adecuada en el menú Orígenes y seleccione el icono Registrar para registrar un nuevo origen de datos de ADLS Gen2.
Seleccione el origen de datos Azure Data Lake Storage Gen2 y seleccione Continuar.
Proporcione un nombre adecuado para el origen de datos, seleccione la suscripción de Azure pertinente, el nombre de la cuenta de Data Lake Store existente y la colección y seleccione Aplicar. Deje el botón de alternancia Cumplimiento de directivas de datos en la posición deshabilitada hasta que tenga la oportunidad de examinar cuidadosamente este documento.
La cuenta de almacenamiento de ADLS Gen2 se mostrará en la colección seleccionada.
La red de Azure puede permitir comunicaciones entre los recursos de Azure, pero si ha configurado firewalls, puntos de conexión privados o redes virtuales en Azure, deberá seguir una de estas configuraciones a continuación.
Restricciones de red
Tipo de entorno de ejecución de integración
Tipos de credenciales disponibles
No hay puntos de conexión privados ni firewalls
Azure IR
Identidad administrada (recomendada), entidad de servicio o clave de cuenta
Firewall habilitado, pero sin puntos de conexión privados
Si usa Self-Hosted Integration Runtime para examinar archivos parquet, debe instalar JRE 8 de 64 bits (Java Runtime Environment) o OpenJDK en el equipo de IR. Puede consultar nuestra guía de instalación de Java Runtime Environment.
Uso de una identidad administrada asignada por el sistema o por el usuario para el examen
Hay dos tipos de identidad administrada que puede usar:
Identidad administrada asignada por el sistema (recomendada): en cuanto se crea la cuenta de Microsoft Purview, se crea automáticamente una identidad administrada asignada por el sistema (SAMI) en Microsoft Entra inquilino. En función del tipo de recurso, se requieren asignaciones de roles RBAC específicas para que la identidad administrada asignada por el sistema (SAMI) de Microsoft Purview realice los exámenes.
Identidad administrada asignada por el usuario (versión preliminar): de forma similar a una identidad administrada por el sistema, una identidad administrada asignada por el usuario (UAMI) es un recurso de credenciales que se puede usar para permitir que Microsoft Purview se autentique en Microsoft Entra ID. Para obtener más información, puede ver nuestra guía de identidad administrada asignada por el usuario.
Es importante conceder a su cuenta de Microsoft Purview o a la identidad administrada asignada por el usuario (UAMI) el permiso para examinar el origen de datos de ADLS Gen2. Puede agregar la identidad administrada asignada por el sistema de la cuenta de Microsoft Purview (que tiene el mismo nombre que la cuenta de Microsoft Purview) o UAMI en el nivel suscripción, grupo de recursos o recurso, en función de qué nivel se necesiten los permisos de examen.
Nota
Debe ser propietario de la suscripción para poder agregar una identidad administrada en un recurso de Azure.
En el Azure Portal, busque la suscripción, el grupo de recursos o el recurso (por ejemplo, una cuenta de almacenamiento de Azure Data Lake Storage Gen2) que le gustaría permitir que el catálogo examinara.
Seleccione Access Control (IAM) en el panel de navegación izquierdo y, a continuación, seleccione + Agregar -->Agregar asignación de roles.
Establezca el rol en Lector de datos de Storage Blob y escriba el nombre de la cuenta de Microsoft Purview o la identidad administrada asignada por el usuario en el cuadro Seleccionar entrada. A continuación, seleccione Guardar para asignar esta asignación de roles a su cuenta de Microsoft Purview.
Si tiene el firewall habilitado para la cuenta de almacenamiento, debe usar el método de autenticación de identidad administrada al configurar un examen.
Vaya a la cuenta de almacenamiento de ADLS Gen2 en Azure Portal
Vaya a Seguridad y redes de red >
Elija Redes seleccionadas en Permitir acceso desde
En la sección Excepciones, seleccione Permitir que los servicios de Microsoft de confianza accedan a esta cuenta de almacenamiento y presione Guardar.
Si necesita crear una nueva entidad de servicio, es necesario registrar una aplicación en el inquilino de Microsoft Entra y proporcionar acceso a la entidad de servicio en los orígenes de datos. El administrador de aplicaciones de Microsoft Entra puede realizar esta operación.
Obtención del identificador de aplicación de la entidad de servicio
Copie el identificador de aplicación (cliente) presente en información general de la entidad de servicio ya creada.
Concesión de acceso a la entidad de servicio a la cuenta de ADLS Gen2
Es importante conceder a la entidad de servicio permiso para examinar el origen de datos de ADLS Gen2. Puede agregar acceso para la entidad de servicio en el nivel suscripción, grupo de recursos o recurso, en función de qué nivel se necesiten los permisos de examen.
Nota
Debe ser propietario de la suscripción para poder agregar una entidad de servicio en un recurso de Azure.
En el Azure Portal, busque la suscripción, el grupo de recursos o el recurso (por ejemplo, una cuenta de almacenamiento de Azure Data Lake Storage Gen2) que le gustaría permitir que el catálogo examinara.
Seleccione Access Control (IAM) en el panel de navegación izquierdo y, a continuación, seleccione + Agregar -->Agregar asignación de roles.
Establezca el rol enLector de datos de Storage Blob y escriba la entidad de servicio en el cuadro Seleccionar entrada. A continuación, seleccione Guardar para asignar esta asignación de roles a su cuenta de Microsoft Purview.
Creación del examen
Abra la cuenta de Microsoft Purview y seleccione el portal de gobernanza de Microsoft Purview.
Vaya a Mapa de datos -->Sources para ver la jerarquía de recopilación.
Seleccione el icono Nuevo examen en el origen de datos de ADLS Gen2 registrado anteriormente.
Si se usa una identidad administrada asignada por el sistema o por el usuario
Proporcione un nombre para el examen, seleccione la identidad administrada asignada por el sistema o asignada por el usuario en Credencial, elija la colección adecuada para el examen y seleccione Probar conexión. En una conexión correcta, seleccione Continuar.
Si usa la clave de cuenta
Proporcione un nombre para el examen, seleccione Azure IR o el Self-Hosted IR en función de la configuración, elija la colección adecuada para el examen y seleccione + Nuevo en credencial.
Seleccione Clave de cuenta como método de autenticación y, a continuación, seleccione la conexión de Key Vault adecuada y proporcione el nombre del secreto que usó para almacenar la clave de cuenta. A continuación, seleccione Crear.
Seleccione Probar conexión. En una conexión correcta, seleccione Continuar.
Si usa la entidad de servicio
Proporcione un nombre para el examen, seleccione Azure IR o el Self-Hosted IR en función de la configuración, elija la colección adecuada para el examen y seleccione + Nuevo en Credencial.
Seleccione la conexión de Key Vault adecuada y el nombre del secreto que se usó al crear la entidad de servicio. El identificador de entidad de servicio es el identificador de aplicación (cliente) copiado anteriormente.
Seleccione Probar conexión. En una conexión correcta, seleccione Continuar.
Ámbito y ejecución del examen
Para limitar el examen a carpetas y subcarpetas específicas, elija los elementos adecuados de la lista.
A continuación, seleccione un conjunto de reglas de examen. Puede elegir entre los conjuntos de reglas personalizados predeterminados del sistema existentes o crear un nuevo conjunto de reglas alineado.
Si crea un nuevo conjunto de reglas de examen, seleccione los tipos de archivo que se incluirán en la regla de examen.
Puede seleccionar las reglas de clasificación que se incluirán en la regla de examen.
Elija el desencadenador de examen. Puede configurar una programación o ejecutar el examen una vez.
Revise el examen y seleccione Guardar y ejecutar.
Visualización de los exámenes y las ejecuciones de examen
Para ver los exámenes existentes:
Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
Seleccione el examen que desea administrar. Después, podrá:
Edite el examen seleccionando Editar examen.
Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
Para eliminar el examen, seleccione Eliminar examen.
Nota
La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
Uso compartido de datos
Uso compartido de datos de Microsoft Purview (versión preliminar) permite el uso compartido de datos en contexto desde ADLS Gen2 a ADLS Gen2. En esta sección se proporcionan detalles sobre los requisitos específicos de ADLS Gen2 para compartir y recibir datos en contexto. Consulte Cómo compartir datos y Cómo recibir recursos compartidos para obtener una guía paso a paso sobre cómo usar el uso compartido de datos.
Cuentas de almacenamiento admitidas para el uso compartido de datos en contexto
Las siguientes cuentas de almacenamiento son compatibles con el uso compartido de datos en contexto:
Regiones: Centro de Canadá, Este de Canadá, Sur de Reino Unido, Oeste de Reino Unido, Este de Australia, Este de Japón, Sur de Corea del Sur y Norte de Sudáfrica
Opciones de redundancia: LRS, GRS, RA-GRS
Niveles: Frecuente, esporádico
Use solo cuentas de almacenamiento sin carga de trabajo de producción para la versión preliminar.
Nota
Las cuentas de almacenamiento de origen y de destino deben estar en la misma región que las demás. No es necesario que estén en la misma región que la cuenta de Microsoft Purview.
Permisos de cuenta de almacenamiento necesarios para compartir datos
Para agregar o actualizar un recurso de cuenta de almacenamiento a un recurso compartido, necesita uno de los permisos siguientes:
Microsoft.Authorization/roleAssignments/write : este permiso está disponible en el rol Propietario .
Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/: este permiso está disponible en el rol Propietario de datos de Blob Storage .
Permisos de cuenta de almacenamiento necesarios para recibir datos compartidos
Para asignar un recurso de cuenta de almacenamiento en un recurso compartido recibido, necesita uno de los permisos siguientes:
Microsoft.Storage/storageAccounts/write : este permiso está disponible en el rol Colaborador y Propietario .
Microsoft.Storage/storageAccounts/blobServices/containers/write : este permiso está disponible en el rol Colaborador, Propietario, Colaborador de datos de Storage Blob y Propietario de datos de Storage Blob .
Actualización de datos compartidos en la cuenta de almacenamiento de origen
Novedades que realice en archivos o datos compartidos en la carpeta compartida desde la cuenta de almacenamiento de origen estará disponible para el destinatario en la cuenta de almacenamiento de destino casi en tiempo real. Al eliminar subcarpetas o archivos dentro de la carpeta compartida, desaparecerán para el destinatario. Para eliminar la carpeta compartida, el archivo o las carpetas primarias o los contenedores, primero debe revocar el acceso a todos los recursos compartidos desde la cuenta de almacenamiento de origen.
Acceso a datos compartidos en la cuenta de almacenamiento de destino
La cuenta de almacenamiento de destino permite al destinatario acceder a los datos compartidos de solo lectura casi en tiempo real. Puede conectar herramientas de análisis como Synapse Workspace y Databricks a los datos compartidos para realizar análisis. El costo de acceder a los datos compartidos se cobra a la cuenta de almacenamiento de destino.
Límite de servicio
La cuenta de almacenamiento de origen puede admitir hasta 20 destinos y la cuenta de almacenamiento de destino puede admitir hasta 100 orígenes. Si necesita un aumento del límite, póngase en contacto con el soporte técnico.
Directivas
Los siguientes tipos de directivas se admiten en este recurso de datos de Microsoft Purview:
Directivas de propietario de datos : un conjunto de instrucciones de directiva que permiten conceder a los usuarios y grupos acceso a los orígenes de datos.
Directivas de acceso de autoservicio : directiva que permite a los usuarios solicitar acceso a orígenes de datos registrados en Microsoft Purview.
Directivas de protección : deniega el acceso a los datos etiquetados con etiquetas de confidencialidad a todos los usuarios excepto a los especificados por la directiva.
Requisitos previos de la directiva de acceso en cuentas de Azure Storage
Las cuentas de almacenamiento de las siguientes regiones se admiten sin necesidad de configuración adicional. Sin embargo, no se admiten cuentas de almacenamiento con redundancia de zona (ZRS).
Centro de Australia
Este de Australia
Sureste de Australia
Sur de Brasil
Centro de Canadá
Este de Canadá
Centro de India
Centro de EE. UU.
Asia Oriental
Este de EE. UU. 2
Este de EE. UU.
Centro de Francia
Alemania Central Occidental
Este de Japón
Oeste de Japón
Centro de Corea
Centro y norte de EE. UU.
Norte de Europa
Este de Noruega
Centro de Polonia
Centro de Qatar
Centro y Sur de EE. UU.
Norte de Sudáfrica
Sudeste de Asia
Sur de la India
Centro de Suecia
Norte de Suiza
Centro oeste de EE. UU.
Oeste de Europa
Oeste de EE. UU.
Oeste de EE. UU. 2
Oeste de EE. UU. 3
Norte de Emiratos Árabes Unidos
Sur de Reino Unido
Oeste de Reino Unido
Las cuentas de almacenamiento de otras regiones de la nube pública se admiten después de establecer la marca de característica AllowPurviewPolicyEnforcement, como se describe en la sección siguiente. Se admiten las cuentas de almacenamiento de ZRS recién creadas, si se crean después de establecer la marca de característica AllowPurviewPolicyEnforcement.
Si es necesario, puede crear una nueva cuenta de Almacenamiento siguiendo esta guía.
Configuración de la suscripción donde reside la cuenta de Azure Storage para las directivas de Microsoft Purview
Este paso solo es necesario en determinadas regiones (consulte la sección anterior). Para permitir que Microsoft Purview administre directivas para una o varias cuentas de Azure Storage, ejecute los siguientes comandos de PowerShell en la suscripción donde implementará la cuenta de Azure Storage. Estos comandos de PowerShell permitirán a Microsoft Purview administrar directivas en todas las cuentas de Azure Storage de esa suscripción.
Si ejecuta estos comandos localmente, asegúrese de ejecutar PowerShell como administrador.
Como alternativa, puede usar azure Cloud Shell en el Azure Portal: https://shell.azure.com.
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
Si la salida del último comando muestra RegistrationState como Registrado, la suscripción está habilitada para las directivas de acceso.
Si la salida es Registrar, espere al menos 10 minutos y vuelva a intentar el comando.
No continúe a menos que RegistrationState se muestre como Registrado.
Configuración de la cuenta de Microsoft Purview para directivas
Registro del origen de datos en Microsoft Purview
Para poder crear una directiva en Microsoft Purview para un recurso de datos, debe registrar ese recurso de datos en Microsoft Purview Studio. Encontrará las instrucciones relacionadas con el registro del recurso de datos más adelante en esta guía.
Nota
Las directivas de Microsoft Purview se basan en la ruta de acceso de ARM del recurso de datos. Si un recurso de datos se mueve a un nuevo grupo de recursos o una suscripción, deberá anular su registro y volver a registrarse en Microsoft Purview.
Configuración de permisos para habilitar la aplicación de directivas de datos en el origen de datos
Una vez registrado un recurso, pero antes de que se pueda crear una directiva en Microsoft Purview para ese recurso, debe configurar los permisos. Se necesita un conjunto de permisos para habilitar la aplicación de directivas de datos. Esto se aplica a orígenes de datos, grupos de recursos o suscripciones. Para habilitar la aplicación de directivas de datos, debe tener privilegios específicos de Administración de identidades y acceso (IAM) en el recurso, así como privilegios específicos de Microsoft Purview:
Debe tener una de las siguientes combinaciones de roles de IAM en la ruta de acceso de Azure Resource Manager del recurso o en cualquier elemento primario del mismo (es decir, mediante la herencia de permisos de IAM):
Propietario de IAM
Colaborador de IAM y administrador de acceso de usuarios de IAM
Para configurar permisos de control de acceso basado en rol (RBAC) de Azure, siga esta guía. En la captura de pantalla siguiente se muestra cómo acceder a la sección Access Control de la Azure Portal para que el recurso de datos agregue una asignación de roles.
Nota
El rol Propietario de IAM para un recurso de datos se puede heredar de un grupo de recursos primario, una suscripción o un grupo de administración de suscripciones. Compruebe qué Microsoft Entra usuarios, grupos y entidades de servicio contienen o heredan el rol propietario de IAM para el recurso.
El rol de autor de directiva debe configurarse en el nivel de colección raíz.
Además, para buscar fácilmente Microsoft Entra usuarios o grupos al crear o actualizar el asunto de una directiva, puede beneficiarse en gran medida de obtener el permiso Lectores de directorio en Microsoft Entra ID. Se trata de un permiso común para los usuarios de un inquilino de Azure. Sin el permiso Lector de directorios, el autor de la directiva tendrá que escribir el nombre de usuario completo o el correo electrónico de todas las entidades de seguridad incluidas en el asunto de una directiva de datos.
Configuración de permisos de Microsoft Purview para publicar directivas de propietario de datos
Las directivas de propietario de datos permiten comprobaciones y saldos si asigna los roles de autor de directiva de Microsoft Purview y Administrador de origen de datos a diferentes personas de la organización. Antes de que se aplique una directiva de propietario de datos, una segunda persona (administrador del origen de datos) debe revisarla y aprobarla explícitamente publicándola. Esto no se aplica a las directivas de acceso de DevOps o autoservicio, ya que la publicación es automática para ellas cuando se crean o actualizan esas directivas.
Para publicar una directiva de propietario de datos, debe obtener el rol Administrador del origen de datos en Microsoft Purview en el nivel de recopilación raíz.
Para publicar directivas de propietario de datos, el rol de administrador del origen de datos debe configurarse en el nivel de recopilación raíz.
Delegar la responsabilidad de aprovisionamiento de acceso a roles en Microsoft Purview
Una vez habilitado un recurso para la aplicación de directivas de datos, cualquier usuario de Microsoft Purview con el rol De autor de directivas en el nivel de recopilación raíz puede aprovisionar el acceso a ese origen de datos desde Microsoft Purview.
Nota
Cualquier administrador de colección raíz de Microsoft Purview puede asignar nuevos usuarios a roles de autor de directiva raíz. Cualquier administrador de recopilación puede asignar nuevos usuarios a un rol de administrador de origen de datos en la colección. Minimice y examine cuidadosamente a los usuarios que tienen roles de administrador de Microsoft Purview Collection, administrador de origen de datos o autor de directivas .
Si se elimina una cuenta de Microsoft Purview con directivas publicadas, dichas directivas dejarán de aplicarse en un período de tiempo que depende del origen de datos específico. Este cambio puede tener implicaciones en la disponibilidad de acceso a datos y seguridad. Los roles Colaborador y Propietario de IAM pueden eliminar cuentas de Microsoft Purview. Para comprobar estos permisos, vaya a la sección Control de acceso (IAM) de su cuenta de Microsoft Purview y seleccione Asignaciones de roles. También puede usar un bloqueo para evitar que la cuenta de Microsoft Purview se elimine mediante bloqueos de Resource Manager.
Registro del origen de datos en Microsoft Purview para la aplicación de directivas de datos
El recurso de Azure Storage debe registrarse primero en Microsoft Purview para poder crear directivas de acceso.
Para registrar el recurso, siga las secciones Requisitos previos y Registro de esta guía:
Después de registrar el origen de datos, deberá habilitar la aplicación de directivas de datos. Este es un requisito previo para poder crear directivas en el origen de datos. La aplicación de directivas de datos puede afectar a la seguridad de los datos, ya que delega a determinados roles de Microsoft Purview que administran el acceso a los orígenes de datos.
Consulte las prácticas seguras relacionadas con el cumplimiento de directivas de datos en esta guía: Habilitación del cumplimiento de directivas de datos
Una vez que el origen de datos tenga la opción Cumplimiento de directivas de datos establecida en Habilitado, tendrá un aspecto similar al de esta captura de pantalla:
Crear una directiva
Para crear una directiva de acceso para Azure Data Lake Storage Gen2, siga esta guía:
Para crear directivas que cubran todos los orígenes de datos dentro de un grupo de recursos o una suscripción de Azure, puede hacer referencia a esta sección.
Directiva de protección
Las directivas de control de acceso de protección (directivas de protección) permiten a las organizaciones proteger automáticamente los datos confidenciales en los orígenes de datos. Microsoft Purview ya examina los recursos de datos e identifica elementos de datos confidenciales, y esta nueva característica permite restringir automáticamente el acceso a esos datos mediante etiquetas de confidencialidad de Microsoft Purview Information Protection.
Conozca sus datos, protéjalos, y evite su pérdida. Estos son los principios básicos de una buena protección de la información: detección, clasificación y protección de datos. Esta ruta de aprendizaje proporciona información general sobre las capacidades de protección de datos de Microsoft y cómo usarlas para proteger y controlar los datos como parte de una solución de ciberseguridad.La fecha límite para que los jefes de las agencias civiles federales evalúen y clasifiquen los datos de las agencias y proporc
Demuestre los aspectos básicos de la seguridad de los datos, la administración del ciclo de vida, la seguridad de la información y el cumplimiento para proteger una implementación de Microsoft 365.