Conexión a Azure Data Lake Storage en Microsoft Purview
En este artículo se describe el proceso para registrar y controlar un origen de datos de Azure Data Lake Storage (ADLS Gen2) en Microsoft Purview, incluidas instrucciones para autenticarse e interactuar con el origen de ADLS Gen2.
Extracción de metadatos | Examen completo | Examen incremental | Examen con ámbito | Clasificación | Etiquetar | Directiva de acceso | Linaje | Compartir datos | Vista en directo |
---|---|---|---|---|---|---|---|---|---|
Sí | Sí | Sí | Sí | Sí | Sí | Sí (versión preliminar) | Limitado* | Sí | Sí |
* El linaje se admite si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.
Al examinar Azure Data Lake Storage Gen2 origen, Microsoft Purview admite la extracción de metadatos técnicos, entre los que se incluyen:
- Cuenta de almacenamiento
- servicio Data Lake Storage Gen2
- Sistema de archivos (contenedor)
- Folders
- Archivos
- Conjuntos de recursos
Al configurar el examen, puede elegir examinar todas las carpetas ADLS Gen2 o selectivas. Obtenga información sobre el formato de archivo admitido aquí.
Una cuenta de Azure con una suscripción activa. Cree una cuenta de forma gratuita.
Una cuenta de Microsoft Purview activa.
Tendrá que ser administrador del origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Consulte nuestra página Permisos de Microsoft Purview para obtener más información.
Debe tener al menos el permiso Lector en la cuenta de ADLS Gen 2 para poder registrarla.
Esta sección le permitirá registrar el origen de datos de ADLS Gen2 para el examen y el recurso compartido de datos en Purview.
- Tendrá que ser un Administración de origen de datos y uno de los demás roles de Purview (por ejemplo, Lector de datos o colaborador de Data Share) para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Consulte nuestra página Permisos de Microsoft Purview para obtener más información.
Es importante registrar el origen de datos en Microsoft Purview antes de configurar un examen para el origen de datos.
Vaya al portal de gobernanza de Microsoft Purview:
- Vaya directamente a https://web.purview.azure.com la cuenta de Microsoft Purview y selecciónela.
- Abra el Azure Portal, busque y seleccione la cuenta de Microsoft Purview. Seleccione el botón Portal de gobernanza de Microsoft Purview .
Vaya al mapa de datos:> orígenes
Cree la jerarquía de colecciones mediante el menú Colecciones y asigne permisos a subcolecciones individuales, según sea necesario.
Vaya a la colección adecuada en el menú Orígenes y seleccione el icono Registrar para registrar un nuevo origen de datos de ADLS Gen2.
Seleccione el origen de datos Azure Data Lake Storage Gen2 y seleccione Continuar.
Proporcione un nombre adecuado para el origen de datos, seleccione la suscripción de Azure pertinente, el nombre de la cuenta de Data Lake Store existente y la colección y seleccione Aplicar. Deje el botón de alternancia Cumplimiento de directivas de datos en la posición deshabilitada hasta que tenga la oportunidad de examinar cuidadosamente este documento.
La cuenta de almacenamiento de ADLS Gen2 se mostrará en la colección seleccionada.
Sugerencia
Para solucionar cualquier problema con el examen:
- Confirme que ha configurado correctamente la autenticación para el examen.
- Revise nuestra documentación de solución de problemas de examen.
La red de Azure puede permitir comunicaciones entre los recursos de Azure, pero si ha configurado firewalls, puntos de conexión privados o redes virtuales en Azure, deberá seguir una de estas configuraciones a continuación.
Restricciones de red | Tipo de entorno de ejecución de integración | Tipos de credenciales disponibles |
---|---|---|
No hay puntos de conexión privados ni firewalls | Azure IR | Identidad administrada (recomendada), entidad de servicio o clave de cuenta |
Firewall habilitado, pero sin puntos de conexión privados | Azure IR | Identidad administrada |
Puntos de conexión privados habilitados | *Ir autohospedado | Entidad de servicio, clave de cuenta |
Importante
- *Para usar un entorno de ejecución de integración autohospedado, primero tendrá que elegir el adecuado para su escenario, crear uno y confirmar la configuración de red para Microsoft Purview.
- Si usa Self-Hosted Integration Runtime para examinar archivos parquet, debe instalar JRE 8 de 64 bits (Java Runtime Environment) o OpenJDK en el equipo de IR. Puede consultar nuestra guía de instalación de Java Runtime Environment.
Hay dos tipos de identidad administrada que puede usar:
Identidad administrada asignada por el sistema (recomendada): en cuanto se crea la cuenta de Microsoft Purview, se crea automáticamente una identidad administrada asignada por el sistema (SAMI) en Microsoft Entra inquilino. En función del tipo de recurso, se requieren asignaciones de roles RBAC específicas para que la identidad administrada asignada por el sistema (SAMI) de Microsoft Purview realice los exámenes.
Identidad administrada asignada por el usuario (versión preliminar): de forma similar a una identidad administrada por el sistema, una identidad administrada asignada por el usuario (UAMI) es un recurso de credenciales que se puede usar para permitir que Microsoft Purview se autentique en Microsoft Entra ID. Para obtener más información, puede ver nuestra guía de identidad administrada asignada por el usuario.
Es importante conceder a su cuenta de Microsoft Purview o a la identidad administrada asignada por el usuario (UAMI) el permiso para examinar el origen de datos de ADLS Gen2. Puede agregar la identidad administrada asignada por el sistema de la cuenta de Microsoft Purview (que tiene el mismo nombre que la cuenta de Microsoft Purview) o UAMI en el nivel suscripción, grupo de recursos o recurso, en función de qué nivel se necesiten los permisos de examen.
Nota
Debe ser propietario de la suscripción para poder agregar una identidad administrada en un recurso de Azure.
En el Azure Portal, busque la suscripción, el grupo de recursos o el recurso (por ejemplo, una cuenta de almacenamiento de Azure Data Lake Storage Gen2) que le gustaría permitir que el catálogo examinara.
Seleccione Access Control (IAM) en el panel de navegación izquierdo y, a continuación, seleccione + Agregar -->Agregar asignación de roles.
Establezca el rol en Lector de datos de Storage Blob y escriba el nombre de la cuenta de Microsoft Purview o la identidad administrada asignada por el usuario en el cuadro Seleccionar entrada. A continuación, seleccione Guardar para asignar esta asignación de roles a su cuenta de Microsoft Purview.
Nota
Para obtener más información, consulte los pasos descritos en Autorización del acceso a blobs y colas mediante Microsoft Entra ID
Nota
Si tiene el firewall habilitado para la cuenta de almacenamiento, debe usar el método de autenticación de identidad administrada al configurar un examen.
Vaya a la cuenta de almacenamiento de ADLS Gen2 en Azure Portal
Vaya a Seguridad y redes de red >
Elija Redes seleccionadas en Permitir acceso desde
En la sección Excepciones, seleccione Permitir que los servicios de Microsoft de confianza accedan a esta cuenta de almacenamiento y presione Guardar.
Abra la cuenta de Microsoft Purview y seleccione el portal de gobernanza de Microsoft Purview.
Vaya a Mapa de datos -->Sources para ver la jerarquía de recopilación.
Seleccione el icono Nuevo examen en el origen de datos de ADLS Gen2 registrado anteriormente.
Elija El entorno de ejecución de integración de Azure si el origen es accesible públicamente, un entorno de ejecución de integración de red virtual administrada si usa una red virtual administrada o un entorno de ejecución de integración autohospedado si el origen está en una red virtual privada. Para obtener más información sobre qué entorno de ejecución de integración usar, consulte el artículo elegir la configuración de Integration Runtime correcta.
Proporcione un nombre para el examen, seleccione la identidad administrada asignada por el sistema o asignada por el usuario en Credencial, elija la colección adecuada para el examen y seleccione Probar conexión. En una conexión correcta, seleccione Continuar.
Para limitar el examen a carpetas y subcarpetas específicas, elija los elementos adecuados de la lista.
A continuación, seleccione un conjunto de reglas de examen. Puede elegir entre los conjuntos de reglas personalizados predeterminados del sistema existentes o crear un nuevo conjunto de reglas alineado.
Si crea un nuevo conjunto de reglas de examen, seleccione los tipos de archivo que se incluirán en la regla de examen.
Puede seleccionar las reglas de clasificación que se incluirán en la regla de examen.
Elija el desencadenador de examen. Puede configurar una programación o ejecutar el examen una vez.
Revise el examen y seleccione Guardar y ejecutar.
Para ver los exámenes existentes:
- Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
- Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
- Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
- Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.
Para editar, cancelar o eliminar un examen:
Vaya al portal de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
Seleccione el examen que desea administrar. Después, podrá:
- Edite el examen seleccionando Editar examen.
- Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
- Para eliminar el examen, seleccione Eliminar examen.
Nota
- La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
Uso compartido de datos de Microsoft Purview (versión preliminar) permite el uso compartido de datos en contexto desde ADLS Gen2 a ADLS Gen2. En esta sección se proporcionan detalles sobre los requisitos específicos de ADLS Gen2 para compartir y recibir datos en contexto. Consulte Cómo compartir datos y Cómo recibir recursos compartidos para obtener una guía paso a paso sobre cómo usar el uso compartido de datos.
Las siguientes cuentas de almacenamiento son compatibles con el uso compartido de datos en contexto:
- Regiones: Centro de Canadá, Este de Canadá, Sur de Reino Unido, Oeste de Reino Unido, Este de Australia, Este de Japón, Sur de Corea del Sur y Norte de Sudáfrica
- Opciones de redundancia: LRS, GRS, RA-GRS
- Niveles: Frecuente, esporádico
Use solo cuentas de almacenamiento sin carga de trabajo de producción para la versión preliminar.
Nota
Las cuentas de almacenamiento de origen y de destino deben estar en la misma región que las demás. No es necesario que estén en la misma región que la cuenta de Microsoft Purview.
Para agregar o actualizar un recurso de cuenta de almacenamiento a un recurso compartido, necesita uno de los permisos siguientes:
- Microsoft.Authorization/roleAssignments/write : este permiso está disponible en el rol Propietario .
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/: este permiso está disponible en el rol Propietario de datos de Blob Storage .
Para asignar un recurso de cuenta de almacenamiento en un recurso compartido recibido, necesita uno de los permisos siguientes:
- Microsoft.Storage/storageAccounts/write : este permiso está disponible en el rol Colaborador y Propietario .
- Microsoft.Storage/storageAccounts/blobServices/containers/write : este permiso está disponible en el rol Colaborador, Propietario, Colaborador de datos de Storage Blob y Propietario de datos de Storage Blob .
Novedades que realice en archivos o datos compartidos en la carpeta compartida desde la cuenta de almacenamiento de origen estará disponible para el destinatario en la cuenta de almacenamiento de destino casi en tiempo real. Al eliminar subcarpetas o archivos dentro de la carpeta compartida, desaparecerán para el destinatario. Para eliminar la carpeta compartida, el archivo o las carpetas primarias o los contenedores, primero debe revocar el acceso a todos los recursos compartidos desde la cuenta de almacenamiento de origen.
La cuenta de almacenamiento de destino permite al destinatario acceder a los datos compartidos de solo lectura casi en tiempo real. Puede conectar herramientas de análisis como Synapse Workspace y Databricks a los datos compartidos para realizar análisis. El costo de acceder a los datos compartidos se cobra a la cuenta de almacenamiento de destino.
La cuenta de almacenamiento de origen puede admitir hasta 20 destinos y la cuenta de almacenamiento de destino puede admitir hasta 100 orígenes. Si necesita un aumento del límite, póngase en contacto con el soporte técnico.
Los siguientes tipos de directivas se admiten en este recurso de datos de Microsoft Purview:
- Directivas de propietario de datos : un conjunto de instrucciones de directiva que permiten conceder a los usuarios y grupos acceso a los orígenes de datos.
- Directivas de acceso de autoservicio : directiva que permite a los usuarios solicitar acceso a orígenes de datos registrados en Microsoft Purview.
- Directivas de protección : deniega el acceso a los datos etiquetados con etiquetas de confidencialidad a todos los usuarios excepto a los especificados por la directiva.
- Se admiten todas las regiones de Microsoft Purview .
- Las cuentas de almacenamiento de las siguientes regiones se admiten sin necesidad de configuración adicional. Sin embargo, no se admiten cuentas de almacenamiento con redundancia de zona (ZRS).
- Centro de Australia
- Este de Australia
- Sureste de Australia
- Sur de Brasil
- Centro de Canadá
- Este de Canadá
- Centro de India
- Centro de EE. UU.
- Asia Oriental
- Este de EE. UU. 2
- Este de EE. UU.
- Centro de Francia
- Alemania Central Occidental
- Este de Japón
- Oeste de Japón
- Centro de Corea
- Centro y norte de EE. UU.
- Norte de Europa
- Este de Noruega
- Centro de Polonia
- Centro de Qatar
- Centro y Sur de EE. UU.
- Norte de Sudáfrica
- Sudeste de Asia
- Sur de la India
- Centro de Suecia
- Norte de Suiza
- Centro oeste de EE. UU.
- Oeste de Europa
- Oeste de EE. UU.
- Oeste de EE. UU. 2
- Oeste de EE. UU. 3
- Norte de Emiratos Árabes Unidos
- Sur de Reino Unido
- Oeste de Reino Unido
- Las cuentas de almacenamiento de otras regiones de la nube pública se admiten después de establecer la marca de característica AllowPurviewPolicyEnforcement, como se describe en la sección siguiente. Se admiten las cuentas de almacenamiento de ZRS recién creadas, si se crean después de establecer la marca de característica AllowPurviewPolicyEnforcement.
Si es necesario, puede crear una nueva cuenta de Almacenamiento siguiendo esta guía.
Configuración de la suscripción donde reside la cuenta de Azure Storage para las directivas de Microsoft Purview
Este paso solo es necesario en determinadas regiones (consulte la sección anterior). Para permitir que Microsoft Purview administre directivas para una o varias cuentas de Azure Storage, ejecute los siguientes comandos de PowerShell en la suscripción donde implementará la cuenta de Azure Storage. Estos comandos de PowerShell permitirán a Microsoft Purview administrar directivas en todas las cuentas de Azure Storage de esa suscripción.
Si ejecuta estos comandos localmente, asegúrese de ejecutar PowerShell como administrador. Como alternativa, puede usar azure Cloud Shell en el Azure Portal: https://shell.azure.com.
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
Si la salida del último comando muestra RegistrationState como Registrado, la suscripción está habilitada para las directivas de acceso. Si la salida es Registrar, espere al menos 10 minutos y vuelva a intentar el comando. No continúe a menos que RegistrationState se muestre como Registrado.
Para poder crear una directiva en Microsoft Purview para un recurso de datos, debe registrar ese recurso de datos en Microsoft Purview Studio. Encontrará las instrucciones relacionadas con el registro del recurso de datos más adelante en esta guía.
Nota
Las directivas de Microsoft Purview se basan en la ruta de acceso de ARM del recurso de datos. Si un recurso de datos se mueve a un nuevo grupo de recursos o una suscripción, deberá anular su registro y volver a registrarse en Microsoft Purview.
Una vez registrado un recurso, pero antes de que se pueda crear una directiva en Microsoft Purview para ese recurso, debe configurar los permisos. Se necesita un conjunto de permisos para habilitar la aplicación de directivas de datos. Esto se aplica a orígenes de datos, grupos de recursos o suscripciones. Para habilitar la aplicación de directivas de datos, debe tener privilegios específicos de Administración de identidades y acceso (IAM) en el recurso, así como privilegios específicos de Microsoft Purview:
Debe tener una de las siguientes combinaciones de roles de IAM en la ruta de acceso de Azure Resource Manager del recurso o en cualquier elemento primario del mismo (es decir, mediante la herencia de permisos de IAM):
- Propietario de IAM
- Colaborador de IAM y administrador de acceso de usuarios de IAM
Para configurar permisos de control de acceso basado en rol (RBAC) de Azure, siga esta guía. En la captura de pantalla siguiente se muestra cómo acceder a la sección Access Control de la Azure Portal para que el recurso de datos agregue una asignación de roles.
Nota
El rol Propietario de IAM para un recurso de datos se puede heredar de un grupo de recursos primario, una suscripción o un grupo de administración de suscripciones. Compruebe qué Microsoft Entra usuarios, grupos y entidades de servicio contienen o heredan el rol propietario de IAM para el recurso.
También debe tener el rol de administrador de origen de datos de Microsoft Purview para la colección o una colección primaria (si la herencia está habilitada). Para obtener más información, consulte la guía sobre la administración de asignaciones de roles de Microsoft Purview.
En la captura de pantalla siguiente se muestra cómo asignar el rol de administrador de origen de datos en el nivel de colección raíz.
Configuración de permisos de Microsoft Purview para crear, actualizar o eliminar directivas de acceso
Para crear, actualizar o eliminar directivas, debe obtener el rol de autor de directivas en Microsoft Purview en el nivel de colección raíz:
- El rol de autor de directivas puede crear, actualizar y eliminar directivas de DevOps y propietario de datos.
- El rol de autor de directivas puede eliminar directivas de acceso de autoservicio.
Para obtener más información sobre cómo administrar asignaciones de roles de Microsoft Purview, consulte Creación y administración de colecciones en el Mapa de datos de Microsoft Purview.
Nota
El rol de autor de directiva debe configurarse en el nivel de colección raíz.
Además, para buscar fácilmente Microsoft Entra usuarios o grupos al crear o actualizar el asunto de una directiva, puede beneficiarse en gran medida de obtener el permiso Lectores de directorio en Microsoft Entra ID. Se trata de un permiso común para los usuarios de un inquilino de Azure. Sin el permiso Lector de directorios, el autor de la directiva tendrá que escribir el nombre de usuario completo o el correo electrónico de todas las entidades de seguridad incluidas en el asunto de una directiva de datos.
Las directivas de propietario de datos permiten comprobaciones y saldos si asigna los roles de autor de directiva de Microsoft Purview y Administrador de origen de datos a diferentes personas de la organización. Antes de que se aplique una directiva de propietario de datos, una segunda persona (administrador del origen de datos) debe revisarla y aprobarla explícitamente publicándola. Esto no se aplica a las directivas de acceso de DevOps o autoservicio, ya que la publicación es automática para ellas cuando se crean o actualizan esas directivas.
Para publicar una directiva de propietario de datos, debe obtener el rol Administrador del origen de datos en Microsoft Purview en el nivel de recopilación raíz.
Para obtener más información sobre cómo administrar asignaciones de roles de Microsoft Purview, consulte Creación y administración de colecciones en el Mapa de datos de Microsoft Purview.
Nota
Para publicar directivas de propietario de datos, el rol de administrador del origen de datos debe configurarse en el nivel de recopilación raíz.
Una vez habilitado un recurso para la aplicación de directivas de datos, cualquier usuario de Microsoft Purview con el rol De autor de directivas en el nivel de recopilación raíz puede aprovisionar el acceso a ese origen de datos desde Microsoft Purview.
Nota
Cualquier administrador de colección raíz de Microsoft Purview puede asignar nuevos usuarios a roles de autor de directiva raíz. Cualquier administrador de recopilación puede asignar nuevos usuarios a un rol de administrador de origen de datos en la colección. Minimice y examine cuidadosamente a los usuarios que tienen roles de administrador de Microsoft Purview Collection, administrador de origen de datos o autor de directivas .
Si se elimina una cuenta de Microsoft Purview con directivas publicadas, dichas directivas dejarán de aplicarse en un período de tiempo que depende del origen de datos específico. Este cambio puede tener implicaciones en la disponibilidad de acceso a datos y seguridad. Los roles Colaborador y Propietario de IAM pueden eliminar cuentas de Microsoft Purview. Para comprobar estos permisos, vaya a la sección Control de acceso (IAM) de su cuenta de Microsoft Purview y seleccione Asignaciones de roles. También puede usar un bloqueo para evitar que la cuenta de Microsoft Purview se elimine mediante bloqueos de Resource Manager.
El recurso de Azure Storage debe registrarse primero en Microsoft Purview para poder crear directivas de acceso. Para registrar el recurso, siga las secciones Requisitos previos y Registro de esta guía:
Después de registrar el origen de datos, deberá habilitar la aplicación de directivas de datos. Este es un requisito previo para poder crear directivas en el origen de datos. La aplicación de directivas de datos puede afectar a la seguridad de los datos, ya que delega a determinados roles de Microsoft Purview que administran el acceso a los orígenes de datos. Consulte las prácticas seguras relacionadas con el cumplimiento de directivas de datos en esta guía: Habilitación del cumplimiento de directivas de datos
Una vez que el origen de datos tenga la opción Cumplimiento de directivas de datos establecida en Habilitado, tendrá un aspecto similar al de esta captura de pantalla:
Para crear una directiva de acceso para Azure Data Lake Storage Gen2, siga esta guía:
Para crear directivas que cubran todos los orígenes de datos dentro de un grupo de recursos o una suscripción de Azure, puede hacer referencia a esta sección.
Las directivas de control de acceso de protección (directivas de protección) permiten a las organizaciones proteger automáticamente los datos confidenciales en los orígenes de datos. Microsoft Purview ya examina los recursos de datos e identifica elementos de datos confidenciales, y esta nueva característica permite restringir automáticamente el acceso a esos datos mediante etiquetas de confidencialidad de Microsoft Purview Information Protection.
Siga esta documentación para crear una directiva de protección: Cómo crear una directiva de Microsoft Purview Information Protection.
Siga las guías siguientes para obtener más información sobre Microsoft Purview y sus datos.