Conexión a Azure Data Lake Storage en Microsoft Purview
En este artículo se describe el proceso para registrar y controlar un origen de datos de Azure Data Lake Storage (ADLS Gen2) en Microsoft Purview, incluidas instrucciones para autenticarse e interactuar con el origen de ADLS Gen2.
Funciones admitidas
Extracción de metadatos | Examen completo | Examen incremental | Examen con ámbito | Clasificación | Etiquetar | Directiva de acceso | Linaje | Uso compartido de datos | Vista en vivo |
---|---|---|---|---|---|---|---|---|---|
Sí | Sí | Sí | Sí | Sí | Sí | Sí (versión preliminar) | Limitada* | Sí | Sí |
* El linaje se admite si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.
Al examinar Azure Data Lake Storage Gen2 origen, Microsoft Purview admite la extracción de metadatos técnicos, entre los que se incluyen:
- Cuenta de almacenamiento
- servicio Data Lake Storage Gen2
- Sistema de archivos (contenedor)
- Folders
- Archivos
- Conjuntos de recursos
Al configurar el examen, puede elegir examinar todas las carpetas ADLS Gen2 o selectivas. Obtenga información sobre el formato de archivo admitido aquí.
Requisitos previos
Una cuenta de Azure con una suscripción activa. Cree una cuenta de forma gratuita.
Una cuenta de Microsoft Purview activa.
Tendrá que ser administrador del origen de datos y lector de datos para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Consulte nuestra página Permisos de Microsoft Purview para obtener más información.
Debe tener al menos el permiso Lector en la cuenta de ADLS Gen 2 para poder registrarla.
Registrarse
Esta sección le permitirá registrar el origen de datos de ADLS Gen2 para el examen y el recurso compartido de datos en Purview.
Requisitos previos para el registro
- Tendrá que ser un Administración de origen de datos y uno de los demás roles de Purview (por ejemplo, Lector de datos o colaborador de Data Share) para registrar un origen y administrarlo en el portal de gobernanza de Microsoft Purview. Consulte nuestra página Permisos de Microsoft Purview para obtener más información.
Pasos para registrarse
Es importante registrar el origen de datos en Microsoft Purview antes de configurar un examen para el origen de datos.
Vaya al portal de gobernanza de Microsoft Purview:
- Vaya directamente a https://web.purview.azure.com la cuenta de Microsoft Purview y selecciónela.
- Abra el Azure Portal, busque y seleccione la cuenta de Microsoft Purview. Seleccione el botón Portal de gobernanza de Microsoft Purview .
Vaya al mapa de datos:> orígenes
Cree la jerarquía de colecciones mediante el menú Colecciones y asigne permisos a subcolecciones individuales, según sea necesario.
Vaya a la colección adecuada en el menú Orígenes y seleccione el icono Registrar para registrar un nuevo origen de datos de ADLS Gen2.
Seleccione el origen de datos Azure Data Lake Storage Gen2 y seleccione Continuar.
Proporcione un nombre adecuado para el origen de datos, seleccione la suscripción de Azure pertinente, el nombre de la cuenta de Data Lake Store existente y la colección y seleccione Aplicar. Deje el botón de alternancia Administración de uso de datos en la posición deshabilitada hasta que tenga la oportunidad de examinar cuidadosamente este documento.
La cuenta de almacenamiento de ADLS Gen2 se mostrará en la colección seleccionada.
Examinar
Sugerencia
Para solucionar cualquier problema con el examen:
- Confirme que ha configurado correctamente la autenticación para el examen.
- Revise nuestra documentación de solución de problemas de examen.
Autenticación para un examen
La red de Azure puede permitir comunicaciones entre los recursos de Azure, pero si ha configurado firewalls, puntos de conexión privados o redes virtuales en Azure, deberá seguir una de estas configuraciones a continuación.
Restricciones de red | Tipo de entorno de ejecución de integración | Tipos de credenciales disponibles |
---|---|---|
No hay puntos de conexión privados ni firewalls | Azure IR | Identidad administrada (recomendada), entidad de servicio o clave de cuenta |
Firewall habilitado, pero sin puntos de conexión privados | Azure IR | Identidad administrada |
Puntos de conexión privados habilitados | *Ir autohospedado | Entidad de servicio, clave de cuenta |
Importante
- *Para usar un entorno de ejecución de integración autohospedado, primero deberá crear uno y confirmar la configuración de red para Microsoft Purview.
- Si usa Self-Hosted Integration Runtime para examinar archivos parquet, debe instalar JRE 8 de 64 bits (Java Runtime Environment) o OpenJDK en el equipo de IR. Puede consultar nuestra guía de instalación de Java Runtime Environment.
Uso de una identidad administrada asignada por el sistema o por el usuario para el examen
Hay dos tipos de identidad administrada que puede usar:
Identidad administrada asignada por el sistema (recomendada): en cuanto se crea la cuenta de Microsoft Purview, se crea automáticamente una identidad administrada asignada por el sistema (SAMI) en el inquilino de Azure AD. En función del tipo de recurso, se requieren asignaciones de roles RBAC específicas para que la identidad administrada asignada por el sistema (SAMI) de Microsoft Purview realice los exámenes.
Identidad administrada asignada por el usuario (versión preliminar): de forma similar a una identidad administrada del sistema, una identidad administrada asignada por el usuario (UAMI) es un recurso de credenciales que se puede usar para permitir que Microsoft Purview se autentique en Azure Active Directory. Para obtener más información, puede ver nuestra guía de identidad administrada asignada por el usuario.
Es importante conceder a su cuenta de Microsoft Purview o a la identidad administrada asignada por el usuario (UAMI) el permiso para examinar el origen de datos de ADLS Gen2. Puede agregar la identidad administrada asignada por el sistema de la cuenta de Microsoft Purview (que tiene el mismo nombre que la cuenta de Microsoft Purview) o UAMI en el nivel suscripción, grupo de recursos o recurso, en función de qué nivel se necesiten los permisos de examen.
Nota:
Debe ser propietario de la suscripción para poder agregar una identidad administrada en un recurso de Azure.
En el Azure Portal, busque la suscripción, el grupo de recursos o el recurso (por ejemplo, una cuenta de almacenamiento de Azure Data Lake Storage Gen2) que le gustaría permitir que el catálogo examinara.
Seleccione Access Control (IAM) en el panel de navegación izquierdo y, a continuación, seleccione + Agregar -->Agregar asignación de roles.
Establezca el rol en Lector de datos de Storage Blob y escriba el nombre de la cuenta de Microsoft Purview o la identidad administrada asignada por el usuario en el cuadro Seleccionar entrada. A continuación, seleccione Guardar para asignar esta asignación de roles a su cuenta de Microsoft Purview.
Nota:
Para más información, consulte los pasos descritos en Autorización del acceso a blobs y colas mediante Azure Active Directory.
Nota:
Si tiene el firewall habilitado para la cuenta de almacenamiento, debe usar el método de autenticación de identidad administrada al configurar un examen.
Vaya a la cuenta de almacenamiento de ADLS Gen2 en Azure Portal
Vaya a Seguridad y redes de red >
Elija Redes seleccionadas en Permitir acceso desde
En la sección Excepciones, seleccione Permitir que los servicios de Microsoft de confianza accedan a esta cuenta de almacenamiento y presione Guardar.
Creación del examen
Abra la cuenta de Microsoft Purview y seleccione el portal de gobernanza de Microsoft Purview.
Vaya a Mapa de datos -->Sources para ver la jerarquía de recopilación.
Seleccione el icono Nuevo examen en el origen de datos de ADLS Gen2 registrado anteriormente.
Si se usa una identidad administrada asignada por el sistema o por el usuario
Proporcione un nombre para el examen, seleccione la identidad administrada asignada por el sistema o asignada por el usuario en Credencial, elija la colección adecuada para el examen y seleccione Probar conexión. En una conexión correcta, seleccione Continuar.
Ámbito y ejecución del examen
Para limitar el examen a carpetas y subcarpetas específicas, elija los elementos adecuados de la lista.
A continuación, seleccione un conjunto de reglas de examen. Puede elegir entre los conjuntos de reglas personalizados predeterminados del sistema existentes o crear un nuevo conjunto de reglas alineado.
Si crea un nuevo conjunto de reglas de examen, seleccione los tipos de archivo que se incluirán en la regla de examen.
Puede seleccionar las reglas de clasificación que se incluirán en la regla de examen.
Elija el desencadenador de examen. Puede configurar una programación o ejecutar el examen una vez.
Revise el examen y seleccione Guardar y ejecutar.
Visualización de los exámenes y las ejecuciones de examen
Para ver los exámenes existentes:
- Vaya al portal de gobernanza de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
- Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
- Seleccione el examen que tiene los resultados que desea ver. En el panel se muestran todas las ejecuciones de examen anteriores, junto con el estado y las métricas de cada ejecución de examen.
- Seleccione el identificador de ejecución para comprobar los detalles de la ejecución del examen.
Administrar los exámenes
Para editar, cancelar o eliminar un examen:
Vaya al portal de gobernanza de Microsoft Purview. En el panel izquierdo, seleccione Mapa de datos.
Seleccione el origen de datos. Puede ver una lista de exámenes existentes en ese origen de datos en Exámenes recientes o puede ver todos los exámenes en la pestaña Exámenes .
Seleccione el examen que desea administrar. Después, podrá:
- Edite el examen seleccionando Editar examen.
- Para cancelar un examen en curso, seleccione Cancelar ejecución del examen.
- Para eliminar el examen, seleccione Eliminar examen.
Nota:
- La eliminación del examen no elimina los recursos de catálogo creados a partir de exámenes anteriores.
- El recurso ya no se actualizará con los cambios de esquema si la tabla de origen ha cambiado y vuelve a examinar la tabla de origen después de editar la descripción en la pestaña Esquema de Microsoft Purview.
Uso compartido de datos
Uso compartido de datos de Microsoft Purview (versión preliminar) permite el uso compartido de datos en contexto desde ADLS Gen2 a ADLS Gen2. En esta sección se proporcionan detalles sobre los requisitos específicos de ADLS Gen2 para compartir y recibir datos en contexto. Consulte Cómo compartir datos y Cómo recibir recursos compartidos para obtener una guía paso a paso sobre cómo usar el uso compartido de datos.
Cuentas de almacenamiento admitidas para el uso compartido de datos en contexto
Las siguientes cuentas de almacenamiento son compatibles con el uso compartido de datos en contexto:
- Regiones: Centro de Canadá, Este de Canadá, Sur de Reino Unido, Oeste de Reino Unido, Este de Australia, Este de Japón, Sur de Corea del Sur y Norte de Sudáfrica
- Opciones de redundancia: LRS, GRS, RA-GRS
- Niveles: Frecuente, esporádico
Use solo cuentas de almacenamiento sin carga de trabajo de producción para la versión preliminar.
Nota:
Las cuentas de almacenamiento de origen y de destino deben estar en la misma región que las demás. No es necesario que estén en la misma región que la cuenta de Microsoft Purview.
Permisos de cuenta de almacenamiento necesarios para compartir datos
Para agregar o actualizar un recurso de cuenta de almacenamiento a un recurso compartido, necesita uno de los permisos siguientes:
- Microsoft.Authorization/roleAssignments/write : este permiso está disponible en el rol Propietario .
- Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/: este permiso está disponible en el rol Propietario de datos de Blob Storage .
Permisos de cuenta de almacenamiento necesarios para recibir datos compartidos
Para asignar un recurso de cuenta de almacenamiento en un recurso compartido recibido, necesita uno de los permisos siguientes:
- Microsoft.Storage/storageAccounts/write : este permiso está disponible en el rol Colaborador y Propietario .
- Microsoft.Storage/storageAccounts/blobServices/containers/write : este permiso está disponible en el rol Colaborador, Propietario, Colaborador de datos de Storage Blob y Propietario de datos de Storage Blob .
Actualización de datos compartidos en la cuenta de almacenamiento de origen
Novedades que realice en archivos o datos compartidos en la carpeta compartida desde la cuenta de almacenamiento de origen estará disponible para el destinatario en la cuenta de almacenamiento de destino casi en tiempo real. Al eliminar subcarpetas o archivos dentro de la carpeta compartida, desaparecerán para el destinatario. Para eliminar la carpeta compartida, el archivo o las carpetas primarias o los contenedores, primero debe revocar el acceso a todos los recursos compartidos desde la cuenta de almacenamiento de origen.
Acceso a datos compartidos en la cuenta de almacenamiento de destino
La cuenta de almacenamiento de destino permite al destinatario acceder a los datos compartidos de solo lectura casi en tiempo real. Puede conectar herramientas de análisis como Synapse Workspace y Databricks a los datos compartidos para realizar análisis. El costo de acceder a los datos compartidos se cobra a la cuenta de almacenamiento de destino.
Límite de servicio
La cuenta de almacenamiento de origen puede admitir hasta 20 destinos y la cuenta de almacenamiento de destino puede admitir hasta 100 orígenes. Si necesita un aumento del límite, póngase en contacto con el soporte técnico.
Directiva de acceso
Directivas admitidas
Los siguientes tipos de directivas se admiten en este recurso de datos de Microsoft Purview:
Requisitos previos de la directiva de acceso en cuentas de Azure Storage
Compatibilidad con regiones
- Se admiten todas las regiones de Microsoft Purview .
- Las cuentas de almacenamiento de las siguientes regiones se admiten sin necesidad de configuración adicional. Sin embargo, no se admiten cuentas de almacenamiento con redundancia de zona (ZRS).
- Este de EE. UU.
- Este de EE. UU. 2
- Centro y Sur de EE. UU.
- Oeste de EE. UU. 2
- Centro de Canadá
- Norte de Europa
- Oeste de Europa
- Centro de Francia
- Sur de Reino Unido
- Sudeste de Asia
- Este de Australia
- Las cuentas de almacenamiento de otras regiones de la nube pública se admiten después de establecer la marca de característica AllowPurviewPolicyEnforcement, como se describe en la sección siguiente. Se admiten las cuentas de almacenamiento de ZRS recién creadas, si se crean después de establecer la marca de característica AllowPurviewPolicyEnforcement.
Si es necesario, puede crear una nueva cuenta de Almacenamiento siguiendo esta guía.
Configuración de la suscripción donde reside la cuenta de Azure Storage para las directivas de Microsoft Purview
Este paso solo es necesario en determinadas regiones (consulte la sección anterior). Para permitir que Microsoft Purview administre directivas para una o varias cuentas de Azure Storage, ejecute los siguientes comandos de PowerShell en la suscripción donde implementará la cuenta de Azure Storage. Estos comandos de PowerShell permitirán a Microsoft Purview administrar directivas en todas las cuentas de Azure Storage de esa suscripción.
Si ejecuta estos comandos localmente, asegúrese de ejecutar PowerShell como administrador. Como alternativa, puede usar azure Cloud Shell en el Azure Portal: https://shell.azure.com.
# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage
Si la salida del último comando muestra RegistrationState como Registrado, la suscripción está habilitada para las directivas de acceso. Si la salida es Registrar, espere al menos 10 minutos y vuelva a intentar el comando. No continúe a menos que RegistrationState se muestre como Registrado.
Configuración de la cuenta de Microsoft Purview para directivas
Registro del origen de datos en Microsoft Purview
Para poder crear una directiva en Microsoft Purview para un recurso de datos, debe registrar ese recurso de datos en Microsoft Purview Studio. Encontrará las instrucciones relacionadas con el registro del recurso de datos más adelante en esta guía.
Nota:
Las directivas de Microsoft Purview se basan en la ruta de acceso de ARM del recurso de datos. Si un recurso de datos se mueve a un nuevo grupo de recursos o una suscripción, deberá anular su registro y volver a registrarse en Microsoft Purview.
Configuración de permisos para habilitar la administración de uso de datos en el origen de datos
Una vez registrado un recurso, pero antes de que se pueda crear una directiva en Microsoft Purview para ese recurso, debe configurar los permisos. Se necesita un conjunto de permisos para habilitar la administración de uso de datos. Esto se aplica a orígenes de datos, grupos de recursos o suscripciones. Para habilitar la administración de uso de datos, debe tener privilegios específicos de Administración de identidades y acceso (IAM) en el recurso, así como privilegios específicos de Microsoft Purview:
Debe tener una de las siguientes combinaciones de roles de IAM en la ruta de acceso de Azure Resource Manager del recurso o en cualquier elemento primario del mismo (es decir, mediante la herencia de permisos de IAM):
- Propietario de IAM
- Colaborador de IAM y administrador de acceso de usuarios de IAM
Para configurar permisos de control de acceso basado en rol (RBAC) de Azure, siga esta guía. En la captura de pantalla siguiente se muestra cómo acceder a la sección Access Control de la Azure Portal para que el recurso de datos agregue una asignación de roles.
Nota:
El rol Propietario de IAM para un recurso de datos se puede heredar de un grupo de recursos primario, una suscripción o un grupo de administración de suscripciones. Compruebe qué usuarios, grupos y entidades de servicio de Azure AD contienen o heredan el rol propietario de IAM para el recurso.
También debe tener el rol de administrador de origen de datos de Microsoft Purview para la colección o una colección primaria (si la herencia está habilitada). Para obtener más información, consulte la guía sobre la administración de asignaciones de roles de Microsoft Purview.
En la captura de pantalla siguiente se muestra cómo asignar el rol de administrador de origen de datos en el nivel de colección raíz.
Configuración de permisos de Microsoft Purview para crear, actualizar o eliminar directivas de acceso
Para crear, actualizar o eliminar directivas, debe obtener el rol de autor de directivas en Microsoft Purview en el nivel de colección raíz:
- El rol de autor de directivas puede crear, actualizar y eliminar directivas de DevOps y propietario de datos.
- El rol de autor de directivas puede eliminar directivas de acceso de autoservicio.
Para obtener más información sobre cómo administrar asignaciones de roles de Microsoft Purview, consulte Creación y administración de colecciones en el Mapa de datos de Microsoft Purview.
Nota:
El rol de autor de directiva debe configurarse en el nivel de colección raíz.
Además, para buscar fácilmente usuarios o grupos de Azure AD al crear o actualizar el asunto de una directiva, puede beneficiarse en gran medida de obtener el permiso Lectores de directorio en Azure AD. Se trata de un permiso común para los usuarios de un inquilino de Azure. Sin el permiso Lector de directorios, el autor de la directiva tendrá que escribir el nombre de usuario completo o el correo electrónico de todas las entidades de seguridad incluidas en el asunto de una directiva de datos.
Configuración de permisos de Microsoft Purview para publicar directivas de propietario de datos
Las directivas de propietario de datos permiten comprobaciones y saldos si asigna los roles de autor de directiva de Microsoft Purview y Administrador de origen de datos a diferentes personas de la organización. Antes de que se aplique una directiva de propietario de datos, una segunda persona (administrador del origen de datos) debe revisarla y aprobarla explícitamente publicándola. Esto no se aplica a las directivas de acceso de DevOps o autoservicio, ya que la publicación es automática para ellas cuando se crean o actualizan esas directivas.
Para publicar una directiva de propietario de datos, debe obtener el rol Administrador del origen de datos en Microsoft Purview en el nivel de recopilación raíz.
Para obtener más información sobre cómo administrar asignaciones de roles de Microsoft Purview, consulte Creación y administración de colecciones en el Mapa de datos de Microsoft Purview.
Nota:
Para publicar directivas de propietario de datos, el rol de administrador del origen de datos debe configurarse en el nivel de recopilación raíz.
Delegar la responsabilidad de aprovisionamiento de acceso a roles en Microsoft Purview
Una vez habilitado un recurso para la administración de uso de datos, cualquier usuario de Microsoft Purview con el rol Autor de directiva en el nivel de recopilación raíz puede aprovisionar el acceso a ese origen de datos desde Microsoft Purview.
Nota:
Cualquier administrador de colección raíz de Microsoft Purview puede asignar nuevos usuarios a roles de autor de directiva raíz. Cualquier administrador de recopilación puede asignar nuevos usuarios a un rol de administrador de origen de datos en la colección. Minimice y examine cuidadosamente a los usuarios que tienen roles de administrador de Microsoft Purview Collection, administrador de origen de datos o autor de directivas .
Si se elimina una cuenta de Microsoft Purview con directivas publicadas, dichas directivas dejarán de aplicarse en un período de tiempo que depende del origen de datos específico. Este cambio puede tener implicaciones en la disponibilidad de acceso a datos y seguridad. Los roles Colaborador y Propietario de IAM pueden eliminar cuentas de Microsoft Purview. Para comprobar estos permisos, vaya a la sección Control de acceso (IAM) de su cuenta de Microsoft Purview y seleccione Asignaciones de roles. También puede usar un bloqueo para evitar que la cuenta de Microsoft Purview se elimine mediante bloqueos de Resource Manager.
Registro del origen de datos en Microsoft Purview para la administración de uso de datos
El recurso de Azure Storage debe registrarse primero en Microsoft Purview para poder crear directivas de acceso. Para registrar el recurso, siga las secciones Requisitos previos y Registro de esta guía:
Después de registrar el origen de datos, deberá habilitar la administración de uso de datos. Este es un requisito previo para poder crear directivas en el origen de datos. La administración de uso de datos puede afectar a la seguridad de los datos, ya que delega a determinados roles de Microsoft Purview que administran el acceso a los orígenes de datos. Consulte las prácticas seguras relacionadas con la administración del uso de datos en esta guía: Habilitación de la administración del uso de datos
Una vez que el origen de datos tenga la opción Administración de uso de datos establecida en Habilitado, tendrá un aspecto similar al de esta captura de pantalla:
Crear una directiva
Para crear una directiva de acceso para Azure Data Lake Storage Gen2, siga esta guía:
Para crear directivas que cubran todos los orígenes de datos dentro de un grupo de recursos o una suscripción de Azure, puede hacer referencia a esta sección.
Siguientes pasos
Siga las guías siguientes para obtener más información sobre Microsoft Purview y sus datos.