Procedimientos recomendados de examen de Microsoft Purview
Las soluciones de gobernanza de Microsoft Purview admiten el examen automatizado de orígenes de datos locales, multinube y software como servicio (SaaS).
La ejecución de un examen invoca el proceso para ingerir metadatos de los orígenes de datos registrados. Los metadatos mantenidos al final del proceso de examen y mantenimiento incluyen metadatos técnicos. Estos metadatos pueden incluir nombres de recursos de datos, como nombres de tabla o nombres de archivo, tamaño de archivo, columnas y linaje de datos. Los detalles del esquema también se capturan para orígenes de datos estructurados. Un sistema de administración de bases de datos relacionales es un ejemplo de este tipo de origen.
El proceso de conservación aplica etiquetas de clasificación automatizadas en los atributos de esquema en función del conjunto de reglas de examen configurado. Las etiquetas de confidencialidad se aplican si la cuenta de Microsoft Purview está conectada al portal de cumplimiento Microsoft Purview.
Importante
Si tiene directivas de Azure que impiden las actualizaciones de las cuentas de Almacenamiento, se producirán errores en el proceso de examen de Microsoft Purview. Siga la guía de etiquetas de excepción de Microsoft Purview para crear una excepción para las cuentas de Microsoft Purview.
¿Por qué necesita procedimientos recomendados para administrar orígenes de datos?
Los procedimientos recomendados le permiten:
- Optimice el costo.
- Cree la excelencia operativa.
- Mejorar el cumplimiento de seguridad.
- Obtenga eficiencia en el rendimiento.
Registro de un origen y establecimiento de una conexión
Las siguientes consideraciones y recomendaciones de diseño le ayudan a registrar un origen y a establecer una conexión.
Consideraciones sobre diseño
- Use colecciones para crear la jerarquía que se alinea con la estrategia de la organización, como la función geográfica, la función empresarial o el origen de datos. La jerarquía define los orígenes de datos que se van a registrar y examinar.
- Por diseño, no puede registrar orígenes de datos varias veces en la misma cuenta de Microsoft Purview. Esta arquitectura ayuda a evitar el riesgo de asignar un control de acceso diferente al mismo origen de datos.
Recomendaciones de diseño
Si varios equipos consumen los metadatos del mismo origen de datos, puede registrar y administrar el origen de datos en una colección primaria. A continuación, puede crear los exámenes correspondientes en cada subconsulta. De este modo, los recursos pertinentes aparecen en cada colección secundaria. Los orígenes sin elementos primarios se agrupan en un cuadro de puntos de la vista de mapa. No hay flechas que los vinculen a los padres.
Use la opción Azure Multiple si necesita registrar varios orígenes, como suscripciones o grupos de recursos de Azure, en la nube. Para obtener más información, consulte la siguiente documentación:
Una vez registrado un origen de datos, puede examinar el mismo origen varias veces, en caso de que varios equipos o unidades de negocio usen el mismo origen de forma diferente.
Para obtener más información sobre cómo definir una jerarquía para registrar orígenes de datos, consulte Procedimientos recomendados sobre la arquitectura de colecciones.
Análisis
Las siguientes consideraciones y recomendaciones de diseño se organizan en función de los pasos clave implicados en el proceso de examen.
Consideraciones sobre diseño
- Una vez registrado el origen de datos, configure un examen para administrar el examen y el mantenimiento de metadatos automatizados y seguros.
- La configuración del examen incluye la configuración del nombre del examen, el ámbito del examen, el entorno de ejecución de integración, la frecuencia del desencadenador de examen, el conjunto de reglas de examen y el conjunto de recursos de forma única para cada origen de datos por frecuencia de examen.
- Antes de crear las credenciales, tenga en cuenta los tipos de origen de datos y los requisitos de red. Esta información le ayuda a decidir qué método de autenticación y entorno de ejecución de integración necesita para su escenario.
Recomendaciones de diseño
Después de registrar el origen en la colección correspondiente, planee y siga el orden que se muestra aquí al configurar el examen. Este pedido de proceso le ayuda a evitar costos inesperados y volver a trabajar.
Identifique los requisitos de clasificación de las reglas de clasificación integradas del sistema. O bien, puede crear reglas de clasificación personalizadas específicas, según sea necesario. Baselos en requisitos específicos del sector, empresariales o regionales, que no están disponibles de forma inmediata:
Cree conjuntos de reglas de examen antes de configurar el examen.
Al crear el conjunto de reglas de examen, asegúrese de los puntos siguientes:
Compruebe si el conjunto de reglas de examen predeterminado del sistema es suficiente para el origen de datos que se examina. De lo contrario, defina el conjunto de reglas de examen personalizado.
El conjunto de reglas de examen personalizado puede incluir tanto el valor predeterminado del sistema como el personalizado, por lo que se borran las opciones que no son pertinentes para los recursos de datos que se examinan.
Cuando sea necesario, cree un conjunto de reglas personalizado para excluir etiquetas de clasificación no deseadas. Por ejemplo, el conjunto de reglas del sistema contiene patrones de código gubernamental genérico para el planeta, no solo el Estados Unidos. Los datos pueden coincidir con el patrón de algún otro tipo, como "Número de licencia de conducir de Bélgica".
Limite las reglas de clasificación personalizadas a las etiquetas más importantes y pertinentes para evitar el desorden. No quiere tener demasiadas etiquetas etiquetadas en el recurso.
Si modifica la clasificación personalizada o el conjunto de reglas de examen, se desencadena un examen completo. Configure el conjunto de reglas de clasificación y examen adecuadamente para evitar el retrabajo y los costosos exámenes completos.
Nota:
Al examinar una cuenta de almacenamiento, Microsoft Purview usa un conjunto de patrones definidos para determinar si un grupo de recursos forma un conjunto de recursos. Puede usar reglas de patrón de conjunto de recursos para personalizar o invalidar la forma en que Microsoft Purview detecta qué recursos se agrupan como conjuntos de recursos. Las reglas también determinan cómo se muestran los recursos dentro del catálogo. Para obtener más información, consulte Creación de reglas de patrón de conjunto de recursos. Esta característica tiene consideraciones de costos. Para obtener información, consulte la página de precios.
Configure un examen para los orígenes de datos registrados.
Nombre del examen: de forma predeterminada, Microsoft Purview usa la convención de nomenclatura SCAN-[A-Z][a-z][a-z], lo que no resulta útil cuando se intenta identificar un examen que se ha ejecutado. Asegúrese de usar una convención de nomenclatura significativa. Por ejemplo, podría asignar al entorno de examen el nombre environment-source-frequency-time como DEVODS-Daily-0200. Este nombre representa un examen diario a las 0200 horas.
Autenticación: Microsoft Purview ofrece varios métodos de autenticación para examinar orígenes de datos, en función del tipo de origen. Podría ser orígenes locales o de terceros o en la nube de Azure. Siga el principio de privilegios mínimos para el método de autenticación en este orden de preferencias:
- MSI de Microsoft Purview: identidad de servicio administrada (por ejemplo, para orígenes de Azure Data Lake Storage Gen2)
- Identidad administrada asignada por el usuario
- Servicio principal
- Autenticación de SQL (por ejemplo, para orígenes locales o Azure SQL)
- Clave de cuenta o autenticación básica (por ejemplo, para orígenes de SAP S/4HANA)
Para obtener más información, consulte la guía de procedimientos para administrar las credenciales.
Nota:
Si tiene un firewall habilitado para la cuenta de almacenamiento, debe usar el método de autenticación de identidad administrada al configurar un examen. Al configurar una nueva credencial, el nombre de la credencial solo puede contener letras, números, caracteres de subrayado y guiones.
Entorno de ejecución de integración
- Para obtener más información, consulte Procedimientos recomendados de arquitectura de red.
- Si se elimina el entorno de ejecución de integración autohospedado (SHIR), se producirá un error en los exámenes en curso que dependan de él.
- Cuando use SHIR, asegúrese de que la memoria es suficiente para el origen de datos que se está examinando. Por ejemplo, cuando se usa SHIR para examinar un origen de SAP, si ve "Error de memoria insuficiente":
- Asegúrese de que la máquina SHIR tiene suficiente memoria. La cantidad recomendada es de 128 GB.
- En la configuración de examen, establezca la memoria máxima disponible como algún valor adecuado, por ejemplo, 100.
- Para obtener más información, consulte los requisitos previos en Examen y administración de SAP ECC Microsoft Purview.
Examen del ámbito
Al configurar el ámbito para el examen, seleccione solo los recursos que son pertinentes en un nivel granular o en un nivel primario. Esta práctica garantiza que el costo del examen sea óptimo y que el rendimiento sea eficaz. Todos los activos futuros bajo un determinado elemento primario se seleccionarán automáticamente si el elemento primario está comprobado total o parcialmente.
Algunos ejemplos de algunos orígenes de datos:
- Para Azure SQL Database o Data Lake Storage Gen2, puede limitar el examen a partes específicas del origen de datos. Seleccione los elementos adecuados de la lista, como carpetas, subcarpetas, colecciones o esquemas.
- Para orígenes de Oracle, Hive Metastore Database y Teradata, se puede especificar una lista específica de esquemas que se van a exportar a través de valores separados por punto y coma o patrones de nombre de esquema mediante expresiones SQL LIKE.
- Para google big query, se puede especificar una lista específica de conjuntos de datos que se van a exportar a través de valores separados por punto y coma.
- Al crear un examen para una cuenta de AWS completa, puede seleccionar cubos específicos para examinar. Al crear un examen para un bucket específico de AWS S3, puede seleccionar carpetas específicas para examinar.
- Para Erwin, puede limitar el examen proporcionando una lista separada por punto y coma de cadenas de localizador de modelos de Erwin.
- Para Cassandra, se puede especificar una lista específica de espacios de claves que se exportarán a través de valores separados por punto y coma o a través de patrones de nombres de espacios de claves mediante expresiones SQL LIKE.
- Para Looker, puede limitar el examen proporcionando una lista separada por punto y coma de proyectos de Looker.
- En el caso del inquilino de Power BI, solo puede especificar si desea incluir o excluir el área de trabajo personal.
En general, use "omitir patrones", donde se admiten, en función de los comodín (por ejemplo, para los lagos de datos) para excluir temp, archivos de configuración, tablas del sistema RDBMS o tablas de copia de seguridad o STG.
Al examinar documentos o datos no estructurados, evite examinar un gran número de dichos documentos. El examen procesa los primeros 20 MB de dichos documentos y puede dar lugar a una mayor duración del examen.
Conjunto de reglas de examen
- Al seleccionar el conjunto de reglas de examen, asegúrese de configurar el sistema o el conjunto de reglas de examen personalizado correspondiente que se creó anteriormente.
- Puede crear tipos de archivo personalizados y rellenar los detalles en consecuencia. Actualmente, Microsoft Purview solo admite un carácter en el delimitador personalizado. Si usa delimitadores personalizados, como ~, en los datos reales, debe crear un nuevo conjunto de reglas de examen.
Tipo de examen y programación
- El proceso de examen se puede configurar para ejecutar exámenes completos o incrementales.
- Ejecute los exámenes durante horas no empresariales o fuera del pico para evitar cualquier sobrecarga de procesamiento en el origen.
- La periodicidad de inicio en debe ser al menos 1 minuto menor que el tiempo de examen programado; de lo contrario, el examen se desencadenará en la siguiente periodicidad.
- El examen inicial es un examen completo y cada examen posterior es incremental. Los exámenes posteriores se pueden programar como exámenes incrementales periódicos.
- La frecuencia de los exámenes debe alinearse con la programación de administración de cambios del origen de datos o los requisitos empresariales. Por ejemplo:
- Si la estructura de origen podría cambiar semanalmente, la frecuencia de examen debe estar sincronizada. Los cambios incluyen nuevos recursos o campos dentro de un recurso que se agregan, modifican o eliminan.
- Si se espera que las etiquetas de clasificación o confidencialidad estén actualizadas semanalmente, quizás por motivos normativos, la frecuencia del examen debe ser semanal. Por ejemplo, si los archivos de particiones se agregan cada semana en un lago de datos de origen, puede programar exámenes mensuales. No es necesario programar exámenes semanales porque no hay ningún cambio en los metadatos. En esta sugerencia se supone que no hay nuevos escenarios de clasificación.
- Cuando programe que un examen se ejecute el mismo día en que se crea, la hora de inicio debe ser anterior a la hora del examen en al menos un minuto.
- La duración máxima que puede ejecutar el examen es de siete días, posiblemente debido a problemas de memoria. Este período de tiempo excluye el proceso de ingesta. Si el progreso no se ha actualizado después de siete días, el examen se marca como erróneo. El proceso de ingesta (en el catálogo) actualmente no tiene ninguna limitación de este tipo.
Cancelación de exámenes
- Actualmente, los exámenes solo se pueden cancelar o pausar si el estado del examen ha pasado a un estado "En curso" desde "Queued" después de desencadenar el examen.
- No se admite la cancelación de un examen secundario individual.
Puntos a tener en cuenta
- Si un campo o columna, tabla o archivo se quita del sistema de origen después de ejecutar el examen, solo se reflejará (quitará) en Microsoft Purview después del siguiente examen completo o incremental programado.
- Un recurso se puede eliminar de un catálogo de Microsoft Purview mediante el icono Eliminar bajo el nombre del recurso. Esta acción no quitará el objeto en el origen. Si ejecuta un examen completo en el mismo origen, se volverá a analizar en el catálogo. Si ha programado un examen semanal o mensual en su lugar (incremental), el recurso eliminado no se seleccionará a menos que el objeto se modifique en el origen. Un ejemplo es si se agrega o quita una columna de la tabla.
- Para comprender el comportamiento de los exámenes posteriores después de editar manualmente un recurso de datos o un esquema subyacente a través del portal de gobernanza de Microsoft Purview, consulte Detalles del recurso de catálogo.
- Para obtener más información, consulte el tutorial sobre cómo ver, editar y eliminar recursos.