Descripción de los conjuntos de recursos
Este artículo le ayuda a comprender cómo Microsoft Purview usa conjuntos de recursos para asignar recursos de datos a recursos lógicos.
Información en segundo plano
Los sistemas de procesamiento de datos a escala suelen almacenar una sola tabla en el almacenamiento como varios archivos. En el Catálogo de datos de Microsoft Purview, este concepto se representa mediante conjuntos de recursos. Un conjunto de recursos es un único objeto del catálogo que representa un gran número de recursos en el almacenamiento.
Por ejemplo, supongamos que el clúster de Spark ha conservado un dataframe en un origen de datos de Azure Data Lake Storage (ADLS) Gen2. Aunque en Spark la tabla es similar a un único recurso lógico, en el disco probablemente hay miles de archivos Parquet, cada uno de los cuales representa una partición del contenido total de DataFrame. Los datos de IoT y los datos de registro web tienen el mismo desafío. Imagine que tiene un sensor que genera archivos de registro varias veces por segundo. No tardará mucho tiempo hasta que tenga cientos de miles de archivos de registro de ese único sensor.
Cómo Microsoft Purview detecta conjuntos de recursos
Microsoft Purview admite la detección de conjuntos de recursos en Azure Blob Storage, ADLS Gen1, ADLS Gen2, Azure Files y Amazon S3.
Microsoft Purview detecta automáticamente los conjuntos de recursos al examinar. Esta característica examina todos los datos que se ingieren mediante el examen y los compara con un conjunto de patrones definidos.
Por ejemplo, supongamos que examina un origen de datos cuya dirección URL es https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet
. Microsoft Purview examina los segmentos de ruta de acceso y determina si coinciden con los patrones integrados. Tiene patrones integrados para GUID, números, formatos de fecha, códigos de localización (por ejemplo, en-us), etc. En este caso, el patrón de número coincide con 23. Microsoft Purview supone que este archivo forma parte de un conjunto de recursos denominado https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet
.
O bien, para una dirección URL como https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json
, Microsoft Purview coincide con el patrón de localización y el patrón de número, lo que genera un conjunto de recursos denominado https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
.
Con esta estrategia, Microsoft Purview asignaría los siguientes recursos al mismo conjunto de recursos: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json
Tipos de archivo que Microsoft Purview no detectará como conjuntos de recursos
Microsoft Purview intencionadamente no intenta clasificar la mayoría de los tipos de archivo de documento como Word, Excel o PDF como conjuntos de recursos. La excepción es el formato CSV, ya que es un formato de archivo con particiones común.
Cómo Microsoft Purview examina los conjuntos de recursos
Cuando Microsoft Purview detecta recursos que cree que forman parte de un conjunto de recursos, pasa de un examen completo a un examen de ejemplo. Un examen de ejemplo solo abre un subconjunto de los archivos que cree que están en el conjunto de recursos. Para cada archivo que abre, usa su esquema y ejecuta sus clasificadores. A continuación, Microsoft Purview busca el recurso más reciente entre los recursos abiertos y usa el esquema y las clasificaciones de ese recurso en la entrada de todo el conjunto de recursos del catálogo.
Conjuntos de recursos avanzados
Microsoft Purview puede personalizar y enriquecer aún más los recursos del conjunto de recursos mediante la funcionalidad Conjuntos de recursos avanzados . Los conjuntos de recursos avanzados permiten a Microsoft Purview comprender las particiones subyacentes de los datos ingeridos y permite la creación de reglas de patrón de conjuntos de recursos que personalizan el modo en que Microsoft Purview agrupa los conjuntos de recursos durante el examen.
Cuando se habilitan los conjuntos de recursos avanzados, Microsoft Purview ejecuta agregaciones adicionales para calcular la siguiente información sobre los recursos del conjunto de recursos:
- Ruta de acceso de ejemplo de un archivo que comprende el conjunto de recursos.
- Recuento de particiones que muestra cuántos archivos componen el conjunto de recursos.
- Tamaño total de todos los archivos que componen el conjunto de recursos.
Estas propiedades se pueden encontrar en la página de detalles del recurso del conjunto de recursos.
Activación de conjuntos de recursos avanzados
Los conjuntos de recursos avanzados están desactivados de forma predeterminada en todas las instancias nuevas de Microsoft Purview. Los conjuntos de recursos avanzados se pueden habilitar desde información de la cuenta en el centro de administración. Solo los usuarios que se agregan al rol de conservador de datos en la recopilación raíz pueden administrar la configuración de Conjuntos de recursos avanzados.
Después de habilitar conjuntos de recursos avanzados, se producirán enriquecimientos adicionales en todos los recursos recién ingeridos. El equipo de Microsoft Purview recomienda esperar una hora antes de examinar los nuevos datos del lago de datos después de alternar la característica.
Importante
La habilitación de conjuntos de recursos avanzados afectará a la tasa de actualización de información de activos y clasificaciones. Cuando los conjuntos de recursos avanzados están activados, la información sobre recursos y clasificación solo se actualizará dos veces al día.
Patrones de conjuntos de recursos integrados
Microsoft Purview admite los siguientes patrones de conjunto de recursos. Estos patrones pueden aparecer como un nombre en un directorio o como parte de un nombre de archivo.
Patrones basados en regex
Nombre del patrón | Nombre para mostrar | Descripción |
---|---|---|
Guid | {GUID} | Un identificador único global tal como se define en RFC 4122 |
Número | {N} | Uno o más dígitos |
Formatos de fecha y hora | {Year} {Mes} {Day} {N} | Se admiten varios formatos de fecha y hora, pero todos se representan con {Year}[delimitador]{Month}[delimitador]{Day} o con una serie de {N}s. |
4ByteHex | {HEX} | Número HEXADECIMAL de 4 dígitos. |
Localización | {LOC} | Una etiqueta de idioma tal como se define en BCP 47, se admiten los nombres - y _ (por ejemplo, en_ca y en-ca) |
Patrones complejos
Nombre del patrón | Nombre para mostrar | Descripción |
---|---|---|
SparkPath | {SparkPartitions} | Identificador de archivo de partición de Spark |
Date(aaaa/mm/dd)InPath | {Year}/{Month}/{Day} | Patrón año/mes/día que abarca varias carpetas |
Cómo se muestran los conjuntos de recursos en el Catálogo de datos de Microsoft Purview
Cuando Microsoft Purview coincide con un grupo de recursos en un conjunto de recursos, intenta extraer la información más útil para usarla como nombre para mostrar en el catálogo. Algunos ejemplos de la convención de nomenclatura predeterminada aplicada:
Ejemplo 1
Nombre completo: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}
Nombre para mostrar: "nombre de la salida de Spark"
Ejemplo 2
Nombre completo: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}
Nombre para mostrar: "mis datos con particiones"
Ejemplo 3
Nombre completo: https://myblob.blob.core.windows.net/sample-data/data{N}.csv
Nombre para mostrar: "data"
Personalización de la agrupación de conjuntos de recursos mediante reglas de patrón
Al examinar una cuenta de almacenamiento, Microsoft Purview usa un conjunto de patrones definidos para determinar si un grupo de recursos es un conjunto de recursos. En algunos casos, es posible que la agrupación de conjuntos de recursos de Microsoft Purview no refleje con precisión el patrimonio de datos. Estos problemas pueden incluir:
- Marcar incorrectamente un recurso como un conjunto de recursos
- Colocar un recurso en un conjunto de recursos incorrecto
- Marcar incorrectamente un recurso como que no es un conjunto de recursos
Para personalizar o invalidar cómo Microsoft Purview detecta qué recursos se agrupan como conjuntos de recursos y cómo se muestran en el catálogo, puede definir reglas de patrones en el Centro de administración. Para obtener instrucciones paso a paso y sintaxis, consulte reglas de patrón de conjunto de recursos.
Limitaciones conocidas con conjuntos de recursos
- De forma predeterminada, un examen solo eliminará los recursos del conjunto de recursos si los conjuntos de recursos avanzados están habilitados. Si esta funcionalidad está desactivada, los recursos del conjunto de recursos solo se pueden eliminar manualmente o a través de la API.
Siguientes pasos
Para empezar a trabajar con Microsoft Purview, consulte Inicio rápido: Creación de una cuenta de Microsoft Purview.