Compartir vía


Descripción de los conjuntos de recursos

Este artículo le ayuda a comprender cómo Microsoft Purview usa conjuntos de recursos para asignar recursos de datos a recursos lógicos.

Información en segundo plano

Los sistemas de procesamiento de datos a escala suelen almacenar una sola tabla en el almacenamiento como varios archivos. En el Catálogo de datos de Microsoft Purview, este concepto se representa mediante conjuntos de recursos. Un conjunto de recursos es un único objeto del catálogo que representa un gran número de recursos en el almacenamiento.

Por ejemplo, supongamos que el clúster de Spark ha conservado un dataframe en un origen de datos de Azure Data Lake Storage (ADLS) Gen2. Aunque en Spark la tabla es similar a un único recurso lógico, en el disco probablemente hay miles de archivos Parquet, cada uno de los cuales representa una partición del contenido total de DataFrame. Los datos de IoT y los datos de registro web tienen el mismo desafío. Imagine que tiene un sensor que genera archivos de registro varias veces por segundo. No tardará mucho tiempo hasta que tenga cientos de miles de archivos de registro de ese único sensor.

Cómo Microsoft Purview detecta conjuntos de recursos

Microsoft Purview admite la detección de conjuntos de recursos en Azure Blob Storage, ADLS Gen1, ADLS Gen2, Azure Files y Amazon S3.

Microsoft Purview detecta automáticamente los conjuntos de recursos al examinar. Esta característica examina todos los datos que se ingieren mediante el examen y los compara con un conjunto de patrones definidos.

Por ejemplo, supongamos que examina un origen de datos cuya dirección URL es https://myaccount.blob.core.windows.net/mycontainer/machinesets/23/foo.parquet. Microsoft Purview examina los segmentos de ruta de acceso y determina si coinciden con los patrones integrados. Tiene patrones integrados para GUID, números, formatos de fecha, códigos de localización (por ejemplo, en-us), etc. En este caso, el patrón de número coincide con 23. Microsoft Purview supone que este archivo forma parte de un conjunto de recursos denominado https://myaccount.blob.core.windows.net/mycontainer/machinesets/{N}/foo.parquet.

O bien, para una dirección URL como https://myaccount.blob.core.windows.net/mycontainer/weblogs/en_au/23.json, Microsoft Purview coincide con el patrón de localización y el patrón de número, lo que genera un conjunto de recursos denominado https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json.

Con esta estrategia, Microsoft Purview asignaría los siguientes recursos al mismo conjunto de recursos: https://myaccount.blob.core.windows.net/mycontainer/weblogs/{LOC}/{N}.json

  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/1004.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/cy_gb/234.json
  • https://myaccount.blob.core.windows.net/mycontainer/weblogs/de_Ch/23434.json

Tipos de archivo que Microsoft Purview no detectará como conjuntos de recursos

Microsoft Purview intencionadamente no intenta clasificar la mayoría de los tipos de archivo de documento como Word, Excel o PDF como conjuntos de recursos. La excepción es el formato CSV, ya que es un formato de archivo con particiones común.

Cómo Microsoft Purview examina los conjuntos de recursos

Cuando Microsoft Purview detecta recursos que cree que forman parte de un conjunto de recursos, pasa de un examen completo a un examen de ejemplo. Un examen de ejemplo solo abre un subconjunto de los archivos que cree que están en el conjunto de recursos. Para cada archivo que abre, usa su esquema y ejecuta sus clasificadores. A continuación, Microsoft Purview busca el recurso más reciente entre los recursos abiertos y usa el esquema y las clasificaciones de ese recurso en la entrada de todo el conjunto de recursos del catálogo.

Conjuntos de recursos avanzados

Microsoft Purview puede personalizar y enriquecer aún más los recursos del conjunto de recursos mediante la funcionalidad Conjuntos de recursos avanzados . Los conjuntos de recursos avanzados permiten a Microsoft Purview comprender las particiones subyacentes de los datos ingeridos y permite la creación de reglas de patrón de conjuntos de recursos que personalizan el modo en que Microsoft Purview agrupa los conjuntos de recursos durante el examen.

Cuando se habilitan los conjuntos de recursos avanzados, Microsoft Purview ejecuta agregaciones adicionales para calcular la siguiente información sobre los recursos del conjunto de recursos:

  • Ruta de acceso de ejemplo de un archivo que comprende el conjunto de recursos.
  • Recuento de particiones que muestra cuántos archivos componen el conjunto de recursos.
  • Tamaño total de todos los archivos que componen el conjunto de recursos.

Estas propiedades se pueden encontrar en la página de detalles del recurso del conjunto de recursos.

Propiedades calculadas cuando los conjuntos de recursos avanzados están activados

Activación de conjuntos de recursos avanzados

Los conjuntos de recursos avanzados están desactivados de forma predeterminada en todas las instancias nuevas de Microsoft Purview. Los conjuntos de recursos avanzados se pueden habilitar desde información de la cuenta en el centro de administración. Solo los usuarios que se agregan al rol de conservador de datos en la recopilación raíz pueden administrar la configuración de Conjuntos de recursos avanzados.

Active El conjunto de recursos avanzado.

Después de habilitar conjuntos de recursos avanzados, se producirán enriquecimientos adicionales en todos los recursos recién ingeridos. El equipo de Microsoft Purview recomienda esperar una hora antes de examinar los nuevos datos del lago de datos después de alternar la característica.

Importante

La habilitación de conjuntos de recursos avanzados afectará a la tasa de actualización de información de activos y clasificaciones. Cuando los conjuntos de recursos avanzados están activados, la información sobre recursos y clasificación solo se actualizará dos veces al día.

Patrones de conjuntos de recursos integrados

Microsoft Purview admite los siguientes patrones de conjunto de recursos. Estos patrones pueden aparecer como un nombre en un directorio o como parte de un nombre de archivo.

Patrones basados en regex

Nombre del patrón Nombre para mostrar Descripción
Guid {GUID} Un identificador único global tal como se define en RFC 4122
Número {N} Uno o más dígitos
Formatos de fecha y hora {Year} {Mes} {Day} {N} Se admiten varios formatos de fecha y hora, pero todos se representan con {Year}[delimitador]{Month}[delimitador]{Day} o con una serie de {N}s.
4ByteHex {HEX} Número HEXADECIMAL de 4 dígitos.
Localización {LOC} Una etiqueta de idioma tal como se define en BCP 47, se admiten los nombres - y _ (por ejemplo, en_ca y en-ca)

Patrones complejos

Nombre del patrón Nombre para mostrar Descripción
SparkPath {SparkPartitions} Identificador de archivo de partición de Spark
Date(aaaa/mm/dd)InPath {Year}/{Month}/{Day} Patrón año/mes/día que abarca varias carpetas

Cómo se muestran los conjuntos de recursos en el Catálogo de datos de Microsoft Purview

Cuando Microsoft Purview coincide con un grupo de recursos en un conjunto de recursos, intenta extraer la información más útil para usarla como nombre para mostrar en el catálogo. Algunos ejemplos de la convención de nomenclatura predeterminada aplicada:

Ejemplo 1

Nombre completo: https://myblob.blob.core.windows.net/sample-data/name-of-spark-output/{SparkPartitions}

Nombre para mostrar: "nombre de la salida de Spark"

Ejemplo 2

Nombre completo: https://myblob.blob.core.windows.net/my-partitioned-data/{Year}-{Month}-{Day}/{N}-{N}-{N}-{N}/{GUID}

Nombre para mostrar: "mis datos con particiones"

Ejemplo 3

Nombre completo: https://myblob.blob.core.windows.net/sample-data/data{N}.csv

Nombre para mostrar: "data"

Personalización de la agrupación de conjuntos de recursos mediante reglas de patrón

Al examinar una cuenta de almacenamiento, Microsoft Purview usa un conjunto de patrones definidos para determinar si un grupo de recursos es un conjunto de recursos. En algunos casos, es posible que la agrupación de conjuntos de recursos de Microsoft Purview no refleje con precisión el patrimonio de datos. Estos problemas pueden incluir:

  • Marcar incorrectamente un recurso como un conjunto de recursos
  • Colocar un recurso en un conjunto de recursos incorrecto
  • Marcar incorrectamente un recurso como que no es un conjunto de recursos

Para personalizar o invalidar cómo Microsoft Purview detecta qué recursos se agrupan como conjuntos de recursos y cómo se muestran en el catálogo, puede definir reglas de patrones en el Centro de administración. Para obtener instrucciones paso a paso y sintaxis, consulte reglas de patrón de conjunto de recursos.

Limitaciones conocidas con conjuntos de recursos

  • De forma predeterminada, un examen solo eliminará los recursos del conjunto de recursos si los conjuntos de recursos avanzados están habilitados. Si esta funcionalidad está desactivada, los recursos del conjunto de recursos solo se pueden eliminar manualmente o a través de la API.

Siguientes pasos

Para empezar a trabajar con Microsoft Purview, consulte Inicio rápido: Creación de una cuenta de Microsoft Purview.