Orígenes de datos y tipos de archivo admitidos

En este artículo se describen los orígenes de datos, los tipos de archivos y los conceptos de examen admitidos actualmente en la Mapa de datos de Microsoft Purview.

Mapa de datos de Microsoft Purview orígenes de datos disponibles

En la tabla siguiente se muestran todos los orígenes que tienen metadatos técnicos disponibles en Microsoft Purview. Seleccione el origen de datos para obtener más información. En la tabla también se enumeran las funcionalidades admitidas adicionales para cada origen de datos y puede seleccionar la característica para obtener más información.

Categoría Almacén de datos admitido Clasificación Vista en vivo Linaje Etiquetar Directiva de acceso Uso compartido de datos
Azure Varios orígenes Limitado No Dependiente del origen No
Azure Blob Storage Limitada* (versión preliminar)
Azure Cosmos DB (API for NoSQL) No No* No No
Azure Data Explorer No No* No No
Azure Data Factory No No No No No
Azure Data Lake Storage Gen1 No Limitada* No No
Azure Data Lake Storage Gen2 Limitada* (versión preliminar)
Azure Data Share No No No No No
Azure Database for MySQL No No* No No
Azure Database for PostgreSQL No No* No No
Azure Databricks No No No No No
Catálogo de Unity de Azure Databricks No No No No No No
Grupo de SQL dedicado de Azure (anteriormente SQL DW) No No* No No No
Azure Files No Limitada* No No
Azure Machine Learning No No No No No
base de datos de Azure SQL Sí (versión preliminar) No
Azure SQL Managed Instance No No* Sí (versión preliminar) No
Azure Synapse Analytics (área de trabajo) No Sí: canalizaciones de Synapse No No
Base de datos Amazon RDS No No No No No
Amazon Redshift No No No No No No
Cassandra No No No No No
Db2 No No No No No
Google BigQuery No No No No No
Base de datos de metastore de Hive No No Sí* No No No
Mongodb No No No No No No
Mysql No No No No No
Oracle No Sí* No No No
Postgresql No No No No No
SAP Business Warehouse No No No No No No
SAP HANA No No No No No No
Copo de nieve No No No No
SQL Server No No* No No
SQL Server en Azure-Arc No No* No No
Teradata No Sí* No No No
Archivo Amazon S3 No Limitada* No No
HDFS No No No No No
Servicios y aplicaciones Flujo No No No No No
Erwin No No No No No
Guapa No No No No No
Power BI No No No No No
Salesforce No No No No No No
SAP ECC No No Sí* No No No
SAP S/4HANA No No Sí* No No No

* Además del linaje de los recursos del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.

Nota:

Actualmente, el Mapa de datos de Microsoft Purview no puede examinar un recurso que tenga /, \o # en su nombre. Para limitar el examen y evitar el examen de recursos que tengan esos caracteres en el nombre del recurso, use el ejemplo de Registro y examen de una base de datos de Azure SQL.

Importante

Si tiene previsto usar un entorno de ejecución de integración autohospedado, el examen de algunos orígenes de datos requiere una configuración adicional en la máquina de Integration Runtime autohospedada. Por ejemplo, JDK, Visual C++ Redistributable o controlador específico. Para el origen, consulte cada artículo de origen para obtener detalles de requisitos previos. Los requisitos se mostrarán en la sección Requisitos previos .

Regiones de examen

A continuación se muestra una lista de todas las regiones del origen de datos (centro de datos) de Azure donde se ejecuta el analizador de Mapa de datos de Microsoft Purview. Si el origen de datos de Azure está en una región fuera de esta lista, el analizador se ejecutará en la región de la instancia de Microsoft Purview.

Mapa de datos de Microsoft Purview regiones del escáner

  • Este de Australia
  • Sureste de Australia
  • Sur de Brasil
  • Centro de Canadá
  • Este de Canadá
  • Centro de la India
  • Norte de China 3
  • Asia Oriental
  • Este de EE. UU.
  • Este de EE. UU. 2
  • Centro de Francia
  • Alemania Central Occidental
  • Este de Japón
  • Centro de Corea
  • Centro y norte de EE. UU.
  • Norte de Europa
  • Centro de Qatar
  • Norte de Sudáfrica
  • Centro y Sur de EE. UU.
  • Sudeste de Asia
  • Norte de Suiza
  • Norte de Emiratos Árabes Unidos
  • Sur de Reino Unido
  • USGov Virginia
  • Centro oeste de EE. UU.
  • Oeste de Europa
  • Oeste de EE. UU.
  • Oeste de EE. UU. 2
  • Oeste de EE. UU. 3

Tipos de archivo admitidos para el examen

Los siguientes tipos de archivo son compatibles con el examen, la extracción de esquemas y la clasificación cuando corresponda:

  • Los formatos de archivo estructurados admitidos por la extensión incluyen el examen, la extracción de esquemas y la clasificación de nivel de activos y columnas: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
  • Los formatos de archivo de documento admitidos por la extensión incluyen la exploración y clasificación de nivel de recurso: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
  • El Mapa de datos de Microsoft Purview también admite extensiones de archivo personalizadas y analizadores personalizados.

Nota:

Limitaciones conocidas:

  • El analizador de Mapa de datos de Microsoft Purview solo admite la extracción de esquemas para los tipos de archivo estructurados enumerados anteriormente.
  • Para los tipos de archivo AVRO, ORC y PARQUET, el analizador no admite la extracción de esquemas para los archivos que contienen tipos de datos complejos (por ejemplo, MAP, LIST, STRUCT).
  • El escáner admite el análisis de tipos PARQUET comprimidos de forma ágil para la extracción y clasificación de esquemas.
  • Para los tipos de archivo GZIP, el GZIP debe asignarse a un único archivo CSV dentro de . Los archivos Gzip están sujetos a las reglas de clasificación personalizada y del sistema. Actualmente no se admite el examen de un archivo gzip asignado a varios archivos dentro o a cualquier tipo de archivo que no sea csv.
  • Para tipos de archivo delimitados (CSV, PSV, SSV, TSV, TXT)::
    • No se admite la detección de tipos de datos. El tipo de datos se mostrará como "cadena" para todas las columnas.
    • Solo se admiten coma(','), punto y coma(';'), barra vertical('|') y tab('\t') como delimitadores.
    • No se puede determinar que los archivos delimitados con menos de tres filas sean archivos CSV si usan un delimitador personalizado. Por ejemplo: los archivos con ~ delimitador y menos de tres filas no podrán determinarse como archivos CSV.
    • Si un campo contiene comillas dobles, las comillas dobles solo pueden aparecer al principio y al final del campo y deben coincidir. Las comillas dobles que aparecen en el centro del campo o que aparecen al principio y al final, pero que no coinciden, se reconocerán como datos incorrectos y no se analizará ningún esquema desde el archivo. Las filas que tienen un número diferente de columnas que la fila de encabezado se considerarán filas de error. (números de filas de error o números de filas muestreadas) debe ser menor que 0,1.
  • En el caso de los archivos Parquet, si usa un entorno de ejecución de integración autohospedado, debe instalar JRE 11 de 64 bits (Java Runtime Environment) o OpenJDK en el equipo de IR. Consulte nuestra sección Java Runtime Environment (Entorno de tiempo de ejecución de Java) en la parte inferior de la página para obtener una guía de instalación.

Extracción de esquemas

Actualmente, el número máximo de columnas admitidas en la pestaña esquema de recursos es 800 para orígenes de Azure, Power BI y SQL Server.

Datos anidados

Actualmente, los datos anidados solo se admiten para el contenido JSON.

Para todos los tipos de archivo admitidos por el sistema, si hay contenido JSON anidado en una columna, el analizador analiza los datos JSON anidados y los expone dentro de la pestaña esquema del recurso.

Los datos anidados o el análisis de esquemas anidados no se admiten en SQL. Una columna con datos anidados se notificará y clasificará tal cual, y los subdatos no se analizarán.

Datos de muestreo para la clasificación

En Mapa de datos de Microsoft Purview terminología,

  • Examen L1: extrae información básica y metadatos, como el nombre de archivo, el tamaño y el nombre completo
  • Examen L2: extrae el esquema para tipos de archivos estructurados y tablas de base de datos
  • Examen L3: extrae el esquema cuando corresponda y somete el archivo muestreado al sistema y a las reglas de clasificación personalizadas.

Para todos los formatos de archivo estructurados, el Mapa de datos de Microsoft Purview los archivos de ejemplo del escáner de la siguiente manera:

  • En el caso de los tipos de archivo estructurados, muestra las 128 filas principales de cada columna o los primeros 1 MB, lo que sea menor.
  • En el caso de los formatos de archivo de documento, muestra los primeros 20 MB de cada archivo.
    • Si un archivo de documento es mayor que 20 MB, no está sujeto a un examen profundo (sujeto a clasificación). En ese caso, Microsoft Purview captura solo metadatos básicos, como el nombre de archivo y el nombre completo.
  • En el caso de los orígenes de datos tabulares (SQL), muestra las 128 primeras filas.
  • Para Azure Cosmos DB for NoSQL, se recopilarán hasta 300 propiedades distintas de los 10 primeros documentos de un contenedor para el esquema y, para cada propiedad, se muestrearán valores de hasta 128 documentos o los primeros 1 MB.

Muestreo de archivos del conjunto de recursos

Se detecta una carpeta o un grupo de archivos de partición como un conjunto de recursos en el Mapa de datos de Microsoft Purview si coincide con una directiva de conjunto de recursos del sistema o una directiva de conjunto de recursos definida por el cliente. Si se detecta un conjunto de recursos, el analizador muestreará cada carpeta que contenga. Obtenga más información sobre los conjuntos de recursos aquí.

Muestreo de archivos para conjuntos de recursos por tipos de archivo:

  • Archivos delimitados (CSV, PSV, SSV, TSV): 1 de cada 100 archivos se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos"
  • Tipos de archivo de Data Lake (Parquet, Avro, Orc): 1 en 18446744073709551615 (máximo largo) se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos"
  • Otros tipos de archivos estructurados (JSON, XML, TXT): 1 de cada 100 archivos se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos".
  • Objetos SQL y entidades de Azure Cosmos DB : se examina cada archivo L3.
  • Tipos de archivo de documento: cada archivo se examina con L3. Los patrones de conjunto de recursos no se aplican a estos tipos de archivo.

Siguientes pasos