Orígenes de datos y tipos de archivo admitidos

Artículo
09/01/2024

En este artículo se describen los orígenes de datos, los tipos de archivos y los conceptos de examen admitidos actualmente en la Mapa de datos de Microsoft Purview.

Mapa de datos de Microsoft Purview orígenes de datos disponibles

En la tabla siguiente se muestran todos los orígenes que tienen metadatos técnicos disponibles en Microsoft Purview. Seleccione el origen de datos para obtener más información. En la tabla también se enumeran las funcionalidades admitidas adicionales para cada origen de datos y puede seleccionar la característica para obtener más información.

Categoría	Almacén de datos admitido	Examinar	Clasificación	Etiquetar	Directivas	Linaje	Compartir datos	Vista en directo
Azure	Varios orígenes	Sí	Sí	Dependiente del origen	Sí	No	No	Limitado
	Azure Blob Storage	Sí	Sí	Sí	Sí (versión preliminar)	Limitado*	Sí	Sí
	Azure Cosmos DB (API for NoSQL)	Sí	Sí	Sí	No	No*	No	No
	Azure Data Explorer	Sí	Sí	Sí	No	No*	No	No
	Azure Data Factory	Sí	No	No	No	Sí	No	No
	Azure Data Lake Storage Gen1	Sí	Sí	Sí	No	Limitado*	No	No
	Azure Data Lake Storage Gen2	Sí	Sí	Sí	Sí (versión preliminar)	Limitado*	Sí	Sí
	Azure Data Share	Sí	No	No	No	Sí	No	No
	Azure Database for MySQL	Sí	Sí	Sí	No	No*	No	No
	Azure Database for PostgreSQL	Sí	Sí	Sí	No	No*	No	No
	Azure Databricks Hive Metastore	Sí	No	No	No	Sí	No	No
	Unity Catalog para Azure Databricks	Sí	Sí	Sí	No	No	No	No
	Grupo de Azure Dedicated SQL (anteriormente SQL DW)	Sí	Sí	No	No	No*	No	No
	Azure Files	Sí	Sí	Sí	No	Limitado*	No	No
	Azure Machine Learning	Sí	No	No	No	Sí	No	No
	Base de datos SQL de Azure	Sí	Sí	Sí	Sí	Sí (versión preliminar)	No	Sí
	Azure SQL Managed Instance	Sí	Sí	Sí	Sí	No*	No	No
	Azure Synapse Analytics (área de trabajo)	Sí	Sí	Sí	No	Sí: canalizaciones de Synapse	No	No
Categoría	Almacén de datos admitido	Almacén de datos admitido	Clasificación	Etiquetar	Directiva de acceso	Linaje	Compartir datos	Vista en directo
Base de datos	Amazon RDS	Sí	Sí	No	No	No	No	No
	Amazon Redshift	Sí	No	No	No	No	No	No
	Cassandra	Sí	No	No	No	Sí	No	No
	Db2	Sí	No	No	No	Sí	No	No
	Google BigQuery	Sí	No	No	No	Sí	No	No
	Base de datos de metastore de Hive	Sí	No	No	No	Sí*	No	No
	MongoDB	Sí	No	No	No	No	No	No
	MySQL	Sí	No	No	No	Sí	No	No
	Oracle	Sí	Sí	No	No	Sí*	No	No
	PostgreSQL	Sí	No	No	No	Sí	No	No
	Almacenamiento de datos empresarial SAP	Sí	No	No	No	No	No	No
	SAP HANA	Sí	No	No	No	No	No	No
	Copo de nieve	Sí	Sí	Sí	No	Sí	No	No
	SQL Server	Sí	Sí	Sí	No	No*	No	No
	SQL Server en Azure-Arc	Sí	Sí	No	Sí	No*	No	No
	Teradata	Sí	Sí	No	No	Sí*	No	No
Categoría	Almacén de datos admitido	Almacén de datos admitido	Clasificación	Etiquetar	Directiva de acceso	Linaje	Compartir datos	Vista en directo
Archivo	Amazon S3	Sí	Sí	Sí	Sí	Limitado*	No	No
	HDFS	Sí	Sí	No	No	No	No	No
Servicios y aplicaciones	Corriente de aire	Sí	No	No	No	Sí	No	No
	Dataverse	Sí	Sí	Sí	No	No	No	No
	Erwin	Sí	No	No	No	Sí	No	No
	Tejido	Sí	No	No	No	Sí	No	Sí
	Looker	Sí	No	No	No	Sí	No	No
	Power BI	Sí	No	No	No	Sí	No	Sí**
	Sensor Qlik	Sí	No	No	No	No	No	No
	Salesforce	Sí	No	No	No	No	No	No
	SAP ECC	Sí	No	No	No	Sí*	No	No
	SAP S/4HANA	Sí	No	No	No	Sí*	No	No
	Tableau	Sí	No	No	No	No	No	No

* Además del linaje de los recursos del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.

** Los elementos de Power BI de un inquilino de Fabric están disponibles mediante la vista en vivo.

Nota:

Actualmente, el Mapa de datos de Microsoft Purview no puede examinar un recurso que tenga /, \o # en su nombre. Para limitar el examen y evitar el examen de recursos que tengan esos caracteres en el nombre del recurso, use el ejemplo de Registro y examen de una base de datos de Azure SQL.

Importante

Si tiene previsto usar un entorno de ejecución de integración autohospedado, el examen de algunos orígenes de datos requiere una configuración adicional en la máquina de Integration Runtime autohospedada. Por ejemplo, JDK, Visual C++ Redistributable o controlador específico. Para el origen, consulte cada artículo de origen para obtener detalles de requisitos previos. Los requisitos se mostrarán en la sección Requisitos previos .

Regiones de examen

A continuación se muestra una lista de todas las regiones del origen de datos (centro de datos) de Azure donde se ejecuta el analizador de Mapa de datos de Microsoft Purview. Si el origen de datos de Azure está en una región fuera de esta lista, el analizador se ejecutará en la región de la instancia de Microsoft Purview.

Mapa de datos de Microsoft Purview regiones del escáner

Este de Australia
Sureste de Australia
Sur de Brasil
Centro de Canadá
Este de Canadá
Centro de India
Norte de China 3
Asia Oriental
Este de EE. UU.
Este de EE. UU. 2
Centro de Francia
Alemania Central Occidental
Este de Japón
Centro de Corea
Centro y norte de EE. UU.
Norte de Europa
Centro de Qatar
Norte de Sudáfrica
Centro y Sur de EE. UU.
Sudeste de Asia
Norte de Suiza
Norte de Emiratos Árabes Unidos
Sur de Reino Unido
USGov Virginia
Centro oeste de EE. UU.
Oeste de Europa
Oeste de EE. UU.
Oeste de EE. UU. 2
Oeste de EE. UU. 3

Tipos de archivo admitidos para el examen

Los siguientes tipos de archivo son compatibles con el examen, la extracción de esquemas y la clasificación cuando corresponda:

Los formatos de archivo estructurados admitidos por la extensión incluyen el examen, la extracción de esquemas y la clasificación de nivel de activos y columnas: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
Los formatos de archivo de documento admitidos por la extensión incluyen la exploración y clasificación de nivel de recurso: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
El Mapa de datos de Microsoft Purview también admite extensiones de archivo personalizadas y analizadores personalizados.

Nota:

Limitaciones conocidas:

El analizador de Mapa de datos de Microsoft Purview solo admite la extracción de esquemas para los tipos de archivo estructurados enumerados anteriormente.
Para los tipos de archivo AVRO, ORC y PARQUET, el analizador no admite la extracción de esquemas para los archivos que contienen tipos de datos complejos (por ejemplo, MAP, LIST, STRUCT).
El escáner admite el análisis de tipos PARQUET comprimidos de forma ágil para la extracción y clasificación de esquemas.
Para los tipos de archivo GZIP, el GZIP debe asignarse a un único archivo CSV dentro de . Los archivos Gzip están sujetos a las reglas de clasificación personalizada y del sistema. Actualmente no se admite el examen de un archivo gzip asignado a varios archivos dentro o a cualquier tipo de archivo que no sea csv.
Para tipos de archivo delimitados (CSV, PSV, SSV, TSV, TXT)::
- Los archivos delimitados con solo 1 columna no se pueden determinar como archivos CSV y no tendrán ningún esquema.
- No se admite la detección de tipos de datos. El tipo de datos se mostrará como "cadena" para todas las columnas.
- Solo se admiten coma(','), punto y coma(';'), barra vertical('|') y tab('\t') como delimitadores.
- No se puede determinar que los archivos delimitados con menos de tres filas sean archivos CSV si usan un delimitador personalizado. Por ejemplo: los archivos con ~ delimitador y menos de tres filas no podrán determinarse como archivos CSV.
- Si un campo contiene comillas dobles, las comillas dobles solo pueden aparecer al principio y al final del campo y deben coincidir. Las comillas dobles que aparecen en el centro del campo o que aparecen al principio y al final, pero que no coinciden, se reconocerán como datos incorrectos y no se analizará ningún esquema desde el archivo. Las filas que tienen un número diferente de columnas que la fila de encabezado se considerarán filas de error. (números de filas de error o números de filas muestreadas) debe ser menor que 0,1.
En el caso de los archivos Parquet, si usa un entorno de ejecución de integración autohospedado, debe instalar JRE 11 de 64 bits (Java Runtime Environment) o OpenJDK en el equipo de IR. Consulte nuestra sección Java Runtime Environment (Entorno de tiempo de ejecución de Java) en la parte inferior de la página para obtener una guía de instalación.
Actualmente no se admite el formato delta. Si examina el formato delta directamente desde el origen de datos de almacenamiento como Azure Data Lake Storage (ADLS Gen2), el conjunto de archivos parquet del formato delta se analizará y controlará como conjunto de recursos, tal como se describe en Descripción de los conjuntos de recursos. Además de las columnas usadas para la creación de particiones, no se reconocerán como parte del esquema del conjunto de recursos.

Extracción de esquemas

En el caso de los orígenes de datos que admiten la extracción de esquemas durante el examen, el esquema de recursos no se truncará directamente por el número de columnas.

Datos anidados

Actualmente, los datos anidados solo se admiten para el contenido JSON.

Para todos los tipos de archivo admitidos por el sistema, si hay contenido JSON anidado en una columna, el analizador analiza los datos JSON anidados y los expone dentro de la pestaña esquema del recurso.

Los datos anidados o el análisis de esquemas anidados no se admiten en SQL. Una columna con datos anidados se notificará y clasificará tal cual, y los subdatos no se analizarán.

Datos de muestreo para la clasificación

En Mapa de datos de Microsoft Purview terminología,

Examen L1: extrae información básica y metadatos, como el nombre de archivo, el tamaño y el nombre completo
Examen L2: extrae el esquema para tipos de archivos estructurados y tablas de base de datos
Examen L3: extrae el esquema cuando corresponda y somete el archivo muestreado al sistema y a las reglas de clasificación personalizadas.

Obtenga más información sobre la personalización de los niveles de examen.

Para todos los formatos de archivo estructurados, el Mapa de datos de Microsoft Purview los archivos de ejemplo del escáner de la siguiente manera:

En el caso de los tipos de archivo estructurados, muestra las 128 filas principales de cada columna o los primeros 1 MB, lo que sea menor.
En el caso de los formatos de archivo de documento, muestra los primeros 20 MB de cada archivo.
- Si un archivo de documento es mayor que 20 MB, no está sujeto a un examen profundo (sujeto a clasificación). En ese caso, Microsoft Purview captura solo metadatos básicos, como el nombre de archivo y el nombre completo.
En el caso de los orígenes de datos tabulares (SQL), muestra las 128 primeras filas.
Para Azure Cosmos DB for NoSQL, se recopilarán hasta 300 propiedades distintas de los 10 primeros documentos de un contenedor para el esquema y, para cada propiedad, se muestrearán valores de hasta 128 documentos o los primeros 1 MB.

Muestreo de archivos del conjunto de recursos

Se detecta una carpeta o un grupo de archivos de partición como un conjunto de recursos en el Mapa de datos de Microsoft Purview si coincide con una directiva de conjunto de recursos del sistema o una directiva de conjunto de recursos definida por el cliente. Si se detecta un conjunto de recursos, el analizador muestreará cada carpeta que contenga. Obtenga más información sobre los conjuntos de recursos aquí.

Muestreo de archivos para conjuntos de recursos por tipos de archivo:

Archivos delimitados (CSV, PSV, SSV, TSV): 1 de cada 100 archivos se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos"
Tipos de archivo de Data Lake (Parquet, Avro, Orc): 1 en 18446744073709551615 (máximo largo) se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos"
Otros tipos de archivos estructurados (JSON, XML, TXT): 1 de cada 100 archivos se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos".
Objetos SQL y entidades de Azure Cosmos DB : se examina cada archivo L3.
Tipos de archivo de documento: cada archivo se examina con L3. Los patrones de conjunto de recursos no se aplican a estos tipos de archivo.

Compartir a través de