Orígenes de datos y tipos de archivo admitidos
En este artículo se describen los orígenes de datos, los tipos de archivos y los conceptos de examen admitidos actualmente en la Mapa de datos de Microsoft Purview.
Mapa de datos de Microsoft Purview orígenes de datos disponibles
En la tabla siguiente se muestran todos los orígenes que tienen metadatos técnicos disponibles en Microsoft Purview. Seleccione el origen de datos para obtener más información. En la tabla también se enumeran las funcionalidades admitidas adicionales para cada origen de datos y puede seleccionar la característica para obtener más información.
Categoría | Almacén de datos admitido | Examinar | Clasificación | Etiquetar | Directivas | Linaje | Compartir datos | Vista en directo |
---|---|---|---|---|---|---|---|---|
Azure | Varios orígenes | Sí | Sí | Dependiente del origen | Sí | No | No | Limitado |
Azure Blob Storage | Sí | Sí | Sí | Sí (versión preliminar) | Limitado* | Sí | Sí | |
Azure Cosmos DB (API for NoSQL) | Sí | Sí | Sí | No | No* | No | No | |
Azure Data Explorer | Sí | Sí | Sí | No | No* | No | No | |
Azure Data Factory | Sí | No | No | No | Sí | No | No | |
Azure Data Lake Storage Gen1 | Sí | Sí | Sí | No | Limitado* | No | No | |
Azure Data Lake Storage Gen2 | Sí | Sí | Sí | Sí (versión preliminar) | Limitado* | Sí | Sí | |
Azure Data Share | Sí | No | No | No | Sí | No | No | |
Azure Database for MySQL | Sí | Sí | Sí | No | No* | No | No | |
Azure Database for PostgreSQL | Sí | Sí | Sí | No | No* | No | No | |
Azure Databricks Hive Metastore | Sí | No | No | No | Sí | No | No | |
Unity Catalog para Azure Databricks | Sí | Sí | Sí | No | No | No | No | |
Grupo de Azure Dedicated SQL (anteriormente SQL DW) | Sí | Sí | No | No | No* | No | No | |
Azure Files | Sí | Sí | Sí | No | Limitado* | No | No | |
Azure Machine Learning | Sí | No | No | No | Sí | No | No | |
Base de datos SQL de Azure | Sí | Sí | Sí | Sí | Sí (versión preliminar) | No | Sí | |
Azure SQL Managed Instance | Sí | Sí | Sí | Sí | No* | No | No | |
Azure Synapse Analytics (área de trabajo) | Sí | Sí | Sí | No | Sí: canalizaciones de Synapse | No | No | |
Categoría | Almacén de datos admitido | Almacén de datos admitido | Clasificación | Etiquetar | Directiva de acceso | Linaje | Compartir datos | Vista en directo |
Base de datos | Amazon RDS | Sí | Sí | No | No | No | No | No |
Amazon Redshift | Sí | No | No | No | No | No | No | |
Cassandra | Sí | No | No | No | Sí | No | No | |
Db2 | Sí | No | No | No | Sí | No | No | |
Google BigQuery | Sí | No | No | No | Sí | No | No | |
Base de datos de metastore de Hive | Sí | No | No | No | Sí* | No | No | |
MongoDB | Sí | No | No | No | No | No | No | |
MySQL | Sí | No | No | No | Sí | No | No | |
Oracle | Sí | Sí | No | No | Sí* | No | No | |
PostgreSQL | Sí | No | No | No | Sí | No | No | |
Almacenamiento de datos empresarial SAP | Sí | No | No | No | No | No | No | |
SAP HANA | Sí | No | No | No | No | No | No | |
Copo de nieve | Sí | Sí | Sí | No | Sí | No | No | |
SQL Server | Sí | Sí | Sí | No | No* | No | No | |
SQL Server en Azure-Arc | Sí | Sí | No | Sí | No* | No | No | |
Teradata | Sí | Sí | No | No | Sí* | No | No | |
Categoría | Almacén de datos admitido | Almacén de datos admitido | Clasificación | Etiquetar | Directiva de acceso | Linaje | Compartir datos | Vista en directo |
Archivo | Amazon S3 | Sí | Sí | Sí | Sí | Limitado* | No | No |
HDFS | Sí | Sí | No | No | No | No | No | |
Servicios y aplicaciones | Corriente de aire | Sí | No | No | No | Sí | No | No |
Dataverse | Sí | Sí | Sí | No | No | No | No | |
Erwin | Sí | No | No | No | Sí | No | No | |
Tejido | Sí | No | No | No | Sí | No | Sí | |
Looker | Sí | No | No | No | Sí | No | No | |
Power BI | Sí | No | No | No | Sí | No | Sí** | |
Sensor Qlik | Sí | No | No | No | No | No | No | |
Salesforce | Sí | No | No | No | No | No | No | |
SAP ECC | Sí | No | No | No | Sí* | No | No | |
SAP S/4HANA | Sí | No | No | No | Sí* | No | No | |
Tableau | Sí | No | No | No | No | No | No |
* Además del linaje de los recursos del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en la canalización de Data Factory o Synapse.
** Los elementos de Power BI de un inquilino de Fabric están disponibles mediante la vista en vivo.
Nota:
Actualmente, el Mapa de datos de Microsoft Purview no puede examinar un recurso que tenga /
, \
o #
en su nombre. Para limitar el examen y evitar el examen de recursos que tengan esos caracteres en el nombre del recurso, use el ejemplo de Registro y examen de una base de datos de Azure SQL.
Importante
Si tiene previsto usar un entorno de ejecución de integración autohospedado, el examen de algunos orígenes de datos requiere una configuración adicional en la máquina de Integration Runtime autohospedada. Por ejemplo, JDK, Visual C++ Redistributable o controlador específico. Para el origen, consulte cada artículo de origen para obtener detalles de requisitos previos. Los requisitos se mostrarán en la sección Requisitos previos .
Regiones de examen
A continuación se muestra una lista de todas las regiones del origen de datos (centro de datos) de Azure donde se ejecuta el analizador de Mapa de datos de Microsoft Purview. Si el origen de datos de Azure está en una región fuera de esta lista, el analizador se ejecutará en la región de la instancia de Microsoft Purview.
Mapa de datos de Microsoft Purview regiones del escáner
- Este de Australia
- Sureste de Australia
- Sur de Brasil
- Centro de Canadá
- Este de Canadá
- Centro de India
- Norte de China 3
- Asia Oriental
- Este de EE. UU.
- Este de EE. UU. 2
- Centro de Francia
- Alemania Central Occidental
- Este de Japón
- Centro de Corea
- Centro y norte de EE. UU.
- Norte de Europa
- Centro de Qatar
- Norte de Sudáfrica
- Centro y Sur de EE. UU.
- Sudeste de Asia
- Norte de Suiza
- Norte de Emiratos Árabes Unidos
- Sur de Reino Unido
- USGov Virginia
- Centro oeste de EE. UU.
- Oeste de Europa
- Oeste de EE. UU.
- Oeste de EE. UU. 2
- Oeste de EE. UU. 3
Tipos de archivo admitidos para el examen
Los siguientes tipos de archivo son compatibles con el examen, la extracción de esquemas y la clasificación cuando corresponda:
- Los formatos de archivo estructurados admitidos por la extensión incluyen el examen, la extracción de esquemas y la clasificación de nivel de activos y columnas: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
- Los formatos de archivo de documento admitidos por la extensión incluyen la exploración y clasificación de nivel de recurso: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
- El Mapa de datos de Microsoft Purview también admite extensiones de archivo personalizadas y analizadores personalizados.
Nota:
Limitaciones conocidas:
- El analizador de Mapa de datos de Microsoft Purview solo admite la extracción de esquemas para los tipos de archivo estructurados enumerados anteriormente.
- Para los tipos de archivo AVRO, ORC y PARQUET, el analizador no admite la extracción de esquemas para los archivos que contienen tipos de datos complejos (por ejemplo, MAP, LIST, STRUCT).
- El escáner admite el análisis de tipos PARQUET comprimidos de forma ágil para la extracción y clasificación de esquemas.
- Para los tipos de archivo GZIP, el GZIP debe asignarse a un único archivo CSV dentro de . Los archivos Gzip están sujetos a las reglas de clasificación personalizada y del sistema. Actualmente no se admite el examen de un archivo gzip asignado a varios archivos dentro o a cualquier tipo de archivo que no sea csv.
-
Para tipos de archivo delimitados (CSV, PSV, SSV, TSV, TXT)::
- Los archivos delimitados con solo 1 columna no se pueden determinar como archivos CSV y no tendrán ningún esquema.
- No se admite la detección de tipos de datos. El tipo de datos se mostrará como "cadena" para todas las columnas.
- Solo se admiten coma(','), punto y coma(';'), barra vertical('|') y tab('\t') como delimitadores.
- No se puede determinar que los archivos delimitados con menos de tres filas sean archivos CSV si usan un delimitador personalizado. Por ejemplo: los archivos con ~ delimitador y menos de tres filas no podrán determinarse como archivos CSV.
- Si un campo contiene comillas dobles, las comillas dobles solo pueden aparecer al principio y al final del campo y deben coincidir. Las comillas dobles que aparecen en el centro del campo o que aparecen al principio y al final, pero que no coinciden, se reconocerán como datos incorrectos y no se analizará ningún esquema desde el archivo. Las filas que tienen un número diferente de columnas que la fila de encabezado se considerarán filas de error. (números de filas de error o números de filas muestreadas) debe ser menor que 0,1.
- En el caso de los archivos Parquet, si usa un entorno de ejecución de integración autohospedado, debe instalar JRE 11 de 64 bits (Java Runtime Environment) o OpenJDK en el equipo de IR. Consulte nuestra sección Java Runtime Environment (Entorno de tiempo de ejecución de Java) en la parte inferior de la página para obtener una guía de instalación.
- Actualmente no se admite el formato delta. Si examina el formato delta directamente desde el origen de datos de almacenamiento como Azure Data Lake Storage (ADLS Gen2), el conjunto de archivos parquet del formato delta se analizará y controlará como conjunto de recursos, tal como se describe en Descripción de los conjuntos de recursos. Además de las columnas usadas para la creación de particiones, no se reconocerán como parte del esquema del conjunto de recursos.
Extracción de esquemas
En el caso de los orígenes de datos que admiten la extracción de esquemas durante el examen, el esquema de recursos no se truncará directamente por el número de columnas.
Datos anidados
Actualmente, los datos anidados solo se admiten para el contenido JSON.
Para todos los tipos de archivo admitidos por el sistema, si hay contenido JSON anidado en una columna, el analizador analiza los datos JSON anidados y los expone dentro de la pestaña esquema del recurso.
Los datos anidados o el análisis de esquemas anidados no se admiten en SQL. Una columna con datos anidados se notificará y clasificará tal cual, y los subdatos no se analizarán.
Datos de muestreo para la clasificación
En Mapa de datos de Microsoft Purview terminología,
- Examen L1: extrae información básica y metadatos, como el nombre de archivo, el tamaño y el nombre completo
- Examen L2: extrae el esquema para tipos de archivos estructurados y tablas de base de datos
- Examen L3: extrae el esquema cuando corresponda y somete el archivo muestreado al sistema y a las reglas de clasificación personalizadas.
Obtenga más información sobre la personalización de los niveles de examen.
Para todos los formatos de archivo estructurados, el Mapa de datos de Microsoft Purview los archivos de ejemplo del escáner de la siguiente manera:
- En el caso de los tipos de archivo estructurados, muestra las 128 filas principales de cada columna o los primeros 1 MB, lo que sea menor.
- En el caso de los formatos de archivo de documento, muestra los primeros 20 MB de cada archivo.
- Si un archivo de documento es mayor que 20 MB, no está sujeto a un examen profundo (sujeto a clasificación). En ese caso, Microsoft Purview captura solo metadatos básicos, como el nombre de archivo y el nombre completo.
- En el caso de los orígenes de datos tabulares (SQL), muestra las 128 primeras filas.
- Para Azure Cosmos DB for NoSQL, se recopilarán hasta 300 propiedades distintas de los 10 primeros documentos de un contenedor para el esquema y, para cada propiedad, se muestrearán valores de hasta 128 documentos o los primeros 1 MB.
Muestreo de archivos del conjunto de recursos
Se detecta una carpeta o un grupo de archivos de partición como un conjunto de recursos en el Mapa de datos de Microsoft Purview si coincide con una directiva de conjunto de recursos del sistema o una directiva de conjunto de recursos definida por el cliente. Si se detecta un conjunto de recursos, el analizador muestreará cada carpeta que contenga. Obtenga más información sobre los conjuntos de recursos aquí.
Muestreo de archivos para conjuntos de recursos por tipos de archivo:
- Archivos delimitados (CSV, PSV, SSV, TSV): 1 de cada 100 archivos se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos"
- Tipos de archivo de Data Lake (Parquet, Avro, Orc): 1 en 18446744073709551615 (máximo largo) se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos"
- Otros tipos de archivos estructurados (JSON, XML, TXT): 1 de cada 100 archivos se muestrea (examen L3) dentro de una carpeta o grupo de archivos de partición que se consideran un "conjunto de recursos".
- Objetos SQL y entidades de Azure Cosmos DB : se examina cada archivo L3.
- Tipos de archivo de documento: cada archivo se examina con L3. Los patrones de conjunto de recursos no se aplican a estos tipos de archivo.