Sources de données et types de fichiers pris en charge
Cet article traite de sources de données, de types de fichiers et de concepts de numérisation actuellement pris en charge par Mappage de données Microsoft Purview.
Sources de données disponibles de Mappage de données Microsoft Purview
Le tableau ci-dessous présente toutes les sources ayant des métadonnées techniques disponibles dans Microsoft Purview. Sélectionnez la source de données pour en savoir plus. Le tableau répertorie également les fonctionnalités supplémentaires prises en charge pour chaque source de données, et vous pouvez sélectionner la fonctionnalité pour obtenir plus d'informations.
Catégorie | Magasin de données pris en charge | Analyser | Classification | Étiquetage | Politiques | Traçabilité | Partage de données | Affichage en direct |
---|---|---|---|---|---|---|---|---|
Azure | Plusieurs sources | Oui | Oui | Dépendant de la source | Oui | Non | Non | Limitée |
Stockage Blob Azure | Oui | Oui | Oui | Oui (préversion) | Limité* | Oui | Oui | |
Azure Cosmos DB (API pour NoSQL) | Oui | Oui | Oui | Non | Non* | Non | Non | |
Explorateur de données Azure | Oui | Oui | Oui | Non | Non* | Non | Non | |
Azure Data Factory | Oui | Non | Non | Non | Oui | Non | Non | |
Azure Data Lake Storage Gen1 | Oui | Oui | Oui | Non | Limité* | Non | Non | |
Azure Data Lake Storage Gen2 | Oui | Oui | Oui | Oui (préversion) | Limité* | Oui | Oui | |
Azure Data Share | Oui | Non | Non | Non | Oui | Non | Non | |
Base de données Azure pour MySQL | Oui | Oui | Oui | Non | Non* | Non | Non | |
Base de données Azure pour PostgreSQL | Oui | Oui | Oui | Non | Non* | Non | Non | |
Azure Databricks Hive Metastore | Oui | Non | Non | Non | Oui | Non | Non | |
Catalogue Unity d' Azure Databricks | Oui | Oui | Oui | Non | Non | Non | Non | |
Pool SQL dédié Azure (anciennement SQL DW) | Oui | Oui | Non | Non | Non* | Non | Non | |
Azure Files | Oui | Oui | Oui | Non | Limité* | Non | Non | |
Azure Machine Learning | Oui | Non | Non | Non | Oui | Non | Non | |
Base de données Azure SQL | Oui | Oui | Oui | Oui | Oui (préversion) | Non | Oui | |
Azure SQL Managed Instance | Oui | Oui | Oui | Oui | Non* | Non | Non | |
Analytique Azure Synapse (Espace de travail) | Oui | Oui | Oui | Non | Oui – Pipelines Synapse | Non | Non | |
Catégorie | Magasin de données pris en charge | Magasin de données pris en charge | Classification | Étiquetage | Stratégie d’accès | Traçabilité | Partage de données | Affichage en direct |
Database | Amazon RDS | Oui | Oui | Non | Non | Non | Non | Non |
Amazon Redshift | Oui | Non | Non | Non | Non | Non | Non | |
Cassandra | Oui | Non | Non | Non | Oui | Non | Non | |
Db2 | Oui | Non | Non | Non | Oui | Non | Non | |
Google BigQuery | Oui | Non | Non | Non | Oui | Non | Non | |
Base de données Hive Metastore | Oui | Non | Non | Non | Oui* | Non | Non | |
MongoDB | Oui | Non | Non | Non | Non | Non | Non | |
MySQL | Oui | Non | Non | Non | Oui | Non | Non | |
Oracle | Oui | Oui | Non | Non | Oui* | Non | Non | |
PostgreSQL | Oui | Non | Non | Non | Oui | Non | Non | |
SAP Business Warehouse (entrepôt de données) | Oui | Non | Non | Non | Non | Non | Non | |
SAP HANA | Oui | Non | Non | Non | Non | Non | Non | |
Snowflake | Oui | Oui | Oui | Non | Oui | Non | Non | |
SQL Server | Oui | Oui | Oui | Non | Non* | Non | Non | |
SQL Server sur Azure-Arc | Oui | Oui | Non | Oui | Non* | Non | Non | |
Teradata | Oui | Oui | Non | Non | Oui* | Non | Non | |
Catégorie | Magasin de données pris en charge | Magasin de données pris en charge | Classification | Étiquetage | Stratégie d’accès | Traçabilité | Partage de données | Affichage en direct |
Fichier | Amazon S3 | Oui | Oui | Oui | Oui | Limité* | Non | Non |
HDFS | Oui | Oui | Non | Non | Non | Non | Non | |
Services et applications | Circulation d’air | Oui | Non | Non | Non | Oui | Non | Non |
Dataverse | Oui | Oui | Oui | Non | Non | Non | Non | |
Erwin | Oui | Non | Non | Non | Oui | Non | Non | |
Fabric | Oui | Non | Non | Non | Oui | Non | Oui | |
Looker | Oui | Non | Non | Non | Oui | Non | Non | |
Power BI | Oui | Non | Non | Non | Oui | Non | Oui** | |
Qlik Sense Mobile | Oui | Non | Non | Non | Non | Non | Non | |
Salesforce | Oui | Non | Non | Non | Non | Non | Non | |
SAP ECC | Oui | Non | Non | Non | Oui* | Non | Non | |
SAP S/4HANA | Oui | Non | Non | Non | Oui* | Non | Non | |
Tableau | Oui | Non | Non | Non | Non | Non | Non |
* En plus du lignage des actifs de la source de données, le lignage est également pris en charge si l'ensemble de données est utilisé comme source/puits dans Data Factory ou le pipeline Synapse.
** Les éléments Power BI d'un locataire Fabric sont disponibles en affichage direct.
Remarque
Actuellement, Mappage de données Microsoft Purview ne peut pas scanner un bien dont le nom contient /
, \
, ou #
. Pour limiter votre analyse et éviter d’analyser les ressources qui contiennent ces caractères dans le nom de la ressource, utilisez l’exemple dans Inscrire et analyser la base de données Azure SQL.
Importante
Si vous prévoyez utiliser un runtime d'intégration auto-hébergé, l'analyse de certaines sources de données nécessite une configuration supplémentaire sur la machine du runtime d'intégration auto-hébergé. Par exemple, JDK, Visual C++ Redistributable ou pilote spécifique. Pour votre source, reportez-vous à l'article de chaque source pour connaître les conditions préalables. Les conditions requises sont indiquées dans la section Conditions préalables.
Analyser les régions
Voici une liste de toutes les régions de sources de données Azure (centres de données) où le scanner Mappage de données Microsoft Purview s'exécute. Si votre source de données Azure se trouve dans une région qui ne figure pas dans cette liste, l'analyseur s'exécutera dans la région de votre instance Microsoft Purview.
Régions de l’analyseur Mappage de données Microsoft Purview
- Australie Est
- Australie Sud-Est
- Sud du Brésil
- Canada Centre
- Canada Est
- Centre de l’Inde
- Chine Nord 3
- Asie Est
- USA Est
- USA Est 2
- France Centre
- Centre Ouest de l’Allemagne
- Japon Est
- Corée du Sud
- USA Centre Nord
- Europe Nord
- Qatar Centre
- Nord de l’Afrique du Sud
- USA Centre Sud
- Asie Sud-Est
- Suisse Nord
- UAE Nord
- Sud du Royaume-Uni
- USGov
- USA Centre Ouest
- Europe Ouest
- USA Ouest
- USA Ouest 2
- USA Ouest 3
Types de fichiers pris en charge pour l’analyse
Les types de fichiers suivants sont pris en charge pour l’analyse, l’extraction de schéma et la classification, le cas échéant :
- Les formats de fichiers structurés pris en charge par l’extension incluent l’analyse, l’extraction de schéma et la classification au niveau des ressources et des colonnes : AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
- Les formats de fichier de document pris en charge par l’extension incluent l’analyse et la classification au niveau des ressources : DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPSX, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
- Le Mappage de données Microsoft Purview prend également en charge les extensions de fichier personnalisées et les analyseurspersonnalisés.
Remarque
Limitations connues
- L’analyseur du Mappage de données Microsoft Purview ne prend en charge que l'extraction de schémas pour les types de fichiers structurés énumérés ci-dessus.
- Pour les types de fichiers AVRO, ORC et PARQUET, l'analyseur ne prend pas en charge l'extraction de schéma pour les fichiers qui contiennent des types de données complexes (par exemple, MAP, LIST, STRUCT).
- L’analyseur prend en charge l’analyse des types PARQUET compressés dynamiquement pour l’extraction et la classification de schémas.
- Pour les types de fichiers GZIP, le GZIP doit être mappé à un seul fichier CSV dans. Les fichiers Gzip sont soumis aux règles de classification système et personnalisée. Actuellement, nous ne prenons pas en charge l'analyse d'un fichier gzip contenant plusieurs fichiers, ni aucun type de fichier autre que csv.
-
Pour les types de fichiers délimités (CSV, PSV, SSV, TSV, TXT):
- Les fichiers délimités ne comportant qu'une seule colonne ne peuvent pas être considérés comme des fichiers CSV et n'ont pas de schéma.
- Nous ne prenons pas en charge la détection de types de données. Le type de données est répertorié comme « chaîne » pour toutes les colonnes.
- Nous n'acceptons que la virgule (','), le point-virgule (';'), la barre verticale ('|') et la tabulation ('\t') comme délimiteurs.
- Les fichiers délimités comportant moins de trois lignes ne peuvent pas être considérés comme des fichiers CSV s'ils utilisent un délimiteur personnalisé. Par exemple, les fichiers comportant un délimiteur ~ et moins de trois lignes ne pourront pas être considérés comme des fichiers CSV.
- Si un champ contient des guillemets, ceux-ci ne peuvent apparaître qu'au début et à la fin du champ et doivent être appariés. Les guillemets doubles qui apparaissent au milieu du champ ou au début et à la fin, mais qui ne sont pas appariés, seront considérés comme des données erronées et aucun schéma ne sera extrait du fichier. Les lignes dont le nombre de colonnes est différent de la ligne d’en-tête sont évaluées comme des lignes d’erreur. (nombres de lignes d’erreur/nombres de lignes échantillonnées) doit être inférieur à 0,1.
- Pour les fichiers Parquet, si vous utilisez un runtime d'intégration auto-hébergé, vous devez installer le JRE 11 (Java Runtime Environment) ou OpenJDK 64 bits sur votre machine IR. Consultez notre section Java Runtime Environment en bas de la page pour obtenir un guide d’installation.
- Actuellement, le format delta n’est pas pris en charge. Si vous scannez le format delta directement à partir d'une source de données de stockage comme Azure Data Lake Storage (ADLS Gen2), l'ensemble de fichiers parquet du format delta sera analysé et traité comme un ensemble de ressources, comme décrit dans la section Comprendre les ensembles de ressources. Outre les colonnes utilisées pour le partitionnement, elles ne sont pas reconnues dans le cadre du schéma du jeu de ressources.
Extraction de schéma
Pour les sources de données qui prennent en charge l’extraction de schéma pendant l’analyse, le schéma de ressource ne sera pas tronqué directement par le nombre de colonnes.
Données imbriqués
Actuellement, les données imbriquées sont uniquement prises en charge pour le contenu JSON.
Pour tous les types de fichiers pris en charge par le système, s'il y a du contenu JSON imbriqué dans une colonne, l’analyseur de données JSON imbriquées et les place dans l'onglet de schéma de recherche.
Les données imbriquées ou l’analyse de schémas imbriqués ne sont pas prises en charge par SQL. Une colonne avec des données imbriquées est signalée et classifiée telle qu’elle est, et les sous-données ne sont pas analysées.
Données d’échantillonnage pour la classification
Dans la terminologie du Mappage de données Microsoft Purview,
- Analyse L1 : extrait des informations de base et des métadonnées telles que le nom de fichier, la taille et le nom complet
- Analyse L2 : extrait le schéma pour les types de fichiers structurés et les tables de base de données
- Analyse L3 : extrait le schéma le cas échéant et soumet le fichier échantillonnée aux règles de classification système et personnalisées
En savoir plus sur la personnalisation des niveauxd’analyse.
Pour tous les formats de fichiers structurés, l’analyseur Mappage de données Microsoft Purview échantillonne les fichiers de la manière suivante :
- Pour les types de fichiers structurés, il échantillonne les 128 premières lignes de chaque colonne ou les premiers 1 Mo, la valeur la plus faible étant retenue.
- Pour les formats de fichiers de documents, il échantillonne les 20 premiers Mo de chaque fichier.
- Si le fichier d'un document est supérieur à 20 Mo, il n'est pas soumis à une analyse approfondie (sous réserve de classification). Dans ce cas, Microsoft Purview ne capture que les métadonnées de base telles que le nom du fichier et le nom complet.
- Pour les sources de données tabulaires (SQL),il échantillonnera les 128 premières lignes.
- Pour Azure Cosmos DB for NoSQL, jusqu’à 300 propriétés distinctes des 10 premiers documents d’un conteneur sont collectées pour le schéma et pour chaque propriété, les valeurs d’un maximum de 128 documents ou les 1 premiers Mo sont échantillonnées.
Échantillonnage de fichiers du jeu de ressources
Un dossier ou un groupe de fichiers de partition est détecté en tant que jeu de ressources dans le Mappage de données Microsoft Purview s’il correspond à une stratégie d’ensemble de ressources système ou à une stratégie d’ensemble de ressources définie par le client. Si un jeu de ressources est détecté, le l’analyseur échantillonnera chaque dossier qu’il contient. En savoir plus sur les ensembles de ressources ici.
Échantillonnage de fichiers pour les ensembles de ressources par types de fichiers :
- Fichiers délimités (CSV, PSV, SSV, TSV) : 1 fichier sur 100 est échantillonné (analyse L3) dans un dossier ou dans un groupe de fichiers de partition considérés comme un « jeu de ressources »
- Types de fichiers Data Lake (Parquet, Avro, Orc) : 1 fichier en 18446744073709551615 (max. long) est échantillonnée (analyse L3) dans un dossier ou dans un groupe de fichiers de partition considérés comme un « jeu de ressources »
- Autres types de fichiers structurés (JSON, XML, TXT) : 1 fichier sur 100 est échantillonnée (analyse L3) dans un dossier ou dans un groupe de fichiers de partition considérés comme un « jeu de ressources »
- Objets SQL et entités Azure Cosmos DB : chaque fichier est analysé L3.
- Types de fichiers de document : chaque fichier est analysé L3. Les modèles d’ensemble de ressources ne s’appliquent pas à ces types de fichiers.