Origini dati e tipi di file supportati

Questo articolo illustra le origini dati attualmente supportate, i tipi di file e i concetti di analisi nel Microsoft Purview Data Map.

Microsoft Purview Data Map origini dati disponibili

La tabella seguente mostra tutte le origini con metadati tecnici disponibili in Microsoft Purview. Selezionare l'origine dati per altre informazioni. La tabella elenca anche altre funzionalità supportate per ogni origine dati ed è possibile selezionare la funzionalità per altre informazioni.

Categoria Archivio dati supportato Classificazione Visualizzazione dinamica Lignaggio Applicazione di etichette Criteri di accesso Condivisione dei dati
Azure Più origini Funzionalità limitata No Dipendente dall'origine No
Archiviazione BLOB di Azure Limitato* (anteprima)
Azure Cosmos DB (API per NoSQL) No No* No No
Azure Esplora dati No No* No No
Azure Data Factory No No No No No
Azure Data Lake Storage Gen1 No Limitato* No No
Azure Data Lake Storage Gen2 Limitato* (anteprima)
Azure Condivisione dati No No No No No
Database di Azure per MySQL No No* No No
Database di Azure per PostgreSQL No No* No No
Azure Databricks No No No No No
Catalogo Unity di Azure Databricks No No No No No No
Pool SQL dedicato di Azure (in precedenza SQL DW) No No* No No No
File di Azure No Limitato* No No
Azure Machine Learning No No No No No
database SQL di Azure Sì (anteprima) No
Istanza gestita di SQL di Azure No No* Sì (anteprima) No
Azure Synapse Analytics (area di lavoro) No Sì - Pipeline di Synapse No No
Database Amazon RDS No No No No No
Amazon Redshift No No No No No No
Cassandra No No No No No
Db2 No No No No No
Google BigQuery No No No No No
Hive Metastore Database No No Sì* No No No
Mongodb No No No No No No
Mysql No No No No No
Oracle No Sì* No No No
Postgresql No No No No No
SAP Business Warehouse No No No No No No
SAP HANA No No No No No No
Fiocco No No No No
SQL Server No No* No No
SQL Server in Azure-Arc No No* No No
Teradata No Sì* No No No
File Amazon S3 No Limitato* No No
HDFS No No No No No
Servizi e app Flusso d' aria No No No No No
Erwin No No No No No
Looker No No No No No
Power BI No No No No No
Salesforce No No No No No No
SAP ECC No No Sì* No No No
SAP S/4HANA No No Sì* No No No

* Oltre alla derivazione sugli asset all'interno dell'origine dati, la derivazione è supportata anche se il set di dati viene usato come origine/sink nella pipeline di Data Factory o Synapse.

Nota

Attualmente, il Microsoft Purview Data Map non può analizzare un asset con /, \o # nel relativo nome. Per definire l'ambito dell'analisi ed evitare l'analisi di asset con tali caratteri nel nome dell'asset, usare l'esempio in Registrare ed analizzare un database Azure SQL.

Importante

Se si prevede di usare un runtime di integrazione self-hosted, l'analisi di alcune origini dati richiede una configurazione aggiuntiva nel computer di runtime di integrazione self-hosted. Ad esempio, JDK, Visual C++ Redistributable o driver specifico. Per informazioni sull'origine, vedere ogni articolo di origine per informazioni dettagliate sui prerequisiti. Tutti i requisiti verranno elencati nella sezione Prerequisiti .

Analisi delle aree

Di seguito è riportato un elenco di tutte le aree dell'origine dati di Azure (data center) in cui viene eseguito lo scanner Microsoft Purview Data Map. Se l'origine dati di Azure si trova in un'area esterna a questo elenco, lo scanner verrà eseguito nell'area dell'istanza di Microsoft Purview.

Microsoft Purview Data Map aree dello scanner

  • Australia orientale
  • Australia sud-orientale
  • Brasile meridionale
  • Canada centrale
  • Canada orientale
  • India centrale
  • Cina settentrionale 3
  • Asia orientale
  • Stati Uniti orientali
  • Stati Uniti orientali 2
  • Francia centrale
  • Germania centro-occidentale
  • Giappone orientale
  • Corea centrale
  • Stati Uniti centro-settentrionali
  • Europa settentrionale
  • Qatar Central
  • Sudafrica settentrionale
  • Stati Uniti centro-meridionali
  • Asia sudorientale
  • Svizzera settentrionale
  • Emirati Arabi Uniti settentrionali
  • Regno Unito meridionale
  • USGov Virginia
  • Stati Uniti centro-occidentali
  • Europa occidentale
  • Stati Uniti occidentali
  • Stati Uniti occidentali 2
  • Stati Uniti occidentali 3

Tipi di file supportati per l'analisi

I tipi di file seguenti sono supportati per l'analisi, l'estrazione dello schema e la classificazione, se applicabile:

  • I formati di file strutturati supportati dall'estensione includono analisi, estrazione dello schema e classificazione a livello di asset e colonna: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
  • I formati di file di documenti supportati dall'estensione includono l'analisi e la classificazione a livello di asset: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLSB, XLSM, XLSX, XLT
  • Il Microsoft Purview Data Map supporta anche estensioni di file personalizzate e parser personalizzati.

Nota

Limitazioni note:

  • Lo scanner Microsoft Purview Data Map supporta solo l'estrazione dello schema per i tipi di file strutturati elencati in precedenza.
  • Per i tipi di file AVRO, ORC e PARQUET, lo scanner non supporta l'estrazione dello schema per i file che contengono tipi di dati complessi, ad esempio MAP, LIST, STRUCT.
  • Lo scanner supporta l'analisi dei tipi PARQUET compressi snappy per l'estrazione e la classificazione dello schema.
  • Per i tipi di file GZIP, è necessario eseguire il mapping di GZIP a un singolo file CSV all'interno. I file Gzip sono soggetti alle regole di classificazione di sistema e personalizzate. Attualmente non è supportata l'analisi di un file gzip mappato a più file all'interno o a qualsiasi tipo di file diverso da csv.
  • Per i tipi di file delimitati (CSV, PSV, SSV, TSV, TXT):
    • Non è supportare il rilevamento dei tipi di dati. Il tipo di dati verrà elencato come "stringa" per tutte le colonne.
    • Supportiamo solo virgole(','), punto e virgola(';'), barre verticali('|') e tabulazioni('\t') come delimitatori.
    • I file delimitati con meno di tre righe non possono essere determinati come file CSV se usano un delimitatore personalizzato. Ad esempio: i file con ~ delimitatore e meno di tre righe non potranno essere determinati come file CSV.
    • Se un campo contiene virgolette doppie, le virgolette doppie possono essere visualizzate solo all'inizio e alla fine del campo e devono essere corrispondenti. Le virgolette doppie visualizzate al centro del campo o visualizzate all'inizio e alla fine, ma non corrispondenti, verranno riconosciute come dati non validi e non verrà analizzato alcuno schema dal file. Le righe con un numero di colonne diverso da quello della riga di intestazione verranno giudicate come righe di errore. (numeri di righe di errore/numeri di righe campionate ) deve essere minore di 0,1.
  • Per i file Parquet, se si usa un runtime di integrazione self-hosted, è necessario installare JRE 11 (Java Runtime Environment) a 64 bit o OpenJDK nel computer a runtime di integrazione. Per una guida all'installazione, vedere la sezione Java Runtime Environment (Ambiente di runtime Java) nella parte inferiore della pagina .

Estrazione dello schema

Attualmente, il numero massimo di colonne supportate nella scheda dello schema degli asset è 800 per le origini di Azure, Power BI e SQL Server.

Dati annidati

Attualmente, i dati annidati sono supportati solo per il contenuto JSON.

Per tutti i tipi di file supportati dal sistema, se è presente contenuto JSON annidato in una colonna, lo scanner analizza i dati JSON annidati e li espone all'interno della scheda dello schema dell'asset.

I dati annidati o l'analisi dello schema annidato non sono supportati in SQL. Una colonna con dati annidati verrà segnalata e classificata così come è e i dati secondari non verranno analizzati.

Dati di campionamento per la classificazione

Nella terminologia Microsoft Purview Data Map,

  • Analisi L1: estrae informazioni di base e metadati come nome file, dimensioni e nome completo
  • Analisi L2: estrae lo schema per i tipi di file strutturati e le tabelle di database
  • Analisi L3: estrae lo schema dove applicabile e soggetto il file campionato alle regole di classificazione personalizzate e di sistema

Per tutti i formati di file strutturati, i file di esempio dello scanner Microsoft Purview Data Map nel modo seguente:

  • Per i tipi di file strutturati, viene eseguito l'esempio delle prime 128 righe in ogni colonna o dei primi 1 MB, a seconda di quale sia inferiore.
  • Per i formati di file di documento, vengono campioni i primi 20 MB di ogni file.
    • Se un file di documento è più grande di 20 MB, non è soggetto a un'analisi approfondita (soggetta a classificazione). In tal caso, Microsoft Purview acquisisce solo i metadati di base, ad esempio il nome file e il nome completo.
  • Per le origini dati tabulari (SQL), vengono esempi le prime 128 righe.
  • Per Azure Cosmos DB per NoSQL, verranno raccolte fino a 300 proprietà distinte dei primi 10 documenti in un contenitore per lo schema e per ogni proprietà verranno campionati i valori da un massimo di 128 documenti o i primi 1 MB.

Campionamento di file del set di risorse

Una cartella o un gruppo di file di partizione viene rilevato come set di risorse nel Microsoft Purview Data Map se corrisponde a un criterio del set di risorse di sistema o a un criterio del set di risorse definito dal cliente. Se viene rilevato un set di risorse, lo scanner campionerà ogni cartella che contiene. Altre informazioni sui set di risorse sono disponibili qui.

Campionamento di file per set di risorse in base ai tipi di file:

  • File delimitati (CSV, PSV, SSV, TSV): vengono campionati 1 file su 100 (analisi L3) all'interno di una cartella o di un gruppo di file di partizione considerati un "set di risorse"
  • Tipi di file Data Lake (Parquet, Avro, Orc): 1 in 18446744073709551615 (numero massimo lungo) vengono campionati (analisi L3) all'interno di una cartella o di un gruppo di file di partizione considerati un 'set di risorse'
  • Altri tipi di file strutturati (JSON, XML, TXT): 1 file su 100 vengono campionati (analisi L3) all'interno di una cartella o di un gruppo di file di partizione considerati un 'set di risorse'
  • Oggetti SQL ed entità di Azure Cosmos DB : ogni file viene analizzato L3.
  • Tipi di file di documento : ogni file viene analizzato L3. I modelli di set di risorse non si applicano a questi tipi di file.

Passaggi successivi