支援的資料來源和檔案類型

本文討論目前支援的資料來源、檔案類型,以及Microsoft Purview 資料對應中掃描的概念。

Microsoft Purview 資料對應可用的資料來源

下表顯示在 Microsoft Purview 中提供技術中繼資料的所有來源。 選取資料來源以深入瞭解。 下表也會列出每個資料來源的其他支援功能,您可以選取此功能以取得詳細資訊。

類別 支援的資料存放區 分類 即時檢視 血統 加標籤 存取原則 資料共用
Azure 多個來源 受限 來源相依
Azure Blob 儲存體 有限* (預覽)
適用于 NoSQL 的 Azure Cosmos DB (API) 不*
Azure Data Explorer 不*
Azure Data Factory
Azure Data Lake Storage Gen1 有限*
Azure Data Lake Storage Gen2 有限* (預覽)
Azure Data Share
適用於 MySQL 的 Azure 資料庫 不*
適用於 PostgreSQL 的 Azure 資料庫 不*
Azure Databricks
Azure Databricks Unity 目錄
Azure 專用 SQL 集區 (先前稱為 SQL DW) 不*
Azure 檔案儲存體 有限*
Azure Machine Learning
Azure SQL Database 是 (預覽)
Azure SQL 受控執行個體 不* 是 (預覽)
Azure Synapse Analytics (工作區) 是 - Synapse 管線
Database Amazon RDS
Amazon Redshift
卡珊多拉
Db2
Google BigQuery
Hive 中繼存放區資料庫 是的*
Mongodb
Mysql
甲骨文 是的*
PostgreSQL
SAP Business Warehouse
SAP HANA
雪花
SQL Server 不*
Azure-Arc 上的SQL Server 不*
Teradata 是的*
檔案 Amazon S3 有限*
Hdfs
服務和應用程式 氣流
歐文
旁觀者
Power BI
Salesforce
SAP ECC 是的*
SAP S/4HANA 是的*

* 除了資料來源內資產的譜系之外,如果在 Data Factory 或 Synapse 管線中使用資料集做為來源/接收器,也支援譜系。

注意事項

目前,Microsoft Purview 資料對應無法掃描名稱 / 中有 、 \# 的資產。 若要設定掃描範圍,並避免掃描資產名稱中有這些字元的資產,請使用註冊和掃描Azure SQL資料庫中的範例。

重要事項

如果您打算使用自我裝載整合執行時間,掃描某些資料來源需要在自我裝載整合執行時間電腦上進行額外的設定。 例如,JDK、C++ 可轉散發套件或特定驅動程式。 For your source, refer to each source article for prerequisite details. Any requirements will be listed in the Prerequisites section.

掃描區域

以下是Microsoft Purview 資料對應掃描器執行所在區域 (資料中心) 所有 Azure 資料來源的清單。 如果您的 Azure 資料來源位於此清單以外的區域中,掃描器將會在 Microsoft Purview 實例的區域中執行。

Microsoft Purview 資料對應掃描器區域

  • 澳大利亞東部
  • 澳大利亞東南部
  • 巴西南部
  • 加拿大中部
  • 加拿大東部
  • 印度中部
  • 中國北部 3
  • 東亞
  • 美國東部
  • 美國東部 2
  • 法國中部
  • 德國中西部
  • 日本東部
  • 南韓中部
  • 美國中北部
  • 北歐
  • 卡達中部
  • 南非北部
  • 美國中南部
  • 東南亞
  • 瑞士北部
  • 阿拉伯聯合大公國北部
  • 英國南部
  • USGov 維吉尼亞州
  • 美國中西部
  • 西歐
  • 美國西部
  • 美國西部 2
  • 美國西部 3

支援掃描的檔案類型

下列檔案類型支援掃描、架構擷取,以及適用的分類:

  • 延伸模組支援的結構化檔案格式包括掃描、架構擷取,以及資產和資料行層級分類:AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XML、GZIP
  • 副檔名支援的檔檔案格式包括掃描和資產層級分類:DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPS、PPSX、PPT、PPTM、PPTX、XLC、XLS、XLSB、XLSM、XLSX、XLT
  • Microsoft Purview 資料對應也支援自訂副檔名和自訂剖析器

注意事項

已知限制:

  • Microsoft Purview 資料對應掃描器僅支援上述結構化檔案類型的架構擷取。
  • 針對 AVRO、ORC 和 PARQUET 檔案類型,掃描器不支援針對包含複雜資料類型的檔案進行架構擷取 (例如 MAP、LIST、STRUCT) 。
  • 掃描器支援掃描 snappy 壓縮的 PARQUET 類型,以進行架構擷取和分類。
  • 針對 GZIP 檔案類型,GZIP 必須對應至其中的單一 csv 檔案。 Gzip 檔案受限於系統和自訂分類規則。 我們目前不支援掃描對應至內多個檔案的 gzip 檔案,或 csv 以外的任何檔案類型。
  • 針對 CSV、PSV、SSV、TSV、TXT) (分隔的檔案類型
    • 我們不支援資料類型偵測。 資料類型會列為所有資料行的「字串」。
    • 我們只支援逗號 (',') ,分號 (';') ,垂直橫條 ('|') 和索引標籤 ('\t ) 為分隔符號。
    • 如果分隔符號使用自訂分隔符號,則無法將小於三個數據列的分隔檔案判斷為 CSV 檔案。 例如:具有 ~ 分隔符號且少於三個數據列的檔案將無法判斷為 CSV 檔案。
    • 如果欄位包含雙引號,雙引號只能出現在欄位的開頭和結尾,而且必須相符。 雙引號出現在欄位中間或出現在開頭和結尾,但不相符,將會辨識為不正確的資料,而且不會從檔案剖析架構。 與標頭資料列具有不同資料行數目的資料列,將會視為錯誤資料列。 (取樣 ) 的錯誤資料列數目/資料列數目必須小於 0.1。
  • 針對 Parquet 檔案,如果您使用自我裝載整合執行時間,則必須在 IR 電腦上安裝 64 位 JRE 11 (JAVA 執行時間環境) 或 OpenJDK 。 如需安裝指南,請參閱 頁面底部的 JAVA 執行時間環境一節

架構擷取

目前,資產架構索引標籤中支援的資料行數目上限為 800,適用于 Azure 來源、Power BI 和 SQL Server。

巢狀資料

目前,只有 JSON 內容支援巢狀資料。

針對所有 系統支援的檔案類型,如果資料行中有巢狀 JSON 內容,則掃描器會剖析巢狀 JSON 資料,並將其呈現在資產的架構索引標籤內。

SQL 不支援巢狀資料或巢狀架構剖析。 具有巢狀資料的資料行會依原狀報告並分類,且不會剖析子資料。

分類的取樣資料

在Microsoft Purview 資料對應術語中,

  • L1 掃描:擷取基本資訊和中繼資料,例如檔案名、大小和完整名稱
  • L2 掃描:擷取結構化檔案類型和資料庫資料表的架構
  • L3 掃描:在適用的情況下擷取架構,並將取樣的檔案主體化為系統和自訂分類規則

針對所有結構化檔案格式,Microsoft Purview 資料對應掃描器會以下列方式取樣檔案:

  • 針對結構化檔案類型,它會取樣每個資料行的前 128 個數據列或前 1 MB,以較低者為准。
  • 針對檔檔案格式,它會取樣每個檔案的前 20 MB。
    • 如果檔檔案大於 20 MB,則不會受到深度掃描 (受分類) 。 在此情況下,Microsoft Purview 只會擷取基本中繼資料,例如檔案名和完整名稱。
  • 針對 SQL) (表格式資料來源 ,它會取樣前 128 個數據列。
  • 針對 適用于 NoSQL 的 Azure Cosmos DB,最多會針對架構收集容器中前 10 份檔的 300 個相異屬性,而針對每個屬性,則會取樣最多 128 份檔或前 1 MB 的值。

資源集檔案取樣

如果資料夾或資料分割檔案群組符合系統資源集原則或客戶定義的資源集原則,則會在Microsoft Purview 資料對應中偵測為資源集。 如果偵測到資源集,則掃描器會取樣其包含的每個資料夾。 在這裡深入瞭解資源集。

依檔案類型對資源集進行檔案取樣:

  • CSV、PSV、SSV、TSV) (分隔的檔案 - 在被視為「資源集」的資料夾或分割區檔案群組內, (L3 掃描) 取出 100 個檔案中的 1 個
  • Parquet、Avro、Orc) (Data Lake 檔案類型 - 18446744073709551615 (長最大) 檔案中為 1,會在被視為「資源集」的資料夾或分割區檔案群組內 (L3 掃描) 進行取樣
  • 其他結構化檔案類型 (JSON、XML、TXT) - 100 個檔案中有 1 個是在被視為「資源集」的資料夾或分割區檔案群組內 (L3 掃描) 取樣
  • SQL 物件和 Azure Cosmos DB 實體 - 每個檔案都會掃描 L3。
  • 檔檔案類型 - 每個檔案都會掃描 L3。 資源集模式不適用於這些檔案類型。

後續步驟