支持的數據源和文件類型
本文討論目前支持的數據源、文件類型,以及 Microsoft Purview 資料對應 中的掃描概念。
Microsoft Purview 資料對應 可用的數據源
下表顯示 Purview Microsoft提供技術元數據的所有來源。 選取數據源以深入瞭解。 下表也會列出每個數據來源的其他支援功能,您可以選取此功能以取得詳細資訊。
* 除了數據源內資產的譜系之外,如果在 Data Factory或 Synapse 管線中使用資料集做為來源/接收器,也支援譜系。
** 網狀架構租使用者中的 Power BI 專案可使用即時檢視來使用。
除非數據源頁面上特別列出 Azure 資源,否則 Azure 資源只能在您Microsoft Purview 帳戶的相同租使用者中使用。
注意事項
目前,Microsoft Purview 資料對應 無法掃描名稱中有/
、 \
或 #
的資產。 若要設定掃描範圍,並避免掃描資產名稱中有這些字元的資產,請使用註冊和掃描 Azure SQL 資料庫中的範例。
重要事項
如果您打算使用自我裝載整合運行時間,掃描某些數據源需要在自我裝載整合運行時間計算機上進行額外的設定。 例如,JDK、C++ 可轉散發套件 或特定驅動程式。 For your source, refer to each source article for prerequisite details. Any requirements will be listed in the Prerequisites section.
掃描區域
以下是 Microsoft Purview 資料對應 掃描器執行所在區域 (數據中心) 所有 Azure 數據源的清單。 如果您的 Azure 資料源位於此清單以外的區域,掃描器將會在您Microsoft Purview 實例的區域中執行。
Microsoft Purview 資料對應 掃描器區域
- 澳大利亞東部
- 澳大利亞東南部
- 巴西南部
- 加拿大中部
- 加拿大東部
- 印度中部
- 中國北部 3
- 東亞
- 美國東部
- 美國東部 2
- 法國中部
- 德國中西部
- 日本東部
- 南韓中部
- 美國中北部
- 北歐
- 卡達中部
- 南非北部
- 美國中南部
- 東南亞
- 瑞士北部
- 阿拉伯聯合大公國北部
- 英國南部
- USGov 維吉尼亞州
- 美國中西部
- 西歐
- 美國西部
- 美國西部 2
- 美國西部 3
支援掃描的文件類型
下列檔類型支援掃描、架構擷取,以及適用的分類:
- 延伸模組支持的結構化檔格式包括掃描、架構擷取,以及資產和數據行層級分類:AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XML、GZIP
- 擴展名支援的檔檔格式包括掃描和資產層級分類:DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPS、PPSX、PPT、PPTM、PPTX、XLC、XLS、XLSB、XLSM、XLSX、XLT
- Microsoft Purview 資料對應 也支援自定義擴展名和自定義剖析器。
注意事項
已知限制:
- Microsoft Purview 資料對應 掃描器僅支援上述結構化檔類型的架構擷取。
- 針對AVRO、ORC和 PARQUET 檔案類型,掃描器不支援針對包含複雜資料類型的檔案進行架構擷取 (例如 MAP、LIST、STRUCT) 。
- 掃描器支援掃描 snappy 壓縮的 PARQUET 類型,以進行架構擷取和分類。
- 針對 GZIP 檔類型,GZIP 必須對應至其中的單一 csv 檔案。 Gzip 檔案受限於系統和自定義分類規則。 我們目前不支援掃描對應至內多個檔案的 gzip 檔案,或 csv 以外的任何文件類型。
-
針對 CSV、PSV、SSV、TSV、TXT) (分隔的檔類型 :
- 只有 1 個數據行的分隔檔案無法判斷為 CSV 檔案,而且沒有架構。
- 我們不支援數據類型偵測。 數據類型會列為所有數據行的「字串」。
- 我們只支援逗號 (',') ,分號 (';') ,垂直橫條 ('|') 和索引標籤 ('\t ) 為分隔符。
- 如果分隔符使用自定義分隔符,則無法將小於三個數據列的分隔檔案判斷為 CSV 檔案。 例如:具有 ~ 分隔符且少於三個數據列的檔案將無法判斷為 CSV 檔案。
- 如果字段包含雙引號,雙引號只能出現在字段的開頭和結尾,而且必須相符。 雙引號出現在欄位中間或出現在開頭和結尾,但不相符,將會辨識為不正確的數據,而且不會從檔案剖析架構。 與標頭數據列具有不同數據行數目的數據列,將會視為錯誤數據列。 (取樣 ) 的錯誤數據列數目/數據列數目必須小於 0.1。
- 針對 Parquet 檔案,如果您使用自我裝載整合運行時間,則必須在 IR 計算機上安裝 64 位 JRE 11 (Java 運行時間環境) 或 OpenJDK 。 如需安裝指南,請參閱 頁面底部的 Java 運行時間環境一節 。
- 目前不支持差異格式。 如果您直接從記憶體數據源掃描差異格式,例如 Azure Data Lake Storage (ADLS Gen2) ,則會剖析差異格式的 parquet 檔案集,並以了解資源集所述的方式處理為資源集。 除了用於數據分割的數據列之外,將無法辨識為資源集架構的一部分。
架構擷取
對於在掃描期間支持架構擷取的數據源,資產架構不會直接被數據行數目截斷。
巢狀數據
目前,只有 JSON 內容支援巢狀數據。
針對所有 系統支援的檔類型,如果數據行中有巢狀 JSON 內容,則掃描器會剖析巢狀 JSON 數據,並將其呈現在資產的架構索引卷標內。
SQL 不支援巢狀資料或巢狀架構剖析。 具有巢狀數據的數據行會依原狀報告並分類,且不會剖析子數據。
分類的取樣數據
在 Microsoft Purview 資料對應 術語中,
- L1 掃描:擷取基本資訊和元數據,例如檔名、大小和完整名稱
- L2 掃描:擷取結構化檔類型和資料庫數據表的架構
- L3 掃描:在適用的情況下擷取架構,並將取樣的檔案主體化為系統和自定義分類規則
深入瞭解 自定義掃描層級。
針對所有結構化檔案格式,Microsoft Purview 資料對應 掃描器會以下列方式取樣檔案:
- 針對結構化檔類型,它會取樣每個數據行的前128個數據列或前1 MB,以較低者為準。
- 針對檔案檔案格式,它會取樣每個檔案的前 20 MB。
- 如果檔檔案大於 20 MB,則不會受到深度掃描 (受分類) 。 在此情況下,Microsoft Purview 只會擷取基本元數據,例如檔名和完整名稱。
- 針對 SQL) (表格式數據源 ,它會取樣前 128 個數據列。
- 針對 適用於 NoSQL 的 Azure Cosmos DB,最多會針對架構收集容器中前 10 份檔的 300 個相異屬性,而針對每個屬性,則會取樣最多 128 份檔或前 1 MB 的值。
資源集檔案取樣
如果資料夾或數據分割檔案群組符合系統資源集原則或客戶定義的資源集原則,則會在 Microsoft Purview 資料對應 中偵測為資源集。 如果偵測到資源集,則掃描器會取樣其包含的每個資料夾。 在這裡深入了解資源集。
依檔案類型對資源集進行檔案取樣:
- CSV、PSV、SSV、TSV) (分隔的檔案 - 在被視為「資源集」的資料夾或分割區檔案群組內, (L3 掃描) 取出 100 個檔案中的 1 個
- Parquet、Avro、Orc) (Data Lake 檔類型 - 18446744073709551615 (长最大) 檔案中為 1,會在被視為「資源集」的資料夾或分割區檔案群組內 (L3 掃描) 進行取樣
- 其他結構化檔類型 (JSON、XML、TXT) - 100 個檔案中有 1 個是在被視為「資源集」的資料夾或分割區檔案群組內 (L3 掃描) 取樣
- SQL 物件和 Azure Cosmos DB 實體 - 每個檔案都會掃描 L3。
- 檔案檔案類型 - 每個檔案都會掃描 L3。 資源集模式不適用於這些文件類型。