Microsoft Purview 中的掃描和擷取
本文提供 Purview Microsoft掃描和擷取功能的概觀。 這些功能會將您的 Microsoft Purview 帳戶連線到您的來源,以填入數據對應和資料目錄,讓您可以透過 Microsoft Purview 開始探索和管理您的數據。
- 掃描會 從 數據源擷取元數據 ,並將其帶入 purview Microsoft。
-
擷取會 處理元數據,並將它儲存在兩者的數據目錄中:
- 數據源掃描 - 掃描的元數據會新增至 Microsoft Purview 資料對應。
- 譜系連線 - 轉換資源會將有關其來源、輸出和活動的元數據新增至 Microsoft Purview 資料對應。
掃描
在您的 Microsoft Purview 帳戶中 註冊 數據源之後,下一個步驟是掃描數據源。 掃描程式會建立與數據源的連線,並擷取技術元數據,例如名稱、檔案大小、數據行等等。 它也會擷取結構化數據源的架構、在架構上套用分類,並在您的 Microsoft Purview 資料對應 連線到 Microsoft Purview 合規性入口網站 時套用敏感度標籤。 掃描程式可以觸發為立即執行,或是排程定期執行,以將Microsoft Purview 帳戶保持在最新狀態。
針對每個掃描,您可以套用自定義專案,讓您只掃描所需的資訊,而不是整個來源。
選擇掃描的驗證方法
Microsoft Purview 預設為安全。 Microsoft Purview 中不會直接儲存任何密碼或秘密,因此您必須為您的來源選擇驗證方法。 有數種可能的方式可以驗證您的 Microsoft Purview 帳戶,但並非每個數據源都支援所有方法。
- 受控識別
- 服務主體
- SQL 驗證
- Windows 驗證
- 角色 ARN
- 委派的驗證
- 取用者金鑰
- 帳戶金鑰或基本身份驗證
可能的話,受控識別是慣用的驗證方法,因為它不需要儲存和管理個別數據源的認證。 這可大幅減少您和您的小組在設定掃描驗證和疑難解答時所花費的時間。 當您為 Microsoft Purview 帳戶啟用受控識別時,會在 Microsoft Entra ID 中建立身分識別,並系結至您帳戶的生命週期。
設定掃描範圍
掃描來源時,您可以選擇掃描整個數據源,或只選擇要掃描的資料夾/資料表 (特定實體) 。 可用的選項取決於您正在掃描的來源,而且可以定義為一次性和排程掃描。
例如,建立及執行 Azure SQL 資料庫的掃描時,您可以選擇要掃描的數據表,或選取整個資料庫。
針對資料夾/資料表) (每個實體,都會有三種選取狀態:完整選取、部分選取和未選取。 在下列範例中,如果您在資料夾階層上選取 [部門 1],則會將 “Department 1” 視為完整選取。 “Company” 和 “example” 等 “Department 1” 的父實體會被視為部分選取,因為同一父系下有其他尚未選取的實體,例如 “Department 2”。 對於具有不同選取狀態的實體,UI 上會使用不同的圖示。
執行掃描之後,來源系統中可能會新增新的資產。 根據預設,當您再次執行掃描時,如果完整或部分選取父系,則會自動選取特定父系下的未來資產。 在上述範例中,當您選取 [部門 1] 並執行掃描之後,當您再次執行掃描時,資料夾 「Department 1」 或 「Company」 和 “example” 下的任何新資產都會包含在內。
系統會為用戶導入切換按鈕,以控制部分選取父項下新資產的自動包含。 根據預設,切換將會關閉,並停用部分選取之父系的自動包含行為。 在關閉切換的相同範例中,當您再次執行掃描時,不會包含部分選取之父系下的任何新資產,例如 “Company” 和 “example”,未來掃描中只會包含 “Department 1” 下的新資產。
如果開啟切換按鈕,當您再次執行掃描時,如果父系已完整或部分選取,則會自動選取特定父系下的新資產。 包含行為會與引進切換按鈕之前的行為相同。
注意事項
- 切換按鈕的可用性取決於數據來源類型。 目前可在公開預覽版中取得來源,包括 Azure Blob 儲存體、Azure Data Lake Storage Gen 1、Azure Data Lake Storage Gen 2、Azure 檔案儲存體 和 Azure 專用 SQL 集區, (先前稱為 SQL DW) 。
- 對於在導入切換按鈕之前建立或排程的任何掃描,切換狀態會設定為開啟且無法變更。 對於在導入切換按鈕之後建立或排程的任何掃描,在儲存掃描之後無法變更切換狀態。 您需要建立新的掃描來變更切換狀態。
- 當切換按鈕關閉時,針對記憶體類型的來源,例如 Azure Data Lake Storage Gen 2,最多可能需要 4 小時的時間,才能在掃描工作完成之後,依來源類型體驗進行流覽。
已知限制
關閉切換按鈕時:
- 將不會掃描部分選取父系下的檔案實體。
- 如果明確選取父系下的所有現有實體,則父系會被視為完整選取,而且當您再次執行掃描時,父系下的任何新資產都會包含在內。
自訂掃描層級
在 Microsoft Purview 資料對應 術語中,根據元數據範圍和功能,有三種不同層級的掃描:
- L1 掃描:擷取基本資訊和元數據,例如檔名、大小和完整名稱
- L2 掃描:擷取結構化檔類型和資料庫數據表的架構
- L3 掃描:在適用的情況下擷取架構,並將取樣的檔案主體化為系統和自定義分類規則
當您設定新的掃描或編輯現有的掃描時,您可以自訂掃描層級,以掃描已支援掃描層級設定的數據源。
根據預設,將會選取 [自動偵測],這表示 Microsoft Purview 會套用此數據源可用的最高掃描層級。 以 Azure SQL Database 為例,當掃描執行時,會將「自動偵測」解析為「層級 3」,因為數據源已在 Microsoft Purview 中支持分類。 掃描執行詳細數據中的掃描層級會顯示套用的實際層級。
針對在導入新功能時自定義掃描層級之前完成的掃描歷程記錄中的所有掃描執行,預設會設定掃描層級並顯示為「自動偵測」。
- 當數據源可以使用較高的掃描層級時,將掃描層級設定為「自動偵測」的已儲存或排程掃描將會自動套用新的掃描層級。 例如,如果已針對指定的數據源啟用分類為新功能,則此數據源上的所有現有掃描都會自動套用分類。
- 掃描層級設定會顯示在每次掃描執行的掃描監視介面中。
- 如果選取 [層級 1],掃描只會根據特定數據源的現有元數據可用性,傳回基本的技術元數據,例如資產名稱、資產大小、修改過的時間戳等。 針對 Azure SQL Database,數據表之類的資產實體會在 Microsoft Purview 資料對應 中建立,但不會擷取數據表架構。 (注意:如果使用者在來源系統) 中具有 必要的 許可權,仍可透過即時檢視查看數據表架構。
- 如果選取 [層級 2],掃描會傳回數據表架構和基本技術元數據,但不會執行數據取樣和分類。 針對 Azure SQL 資料庫,數據表資產實體會擷取數據表架構,而不需要分類資訊。)
- 如果選取 [層級 3],掃描將會執行數據取樣和分類。 這是在導入新功能時掃描層級之前,Azure SQL 資料庫掃描的標準設定。
- 如果排程掃描設定為較低的掃描層級,且稍後修改為較高的掃描層級,則下一次掃描執行會自動執行完整掃描,而且來自數據源的所有現有數據資產都會使用較高的掃描層級設定所導入的元數據來更新。 例如,當 Azure SQL 資料庫上具有 「Level-2」 的排程掃描集變更為 「Level-3」 時,下一次掃描執行將會是完整掃描,而且所有現有的 Azure SQL 資料庫數據表/檢視資產都會以分類資訊更新,之後所有的掃描都會繼續做為以 “Level-3” 設定的增量掃描。
- 如果排程掃描設定為較高的掃描層級,且稍後修改為較低的掃描層級,下一次掃描執行會繼續執行增量掃描,而且數據源中的所有新數據資產只會有較低掃描層級設定所導入的元數據。 例如,當 Azure SQL 資料庫上具有 「Level-3」 的排程掃描集變更為 「Level-2」 時,下一次掃描執行將會是增量掃描,而在 Microsoft Purview 資料對應 中新增的所有新 Azure SQL 資料庫數據表/檢視資產都不會有任何分類資訊。 所有現有的數據資產仍會保留從上一個掃描集產生的分類資訊與「層級 3」。
注意事項
- 自訂掃描層級目前適用於下列數據源:Azure SQL Database、Azure SQL 受控執行個體、適用於 NoSQL 的 Azure Cosmos DB、適用於 PostgreSQL 的 Azure 資料庫、適用於 MySQL 的 Azure 資料庫、Azure Data Lake Storage Gen2、Azure Blob 儲存體、Azure 檔案儲存體、Azure Synapse Analytics、Azure 專用 SQL 集區 (先前稱為 SQL DW) 、Azure Data Explorer、Dataverse、Azure Multiple (Azure 訂用帳戶) 、Azure 多個 (Azure 資源群組) 、Snowflake、Azure Databricks Unity 目錄
- 此功能目前僅適用於 Azure IR 和 受控 VNet IR v2。
掃描規則集
掃描規則集會決定掃描在針對其中一個來源執行時會尋找的信息類型。 可用的規則取決於您要掃描的來源類型,但包含您應該掃描 的檔類型 ,以及您需要 的分類 類型等專案。
系統 掃描規則集 已經可供許多數據源類型使用,但您也可以 建立自己的掃描規則集 ,為您的組織量身打造掃描。
排程掃描
Microsoft Purview 可讓您選擇在您選擇的特定時間每天、每周或每月掃描。 深入了解支援的 排程選項。 每日或每周掃描可能適用於具有正在開發或經常變更之結構的數據源。 每月掃描更適合不常變更的數據源。 最佳做法是與您想要掃描的來源系統管理員合作,以識別來源的計算需求不足的時間。
掃描如何偵測已刪除的資產
Microsoft Purview 目錄只會在執行掃描時知道數據存放區的狀態。 若要讓目錄知道是否已刪除檔案、數據表或容器,它會比較上次掃描輸出與目前的掃描輸出。 例如,假設您上次掃描 Azure Data Lake Storage Gen2 帳戶時,其中包含名為folder1的資料夾。 再次掃描相同的帳戶時, folder1 會遺失。 因此,目錄假設資料夾已刪除。
提示
由於偵測到已刪除檔案的方式,可能需要多次成功的掃描來偵測和解析已刪除的資產。 如果您的資料目錄未註冊範圍掃描的刪除,請嘗試多次完整掃描來解決問題。
偵測已刪除的檔案
偵測遺漏檔案的邏輯適用於相同使用者和不同使用者的多次掃描。 例如,假設使用者在資料夾 A、B 和 C 的 Data Lake Storage Gen2 資料存放區上執行一次性掃描。稍後,相同帳戶中的不同使用者會對相同數據存放區的資料夾 C、D 和 E 執行不同的一次性掃描。 因為資料夾 C 已掃描兩次,所以目錄會檢查是否有可能的刪除。 不過,資料夾 A、B、D 和 E 只會掃描一次,而且目錄不會檢查它們是否有已刪除的資產。
若要將已刪除的檔案保留在目錄外,請務必執行一般掃描。 掃描間隔很重要,因為在執行另一個掃描之前,目錄無法偵測到已刪除的資產。 因此,如果您每月在特定存放區上執行掃描一次,則在您於一個月後執行下一次掃描之前,目錄將無法偵測該存放區中任何已刪除的數據資產。
當您列舉大型數據存放區,例如 Data Lake Storage Gen2 時,有多種方式 (包括列舉錯誤和捨棄的事件) 遺漏資訊。 特定掃描可能會遺漏已建立或刪除檔案。 因此,除非目錄確定已刪除檔案,否則不會從目錄中刪除檔案。 此策略表示當掃描的數據存放區中不存在的檔案仍存在於目錄中時,可能會發生錯誤。 在某些情況下,數據存放區可能需要掃描兩或三次,才能攔截特定已刪除的資產。
注意事項
- 標示要刪除的資產會在掃描成功之後刪除。 在處理和移除已刪除的資產之前,已刪除的資產可能會在目錄中持續顯示一段時間。
- 目前,下列來源不支援來源刪除偵測:Azure Databricks、 Amazon Redshift、Cassandra、Dataverse、Db2、Erwin、Google BigQuery、Hive 中繼存放區、Looker、MongoDB、MySQL、Oracle、PostgreSQL、Power BI、Qlik Sense、Salesforce、SAP BW、SAP ECC、SAP HANA、SAP S/4HANA、Snowflake、Tableau 和 Teradata。 從數據源刪除物件時,後續掃描不會自動移除 purview 中Microsoft對應的資產。
攝入
擷取是負責填入數據對應的程式,其中包含透過其各種進程收集的元數據。
從掃描擷取
掃描程式所識別的技術元數據或分類接著會傳送至擷取。 擷取會分析掃描的輸入、 套用資源集模式、填入可用的 譜系 資訊,然後自動載入數據對應。 只有在擷取完成之後,才能探索或策劃資產/架構。 因此,如果您的掃描已完成,但您尚未在數據對應或目錄中看到資產,則必須等候擷取程式完成。
從譜系連線擷取
Azure Data Factory和 Azure Synapse 等資源可以連線到 Microsoft Purview,以將數據源和歷程資訊帶入您的 Microsoft Purview 資料對應。 例如,當複製管線在已連線至 Microsoft Purview 的 Azure Data Factory 中執行時,輸入來源、活動和輸出來源的相關元數據會內嵌在 Microsoft Purview 中,並將資訊新增至數據對應。
如果已經透過掃描將數據源新增至數據對應,活動相關譜系資訊將會新增至現有的來源。 如果數據源尚未新增至數據對應,譜系擷取程式會使用其譜系資訊將其新增至根集合。
如需可用譜系連線的詳細資訊,請參閱 譜系使用者指南。
後續步驟
如需詳細資訊,或如需掃描來源的特定指示,請遵循下列連結。
- 若要瞭解資源集,請參閱我們的 資源集一文。
- 如何管理 Azure SQL 資料庫
- Microsoft Purview 中的譜系