Microsoft Purview 中的掃描和擷取

本文提供 Microsoft Purview 中掃描和擷取功能的概觀。 這些功能會將您的 Microsoft Purview 帳戶連線到您的來源,以填入資料對應和資料目錄,讓您可以開始透過 Microsoft Purview 探索和管理您的資料。

  • 掃描會資料來源擷取中繼資料 ,並將其帶入 Microsoft Purview。
  • 擷取會 處理中繼資料,並將它儲存在兩者的資料目錄中:
    • 資料來源掃描 - 掃描的中繼資料會新增至Microsoft Purview 資料對應。
    • 譜系連線 - 轉換資源會將有關其來源、輸出和活動的中繼資料新增至Microsoft Purview 資料對應。

掃描

在您的 Microsoft Purview 帳戶中 註冊 資料來源之後,下一個步驟是掃描資料來源。 掃描程式會建立與資料來源的連線,並擷取技術中繼資料,例如名稱、檔案大小、資料行等等。 它也會擷取結構化資料來源的架構、在架構上套用分類,並在您的Microsoft Purview 資料對應連線到Microsoft Purview 合規性入口網站時套用敏感度標籤。 掃描程式可以觸發為立即執行,也可以排程定期執行,讓您的 Microsoft Purview 帳戶保持在最新狀態。

針對每個掃描,您可以套用自訂專案,讓您只掃描所需的資訊,而不是整個來源。

選擇掃描的驗證方法

根據預設,Microsoft Purview 是安全的。 Microsoft Purview 中不會直接儲存任何密碼或秘密,因此您必須為您的來源選擇驗證方法。 有數種可能的方式可以驗證您的 Microsoft Purview 帳戶,但並非每個資料來源都支援所有方法。

  • 受控識別
  • 服務主體
  • SQL 驗證
  • Windows 驗證
  • 角色 ARN
  • 委派的驗證
  • 取用者金鑰
  • 帳戶金鑰或基本驗證

可能的話,受控識別是慣用的驗證方法,因為它不需要儲存和管理個別資料來源的認證。 這可大幅減少您和您的小組在設定掃描驗證和疑難排解時所花費的時間。 當您為 Microsoft Purview 帳戶啟用受控識別時,會在 Azure Active Directory 中建立身分識別,並系結至您帳戶的生命週期。

設定掃描範圍

掃描來源時,您可以選擇掃描整個資料來源,或只選擇要掃描的資料夾/資料表 (特定實體) 。 可用的選項取決於您正在掃描的來源,而且可以定義為一次性和排程掃描。

例如,建立和執行 Azure SQL 資料庫掃描時,您可以選擇要掃描的資料表,或選取整個資料庫。

針對資料夾/資料表) (每個實體,都會有三種選取狀態:完整選取、部分選取和未選取。 在下列範例中,如果您在資料夾階層上選取 [部門 1],則會將 「Department 1」 視為完整選取。 「公司」和「範例」等「部門 1」的父實體會被視為部分選取,因為同一父系下的其他實體尚未選取,例如「部門 2」。 對於具有不同選取狀態的實體,UI 上會使用不同的圖示。

顯示掃描頁面範圍的螢幕擷取畫面。

執行掃描之後,來源系統中可能會新增新的資產。 根據預設,當您再次執行掃描時,如果完整或部分選取父系,則會自動選取特定父系下的未來資產。 在上述範例中,當您選取 [部門 1] 並執行掃描之後,當您再次執行掃描時,資料夾 「Department 1」 或 「Company」 和 「example」 下的任何新資產都會包含在內。

系統會為使用者導入切換按鈕,以控制部分選取父項下新資產的自動包含。 根據預設,切換將會關閉,並停用部分選取之父系的自動包含行為。 在關閉切換的相同範例中,當您再次執行掃描時,不會包含部分選取之父系下的任何新資產,例如 「Company」 和 「example」,未來掃描中只會包含 「Department 1」 下的新資產。

顯示已關閉切換按鈕之掃描頁面範圍的螢幕擷取畫面。

如果開啟切換按鈕,當您再次執行掃描時,如果父系已完整或部分選取,則會自動選取特定父系下的新資產。 包含行為會與引進切換按鈕之前的行為相同。

顯示已開啟切換按鈕之掃描頁面範圍的螢幕擷取畫面。

注意事項

  • 切換按鈕的可用性取決於資料來源類型。 目前可在公開預覽版中取得來源,包括Azure Blob 儲存體、Azure Data Lake Storage Gen 1、Azure Data Lake Storage Gen 2、Azure 檔案儲存體 和 Azure 專用 SQL 集區, (先前稱為 SQL DW) 。
  • 對於在導入切換按鈕之前建立或排程的任何掃描,切換狀態會設定為開啟且無法變更。 對於在導入切換按鈕之後建立或排程的任何掃描,在儲存掃描之後無法變更切換狀態。 您需要建立新的掃描來變更切換狀態。
  • 當切換按鈕關閉時,針對儲存體類型的來源,例如 Azure Data Lake Storage Gen 2,最多可能需要 4 小時的時間,才能在掃描工作完成之後,依來源類型體驗進行流覽。

已知限制

關閉切換按鈕時:

  • 將不會掃描部分選取父系下的檔案實體。
  • 如果明確選取父系下的所有現有實體,則父系會被視為完整選取,而且當您再次執行掃描時,父系下的任何新資產都會包含在內。

掃描規則集

掃描規則集會決定掃描在針對其中一個來源執行時會尋找的資訊類型。 可用的規則取決於您要掃描的來源類型,但包含您應該掃描 的檔案類型 ,以及您需要 的分類 類型等專案。

系統 掃描規則集 已經可供許多資料來源類型使用,但您也可以 建立自己的掃描規則集 ,為您的組織量身打造掃描。

排程掃描

Microsoft Purview 可讓您選擇每週或每月在您選擇的特定時間掃描。 每週掃描可能適用于具有正在開發或經常變更之結構的資料來源。 每月掃描更適合不常變更的資料來源。 最佳做法是與您想要掃描的來源系統管理員合作,以識別來源的計算需求不足的時間。

掃描如何偵測已刪除的資產

Microsoft Purview 目錄只會在執行掃描時知道資料存放區的狀態。 若要讓目錄知道是否已刪除檔案、資料表或容器,它會比較上次掃描輸出與目前的掃描輸出。 例如,假設您上次掃描Azure Data Lake Storage Gen2帳戶時,其中包含名為folder1 的資料夾。 再次掃描相同的帳戶時, folder1 會遺失。 因此,目錄假設資料夾已刪除。

偵測已刪除的檔案

偵測遺漏檔案的邏輯適用于相同使用者和不同使用者的多次掃描。 例如,假設使用者在資料夾 A、B 和 C 的Data Lake Storage Gen2資料存放區上執行一次性掃描。稍後,相同帳戶中的不同使用者會對相同資料存放區的資料夾 C、D 和 E 執行不同的一次性掃描。 因為資料夾 C 已掃描兩次,所以目錄會檢查是否有可能的刪除。 不過,資料夾 A、B、D 和 E 只會掃描一次,而且目錄不會檢查它們是否有已刪除的資產。

若要將已刪除的檔案保留在目錄外,請務必執行一般掃描。 掃描間隔很重要,因為在執行另一個掃描之前,目錄無法偵測到已刪除的資產。 因此,如果您每月在特定存放區上執行掃描一次,則在您于一個月後執行下一次掃描之前,目錄將無法偵測該存放區中任何已刪除的資料資產。

當您列舉Data Lake Storage Gen2等大型資料存放區時,有多種方式 (包括列舉錯誤和捨棄事件) 遺漏資訊。 特定掃描可能會遺漏已建立或刪除檔案。 因此,除非目錄確定已刪除檔案,否則不會從目錄中刪除檔案。 此策略表示當掃描的資料存放區中不存在的檔案仍存在於目錄中時,可能會發生錯誤。 在某些情況下,資料存放區可能需要掃描兩或三次,才能攔截特定已刪除的資產。

注意事項

  • 標示要刪除的資產會在掃描成功之後刪除。 在處理和移除已刪除的資產之前,已刪除的資產可能會在目錄中持續顯示一段時間。
  • 目前,下列來源不支援來源刪除偵測:Azure Databricks、 Amazon Redshift、Cassandra、DB2、Erwin、Google BigQuery、Hive 中繼存放區、Looker、MongoDB、MySQL、Oracle、PostgreSQL、Salesforce、SAP BW、SAP ECC、SAP HANA、SAP S/4HANA、Snowflake 和 Teradata。 從資料來源刪除物件時,後續掃描不會自動移除 Microsoft Purview 中的對應資產。

攝入

擷取是負責填入資料對應的程式,其中包含透過其各種進程收集的中繼資料。

從掃描擷取

掃描程式所識別的技術中繼資料或分類接著會傳送至擷取。 擷取會分析掃描的輸入、 套用資源集模式、填入可用的 譜系 資訊,然後自動載入資料對應。 只有在擷取完成之後,才能探索或策劃資產/架構。 因此,如果您的掃描已完成,但您尚未在資料對應或目錄中看到資產,則必須等候擷取程式完成。

從譜系連線擷取

Azure Data FactoryAzure Synapse等資源可以連線到 Microsoft Purview,以將資料來源和歷程資訊帶入您的Microsoft Purview 資料對應。 例如,當複製管線在已連線到 Microsoft Purview 的Azure Data Factory中執行時,輸入來源、活動和輸出來源的相關中繼資料會內嵌在 Microsoft Purview 中,並將資訊新增至資料對應。

如果已經透過掃描將資料來源新增至資料對應,活動相關譜系資訊將會新增至現有的來源。 如果資料來源尚未新增至資料對應,譜系擷取程式會使用其譜系資訊將其新增至根集合。

如需可用譜系連線的詳細資訊,請參閱 譜系使用者指南

後續步驟

如需詳細資訊,或如需掃描來源的特定指示,請遵循下列連結。