共用方式為


Microsoft Purview 掃描最佳做法

Microsoft Purview 治理解決方案 支援自動掃描內部部署、多重雲端和軟體即服務, (SaaS) 資料來源。

執行 掃描 會叫用從已註冊資料來源擷取中繼資料的程式。 掃描和策劃程式結束時所策劃的中繼資料包含技術中繼資料。 此中繼資料可以包含資料資產名稱,例如資料表名稱或檔案名、檔案大小、資料行和資料譜系。 也會擷取結構化資料來源的架構詳細資料。 關係資料庫管理系統是這種來源類型的範例。

游標程式會根據所設定的掃描規則集,在架構屬性上套用自動化分類標籤。 如果您的 Microsoft Purview 帳戶已連線到Microsoft Purview 合規性入口網站,則會套用敏感度標籤。

重要事項

如果您有任何 Azure 原則 阻止 更新儲存體帳戶,這會導致 Microsoft Purview 掃描程式發生錯誤。 請遵循 Microsoft Purview 例外狀況標籤指南 ,為 Microsoft Purview 帳戶建立例外狀況。

為什麼您需要最佳做法來管理資料來源?

最佳做法可讓您:

  • 優化成本。
  • 打造卓越營運。
  • 改善安全性合規性。
  • 提升效能效率。

註冊來源並建立連線

下列設計考慮和建議可協助您註冊來源並建立連線。

設計考量

  • 使用集合來建立符合組織策略的階層,例如地理、商務功能或資料來源。 階層會定義要註冊和掃描的資料來源。
  • 根據設計,您無法在相同的 Microsoft Purview 帳戶中多次註冊資料來源。 此架構有助於避免將不同存取控制指派給相同資料來源的風險。

設計建議

  • 如果多個小組使用相同資料來源的中繼資料,您可以在父集合註冊和管理資料來源。 然後,您可以在每個子集合下建立對應的掃描。 如此一來,相關資產就會出現在每個子集合之下。 沒有父代的來源會分組在地圖檢視中的虛線方塊中。 沒有箭頭可將它們連結至父系。

    顯示 Microsoft Purview 的螢幕擷取畫面,其中已在父集合註冊資料來源。

  • 如果您需要在雲端中註冊多個來源,例如 Azure 訂用帳戶或資源群組,請使用 [Azure 多 重] 選項。 如需詳細資訊,請參閱下列檔:

  • 註冊資料來源之後,您可能會掃描相同的來源多次,以防各種小組或業務單位以不同方式使用相同的來源。

如需如何定義用來註冊資料來源之階層的詳細資訊,請參閱 集合架構的最佳做法

掃描

下列設計考慮和建議是根據掃描程式中所涉及的重要步驟來組織。

設計考量

  • 註冊資料來源之後,請設定掃描來管理自動化且安全的中繼資料掃描和策劃。
  • 掃描設定包括設定掃描的名稱、掃描範圍、整合執行時間、掃描觸發程式頻率、掃描規則集,以及每個掃描頻率之每個資料來源的唯一資源集。
  • 建立任何認證之前,請考慮您的資料來源類型和網路需求。 此資訊可協助您決定案例所需的驗證方法和整合執行時間。

設計建議

在相關 集合中註冊來源之後,請規劃並遵循您設定掃描時顯示的順序。 此程式順序可協助您避免非預期的成本和重構。

顯示準備掃描時所要遵循順序的螢幕擷取畫面。

  1. 從系統內建的分類規則識別您的分類需求。 或者,您可以視需要建立特定的自訂分類規則。 以特定產業、商務或地區需求為基礎,這些需求並非現可用的:

  2. 設定掃描之前,請先建立掃描規則集。

    顯示 [資料對應] 底下 [掃描規則集] 的螢幕擷取畫面。

    當您建立掃描規則集時,請確定下列幾點:

    • 確認系統預設掃描規則集是否足以掃描資料來源。 否則,請定義您的自訂掃描規則集。

    • 自訂掃描規則集可以同時包含系統預設值和自訂,因此請清除與所掃描資料資產無關的選項。

    • 必要時,請建立自訂規則集來排除不必要的分類標籤。 例如,系統規則集包含行星的一般政府程式碼模式,而不只是美國。 您的資料可能符合某些其他類型的模式,例如「比利時駕照號碼」。

    • 將自訂分類規則限制為 最重要相關的 標籤,以避免雜亂。 您不想要將太多標籤標記至資產。

    • 如果您修改自訂分類或掃描規則集,則會觸發完整掃描。 適當地設定分類和掃描規則集,以避免重構和昂貴的完整掃描。

      此螢幕擷取畫面顯示當您建立自訂掃描規則集時選取相關分類規則的選項。

      注意事項

      當您掃描儲存體帳戶時,Microsoft Purview 會使用一組定義的模式來判斷一組資產是否構成資源集。 您可以使用資源集模式規則來自訂或覆寫 Microsoft Purview 偵測哪些資產群組為資源集的方式。 這些規則也會決定資產在目錄內的顯示方式。 如需詳細資訊,請 參閱建立資源集模式規則。 這項功能有成本考慮。 如需詳細資訊,請參閱 定價頁面

  3. 設定已註冊資料來源的掃描。

    • 掃描名稱:根據預設,Microsoft Purview 會使用命名慣例 SCAN-[A-Z][a-z][a-z],這在您嘗試識別已執行的掃描時沒有説明。 請務必使用有意義的命名慣例。 例如,您可以將掃描 environment-source-frequency-time 命名為 DEVODS-Daily-0200。 此名稱代表每天 0200 小時的掃描。

    • 驗證:Microsoft Purview 提供各種驗證方法來掃描資料來源,視來源類型而定。 它可以是 Azure 雲端或內部部署或協力廠商來源。 依照此喜好設定順序,遵循驗證方法的最低許可權原則:

      • Microsoft Purview MSI - 受控服務識別 (例如,Azure Data Lake Storage Gen2來源)
      • 使用者指派的受控識別
      • 服務主體
      • 例如,內部部署或Azure SQL來源的 SQL 驗證 ()
      • 例如,SAP S/4HANA 來源的帳戶金鑰或基本驗證 ()

      如需詳細資訊,請參閱 管理認證的操作指南。

      注意事項

      如果您已啟用儲存體帳戶的防火牆,則必須在設定掃描時使用受控識別驗證方法。 當您設定新的認證時,認證名稱只能包含 字母、數位、底線和連字號

    • 整合執行時間

      • 如需詳細資訊,請參閱 網路架構最佳做法
      • 如果刪除自我裝載整合執行時間 (SHIR) ,任何依賴 SHIR 的持續掃描都會失敗。
      • 當您使用 SHIR 時,請確定記憶體已足夠掃描資料來源。 例如,當您使用 SHIR 掃描 SAP 來源時,如果您看到「記憶體不足錯誤」:
        • 確定 SHIR 機器有足夠的記憶體。 建議的金額為 128 GB。
        • 在掃描設定中,將可用的最大記憶體設定為一些適當的值,例如 100。
        • 如需詳細資訊,請參閱 掃描及管理 SAP ECC Microsoft Purview中的必要條件。
    • 範圍掃描

      • 當您設定掃描的範圍時,請只選取與細微層級或父層級相關的資產。 此做法可確保掃描成本是最佳的,而且效能是有效率的。 如果父系已完整或部分檢查,則會自動選取特定父系下的所有未來資產。

      • 某些資料來源的一些範例:

        • 針對Azure SQL資料庫或Data Lake Storage Gen2,您可以將掃描範圍設定為數據源的特定部分。 選取清單中的適當專案,例如資料夾、子資料夾、集合或架構。
        • 對於 Oracle、Hive 中繼存放區資料庫和 Teradata 來源,可以使用 SQL LIKE 運算式,透過分號分隔值或架構名稱模式來指定要匯出的特定架構清單。
        • 針對 Google Big 查詢,可以透過分號分隔值來指定要匯出的特定資料集清單。
        • 當您建立整個 AWS 帳戶的掃描時,您可以選取要掃描的特定貯體。 當您建立特定 AWS S3 貯體的掃描時,您可以選取要掃描的特定資料夾。
        • 針對 Erwin,您可以提供以分號分隔的 Erwin 模型定位器字串清單來設定掃描範圍。
        • 針對 Cassandra,可以使用 SQL LIKE 運算式,透過分號分隔值或透過索引鍵空間名稱模式來指定要匯出的特定索引鍵空間清單。
        • 針對 Looker,您可以提供以分號分隔的 Looker 專案清單來設定掃描範圍。
        • 針對 Power BI 租使用者,您可能只指定是否要包含或排除個人工作區。

        顯示設定掃描時設定掃描範圍選項的螢幕擷取畫面。

      • 一般而言,根據萬用字元 (,使用支援它們的「忽略模式」,例如,針對 data Lake) 排除暫存、設定檔、RDBMS 系統資料表,或備份或 STG 資料表。

      • 當您掃描檔或非結構化資料時,請避免掃描大量這類檔。 掃描會處理這類檔的前 20 MB,而且可能會導致較長的掃描持續時間。

    • 掃描規則集

      • 當您選取掃描規則集時,請務必設定稍早建立的相關系統或自訂掃描規則集。
      • 您可以建立自訂檔案類型,並據此填入詳細資料。 目前,Microsoft Purview 僅支援自訂分隔符號中的一個字元。 如果您在實際資料中使用自訂分隔符號,例如 ~,則需要建立新的掃描規則集。

      顯示設定掃描時掃描規則集選取專案的螢幕擷取畫面。

    • 掃描類型和排程

      • 掃描程式可以設定為執行完整或增量掃描。
      • 在非商務或離峰時間執行掃描,以避免來源上有任何處理多載。
      • 從 開始週期 必須比 排程掃描時間少至少 1 分鐘,否則會在下次週期觸發掃描。
      • 初始掃描是完整掃描,而每個後續掃描都是累加式掃描。 後續掃描可以排程為定期增量掃描。
      • 掃描頻率應符合資料來源或商務需求的變更管理排程。 例如:
        • 如果來源結構可能每週變更,掃描頻率應該會同步。變更包括資產內新增、修改或刪除的新資產或欄位。
        • 如果分類或敏感度標籤預期每週是最新的,或許基於法規原因,掃描頻率應該是每週。 例如,如果每週在來源資料湖中新增分割區檔案,您可以排程每月掃描。 您不需要排程每週掃描,因為中繼資料沒有任何變更。 此建議假設沒有新的分類案例。
        • 當您排程要在建立掃描的同一天執行時,開始時間必須至少在掃描時間之前一分鐘。
        • 掃描可以執行的最大持續時間是七天,可能是因為記憶體問題。 此時間週期會排除擷取程式。 如果進度在七天后尚未更新,掃描會標示為失敗。 擷取 (到目錄) 程式目前沒有任何這類限制。
    • 取消掃描

      • 目前,只有在掃描狀態在觸發掃描之後從「已排入佇列」轉換成「進行中」狀態時,才能取消或暫停掃描。
      • 不支援取消個別的子掃描。

要注意的點

  • 如果在執行掃描之後從來源系統移除欄位或資料行、資料表或檔案,則只有在下次排程的完整或增量掃描之後,才會反映 (在 Microsoft Purview 中移除) 。
  • 您可以使用資產名稱下的 [刪除 ] 圖示,從 Microsoft Purview 目錄中刪除資產。 此動作不會移除來源中的 物件。 如果您在相同的來源上執行完整掃描,則會在目錄中重新擷取。 如果您已排程每週或每月掃描,而不是 (累加式) ,除非在來源修改物件,否則將不會挑選已刪除的資產。 例如,如果在資料表中加入或移除資料行。
  • 若要瞭解透過 Microsoft Purview 治理入口網站 手動 編輯資料資產或基礎架構之後,後續掃描的行為,請參閱 目錄資產詳細資料
  • 如需詳細資訊,請參閱 如何檢視、編輯和刪除資產的教學課程。

後續步驟

管理資料來源