這很重要
這項功能目前處於 公開預覽版。
本頁說明如何使用 Unity 目錄中的 Databricks 資料分類,自動分類和標記目錄中的敏感性資料。
數據目錄可以有大量數據,通常包含已知和未知的敏感數據。 數據小組必須瞭解每個數據表中存在的敏感數據種類,以便他們同時控管和將存取此數據民主化。
為了解決此問題,Databricks 資料分類會使用 AI 代理程式來自動分類和標記目錄中的資料表。 這可讓您探索敏感性資料,並使用 Unity 目錄屬性型存取控制 (ABAC) 等工具,對結果套用控管控制。 如需支援的標籤清單,請參閱 支援的分類標籤。
使用此功能,您可以:
- 分類資料:引擎使用代理程式 AI 系統自動分類和標記 Unity Catalog 中的任何資料表。
- 透過智慧型掃描優化成本:系統會利用 Unity 目錄和資料智慧引擎,智慧地判斷何時掃描您的資料。 這表示掃描是累加式的,而且已優化,以確保所有新數據都分類,而不需手動設定。
- 檢閱和保護敏感資料:結果顯示可協助您檢視分類結果,並透過標記和建立每個類別的存取控制原則來保護敏感資料。
需求
備註
資料分類是工作區層級的預覽功能,只能由工作區或帳戶管理員管理。如需指示,請參閱 管理 Azure Databricks 預覽。
這很重要
支援此功能的模型是使用 Mosaic AI 模型服務基礎模型 API 提供的。 如需詳細資訊,請參閱 適用的模型開發人員授權和條款 。
- 你的工作區必須有 無伺服器運算 (在 Unity Catalog 工作區預設已啟用)。
- 若要啟用資料分類,您必須擁有目錄,或在目錄上具有
USE CATALOG和MANAGE權限。 - 要啟用目錄自動標籤,您必須在目錄上具有
USE CATALOG,在目錄上具有APPLY TAG,以及在套用標籤上具有ASSIGN。 - 若要檢視結果表格,您必須具有下列權限:
USE CATALOG和USE SCHEMA以及SELECT。 請參閱 結果系統表格。
備註
預設情況下,只有帳號管理員擁有MANAGEASSIGN資料分類系統所管標籤的權限。 帳號管理員可以授權 MANAGE 及 ASSIGN 授予個別受控標籤給其他使用者、服務主體或群組。 請參閱 管理受控管標籤的許可權。
使用資料分類
若要在目錄上使用資料分類:
導覽至目錄,然後按一下 詳細資料 索引標籤。
點擊 [資料分類] 切換開關以啟用它。
啟用 資料分類 對話方塊隨即出現。 根據預設,會包含所有架構。 若要只包含部分結構描述,請在 要包含的結構描述 下拉式功能表中選取它們。
按一下 啟用。
這會建立背景作業,以累加方式掃描目錄中的所有數據表或選取的架構。
分類引擎依賴智慧型掃描來決定何時掃描資料表。 目錄中的新表格和資料行通常會在建立後 24 小時內進行掃描。
檢視分類結果
若要檢視分類結果,請按下切換開關旁的 [查看結果 ]。
結果頁面隨即開啟,其中顯示型錄中所有表格的分類結果。 若要選取不同的目錄,請使用頁面左上角的選取器。 需要無伺服器 SQL 倉儲,並顯示在頁面的右上方。
結果頁面會列出目錄中識別的任何分類標籤。 任何參考資料分類系統標籤 (class.xx) 的現有 ABAC 政策都會出現在表格中。
若要檢閱特定分類標籤的結果,請按一下對應列最右邊欄中的 檢閱 。
隨即出現一個面板,顯示資料分類已以高信賴度偵測到分類標籤的表格。 檢閱資料表、資料行和範例值。 只有在您有權存取結果表格時,才會顯示範例值。 請參閱 結果系統表格。
如果識別的欄符合您的預期,您可以為此目錄的分類標籤啟用自動標記。 啟用自動標記時,會標記此分類的所有現有和未來偵測。
要啟用自動標籤,請切換 自動標籤為...。你必須在目錄中擁有 USE CATALOG、APPLY TAG,以及在應用標籤時擁有 ASSIGN。 你之後可以用同樣的開關關閉自動標記。 當您停用標記時,不會套用未來的標籤,但不會移除現有的標籤。
備註
當您啟用自動標記時,標籤不會立即回填。 它們將在下一次掃描中填入,該掃描應在 24 小時內生效。 後續分類將立即被標記。
結果系統表格
資料分類會建立名為的 system.data_classification.results 系統表格,以儲存預設只有帳戶管理員才能存取的結果。帳戶管理員可以共用此表格。 只有在您使用無伺服器運算時,才能存取資料表。 如需此表格的詳細資訊,請參閱 資料分類系統表格參考。
這很重要
結果資料表 system.data_classification.results 包含整個中繼存放區的所有分類結果,並包含每個目錄中資料表的範例值。 您應該只與有權查看中繼存放區全分類結果的使用者共用此資料表,包括範例值。
檢視結果表格需要下列權限:USE CATALOG、USE SCHEMA,以及表格上的 SELECT。 具有 MANAGE 目錄或 SELECT 存取目錄的使用者可以在頁面中看到結果,但無法看到範例值。
根據資料分類結果設定控管控制
使用 ABAC 政策遮罩敏感資料
Databricks 建議使用 Unity 目錄屬性型存取控制 (ABAC) ,根據資料分類結果建立治理控制。
若要建立原則,請按一下 [新增原則]。 政策表單會預先填寫,以遮罩正在檢閱分類標籤的資料行。 若要遮罩資料,請指定在 Unity 目錄中註冊的任何遮罩函式,然後按一下 [儲存]。
您也可以將 [ 何時] 資料行 變更為 符合條件 並提供多個標籤,以建立涵蓋多個分類標籤的原則。
例如,若要建立名為「機密」的原則,以遮罩任何名稱、電子郵件或電話號碼,請將 符合條件 設定為 has_tag("class.name") OR has_tag("class.email_address") OR has_tag("class.phone_number")。
GDPR 發現和刪除
此範例筆記本顯示如何使用資料分類來協助資料探索和刪除,以符合 GDPR 規範。
藉由資料分類筆記本進行 GDPR 資料發現和刪除
如何處理不正確的標籤
如果資料標記不正確,您可以手動移除標籤。 未來掃描不會重新套用標籤。
若要使用UI移除標籤,請導覽至目錄總管中的表格,然後編輯欄標籤。
若要使用 SQL 移除標籤:
ALTER TABLE catalog.schema.table
ALTER COLUMN col
UNSET TAGS ('class.phone_number', 'class.us_ssn')
掃描錯誤
如果在掃描期間發生任何錯誤,則結果表格的右上角會出現錯誤 按鈕 。
按一下按鈕以顯示掃描失敗的表格和相關聯的錯誤訊息。
根據預設,會略過個別數據表發生的失敗,並在第二天重試。
檢視數據分類費用
若要瞭解資料分類的計費方式,請參閱 定價頁面。 您可以執行查詢或檢視使用量儀錶板,來檢視與數據分類相關的費用。
備註
初始掃描比相同目錄上的後續掃描成本更高,因為這些掃描是增量的,通常會產生較低的成本。
從系統數據表檢視使用量 system.billing.usage
您可以從 system.billing.usage中查詢資料分類費用。 可以選擇性地使用 created_by 欄位 和 catalog_id 來拆解成本:
-
created_by:包含來查看觸發使用的使用者的成本。 -
catalog_id:包含以依目錄查看成本。 目錄 ID 顯示於system.data_classification.results表格中。
過去 30 天的範例查詢:
SELECT
usage_date,
identity_metadata.created_by,
usage_metadata.catalog_id,
SUM(usage_quantity) AS dbus
FROM
system.billing.usage
WHERE
usage_date >= DATE_SUB(CURRENT_DATE(), 30)
AND billing_origin_product = 'DATA_CLASSIFICATION'
GROUP BY
usage_date,
created_by,
catalog_id
ORDER BY
usage_date DESC,
created_by;
要計算美元的總成本,請與 system.billing.list_prices 一起使用。 以下範例查詢使用 :add_on_rate 一個命名參數作為標價的乘數。 設定為 1 直接使用標價,或設定小於 1 以反映協商折扣的值(例如 0.9 ,10% 折扣)。
過去30天總金額查詢範例:
SELECT
u.usage_date,
SUM(u.usage_quantity * lp.pricing.effective_list.default) * :add_on_rate
AS `Data Classification Dollar Cost`
FROM system.billing.usage AS u
JOIN system.billing.list_prices AS lp
ON lp.sku_name = u.sku_name
WHERE
u.billing_origin_product = 'DATA_CLASSIFICATION'
AND u.usage_end_time >= lp.price_start_time
AND (lp.price_end_time IS NULL OR u.usage_end_time < lp.price_end_time)
AND u.usage_date >= DATE_ADD(CURRENT_DATE(), -30)
GROUP BY
u.usage_date
ORDER BY
u.usage_date DESC;
從使用量儀錶板檢視使用量
如果您已在工作區中設定使用量儀錶板,您可以選取標示為「數據分類」的計費來源項目來篩選使用量。 如果您沒有設定使用量儀錶板,您可以匯入一個儀錶板,並套用相同的篩選。 如需詳細資訊,請參閱 使用量儀錶板。
支援的分類標籤
如需依全域標籤、區域標籤及合規框架(PII、GDPR、HIPAA、DPDPA)組織的完整支援標籤清單,請參見 支援分類標籤。
局限性
- 不支持 視圖和度量視圖 。 如果檢視是以現有的數據表為基礎,Databricks 建議分類基礎表,以查看其是否包含敏感數據。