共用方式為


檢閱資料資產的資料品質分數

建立資料品質規則執行資料品質掃描之後,您的資料資產會根據規則的結果來接收資料品質分數。 本文說明如何計算分數,以便您進一步瞭解資料品質結果,並制定行動項目來改善資料的完整性。

瞭解資料品質分數

資料品質規則描述資料的狀態。 它們顯示數據與規則描述的理想狀態相差多遠。 每個規則都會產生一個分數,描述資料與其所需狀態的接近程度。 大多數規則都很簡單;他們將通過評估的行總數除以行總數,得出分數。

用來針對直欄中資料計算規則的資料品質分數的公式為:

[(total number of passed records)/(passed records + failed records + miscast records + empty records)]

  • 分子 = 通過的記錄總數
  • 分母 = 記錄總數 (通過的記錄數 + 失敗的記錄數 + 錯誤轉換的記錄數 + 空記錄數)

注意事項

  • 已通過:通過已套用規則的記錄數。
  • 無法評估:評估此規則所需的資料行無法評估。
  • 失敗:未通過套用規則的記錄數。
  • 錯誤轉換:資產的資料型別,以及客戶將其列為不相符的型別。 它無法轉換為表達的類型。
  • 空白:空值或空白記錄。
  • 忽略:資料列未參與規則評估。 使用者可以表示要忽略的列;例如,忽略所有具有 email=“n/a” 的資料列,或忽略 departmentCode='test' 或 'internal' 的所有資料列。 忽略的記錄不會用於分數計算。

然後,Microsoft Purview 資料品質會藉由產生資料行分數來提供每個資料行狀態的意義。 此分數是該直欄上所有規則分數的平均值。 計算資料行分數之後,用來計算資料產品和治理網域的平均百分比資料品質分數的公式為:

[(Percentage 1 + Percentage 2) / (Sample size 1 + Sample size 2)] x 100

分數乘以 100 以使分數更具可讀性。

計算範例

假設有一個資料行沒有定義空白 /空白欄位 規則 。 這表示此資料行允許空值。 因此,在某些情況下,某些規則(例如唯一值規則)將過濾掉空值。

例如:如果資產在資料表中有 10,000 列,但 3,000 列為 Null,而 500 列不是唯一的,則分數會是: ((10000 - 3000 - 500)/(10000 - 3000) )* 100 = 93

評估資料及決定分數時,會忽略空值資料列。

特定規則分數

對於 自訂 規則,有一個類似於您可能看到的唯一值規則的功能。 但在此情況下,篩選器不是在 Null 上,而是在篩選運算式上。

有些規則 (例如 新鮮度 規則) 是通過或失敗,因此其分數為 0 或 100。 新鮮度規則會套用在資料資產層級,而不是在欄層級。

規則詳細資料和歷程記錄

您可以選取規則,以檢視規則分數的詳細資料和歷程記錄。 選取特定規則名稱並導覽至規則歷 記錄標籤,您會看到特定規則的不同掃描執行趨勢。

  • 規則 詳細資料 提供特定規則的各種執行所傳遞、失敗及忽略的資料列數目的相關資訊。 處於 草稿狀態 (關閉狀態) 的規則不會將其分數計入全域分數。 草稿狀態的規則在品質掃描期間根本不會執行,因此不會有分數。

    螢幕擷取畫面,顯示規則層級的資料品質分數。

  • 欄和規則具有多對多關係,相同的規則可以套用至許多欄,並且許多規則可以套用至相同的欄。 您可以前往資產資料品質頁面上的 結構描述 索引標籤,然後檢視 趨勢 欄中的線條,以檢視每個規則的趨勢模式。

  • 資產層級資料品質分數趨勢適用於過去 50 次執行。 此品質分數趨勢可協助資料品質管理員監控資料品質趨勢和逐月波動。 如果品質分數不符合臨界值或業務預期,資料品質也可以觸發每次資料品質掃描的 警示

  • 全域分數是資產上定義的生產規則的平均值。 資產層級全域分數也會彙總至資料產品層級和治理網域層級。 全域分數旨在作為資料品質背景下資料資產、資料產品和治理領域狀態的官方定義。

  • 此版本中使用的臨界值為預設值。 值和色彩無法編輯。 預設臨界值和顏色為:

    • 低 (紅) :0-40分
    • 中 (橙) :40-80分
    • 高 (果嶺) :80-100 分
  • 會針對資料品質維度建立摘要報表。 此報表包含每個資料品質維度的資料品質分數。 治理領域的全球分數也發佈在本報告中。 您可以從此 Power BI 報表瀏覽每個治理網域、資料產品和資料資產的品質分數。

    資料品質維度報表

注意事項

  • 資料品質維度是資料從業人員用來描述資料特徵的公認術語,可以根據定義的標準進行測量或評估,以量化用於營運業務的資料的品質等級。
  • 資產的資料品質分數是套用至其直欄之規則分數的算術平均值。
  • 資料產品的資料品質分數是與該資料產品相關聯之資料資產資料品質分數的算術平均值。
  • 治理網域的資料品質分數是與該網域相關聯之資料產品資料品質分數的算術平均值。

後續步驟