使用 Power BI 分析資料

已完成

分析資料是關於研究資料的細微之處:判斷異常、檢查及開發基礎資料結構,以及查詢資料的統計資料,例如資料列計數、值分佈、最小和最大值、平均值等。 這個概念很重要,因為其可供建立資料圖形和組織資料,使得與資料互動及識別資料分佈不那麼複雜,因此有助於工作,讓您幾乎不用費力就能在前端使用資料開發報表項目。

假設您正在開發組織的銷售小組報表。 因為不確定資料在資料表中的結構及包含方式,所以想要在正式開發視覺效果之前先分析資料。  Power BI 的固有功能可讓這些工作變得直接,且方便使用者執行。

檢查資料結構

開始使用 Power Query 編輯器檢查資料之前,建議先了解組織資料所用的基礎資料結構。 您可以在 Power BI Desktop 上的 [模型] 索引標籤底下檢視目前的語意模型。

在 [模型] 索引標籤上,您可以選取資料表或數據行來編輯特定數據行和資料表屬性,而且您可以使用 [轉換數據] 按鈕來轉換數據,以帶您 Power Query 編輯器。 此外,您可以使用位於功能區上的 管理關聯性 來管理、建立、編輯和刪除不同數據表之間的關聯性。

尋找資料異常和資料統計資料

在建立與資料來源的連線,並選取 [轉換資料] 之後,即會進入 Power Query 編輯器,在此判斷資料中是否存在異常。 資料異常是資料中的極端值。 判斷這些異常為何可協助識別資料應有的常態分佈,以及是否有需要進一步調查的特定資料點。 Power Query 編輯器 使用數據行散發功能來判斷數據異常。

選取功能區上的 [ 檢視 ],然後在 [ 數據預覽] 底下,您可以選擇幾個選項。 若要了解數據異常和統計數據,請選取 [數據行 散發]、[ 數據行品質] 和 [ 數據行配置檔] 選項。 下圖為顯示的統計資料。

數據行質量和數據行分佈會顯示在數據行上方的圖表中。 數據行質量 會顯示有效、錯誤和空白的數據百分比。 在理想的情況下,您會想要 100% 皆為有效的資料。

注意

根據預設,Power Query 會檢查資料集的前 1000 個資料列。 若要變更此設定,請選取狀態列中的分析狀態,然後選取 [根據整個資料集進行的資料行分析]。 ]

[資料行散發] 顯示資料行內的資料分佈,以及相異和唯一值的計數,這兩者都可告知資料計數的詳細資訊。 重複資料僅顯示一筆,是資料行中包括重複項目和 null 值在內的所有不同值,但唯一值不包括重複項目或 null 值。 因此,此數據表中的 相異 會告訴您有多少值存在的總計數,而 一會告訴您這些值有多少只顯示一次。

數據行配置檔 可讓您更深入地查看前 1,000 個數據列的數據行內統計數據。 此資料行提供數個不同的值,包括在驗證匯入資料是否成功時很重要的資料列計數。 例如,如果原始資料庫有 100 筆資料列,則可使用此資料列計數來驗證 100 筆資料列是否已實際正確匯入。 此外,此資料列計數也會顯示有多少資料列被 Power BI 視為極端值、空的資料列和字串,以及上下限,這會分別告知資料行中的最小值和最大值。 在數值數據的情況下,這項區別特別重要,因為如果您有超出您企業識別為「最大值」的最大值,就會立即通知您。此值會呼叫您的注意這些值,這表示您接著可以在深入探討數據時專注於您的工作。 如前圖所見,如果是文字資料行的資料,則按字母序排列時,第一個值是最小值,最後一個值是最大值。

此外, [值分布 圖] 會告訴您該特定數據行中每個相異值的計數。 在上圖中查看圖表時,請注意,值分佈指出 「Anthony Gross」 在 SalesPerson 數據行內顯示最大次數,而 “Lily Code” 會顯示最少的次數。 這項資訊特別重要,因為其能識別極端值。 如果資料行中某個值出現的次數遠超過其他值,則 [值散發] 功能可供找出開始調查這種情況的位置。

在數值數據行上, 數據行統計數據 也會包含有多少零和 Null 值,以及數據行中的平均值、數據行中值的標準偏差,以及數據行中有多少偶數和奇數值。 這些統計資料可供了解資料行內的資料分佈,之所以重要是因為其能摘要資料行中資料來作為判斷極端值為何的起點。

例如,在查看發票數據時,您會注意到 [值] 分布 圖顯示 SalesPerson 數據行中的幾個銷售人員在數據內顯示相同的次數。 此外,您也會注意到 在 Profit 數據行和其他幾個數據表中發生相同的情況。 在調查期間,您發現自己使用的是不正確資料,且必須加以重新整理,所以您便立即完成重新整理。 未檢視此圖形時,您可能不會這麼快發現此錯誤,因此,值分佈十分重要。

在您完成 Power Query 編輯器 中的編輯,並準備好開始建置視覺效果之後,請返回 Power Query 編輯器 功能區上的 [首頁]。 選取 [關閉 & 套用],這會傳回您 Power BI Desktop,而且也會套用任何數據行編輯/轉換。

您現在已決定在Power BI 中組成分析資料的元素,其中包括在Power BI 中載入資料、詢問資料行屬性,以清楚了解數據行中數據的類型和格式、尋找數據異常,以及在 Power Query 編輯器 中檢視數據統計數據。 具備這項知識,即可在工具組中納入有效率且有效地研究資料的能力。