本頁說明範例中使用的資料模型和考量事項,說明如何使用SQL或UI建立度量檢視。
範例資料集概觀
使用 SQL 建立和管理計量檢視和使用目錄總管 UI 建立計量檢視中提供的範例會使用 TPC-H 資料集,預設可在 Unity 目錄資料集中使用。
TPC-H 資料集是一個標準基準資料集,用於評估決策支援系統和查詢效能。 它模擬批發供應鏈業務,並圍繞訂單、客戶、供應商和零件等常見業務運營構建。 它代表了一個銷售和分銷環境,客戶可以訂購不同國家和地區的不同供應商提供的零件。
資料庫架構有 8 個資料表:
REGION及NATION:這些表格定義位置。CUSTOMER及SUPPLIER:這些表格描述商業實體。PART及PARTSUPP:這些表格會擷取產品資訊和供應商可用性。ORDERS及LINEITEM:這些表格代表交易,其中明細項目會詳細說明訂單中的產品。
TPC-H 資料集 ERD
下圖說明資料表之間的關聯性。
圖例:
- 每一個表格名稱後面的括號包含該表格的欄位名稱前綴。
- 箭頭指向資料表之間一對多關聯性的方向;
- 每個表格名稱下方的數字/公式代表表格的基數(列數)。 有些會由 SF (縮放因數) 分解,以取得所選的資料庫大小。 LINEITEM 表的基數是近似值(參見第 4.2.5 條)。
(資料來源: TPC Benchmark H 標準規範)
定義度量檢視
您可以使用 SQL DDL 或「型錄總管」UI 來定義度量檢視。 或者,Databricks Assistant 可協助您開始建立計量檢視。 然後,您可以編輯提供的 SQL DDL,或使用 UI 中的度量視圖編輯器來精簡建議的定義。
針對本節範例定義的度量視圖是為銷售或財務分析師所設計,以監視與公司訂單相關的關鍵績效指標 (KPI)。 它可以幫助回答以下問題:
- 隨著時間的推移,我們的總收入趨勢如何?
- 目前按狀態(未結、處理中、已履行)劃分的訂單明細是什麼?
- 哪些訂單優先順序產生最多的收入?
- 目前有多少收入處於「風險」或未償還(即來自未平倉訂單)?
- 獨立客戶產生的平均收入是多少?
下表說明必要的元件:
| 元件 | YAML 欄位/表達式 | 商業意義 |
|---|---|---|
| 來源資料表 | samples.tpch.orders |
包含客戶訂單記錄的原始資料。 |
| Filter | o_orderdate > '1990-01-01' |
僅關注 1990 年 1 月 1 日 之後 下的訂單的分析,可能不包括歷史或存檔數據。 |
| 維度:訂單月份 | (DATE_TRUNC('MONTH', o_orderdate)) |
啟用趨勢分析(逐月/逐年),追蹤效能如何隨時間變化。 |
| 維度:訂單狀態 |
CASE 將狀態轉譯為 Open、 Processing或 的陳述式 Fulfilled |
允許按生命週期階段進行細分,有助於履行和積壓管理。 |
| 維度:訂單優先順序 |
SPLIT 將訂單優先順序格式化為數字的陳述式 |
用於按訂單的戰略重要性或緊急性對績效進行分組。 |
| 量值:訂單計數 | COUNT(1) |
衡量批量銷售活動 |
| 衡量:總收入 | SUM(o_totalprice) |
所有訂單的總銷售額 |
| 衡量:每位客戶的總收入 | SUM(o_totalprice) / COUNT(DISTINCT o_custkey) |
用於評估客戶交易品質的客戶價值指標。 |
| 量值:未結訂單的總收入 | SUM(o_totalprice) FILTER (WHERE o_orderstatus='O') |
未實現收入的價值或當前的銷售積壓。 用於預測和風險評估。 |
詢問 Databricks Assistant
Databricks Assistant 可協助您開始定義計量檢視。
- 按一下
Databricks 工作區右上角的 [助理] 圖示以開啟助理。
- 輸入您要建立之度量檢視的說明。 助理會返回與您要求相符的 SQL DDL。
- 複製提供的 SQL 並將其貼到 SQL 編輯器中。 然後,按一下 [執行]。
- 編輯 SQL 或開啟度量檢視編輯器以進行調整。
建立新的指標視圖
使用下列其中一個範例來建立新的度量檢視: