卓越中心的 BI 解決方案架構

本文以 IT 專業人員和 IT 管理員為目標。 您將瞭解 COE 中的 BI 解決方案架構,以及採用的不同技術。 技術包括 Azure、Power BI 和 Excel。 它們一起可用來提供可調整且數據驅動的雲端 BI 平臺。

設計健全的BI平臺有點像是建置橋樑;將已轉換和擴充源數據的網橋連接到數據取用者。 這種複雜結構的設計需要工程思維,不過它可以是您可以設計的最有創意且最有回報的 IT 架構之一。 在大型組織中,BI 解決方案架構可以包含:

  • 資料來源
  • 資料擷取
  • 巨量數據/數據準備
  • 資料倉儲
  • BI 語意模型
  • 報表

顯示 BI 平台架構圖表的圖表,從數據源到數據擷取、巨量數據、存放區、數據倉儲、BI 語意模型、報告和機器學習。

平台必須支援特定需求。 具體來說,它必須調整並執行,以符合商務服務和數據取用者的期望。 同時,它必須從頭開始安全。 而且,它必須有足夠的彈性來適應變化,因為它可以確定,在及時的新數據和主題領域必須上線。

架構

在 Microsoft,從一開始就,我們透過投資架構開發來採用類似系統的方法。 技術和商務程序架構可增加設計和邏輯的重複使用,並提供一致的結果。 它們也提供運用許多技術之架構的彈性,並透過可重複的程式簡化和減少工程負荷。

我們瞭解到,設計完善的架構可提升數據譜系、影響分析、商業規則維護、管理分類法,以及簡化治理的可見度。 此外,開發變得更快速,大型小組之間的共同作業變得更快速且更有效率。

我們將在本文中描述數個架構。

資料模型

數據模型可讓您控制數據的結構化和存取方式。 對商務服務和數據取用者,數據模型是其與 BI 平臺的介面。

BI 平臺可以提供三種不同類型的模型:

  • 企業模型
  • BI 語意模型
  • 機器學習 (ML) 模型

企業模型

企業模型 是由 IT 架構師所建置和維護。 它們有時稱為維度模型或數據超市。 一般而言,數據會以關係型格式儲存為維度和事實數據表。 這些數據表會儲存從許多系統合併的清理和擴充數據,並代表報告和分析的權威來源。

企業模型提供報表和BI的一致和單一數據源。 它們會建置一次,並共用為公司標準。 治理原則可確保數據安全,因此對敏感數據集的存取,例如客戶資訊或財務,會視需要限制。 它們採用可確保一致性的命名慣例,進而進一步建立數據和品質的信譽。

在雲端 BI 平臺中,企業模型可以部署到 Azure Synapse 中的 Synapse SQL 集區。 Synapse SQL 集區會變成組織可依賴的單一版本真相,以取得快速且健全的深入解析。

BI 語意模型

BI 語意模型 代表企業模型的語意層。 它們是由 BI 開發人員和商務使用者所建置和維護。 BI 開發人員會建立核心BI語意模型,以從企業模型源數據。 商務使用者可以建立規模較小的獨立模型,或者,他們可以使用部門或外部來源來擴充核心 BI 語意模型。 BI 語意模型通常著重於單一主題區域,而且通常會廣泛共用。

商務功能並非僅透過數據來啟用,而是透過描述概念、關聯性、規則和標準的 BI 語意模型來啟用。 如此一來,它們就代表直覺且容易理解的結構,這些結構會定義數據關聯性,並將商務規則封裝為計算。 他們也可以強制執行精細的數據許可權,確保適當的人員能夠存取正確的數據。 重要的是,它們可加速查詢效能,提供極其回應的互動式分析,即使是在數 TB 的數據上也一樣。 如同企業模型,BI 語意模型採用確保一致性的命名慣例。

在雲端 BI 平臺中,BI 開發人員可以將 BI 語意模型部署到 Azure Analysis ServicesPower BI 進階版Microsoft Fabric 容量的容量

重要

本文有時是指 Power BI 進階版 或其容量訂用帳戶(P SKU)。 請注意,Microsoft 目前正在合併購買選項,並淘汰每個容量 SKU 的 Power BI 進階版。 新的和現有的客戶應該考慮改為購買網狀架構容量訂用帳戶(F SKU)。

如需詳細資訊,請參閱 Power BI 進階版 授權Power BI 進階版 常見問題的重要更新。

當 Power BI 作為報表和分析層使用時,建議您部署至 Power BI。 這些產品支援不同的儲存模式,允許數據模型數據表快取其數據或使用 DirectQuery,這是將查詢傳遞至基礎數據源的技術。 當模型數據表代表大型數據磁碟區,或需要提供近乎實時的結果時,DirectQuery 是理想的儲存模式。 這兩種儲存模式可以結合: 複合模型 會結合在單一模型中使用不同儲存模式的數據表。

針對大量查詢的模型, Azure Load Balancer 可用來平均分散查詢負載到模型複本。 它也可讓您調整應用程式,並建立高可用性 BI 語意模型。

機器學習模型

機器學習 (ML) 模型是由數據科學家所建置和維護。 它們大多是從 Data Lake 中的原始來源開發。

定型的 ML 模型可以顯示數據內的模式。 在許多情況下,這些模式可用來進行可用於擴充數據的預測。 例如,購買行為可用來預測客戶流失或區隔客戶。 您可以將預測結果新增至企業模型,以允許客戶區隔的分析。

在雲端 BI 平臺中,您可以使用 Azure 機器學習 來定型、部署、自動化、管理和追蹤 ML 模型。

資料倉儲

坐在 BI 平臺的核心是裝載企業模型的數據倉儲。 它是獲批准的數據來源,作為記錄系統,以及作為中樞,為報告、BI 和數據科學的企業模型提供服務。

許多商務服務,包括企業營運 (LOB) 應用程式,都可以依賴數據倉儲作為企業知識的權威和控管來源。

在 Microsoft,我們的數據倉儲裝載在 Azure Data Lake 儲存體 Gen2 (ADLS Gen2) 和 Azure Synapse Analytics 上。

此圖顯示連線至 Azure Data Lake 儲存體 Gen2 的 Azure Synapse Analytics。

  • ADLS Gen2 Azure 儲存體 在 Azure 上建置企業數據湖的基礎。 其旨在服務數 PB 的資訊,同時維持數百 GB 的輸送量。 而且,它提供低成本的記憶體容量和交易。 更重要的是,它支援Hadoop相容存取,這可讓您管理及存取數據,就像使用Hadoop分散式文件系統 (HDFS) 一樣。 事實上, Azure HDInsightAzure Databricks 和 Azure Synapse Analytics 都可以存取儲存在 ADLS Gen2 中的數據。 因此,在 BI 平臺中,最好儲存原始源數據、半處理或暫存數據,以及生產就緒的數據。 我們會使用它來儲存所有商務數據。
  • Azure Synapse Analytics 是一項分析服務,可將企業數據倉儲和巨量數據分析整合在一起。 您可以自由使用無伺服器隨選資源或佈建資源,照自己的決定大規模查詢資料。 Synapse SQL 是 Azure Synapse Analytics 的元件,支援完整的 T-SQL 型分析,因此最好裝載包含維度和事實數據表的企業模型。 您可以使用簡單的 Polybase T-SQL 查詢,有效率地從 ADLS Gen2 載入數據表。 您接著擁有 MPP 執行高效能分析的強大功能

商務規則引擎架構

我們開發了 商務規則引擎 (BRE) 架構,以編錄可在數據倉儲層中實作的任何商業規則。 BRE 可能表示許多事項,但在數據倉儲的內容中,在關係型數據表中建立匯出數據行很有用。 這些計算結果列通常以數學計算或使用條件語句的表達式表示。

其目的是要從核心 BI 程式代碼分割商業規則。 傳統上,商務規則會硬式編碼成 SQL 預存程式,因此在商務需求變更時,通常會造成許多工作來維護它們。 在 BRE 中,商務規則會定義一次,並在套用至不同的數據倉儲實體時多次使用。 如果計算邏輯需要變更,它只需要在一個地方更新,而不是在許多預存程式中。 也有一個副作用:BRE 架構也會推動實作商業規則的透明度和可見度,這可以透過一組建立自我更新檔的報表來公開。

資料來源

數據倉儲幾乎可以合併任何數據源的數據。 它主要是透過 LOB 數據源所建置,這些數據源通常是關係資料庫,用來儲存銷售、行銷、財務等主體特定數據。這些資料庫可以是雲端裝載,也可以位於內部部署。 其他數據源可以是檔案型,特別是 Web 記錄或從裝置來源的 IOT 數據源。 更重要的是,數據可以從軟體即服務 (SaaS) 廠商取得。

在 Microsoft 中,我們的部分內部系統會使用原始檔格式將操作數據直接輸出至 ADLS Gen2。 除了我們的 Data Lake 之外,其他來源系統還包括關係型 LOB 應用程式、Excel 活頁簿、其他檔案型來源,以及 Master 資料管理 (MDM) 和自定義數據存放庫。 MDM 存放庫可讓我們管理主要數據,以確保權威、標準化和已驗證的數據版本。

資料擷取

根據企業的節奏定期擷取數據,數據會從來源系統擷取並載入至數據倉儲。 它可以是一天或更頻繁的間隔。 數據擷取與擷取、轉換及載入數據有關。 或者,也許另一種方式是:擷取、載入,然後轉換數據。 差異歸結於轉換發生的位置。 轉換會套用至清理、符合、整合及標準化數據。 如需詳細資訊,請參閱 擷取、轉換和載入 (ETL)

最後,目標是儘快且有效率地將正確的數據載入企業模型。

在 Microsoft 中,我們使用 Azure Data Factory (ADF)。 服務可用來排程及協調數據驗證、轉換,以及從外部來源系統大量載入數據湖。 它是由自定義架構所管理,以平行和大規模方式處理數據。 此外,會進行完整的記錄,以支援疑難解答、效能監視,以及在符合特定條件時觸發警示通知。

同時, Azure Databricks 是針對 Azure 雲端服務平台優化的 Apache Spark 型分析平臺,會特別針對數據科學執行轉換。 它也會使用 Python 筆記本來建置和執行 ML 模型。 這些 ML 模型的分數會載入資料倉儲,以整合預測與企業應用程式和報表。 由於 Azure Databricks 會直接存取 Data Lake 檔案,因此可消除或最小化複製或取得數據的需求。

此圖顯示 Azure Data Factory 透過 Azure Data Lake 儲存體 Gen2 使用 Azure Databricks 來協調數據管線。

擷取架構

我們開發 擷取架構 作為一組組組態數據表和程式。 它支援以高速且最少的程式代碼取得大量數據的數據驅動方法。 簡言之,此架構可簡化數據擷取程式以載入數據倉儲。

架構取決於儲存數據源和數據目的地相關信息的組態數據表,例如來源類型、伺服器、資料庫、架構和數據表相關詳細數據。 此設計方法表示我們不需要開發特定的ADF管線或 SQL Server Integration Services (SSIS) 套件。 相反地,程式會以我們所選擇的語言撰寫,以建立在運行時間動態產生和執行的 ADF 管線。 因此,數據擷取會變成容易運作的設定練習。 傳統上,它需要大量的開發資源,才能建立硬式編碼的ADF或SSIS套件。

擷取架構的設計也是為了簡化處理上游來源架構變更的程式。 當偵測到架構變更以取得來源系統中新增的屬性時,手動或自動更新組態數據很容易。

協調流程架構

我們開發了協調 流程架構 ,以運作及協調數據管線。 它會使用取決於一組態數據表的數據驅動設計。 這些數據表會儲存描述管線相依性的元數據,以及如何將源數據對應至目標數據結構。 此後,在開發這種調適型架構方面的投資已經為自己付出了代價:不再需要硬式編碼每個數據移動。

資料存放區

Data Lake 可以儲存大量的原始數據,以供稍後搭配暫存數據轉換使用。

在 Microsoft 中,我們使用 ADLS Gen2 作為單一事實來源。 它會將原始數據與預備數據和生產就緒的數據一起儲存。 它為巨量數據分析提供可高度擴充且符合成本效益的數據湖解決方案。 將高效能文件系統的強大功能與大規模結合,其已針對數據分析工作負載進行優化,可加速深入解析的時間。

ADLS Gen2 提供兩個世界的最佳功能:它是 BLOB 記憶體和高效能檔系統命名空間,我們會使用更細緻的訪問許可權進行設定。

然後,精簡的數據會儲存在關係資料庫中,以提供適用於企業模型的高效能、高度可調整數據存放區,並具有安全性、治理和管理性。 主體特定的數據超市會儲存在 Azure Synapse Analytics 中,由 Azure Databricks 或 Polybase T-SQL 查詢載入。

資料耗用量

在報告層,商務服務會取用來自數據倉儲的企業數據源。 它們也會直接在 Data Lake 中存取數據,以進行臨機操作分析或數據科學工作。

所有層級都會強制執行更細緻的許可權:在 Data Lake、企業模型和 BI 語意模型中。 許可權可確保數據取用者只能看到他們有權存取的數據。

在 Microsoft 中,我們使用 Power BI 報表和儀錶板,以及 Power BI 編頁報表。 某些報告和臨機操作分析是在 Excel 中完成的,特別是針對財務報告。

我們會發佈數據字典,以提供數據模型的相關參考資訊。 他們提供給我們的使用者,讓他們能夠探索 BI 平台的相關信息。 字典檔模型設計,提供有關實體、格式、結構、數據譜系、關聯性和計算的描述。 我們會使用 Azure 資料目錄,輕鬆地探索和了解我們的數據源。

一般而言,數據取用模式會根據角色而有所不同:

  • 數據分析師 會直接連線到核心 BI 語意模型。 當核心 BI 語意模型包含所需的所有數據和邏輯時,他們會使用即時連線來建立 Power BI 報表和儀錶板。 當他們需要使用部門數據擴充模型時,他們會建立 Power BI 複合模型。 如果需要電子表格樣式報表,他們會使用 Excel 根據核心 BI 語意模型或部門 BI 語意模型來產生報表。
  • BI 開發人員 和操作報表作者會直接連線到企業模型。 他們會使用Power BI Desktop來建立即時連線分析報告。 他們也可以撰寫作業類型 BI 報表做為 Power BI 編頁報表、撰寫原生 SQL 查詢,以使用 T-SQL 或使用 DAX 或 MDX 從 Azure Synapse Analytics 企業模型存取數據。
  • 數據科學家 會直接連接到 Data Lake 中的數據。 他們會使用 Azure Databricks 和 Python 筆記本來開發 ML 模型,這些模型通常是實驗性的,而且需要特殊技能才能用於生產環境。

顯示使用 Power BI、Excel 和 Azure 機器學習 的 Azure Synapse Analytics 的影像。

如需本文的詳細資訊,請參閱下列資源:

專業服務

認證 Power BI 合作夥伴可在設定 COE 時協助您的組織成功。 他們可以為您提供符合成本效益的訓練或數據的稽核。 若要與Power BI合作夥伴互動,請流覽 Power BI合作夥伴入口網站

您也可以與經驗豐富的諮詢合作夥伴互動。 它們可協助您 評估評估實作 Power BI。