Azure 中的雲端規模分析數據產品
數據產品 是做為產品和計算、儲存及由 polyglot 持續性服務提供服務的數據,而某些使用案例可能需要這些數據。 建立及服務數據產品的程式可能需要數據登陸區域核心服務中未包含的服務和技術。 其中一個範例是向利基需求報告,例如合規性和稅務報告。
設計考量
數據登陸區域可以透過內嵌相同數據登陸區域內的數據,或從多個數據登陸區域內擷取數據,來提供多個數據登陸區域所建立的多個數據產品。 下圖顯示這一點。
上述範例顯示:
- 區域內資料耗用量:
- 數據產品 B 會取用數據產品 A 中的數據,以及其本身登陸區域內數據湖中現有的其他數據或數據產品。
- 數據產品 C 和 D 只會從各自的數據登陸區域內取用數據。
- 跨區域資料耗用量:
- 數據產品 B 也會從數據產品 C 和登陸區域 3 的數據湖中的數據取用數據。
重要
在跨區域數據耗用量的情況下,由於數據產品 B 是透過從數據登陸區域 3 讀取所建立,因此此讀取許可權需要數據 登陸區域作業 和 數據登陸區域整合作業 小組 3 的核准。
重要
數據產品 B 會從數據產品 A 和 C 取用數據。在發生這種情況之前,數據產品 B 必須透過數據共享協議來註冊其數據產品的耗用量。 此數據共享合約應將數據產品 A 的譜系更新為數據產品 B,並將數據產品 C 更新為數據產品 B。
數據產品的資源群組包含建立和維護它所需的所有服務。 我們可以將此資源群組 稱為數據應用程式。 可能屬於數據應用程式的服務範例包括 Azure Functions、Azure App 服務、Logic Apps、Azure Analysis Services、Azure 認知服務、Azure 機器學習、Azure SQL 資料庫、適用於 MySQL 的 Azure 資料庫 和 Azure Cosmos DB。 如需詳細資訊,請參閱 數據應用程式範例。
數據產品具有已 套用某些數據轉換的 READ 數據源數據。 範例可能是新策劃的數據集或 BI 報表。
設計建議
遵循可讓您使用數據控管進行調整的設計原則,在數據登陸區域內建置數據產品。 下列各節提供設計建議,協助您規劃數據應用程式生態系統。
部署多個資源群組
每個數據應用程式都是資源群組。 由於數據應用程式是計算服務、polyglot 持續性服務或兩者,因此只能根據特定使用案例來要求它們。 因此,它們會被視為選擇性的數據登陸區域元件。 如果您需要數據應用程式,請依數據應用程式建立多個資源群組,如下圖所示。
設定護欄
Azure 原則 會驅動數據登陸區域內服務的預設設定。 請將作業分析視為數據產品小組可從標準服務目錄要求的多個資源群組。 使用 Azure 原則,您可以設定安全性界限和必要的功能集。
重要
若要推動一致性,請為每個資料應用程式設定一個 Azure 原則。
從多個位置取用數據
數據應用程式會管理、組織及瞭解來自多個數據資產的數據,並呈現取得的任何見解。 數據產品是數據登陸區域內一或多個數據應用程式的數據結果。 允許您的數據應用程式在必要時從多個和各種來源存取數據。
視需要調整
組成數據應用程式的服務是數據登陸區域的累加式部署。 視需要調整您的數據應用程式。
啟用數據探索
自動在數據目錄中註冊您的數據產品,例如 Azure Purview 以允許數據掃描。
識別您的數據產品
開始規劃數據登陸區域時,請視需要識別許多數據產品(以及輸出和維護數據應用程式的數據應用程式),以協助推動數據產品應用程式架構。 符合實作的平臺治理應該在您的決策中扮演最大角色。
專注於數據應用程式如何為其他人的數據產生者和取用者。 例如,假設您已識別出一組已產生和取用數據的數據產品套件(A、B、C 和 D)。 您需要數據產品 A 和 D 做為資料應用程式 B 中數據產品 B 中數據的來源。資料產品 B 是從資料應用程式 B 從數據產品 A 和 D 取用的數據建立。數據應用程式 B 會作為數據產生者本身,也會產生數據產品 C 的數據。
使用基礎結構即程式程式碼控制您的資料應用程式環境
治理和基礎結構即程式代碼應該控制數據產品生態系統中的數據應用程式環境,如上圖所示。
發佈數據模型
您的數據產品小組應該在模型存放庫中發佈其數據模型。
設定數據產品使用者的期望
使用數據產品的服務等級協定和認證來更新您的數據共享合約,以便向數據產品的潛在使用者傳達精確的期望。
擷取譜系
如果從來自數據產品 A 和 D 的數據建立數據產品 B,則必須從 A 和 D 擷取譜系到 B。數據產品 C 也應該擷取進一步譜系,因為它是使用數據產品 B 的數據所建立。更新歷程應該在數據譜系應用程式中擷取,然後再發行數據產品。
注意
使用 Azure Pipelines 可讓您建置核准網關和叫用函式,以確保元數據、譜系和 SLA 已在正確的治理服務中註冊。
定義資料應用程式架構
您必須為每個數據產品建立詳細的架構,以完整定義其與其他數據產品的關聯性、其相依性,以及其存取需求。
範例設計案例
若要了解架構定義程式,請探索金融機構及其信用監視數據產品的下列範例。
此圖表中顯示的信用監視數據產品會取用整合作業小組內嵌的讀取數據存放區中的數據。 它也會產生其他兩個數據產品所取用的數據產品。
注意
讀取數據源或存放區也稱為 黃金記錄來源。 這些數據源已清除,但尚未套用任何轉換。
信用監視數據產品小組會要求讀取許可權,以讀取數據存放區,以建立數據產品。 其要求會路由傳送給數據擁有者以進行核准。 一旦獲得核准,產品小組就可以開始建置其數據應用程式。
讀取數據源的數據會轉換成信用監視數據產品。 任何新的數據產品會儲存在 Data Lake 策劃層中。 這些新的數據產品和新的數據譜系應該註冊為DevOps部署程式的一部分。 函式可以使用數據資產的實體結構來檢查已註冊的元數據。 它應該註冊對讀取數據源數據資產和數據產品的相依性。
貸款核准數據產品小組相依於部分信用監視數據產品。 其貸款核准小組可能會要求讀取其數據產品所需的信用監視數據產品。 發行其貸款核准數據產品及其數據應用程式之後,所有的數據產品資產、譜系和模型都應該在相關的治理服務中註冊。
範例數據應用程式
下列各節包含範例數據應用程式,以進一步說明數據應用程式案例。
數據分析和數據科學數據應用程式
數據分析和數據科學的應用程式可能包含範例數據應用程式 product-analytics-rg
中顯示的服務。
注意
您可以使用上述資料應用程式作為 範本。 此範本會部署一組可用於數據分析和數據科學的服務。 您可以使用此資料產品應用程式範本,快速建立跨功能小組的環境。 您必須明確停用您不需要的任何服務。
數據產品分析範本包含所有範本,用於在雲端規模分析案例數據登陸區域內部署用於分析和數據科學的數據產品。
部署與程式代碼成品包含下列服務:
- Machine Learning
- 金鑰保存庫
- Application Insights
- Storage
- Container Registry
- 認知服務 (選擇性)
- Data Factory (在 Data Factory 與 Synapse 之間選取)
- Synapse 工作區 (在 Data Factory 與 Synapse 之間選取)
- Azure 搜尋服務 (選擇性)
- SQL 集區 (選擇性)
- BigData 集區 (選用)
Batch 資料應用程式
Batch 資料應用程式範本包含部署資料產品的所有範本,以在雲端規模分析案例數據登陸區域內進行批次數據處理。
部署與程式代碼成品包含下列服務:
- 金鑰保存庫
- Data Factory (在 Data Factory 與 Synapse 之間選取)
- Azure Cosmos DB (選擇性)
- Synapse 工作區 (在 Data Factory 與 Synapse 之間選取)
- 我的 SQL 資料庫 (選擇性)
- Azure SQL 資料庫 (選擇性)
- Postgre SQL 資料庫 (選擇性)
- MariaDB 資料庫 (選擇性)
- SQL 集區 (選擇性)
- SQL Server (選擇性)
- SQL 彈性集區 (選擇性)
- BigData 集區
串流數據應用程式
串流數據應用程式範本包含用於部署資料產品的所有範本,以在雲端規模分析案例數據登陸區域內進行實時數據處理
部署與程式代碼成品包含下列服務:
- 金鑰保存庫
- 事件中樞
- IoT 中樞
- 串流分析 (選擇性)
- Azure Cosmos DB (選擇性)
- Synapse 工作區
- Azure SQL 資料庫 (選用)
- SQL 集區 (選擇性)
- SQL Server (選擇性)
- SQL 彈性集區 (選擇性)
- BigData 集區
- 資料總管 (選擇性)
若要尋找包含先前提及之部署範本的存放庫,請參閱 雲端規模分析的部署範本