Azure 中的雲端規模分析資料產品

資料產品 是資料做為產品和計算、儲存,並由 polyglot 持續性服務提供服務,而某些使用案例可能需要這些資料。 建立及提供資料產品的程式可能需要資料 登陸區域 核心服務中未包含的服務和技術。 其中一個範例是報告有標準需求,例如合規性和稅務報告。

設計考量

資料登陸區域可以藉由從相同資料登陸區域內擷取資料,或從多個資料登陸區域內擷取資料來提供多個資料產品。 下圖顯示此專案。

跨資料登陸區域耗用量的圖表。

上方範例顯示:

  • Intrazone 資料耗用量:
    • 資料產品 B 會取用資料產品 A 中的資料,以及其專屬登陸區域內 Data Lake 中現有的其他資料或資料產品。
    • 資料產品 C 和 D 只會從自己的個別資料登陸區域中取用資料。
  • Interzone 資料耗用量:
    • 資料產品 B 也會取用資料產品 C 中的資料,以及登陸區域 3 的資料湖中的資料。

重要

如果是區域間資料耗用量,因為資料產品 B 是藉由從資料登陸區域 3 讀取所建立,所以此讀取權限需要從 資料登陸區域作業和資料登陸 區域 3 的整合作業 小組核准。

重要

資料產品 B 會取用來自資料產品 A 和 C 的資料。在發生這種情況之前,資料產品 B 必須透過資料共用協定來註冊其資料產品的耗用量。 此資料共用合約應該會將資料譜系從資料產品 A 更新為資料產品 B,並將資料從資料產品 C 更新為資料產品 B。

資料產品的資源群組包含建立和維護它所需的所有服務。 我們可以將此資源群組稱為 資料應用程式。 可能屬於資料應用程式的服務範例包括Azure Functions、Azure App 服務、Logic Apps、Azure Analysis Services、Azure 認知服務、Azure Machine Learning、Azure SQL Database、適用於 MySQL 的 Azure 資料庫和 Azure Cosmos DB。 如需詳細資訊,請參閱 資料應用程式範例

資料產品具有已套用一些資料轉換的 READ 資料來源資料。 範例可能是新策劃的資料集或 BI 報表。

設計建議

遵循可讓您使用資料控管進行調整的設計原則,在資料登陸區域內建置資料產品。 下列各節提供設計建議,協助您規劃資料應用程式生態系統。

部署多個資源群組

每個資料應用程式都是資源群組。 由於資料應用程式是計算服務、polyglot 持續性服務或兩者,因此只能視特定使用案例而定。 因此,它們會被視為選擇性的資料登陸區域元件。 如果您需要資料應用程式,請依資料應用程式建立多個資源群組,如下圖所示。

資料應用程式資源群組的圖表。

設定護欄

Azure 原則會驅動資料登陸區域內服務的預設設定。 請將作業分析視為資料產品小組可以從標準服務類別目錄要求的多個資源群組。 使用Azure 原則,您可以設定安全性界限和必要的功能集。

重要

若要推動一致性,請為每個資料應用程式設定一個Azure 原則。

從多個位置取用資料

資料應用程式會管理、組織及瞭解來自多個資料資產的資料,並呈現任何取得的見解。 資料產品是來自資料登陸區域內一或多個資料應用程式的資料結果。 允許您的資料應用程式在必要時從多個和各種來源存取資料。

視需要調整

組成資料應用程式的服務是資料登陸區域的累加式部署。 視需要調整您的資料應用程式。

啟用資料探索

在資料目錄中自動註冊您的資料產品,例如 Azure Purview ,以允許資料掃描。

識別您的資料產品

開始規劃資料登陸區域時,請識別 (的資料產品以及輸出和維護資料應用程式的資料應用程式,並視需要) 協助推動資料產品應用程式架構。 符合實作的平臺治理應該在您的決策中扮演最大的角色。

專注于您的資料應用程式如何成為其他人的資料產生者和取用者。 例如,假設您已識別出 A、B、C 和 D (一組資料產品,而這些產品) 會產生和取用的資料。 您需要資料產品 A 和 D 作為資料應用程式 B 中資料產品 B 中資料的來源。資料產品 B 是從資料應用程式 B 從資料產品 A 和 D 取用的資料建立。資料應用程式 B 作為資料產生者本身,也會產生資料產品 C 的資料。

資料產生者和取用者的圖表。

使用基礎結構即程式碼控制您的資料應用程式環境

治理和基礎結構即程式碼應該控制資料產品生態系統中的資料應用程式環境,如上圖所示。

發佈資料模型

您的資料產品小組應該在模型存放庫中發佈其資料模型。

設定資料產品使用者的期望

使用資料產品的服務等級協定和認證更新您的資料共用合約,以便您將精確的期望傳達給資料產品的潛在使用者。

擷取資料譜系

如果資料產品 B 是從來自資料產品 A 和 D 的資料建立,則必須從 A 和 D 擷取譜系到 B。進一步的譜系也應該擷取資料產品 C,因為它是使用資料產品 B 中的資料所建立。更新的譜系應該在資料譜系應用程式中擷取,然後再發行資料產品。

注意

使用 Azure Pipelines 可讓您建置核准閘道和叫用函式,以確保在正確的治理服務中註冊中繼資料、譜系和 SLA。

定義資料應用程式架構

您必須為每個資料產品建立詳細的架構,以完整定義與其他資料產品、其相依性及其存取需求的關係。

範例設計案例

若要瞭解架構定義程式,請探索金融機構的下列範例及其信用監視資料產品。

define-data-product 架構的詳細圖表。

此圖表中顯示的信用監視資料產品會取用整合作業小組所擷取之讀取資料存放區中的資料。 它會產生資料產品 () 另外兩個數據產品也會取用。

注意

讀取資料來源或存放區也稱為 黃金記錄來源。 這些資料來源已清除,但尚未套用任何轉換。

信用監視資料產品小組要求讀取存取權,以讀取資料產品建立所需的資料存放區。 其要求會路由傳送至資料的擁有者以取得核准。 一旦收到核准,產品小組就可以開始建置其資料應用程式。

讀取資料來源中的資料會轉換成信用監視資料產品 () 。 任何新的資料產品會儲存在 Data Lake 的策劃層中。 這些新的資料產品和新的資料譜系應該註冊為 DevOps 部署程式的一部分。 函式可以使用資料資產的實體結構來檢查已註冊的中繼資料。 它應該註冊對讀取資料來源資料資產和資料產品的相依性。

貸款核准資料產品小組相依于部分信用監視資料產品。 貸款核准小組可能會要求讀取其資料產品所需的信用監視資料產品存取權。 一旦發行貸款核准資料產品及其資料應用程式,所有資料產品資產、譜系和模型都應該在相關的治理服務中註冊。

範例資料應用程式

下列各節包含範例資料應用程式,可進一步說明資料應用程式案例。

資料分析和資料科學資料應用程式

資料分析和資料科學的應用程式可能包含範例資料應用程式中 product-analytics-rg 顯示的服務。

此圖顯示可針對 [分析資料應用程式部署] 選取的可能服務。

注意

上述資料應用程式 可作為範本使用,其會部署一組可用於資料分析和資料科學的服務。 就像我們所有的範本一樣,此資料產品應用程式範本是一種藍圖,可用來快速啟動跨功能小組的環境。 您不需要的任何服務都必須明確停用。

資料產品分析範本包含所有範本,可用於在雲端規模分析案例資料登陸區域內部署用於分析和資料科學的資料產品。

部署和程式碼成品包含下列服務:

Batch 資料應用程式

Batch 資料應用程式範本包含用來部署資料產品的所有範本,以在雲端規模分析案例資料登陸區域內進行批次資料處理。

部署和程式碼成品包含下列服務:

此圖顯示可針對 Batch 資料應用程式部署選取的可能服務。

串流資料應用程式

串流資料應用程式範本包含用來部署資料產品的所有範本,以在雲端規模分析案例資料登陸區域內進行即時資料處理

部署和程式碼成品包含下列服務:

此圖顯示可針對串流資料應用程式部署選取的可能服務。

若要尋找包含先前提及部署範本的存放庫,請參閱 雲端規模分析的部署範本

下一步

資料應用程式 (來源對齊)