次の方法で共有


Microsoft Cloud for Sovereignty における Azure Databricks アーキテクチャの概要

この参照アーキテクチャには、次の機能が含まれています:

ソブリン ランディング ゾーンとの整合性

メダリオン アーキテクチャを使用して Azure Databricks を展開する場合は、Azure 管理ポリシーの適用について検討する必要があります。

Azure ランディング ゾーンのバリエーションであるソブリン ランディング ゾーン には、アプリケーション ワークロード用に 4 つの潜在的な管理グループがあります。 サブスクリプションは、(Confidential Corp、Confidential Online、Corp、Online) で行うことができます。

Azure Databricks 展開の場合は、Corp 管理グループの下に データ ランディング ゾーン サブスクリプションを作成する必要があります。 ソブリン ベースライン ポリシーでは、Azure Databricks を Confidential Corp と Confidential オンライン管理グループに展開できません。 Azure Databricks は、サービスのすべての部分で Azure Confidential Computing を使用する必要があるため、これらの管理グループに展開できるアプリケーションの許可リストには含まれていません。

Azure Databricks データ ランディング ゾーンのスクリーンショット。

設計の原則

このリファレンス アーキテクチャは、ネットワーク、暗号化、セキュリティ、ストレージ、コンピューティング レイヤーに関する Azure Databricks Lakehouse のベスト プラクティスに焦点を当てています。 これらのプラクティスは、政府や公共部門が、リスク許容度に応じて適切な構成オプションを選択するのに役立ちます。

アーキテクチャ データフロー

次の図は、ソブリン ベースライン ポリシーが有効になっているソブリン ランディング ゾーンまたは Azure ランディング ゾーンのいずれかに Azure Databricks アーキテクチャを展開するために不可欠なアーキテクチャ コンポーネントを示しています。

この図は、Azure Databricks リファレンス アーキテクチャのデータ フローを示しています。

主要な段階/データフローは次のとおりです。

取り込み

Azure Event Hubs は、ビッグデータ ストリーミング プラットフォームです。 サービスとしてのプラットフォーム (PaaS) として、このイベント インジェスト サービスはフル マネージドのサービスです。 Azure Event Hubs は、生ストリーミング データを Azure Databricks に取り込みます。

Azure Data Factory は、ハイブリッド データ統合サービスです。 このフル マネージドのサーバーレス ソリューションを使用して、データ変換ワークフローの作成、スケジュール設定、調整を行うことができます。 Azure Data Factory は、生のバッチデータを Azure Data Lake Storage Gen2 に読み込みます。

分析プラットフォームは、異なるバッチ ソースとストリーミング ソースからデータを取り込みます。 データ サイエンティストは、このデータをデータ準備と探索、デル準備とトレーニングに使用します。

Process

Azure Databricks は、データ分析プラットフォームです。 このフル マネージドの Spark クラスタは、複数のソースから大量のデータストリームを処理します。 Azure Databricks は、構造化されていないデータセットをクリーンアップして変換します。 処理されたデータを、運用データベースやデータウェア ハウスの構造化データと組み合わせます。 Azure Databricks は、スケーラブルな Machine Learning とディープ ラーニングモデルのトレーニングと展開も行います。

Azure Databricks Serverless SQL ウェアハウスは、SQL エディターまたは対話型ノートブックでデータ オブジェクトに対して SQL コマンドを実行するために使用される、オンデマンドの弾力性のあるコンピューティング サービスを提供します。 SQL ウェアハウスは、UI、CLI、REST API を使用して作成できます。

データと連携するサービスは、一貫性を確保するために単一の基盤となるデータソースに接続します。 たとえば、Azure Databricks SQL Serverless サービスを使用して、データレイクで SQL クエリを実行できます。 本サービスについて:

  • クエリ エディタとカタログ、クエリ履歴、基本的なダッシュボード、アラート機能を提供します。

  • 行レベルおよび列レベルのアクセス許可を含む統合セキュリティを使用します。

  • Photon を搭載した Delta Engine を使用してパフォーマンスを加速します。

ストア

Azure Databricksは、データを次のレイヤーに整理するメダリオン アーキテクチャとうまく連携します。

  • ブロンズ: 生データと履歴を保持します

  • シルバー: クリーニング、フィルター、拡張されたデータが含まれます

  • ゴールド: ビジネス分析に使用する集計データを格納します

Azure Data Lake Storage Gen2 は、ハイパフォーマンスな分析ワークロード向けのスケーラブルで安全なデータ レイクです。 このサービスは、数百ギガビットのスループットを維持しながら、複数のペタバイトの情報を管理することができます。 データは、構造化データ、半構造化データ、または非構造化データです。 通常、ログ、ファイル、メディアなど、複数の異種ソースから取得されます。 2 つの Data Lake ストレージ Gen2 には、構造化、非構造化、半構造化など、すべてのタイプのデータが格納されます。 また、バッチ データとストリーミング データも格納します。

  • Data Lake ストレージ 1 にはブロンズ レイヤーがあります

  • Data Lake ストレージ 2 には、シルバー レイヤーとゴールド レイヤーがあります

Delta Lake は、オープン ファイル形式を使用するストレージ レイヤーです。 Data Lake ストレージ Gen2 などのクラウド ストレージ 上で実行されます。 Delta Lake は、データのバージョン管理、ロールバック、データの更新、削除、マージのためのトランザクションをサポートしています。

提供

Microsoft Power BI は、ソフトウェア サービスとアプリのコレクションです。 これらのサービスは、関連性のないデータ ソースを接続して視覚化するレポートを作成、共有します。 Azure Databricks と連携して、Power BI は根本原因の特定と生データの分析を提供できます。 Power BI は、統合データ プラットフォームから分析レポート、履歴レポート、ダッシュボードを生成します。 Microsoft Power BI には、基盤となるデータを視覚化するための Azure Databricks コネクターが組み込まれています。

監視と管理

このアーキテクチャでは、コラボレーション、パフォーマンス、信頼性、ガバナンス、セキュリティのために、さまざまな Azure サービスを使用します。

Microsoft Purview は、オンプレミス、マルチクラウド、サービスとしてのソフトウェア (SaaS) のデータを管理します。 このガバナンス サービスでは、データ ランドスケープ マップが維持されます。 機能には、自動データ検出、機密データの分類、データ系列が含まれます。 Microsoft Purview は、データ検出サービス、機密データの分類、データ資産全体のガバナンスに関する洞察を提供します。

Azure Databricks Unity Catalog は、Databricks ワークスペース全体で一元化されたアクセス制御、監査、系列、データ検出機能を提供します。

Azure DevOps は、DevOps オーケストレーション プラットフォームです。 この SaaS は、アプリケーションを構築、展開、コラボレーションするためのツールと環境を提供します。 Azure DevOps は、継続的インテグレーションと継続的デプロイ (CI/CD) およびその他の統合バージョン管理機能を提供します。

Azure Key Vault 、トークン、パスワード、API キーなどのシークレットへのアクセスを保存および制御します。 また、Key Vault は暗号化キーの作成と制御、セキュリティ証明書の管理も行います。

Microsoft Entra ID は、クラウドベースの ID とアクセス管理サービスを提供し、ユーザーがサインインしてリソースにアクセスする方法を提供しています。 Microsoft Entra ID は、Azure Databricks ユーザーにシングル サインオン (SSO) を提供します。 Azure Databricks は、新しいユーザーの作成、各ユーザーへのアクセスレベルの割り当て、ユーザーの削除、アクセス拒否を行うための Microsoft Entra ID による自動ユーザー プロビジョニングをサポートしています。

Azure Monitor は、環境と Azure リソースに関するデータを収集して分析します。 このデータには、パフォーマンス指標やアクティビティ ログなどのアプリのテレメトリが含まれます。 問題を積極的に特定することで、このサービスはパフォーマンスと信頼性を最大限に高めます。

Microsoft Cost Management は、Azure ワークロード向けの財務ガバナンス サービスを提供しています。 クラウドの支出管理に役立ちます。 予算とレコメンデーションを活用することで、このサービスは経費の整理とコスト削減を支援します。

Azure Private Link は、ユーザーと Databricks ワークスペース間、クラシック コンピューティング プレーン上のクラスターと Databricks ワークスペース インフラストラクチャ内のコントロール プレーン上のコアサービス、Azure Data Lake Storage との間のプライベート接続を提供します。

注意

サービスの展開に影響を与える可能性のある追加のポリシーがないことを確認してください。 Azure Private Link を作成する権限がない場合も、展開は失敗する可能性があります。