データモデリング

データモデリングの決定は、組織とワークロードでのテーブルの使用方法によって異なります。選択したモデルは、クエリのパフォーマンス、コンピューティングコスト、ストレージコストに影響します。このページでは、ユーザーが新しいテーブルを設定したり ETL ワークロードを作成したりするための、データモデリングに影響するAzure Databricks動作について説明します。

重要

この記事は、Delta Lake によってサポートされるテーブルのみに適用されます。これには、Unity Catalog で管理されるすべてのテーブルが含まれます。

Azure Databricks を使って、Lakehouse Federation に登録されているテーブルなどの他の外部データソースのクエリを実行できます。外部データソースごとに、異なる制限、セマンティクス、トランザクション保証があります。「データのクエリ」を参照してください。

データベース管理の概念

Azure Databricks で構築されたレイクハウスは、多くのコンポーネントおよび概念を他のエンタープライズデータウェアハウスシステムと共有します。データモデルを設計する際には、次の概念と機能を考慮してください。

Azure Databricks でのトランザクション

Azure Databricks は、トランザクションのスコープを個々のテーブルに設定します。これは、Azure Databricks が複数テーブルステートメント (複数ステートメントトランザクションとも呼ばれます) をサポートしていないことを意味します。

データモデリングワークロードの場合、ソースレコードの取り込みで複数のテーブルに行を挿入または更新する必要がある場合、これは言い換えると、複数の独立したトランザクションを実行する必要があるということです。これらの各トランザクションは、他のトランザクションとは独立して成功または失敗する可能性があり、ダウンストリームクエリはトランザクションの失敗または遅延による状態の不一致を許容する必要があります。

Azure Databricks の主キーと外部キー

主キーと外部キーは情報提供のみを目的としており、強制されません。このモデルは、多くのエンタープライズクラウドベースのデータベースシステムで一般的ですが、多くの従来のリレーショナルデータベースシステムとは異なります。「Azure Databricks の制約」を参照してください。

Azure Databricks での結合

結合は、あらゆるデータベース設計において処理のボトルネックを引き起こす可能性があります。 Azure Databricks でデータを処理する場合、クエリオプティマイザーは結合のプランを最適化しようとしますが、個々のクエリで多くのテーブルの結果を結合する必要がある場合には難航する可能性があります。また、フィルターパラメーターが別のテーブルのフィールドにある場合、オプティマイザーはテーブル内のレコードをスキップできず、フルテーブルスキャンが発生する可能性があります。

「Azure Databricks での結合の操作」を参照してください。

注

具体化されたビューを使うと、一部の結合操作の結果を段階的に計算できますが、他の結合は具体化されたビューと互換性がありません。具体化されたビューを参照してください。

入れ子になった複雑なデータ型の扱い

Azure Databricksでは、JSON、Avro、Protobuf などの半構造化データソースの操作と、構造体、JSON 文字列、マップおよび配列としての複雑なデータの格納がサポートされています。「モデルの半構造化データ」を参照してください。

正規化されたデータモデル

Azure Databricks は、あらゆるデータモデルで適切に機能できます。 Azure Databricks からクエリを実行するか、Azure Databricks に移行する必要がある既存のデータモデルがある場合は、データを再設計する前にパフォーマンスを評価する必要があります。

新しいレイクハウスを設計している場合、または既存の環境にデータセットを追加している場合、Azure Databricks では、第 3 正規形 (3NF) などの高度に正規化されたモデルを使わないことを推奨しています。

スタースキーマやスノーフレークスキーマのようなモデルは、標準クエリに存在する結合が少なく、同期を維持するキーも少ないため、Azure Databricks 上で良好に動作します。さらに、1 つのテーブルにさらに多くのデータフィールドがあるため、クエリオプティマイザーはファイルレベルの統計を使って大量のデータをスキップできます。データのスキップの詳細については、「データのスキップ」を参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-06-24