スタースキーマと Power BI での重要性を理解する

2024-12-30

この記事は、Power BI Desktop データモデラーを対象としています。スタースキーマの設計と、パフォーマンスと使いやすさのために最適化された Power BI セマンティックモデルの開発との関連性について説明します。

重要

Power BI セマンティックモデルは、データをインポートまたは接続する Power Query に依存します。つまり、 Power Query を使用してソースデータを変換および準備する必要があります。これは、大量のデータがある場合や、緩やかに変化するディメンションなどの高度な概念を実装する必要がある場合に困難になる可能性があります (この記事では later を参照)。

これらの課題が提示されたら、データウェアハウスを定期的に読み込むデータウェアハウスと抽出、変換、読み込み (ETL) プロセスを最初に開発することをお勧めします。その後、セマンティックモデルをデータウェアハウスに接続できます。詳細については、「 Microsoft Fabric Warehouse でのDimensional モデリング」を参照してください。

ヒント

この記事は、スタースキーマの設計に関する完全な説明を提供するためのものではありません。詳細については、Ralph Kimball その他による「The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling (2013 年第 3 版)」など、広く採用されている公開コンテンツを直接参照してください。

スタースキーマの概要

スタースキーマは、リレーショナルデータウェアハウスで広く採用されている成熟したモデリング手法です。モデラーは、モデルテーブルを "ディメンション" または "ファクト" として分類する必要があります。

次元テーブル

ディメンションテーブルでは、ビジネスエンティティ (モデル化の "対象") について説明します。エンティティには、時間自体を含め、製品、人、場所および概念を含めることができます。スタースキーマに存在する最も一貫性のあるテーブルは、日付ディメンションテーブルです。ディメンションテーブルには、一意の識別子として機能するキー列 (または列) とその他の列が含まれています。その他の列では、データのフィルター処理とグループ化がサポートされています。

ファクトテーブル

ファクトテーブル 観測値やイベントを格納し、販売注文、在庫残高、為替レート、温度などを格納できます。ファクトテーブルには、分析コードテーブルに関連する分析コードキー列と数値メジャー列が含まれます。ディメンションキー列によってファクトテーブルの "次元" が決まり、ディメンションキーの値によってファクトテーブルの "粒度" が決まります。たとえば、 Date と ProductKeyの 2 つのディメンションキー列を持つ販売目標を格納するように設計されたファクトテーブルを考えてみましょう。このテーブルに 2 つのディメンションがあることは簡単に理解できます。しかし、粒度は、ディメンションキーの値を考慮せずに決定することはできません。この例では、 Date 列に格納されている値が各月の最初の日であるとします。この場合、粒度は月単位の製品レベルとなります。

一般に、ディメンションテーブルには比較的少数の行が含まれます。一方、ファクトテーブルには多数の行を含め、時間の経過と同時に拡大し続けることができます。

正規化と非正規化

この記事で説明するスタースキーマのいくつかの概念を理解するには、正規化と非正規化という 2 つの用語を理解することが重要です。

"正規化" とは、同じデータの繰り返しが減る方法で格納されたデータを記述するために使用される用語です。プロダクトキーなどの一意のキー値列を持つ製品のテーブルと、製品名、カテゴリ、色、サイズなど、製品の特性を記述するその他の列について考えてみましょう。販売テーブルは、製品キーのようなキーのみが格納されている場合、正規化されていると見なされます。次の図では、 ProductKey 列のみが製品を記録していることに注意してください。

一方、キー以外の製品の詳細が販売テーブルに格納されている場合は、"非正規化されている" ものと見なされます。次の図では、 ProductKey およびその他の製品関連の列に製品が記録されていることに注意してください。

エクスポートファイルまたはデータの抽出からのデータをソースにする場合は、非正規化されたデータセットを表している可能性があります。この場合は、Power Query を使って、ソースデータを変換して複数の正規化されたテーブルに整形します。

この記事で説明されているように、正規化されたファクトデータとディメンションデータを表すテーブルを使用して、最適化された Power BI セマンティックモデルの開発に努める必要があります。ただし、1 つのモデルテーブルを生成するために、 snowflake ディメンションが非正規化される場合がある例外が 1 つあります。

Power BI セマンティックモデルに関連するスタースキーマ

この記事で紹介するスタースキーマの設計と関連する多くの概念は、パフォーマンスと使いやすさのために最適化された Power BI モデルの開発と非常に関連性があります。

各 Power BI レポートビジュアルで、Power BI セマンティックモデルに送信されるクエリが生成されることを検討してください。一般に、クエリはモデルデータをフィルター処理、グループ化、集計します。適切に設計されたモデルは、フィルター処理とグループ化用のテーブルと、集計用のテーブルを提供するモデルです。この設計は、スタースキーマの原則に十分適しています。

ディメンションテーブルを使用すると、 フィルター処理 および グループ化。
ファクトテーブルでは、 ummarization を有効にします。

modeler がテーブルの種類をディメンションまたはファクトとして設定するように設定するテーブルプロパティはありません。実際には、モデルのリレーションシップによって決まります。モデルリレーションシップは、2 つのテーブル間にフィルター伝達パスを確立し、テーブルの種類を決定するリレーションシップのカーディナリティプロパティです。一般的なリレーションシップのカーディナリティは、"一対多" またはその逆の "多対一" です。 "一" 側は常にディメンションテーブルですが、"多" 側は常にファクトテーブルです。

適切に構造化されたモデル設計には、ディメンションテーブルまたはファクトテーブルであるテーブルが含まれます。単一のテーブルに 2 つの種類を混在させないようにしてください。また、適切なリレーションシップが設定された適切な数のテーブルを提供するよう努力することもお勧めします。また、ファクトテーブルでは常に一貫性のあるグレインでデータが読み込まれることも重要です。

最後に、最適なモデル設計は科学と芸術にまたがっていることを理解することが重要です。場合によっては、そうすることが妥当な場合、適切なガイダンスを守らないこともあります。

Power BI セマンティックモデルに適用できるスタースキーマ設計に関連する多くの概念があります。たとえば、次のような概念です。

メジャー
代理キー
スノーフレークディメンション
多様ディメンション
緩やかに変化するディメンション
ジャンクディメンション
逆ディメンション
ファクトレスファクトテーブル

メジャー

スタースキーマの設計では、メジャーは集計する値を格納するファクトテーブルの列です。 Power BI セマンティックモデルでは、メジャーの定義は異なりますが、似ています。モデルでは、明示的なメジャーと暗黙的なメジャーの両方がサポートされます。

明示的なメジャー は明示的に作成され、集計を実現する Data Analysis Expressions (DAX) で記述された数式に基づいています。メジャー式では、多くの場合、 SUM、 MIN、 MAX、 AVERAGEなどの DAX 集計関数を使用して、クエリ時にスカラー値の結果を生成します (値はモデルに格納されません)。メジャー式には、シンプルな列集計から、フィルターコンテキストやリレーションシップの伝達をオーバーライドする、より高度な数式までさまざまなものがあります。詳細については、Power BI Desktop の DAX の基本を参照してください。
暗黙的なメジャー は、レポートビジュアルまたは Q&Aで集計できる列です。多くの場合、メジャーを作成する必要がない (明示的な) 場合と同様に、モデル開発者にとって便利です。たとえば、Adventure Works リセラーの売上 Sales Amount 列は、可能な集計の種類ごとにメジャーを作成しなくても、さまざまな方法 (合計、カウント、平均、中央値、最小、最大など) で集計できます。

Data ペインでは、明示的なメジャーは電卓アイコンで表され、暗黙的なメジャーはシグマ記号 (∑) で表されます。

ただし、単純な列レベルの要約であっても、メジャーを作成する理由は 3 つあります。

レポート作成者が多次元式 (MDX) を使用してセマンティックモデルにクエリを実行することがわかっている場合、モデルには明示的なメジャーが含まれている必要があります。これは、MDX では列値の要約を実現できないためです。特に、MDX は Excel で Analyze を実行するときに使用されますピボットテーブルは MDX クエリを発行するためです。
レポート作成者が MDX クエリデザイナーを使用して Power BI のページ分割されたレポートを作成することがわかっている場合は、セマンティックモデルに明示的なメジャーを含める必要があります。サーバー集計をサポートするのは、MDX クエリデザイナーのみです。そのため、レポート作成者が (ページ分割されたレポートエンジンではなく) Power BI によって評価されるメジャーが必要な場合には、MDX クエリデザイナーを使用する必要があります。
レポート作成者が特定の方法で列を集計する方法を制御する場合。たとえば、リセラーの売上 Unit Price 列 (単位単価を表します) は、特定の集計関数を使用してのみ集計できます。合計するべきではありませんが、min、max、average などの他の集計関数を使用して集計するのが適切です。この場合、modeler は Unit Price 列を非表示にし、すべての適切な集計関数のメジャーを作成できます。

この設計手法は、Power BI サービスで作成されたレポートと、Q&A に適しています。ただし、Power BI Desktop live 接続ではレポート作成者が Data ペインに非表示フィールドを表示できるため、この設計アプローチが回避される可能性があります。

代理キー

代理キーは、スタースキーマモデリングをサポートするためにテーブルに追加する一意の識別子です。定義上、ソースデータに定義されたり、格納されたりすることはありません。通常、代理キーは、ディメンションテーブルの各行に一意の識別子を提供するために、リレーショナルデータウェアハウスのディメンションテーブルに追加されます。

Power BI セマンティックモデルのリレーションシップは、1 つのテーブル内の 1 つの一意の列に基づいており、フィルターは別のテーブルの 1 つの列に反映されます。セマンティックモデルのディメンションテーブルに 1 つの一意の列が含まれていない場合は、リレーションシップの "一" 側になるように一意の識別子を追加する必要があります。 Power BI Desktop では、Power Query index 列を追加することで、この要件を満たすことができます。

インデックス列も追加できるように、このクエリを "多" 側のクエリと結合する必要があります。これらのクエリをセマンティックモデルに読み込むと、モデルテーブル間に一対多リレーションシップを作成できます。

スノーフレークディメンション

スノーフレークディメンションは、単一のビジネスエンティティの正規化されたテーブルのセットです。たとえば、Adventure Works では、商品がカテゴリとサブカテゴリ別に分類されます。製品がサブカテゴリに割り当てられ、その後、サブカテゴリがカテゴリに割り当てられます。 Adventure Works リレーショナルデータウェアハウスでは、製品ディメンションは正規化され、 DimProductCategory、 DimProductSubcategory、 DimProductの 3 つの関連テーブルに格納されます。

想像力を働かせれば、スノーフレーク設計を形成する、ファクトテーブルから外に向けて配置された正規化テーブルを思い描くことができます。

Power BI Desktop では、スノーフレークディメンションデザインを模倣するか (ソースデータが行うためなど)、ソーステーブルを組み合わせて単一の非正規化モデルテーブルを形成することもできます。一般に、単一のモデルテーブルの利点は、複数のモデルテーブルの利点を上回ります。最適な決定は、データの量とモデルの使いやすさの要件によって異なる場合があります。

スノーフレークディメンションの設計を模倣するように選択した場合:

Power BI によってより多くのテーブルが読み込まれるため、ストレージとパフォーマンスの観点からは効率が悪くなります。これらのテーブルには、モデルのリレーションシップをサポートするための列を含める必要があります。これにより、モデルのサイズがより大きくなる可能性があります。
リレーションシップフィルター伝達チェーンを長く走査する必要があります。これは、1 つのテーブルに適用されるフィルターよりも効率が低い場合があります。
Data ペインには、作成者に対してより多くのモデルテーブルが表示されるため、特に snowflake ディメンションテーブルに 1 つまたは 2 つの列のみが含まれている場合は、直感的に操作できなくなる可能性があります。
複数のテーブルの列を構成する階層を作成することはできません。

単一のモデルテーブルに統合するように選択した場合は、ディメンションの粒度が最も高いものと低いものを含む階層を定義することもできます。場合によっては、冗長な非正規化データを格納すると、特に大きなディメンションテーブルの場合に、モデルのストレージサイズが増加する可能性があります。

緩やかに変化するディメンション

大幅に変化するディメンション (SCD) は、ディメンションメンバーの変更を時間の経過と同時に適切に管理するものです。これは、ビジネスエンティティの値が計画外の方法で時間の経過と低いに変化する場合に適用されます。 SCD の良い例として、顧客ディメンションがあります。これは、メールアドレスや電話番号などの連絡先の詳細列が変更される頻度が低いためです。これに対し、一部のディメンションは と見なされ 株式の市場価格のようにディメンション属性が頻繁に変更されたときに変化します。このような場合の一般的な設計手法は、急速に変化する属性値をファクトテーブルメジャーに格納することです。

スタースキーマの設計理論では、次の 2 つの一般的な SCD の種類を参照します: 種類 1 と種類 2。ディメンションテーブルには、種類 1 または種類 2 を指定することも、異なる列に対して両方の型を同時にサポートすることもできます。

種類 1 の SCD

タイプ 1 の SCD では常に最新の値が反映され、ソースデータの変更が検出されると、ディメンションテーブルのデータが上書きされます。この設計手法は、顧客の電子メールアドレスや電話番号などの補足値を格納する列では一般的なものです。顧客の電子メールアドレスまたは電話番号が変更されると、ディメンションテーブルで顧客の行が新しい値で更新されます。顧客が常にこの連絡先情報を持っているかのように見えます。

Power BI モデルディメンションテーブルの非増分更新では、Type 1 SCD の結果が得られます。テーブルデータを更新し、確実に最新の値が読み込まれるようにします。

種類 2 の SCD

タイプ 2 の SCD は、ディメンションメンバーのバージョン管理をサポートしています。ソースシステムがバージョンを格納しない場合、通常は、変更を検出し、ディメンションテーブルの変更を適切に管理するデータウェアハウスの読み込みプロセスです。この場合、ディメンションテーブルでは、ディメンションメンバーの "バージョン" への一意の参照を提供するために、代理キーを使用する必要があります。また、バージョンの有効期間の日付範囲 (StartDate や EndDate など) を定義する列と、場合によってはフラグ列 (IsCurrent など) が含まれます。これらは、現在のディメンションメンバーで簡単にフィルター処理するためのものです。

たとえば、Adventure Works では、すべての営業担当者が販売地域に割り当てられます。販売員が地域を再配置した場合、新しいバージョンの販売員を作成し、履歴ファクトを元の地域に関連付けたままにする必要があります。販売員ごとの売上の正確な履歴分析をサポートするには、ディメンションテーブルに販売員のバージョンと、それらに関連付けられている地域 (複数可) を格納する必要があります。テーブルには、有効期間を定義するための開始日と終了日の値も含まれている必要があります。現在のバージョンでは、行が現在のバージョンであることを示す空の終了日 (または 12/31/9999) が定義されている場合があります。ビジネスキー (このインスタンスでは従業員 ID) が一意ではないためテーブルには surrogate キーも必要です。

ソースデータにバージョンが格納されていない場合は、中間システム (データウェアハウスなど) を使用して変更を検出し、格納する必要があることを理解しておくことが重要です。テーブルの読み込みプロセスでは、既存のデータを保持し、変更を検出する必要があります。変更が検出された場合、テーブルの読み込みプロセスで現在のバージョンを期限切れにする必要があります。 EndDate 値を更新し、前の StartDate 値から始まる EndDate 値を使用して新しいバージョンを挿入することで、これらの変更が記録されます。また、関連するファクトでは、時間ベースの参照を使用して、ファクトの日付に関連するディメンションキー値を取得する必要があります。 Power BI セマンティックモデルでは Power Query を使用するため、この結果を生成できません。しかし、事前に読み込まれた SCD の種類 2 のディメンションテーブルからデータを読み込むことはできます。

ヒント

Fabric ウェアハウスに Type 2 SCD ディメンションテーブルを実装する方法については、「変更履歴の管理を参照してください。

Power BI セマンティックモデルでは、変更に関係なく、メンバーの履歴データと、メンバーの特定の状態を表すバージョンのメンバーに対するクエリをサポートする必要があります。この設計では、Adventure Works のコンテキストで、割り当てられた販売地域に関係なく、販売員、または販売員の特定のバージョンに対してクエリを実行できます。

この要件を達成するには、Power BI セマンティックモデルディメンションテーブルに、営業担当者をフィルター処理するための列と、特定のバージョンの販売員をフィルター処理するための別の列を含める必要があります。バージョン列には、 David Campbell (12/15/2008-06/26/2019) や David Campbell (06/27/2019-Current)など、あいまいでない説明が用意されている必要があります。また、レポートの作成者やコンシューマーに SCD 種類 2 の基本と、正しいフィルターを適用して適切なレポート設計を実現する方法について教えることが重要です。

ビジュアルをバージョンレベルにドリルダウンできる階層を含めるのは、設計上の良い方法です。

多様ディメンション

多様ディメンションは、関連するファクトを異なる方法でフィルター処理できるディメンションです。たとえば、Adventure Works では、日付ディメンションテーブルはリセラーの売上ファクトと 3 つのリレーションシップを持ちます。同じディメンションテーブルを使用して、注文日、出荷日、または納品日でファクトをフィルター処理することができます。

データウェアハウスで、受け入れられる設計手法は、単一の日付ディメンションテーブルを定義することです。クエリ時には、日付ディメンションの "ロール" が、テーブルの結合に使用するファクト列によって確立されます。たとえば、注文日別に売上を分析する場合、テーブルの結合は再販業者の販売注文日列に関連します。

Power BI セマンティックモデルでは、2 つのテーブル間に複数のリレーションシップを作成することで、この設計を模倣できます。 Adventure Works の例では、日付および再販業者の販売テーブルに 3 つのリレーションシップがあります。

この設計は可能ですが、2 つの Power BI セマンティックモデルテーブル間に アクティブ リレーションシップは 1 つだけ存在できます。残りのすべてのリレーションシップは非アクティブに設定する必要があります。アクティブなリレーションシップが 1 つあるということは、日付からリセラーの売上への既定のフィルター伝達があることを意味します。この場合、アクティブなリレーションシップは、レポートで使用される最も一般的なフィルターに設定されます。Adventure Works では、注文日のリレーションシップです。

非アクティブなリレーションシップを使用する唯一の方法は、USERELATIONSHIP 関数を使用する DAX 式を定義することです。この例では、モデル開発者は、出荷日と納品日で再販業者の販売を分析できるようにするためのメジャーを作成する必要があります。この作業は、特に再販業者テーブルで多くのメジャーが定義されているときに、面倒な場合があります。また、 Data ペインが作成され、メジャーが過剰に存在します。他にも制限があります。

レポート作成者がメジャーを定義するのではなく、列の集計に依存している場合、レポートレベルのメジャーを記述しないと、非アクティブなリレーションシップの集計を実現できません。レポートレベルのメジャーは、Power BI Desktop でレポートを作成する場合にのみ定義できます。
日付と再販業者の販売の間のアクティブなリレーションシップパスが 1 つのみである場合、異なる種類の日付で再販業者の販売を同時にフィルター処理することはできません。たとえば、出荷済みの販売別に注文日の販売をプロットするビジュアルを生成することはできません。

これらの制限を克服するために、一般的な Power BI モデリング手法は、ロールプレイングインスタンスごとにディメンションテーブルを作成することです。各ディメンションテーブルは、power Query を使用して参照クエリとして、または DAX を使用して計算されたテーブルとして作成できます。モデルには、 Date テーブル、 Ship Date テーブル、および Delivery Date テーブルを含めることができます。各テーブルには、それぞれのリセラー販売テーブル列との 1 つのアクティブなリレーションシップがあります。

この設計手法では、異なる日付ロールに対して複数のメジャーを定義する必要はなく、異なる日付ロールで同時にフィルター処理を行うことができます。ただし、この設計アプローチで支払う小さな価格は、日付ディメンションテーブルの重複が発生し、モデルのストレージサイズが増加するという点です。通常、ディメンションテーブルにはファクトテーブルに対して相対的に格納される行数が少ないため、問題になることはほとんどありません。

各ロールのモデルディメンションテーブルを作成するときは、適切な設計プラクティスに従うことをお勧めします。

列名が自己記述型であることを確認します。すべての日付テーブルに Year 列を持つことは可能ですが (列名はテーブル内で一意です)、既定のビジュアルタイトルでは自己記述できません。 Ship Date テーブルに Ship Year という名前の年の列が含まれるように、各ディメンションロールテーブルの列の名前を変更することを検討してください。
関連する場合は、フィルター伝達の設定方法に関するレポート作成者 ( Data ペインのヒントを使用して) テーブルの説明がフィードバックを提供していることを確認します。この明確さは、多くのファクトテーブルをフィルター処理するために使用される Dateなど、一般的な名前のテーブルがモデルに含まれている場合に重要です。このテーブルにリセラー販売注文日列とのアクティブなリレーションシップがある場合は、 Filters reseller sales by order dateなどのテーブルの説明を指定することを検討してください。

詳細については、「アクティブなリレーションシップと非アクティブなリレーションシップのガイダンス」をご覧ください。

ジャンクディメンション

ジャンクディメンションは、特に少数の属性 (おそらく 1 つ) で構成されているディメンションが多数存在し、これらの属性の値が少ない場合に便利です。適切な候補には、注文状態列や、性別や年齢グループなどの顧客の人口統計列が含まれます。

迷惑ディメンションの設計目標は、多数の small ディメンションを 1 つのディメンションに統合して、モデルのストレージサイズを小さくし、さらに少ないモデルテーブルを表示して Data ウィンドウの乱雑さを減らすことです。

迷惑ディメンションテーブルは、通常、すべてのディメンション属性メンバーのデカルト積であり、各行を一意に識別するための surrogate キー列があります。データウェアハウスでディメンションを構築することができます。あるいは、完全外部クエリ結合を実行してから、代理キー (インデックス列) を追加するクエリを作成するための Power Query を使用することもできます。

このクエリは、ディメンションテーブルとしてモデルに読み込みます。また、"一対多" モデルリレーションシップの作成をサポートするために、インデックス列がモデルに読み込まれるように、このクエリをファクトクエリとマージする必要があります。

逆ディメンション

生成ディメンションは、フィルター処理に必要なファクトテーブルの属性を参照します。 Adventure Works の再販業者の販売注文番号が良い例です。この例では、この 1 つの列だけで構成される独立したテーブルを作成しても意味がありません。これは、モデルのストレージサイズが大きくなり、 Data ペインが乱雑になるためです。

Power BI セマンティックモデルでは、販売注文番号の列をファクトテーブルに追加して、販売注文番号によるフィルター処理またはグループ化を可能にすることが適切な場合があります。以前に導入されたルールでは、テーブルの種類を混在させるべきではありません (一般に、モデルテーブルはディメンションまたはファクトである必要があります)。

ただし、Adventure Works リセラーの販売テーブルに注文番号と注文明細行番号の列があり、フィルター処理に必要な場合は、退化ディメンションテーブルを作成することをお勧めします。詳細については、一対一のリレーションシップのガイダンス (逆ディメンション) に関する記事をご覧ください。

ファクトレスファクトテーブル

ファクトレスファクト テーブルには、メジャー列は含まれません。ディメンションキーのみが含まれます。

ファクトレスファクトテーブルには、ディメンションキーによって定義された観測値を格納できます。たとえば、特定の日時に、特定の顧客が Web サイトにサインインしたとします。ファクトレスファクトテーブルの行をカウントするメジャーを定義して、サインインしたタイミングと顧客数の分析を実行できます。

ファクトレスファクトテーブルのより説得力のある用途は、ディメンション間のリレーションシップを格納することです。これは、多対多ディメンションリレーションシップを定義するために推奨される Power BI セマンティックモデル設計アプローチです。多対多ディメンションリレーションシップの設計では、ファクトレスファクトテーブルは "ブリッジングテーブル" と呼ばれます。

たとえば、販売者を 1 つまたは複数の販売地域に割り当てることができるとします。ブリッジングテーブルは、販売員キーと地域キーという 2 つの列で構成されるファクトレスファクトテーブルとして設計されます。両方の列に重複する値を格納できます。

この多対多の設計手法は十分に立証されており、ブリッジングテーブルがなくても実現できます。しかし、2 つのディメンションを関連付ける場合は、ブリッジングテーブル手法がベストプラクティスと見なされます。詳細については、「多対多リレーションシップガイダンス (2 つのディメンションテーブルを関連付ける)」を参照してください。

スタースキーマの設計または Power BI セマンティックモデルの設計の詳細については、次の記事を参照してください。

次の方法で共有

スター スキーマと Power BI での重要性を理解する

スター スキーマの概要

次元テーブル

ファクト テーブル

正規化と非正規化

Power BI セマンティック モデルに関連するスター スキーマ