Power BI 使用シナリオ: セルフサービス データ準備

注意

この記事は、Power BI 実装計画 シリーズの記事の一部です。 このシリーズでは、主に Microsoft Fabric 内での Power BI のワークロードに焦点を当てます。 シリーズの概要については、「Power BI 実装計画」を参照してください。

多くの場合、データ準備 (抽出、変換、および読み込みの頭字語を取って ETL と呼ばれることもある) には、ソース データの品質と構造に応じて、多くの作業が伴います。 セルフサービス データ準備の使用シナリオでは、ビジネス アナリストによるデータ準備アクティビティの再利用可能性に焦点を当てます。 このシナリオは、データ準備作業を Power Query (個別の Power BI Desktop ファイル内) から Power Query Online (Power BI データフローを使用) に再配置することによって、この再利用可能性の目標を達成します。 ロジックを一元化すると、真実の 1 つの供給源が実現され、他のコンテンツ作成者に必要な作業のレベルが低減されます。

データフローは、Power BI サービス、Power Apps、Dynamics 365 Customer Insights のいずれかのツールで Power Query Online を使用して作成します。 Power BI で作成されたデータ フローは、分析データフローと呼ばれます。 Power Apps で作成されたデータフローは、標準分析2 種類のどちらかになります。 このシナリオでは、Power BI サービス内で作成および管理される Power BI データフローの使用のみを取り上げます。

注意

セルフサービス データ準備シナリオは、セルフサービス BI シナリオの 1 つです。 セルフサービス シナリオの完全な一覧については、Power BI 使用シナリオに関する記事を参照してください。

簡潔にするために、コンテンツのコラボレーションと配信のシナリオに関するトピックで説明されている一部の側面については、この記事から除外されています。 全体については、先にこれらの記事を参照してください。

シナリオ図

次の図は、セルフサービス データ準備をサポートする、最も一般的なユーザー アクションと Power BI コンポーネントの概要を示しています。 主な焦点は、複数のセマンティック モデル (以前のデータセット) のデータ ソースとなる、Power Query Online でのデータフローの作成に置かれます。 目標は、多くのセマンティック モデルで、データフローによって 1 回だけ実行されるデータ準備が利用されることです。

図は、データ クレンジングと変換作業を一元化するためのデータフローに関するセルフサービス データ準備を示しています。図の項目については、以下の表に説明があります。

ヒント

シナリオ図をプレゼンテーション、ドキュメント、またはブログの投稿に埋め込む場合、または壁のポスターとして印刷する場合は、シナリオ図をダウンロードすることをお勧めします。 スケーラブル ベクター グラフィックス (SVG) イメージであるため、品質を損なわずに拡大、縮小ができます。

シナリオ図は、次のユーザー アクション、ツール、および機能を示しています。

Item 説明
項目 1。 データフロー作成者は、Power BI データフロー内のテーブルのコレクションを開発します。 再利用を目的としたデータフローの場合は、作成者が組織の境界を越えてユーザーをサポートする一元管理されたチーム (IT、エンタープライズ BI、センター オブ エクセレンスなど) に属しているのが一般的です (必須ではありません)。
項目 2。 データフローは、1 つ以上のデータ ソースからデータに接続します。
項目 3。 一部のデータ ソースでは、プライベート組織ネットワーク内に存在するデータ更新のために、オンプレミス データ ゲートウェイ または VNet ゲートウェイが必要になる場合があります。 これらのゲートウェイは、Power Query の Web ベース バージョンである Power Query Online でのデータフローの作成と、データフローの更新の両方に使用されます。
項目 4。 データフローは、Power Query Online を使用して開発されます。 使い慣れた Power Query Online の Power Query インターフェイスによって、Power BI Desktop からの切り替えがシンプルになります。
項目 5。 データフローは、データフローの格納と保護専用のワークスペースに項目として保存されます。 データフローの更新スケジュールは、データを最新の状態に保つために必要です (シナリオ図には示されていません)。
項目 6。 データフローは、コンテンツ クリエイターや、別のワークスペースに存在する可能性がある他のセマンティック モデルによってデータ ソースとして再利用できます。
Item 7. セマンティック モデル作成者は、Power BI Desktop を使用して新しいデータ モデルを開発します。 セマンティック モデル作成者は、Power BI Desktop 内の Power Query のフル機能を使用できます。 必要に応じて、ほかのクエリ ステップを適用して、データフロー データをさらに変換したり、データフロー出力をマージしたりすることもできます。
Item 8. 準備ができると、セマンティック モデル作成者は、データ モデルを含む Power BI Desktop ファイル (.pbix) を Power BI サービスに公開します。 セマンティック モデルの更新は、データフローとは別に管理されます (シナリオ図には示されていません)。
Item 9. 他のセルフサービス セマンティック モデル作成者は、Power BI Desktop でデータフローをデータ ソースとして使用して新しいデータ モデルを作成できます。
Item 10. 管理ポータルでは、Power BI 管理者が、Azure Data Lake Storage Gen2 (ADLS Gen2) アカウントにデータフロー データを格納するように Azure 接続を設定できます。 設定には、テナント レベルのストレージ アカウントの割り当てとワークスペース レベルのストレージ アクセス許可の有効化が含まれます。
Item 11. Power BI 管理者は、管理ポータルで設定を管理します。
Item 12. 既定で、データフローでは、Power BI サービスによって管理される内部ストレージを使用してデータが格納されます。 必要に応じて、データフローからのデータ出力を、組織の ADLS Gen2 アカウントに格納できます。 この種のストレージは、bring your own data lake (独自のデータ レイクの持ち込み) と呼ばれることがあります。 データフロー データをデータ レイクに格納するメリットは、他の BI ツールからアクセスして使用できることです。
Item 13. ADLS Gen2 内のデータフロー データは、ファイル システムと呼ばれる Power BI 固有のコンテナー内に格納されます。 このコンテナー内では、ワークスペースごとにフォルダーが存在します。 サブフォルダーは、データフローごとだけでなく、テーブルごとにも作成されます。 Power BI は、データフロー データが更新されるたびにスナップショットを生成します。 スナップショットは、自己記述型で、メタデータ ファイルとデータ ファイルで構成されます。
Item 14. Azure 管理者は、組織の ADLS Gen2 アカウントのアクセス許可を管理します。
Item 15. Power BI 管理者は、Power BI サービス内のアクティビティを監視します。

ヒント

高度なデータ準備の使用シナリオも確認することをお勧めします。 このシナリオで導入された概念に基づいています。

重要なポイント

セルフサービス データ準備シナリオに関連して重視すべき重要なポイントを以下に示します。

データフロー

データフロー は、テーブルのコレクション ("エンティティ" とも呼ばれます) で構成されます。 データフローを作成する作業はすべて、Power Query Online で行われます。 Power Apps、Dynamics 365 Customer Insights、Power BI などの複数の製品でデータフローを作成できます。

Note

Power BI サービスの個人用ワークスペースにデータフローを作成することはできません。

セマンティック モデル作成者をサポートする

シナリオ図は、Power BI データフローを使用して、他のセルフサービス セマンティック モデル作成者に準備済みのデータを提供する方法を示しています。

Note

セマンティック モデルでは、データフローがデータ ソースとして使用されます。 レポートをデータフローに直接接続することはできません。

Power BI データフローを使用するメリットを以下に示します。

  • セマンティック モデル作成者は、Power BI Desktop にあるものと同じ使い慣れた Power Query インターフェイスを使用します。
  • データフローによって定義されたデータ準備とデータ変換のロジックは、一元化されているため、何度も再利用できます。
  • データフローに対してデータ準備ロジックの変更が行われた場合は、依存データ モデルを更新する必要がありません。 列を削除または名前変更したり、列データ型を変更したりする場合は、依存データ モデルを更新する必要があります。
  • 事前に準備されたデータは、Power BI セマンティック モデル作成者が簡単に使用できます。 再利用は、特に、一般的に使用されるテーブル (具体的には、日付、顧客、製品などのディメンション テーブル) に役立ちます。
  • データ モデリング作業からデータ準備作業が切り離されているため、セマンティック モデル作成者に必要な作業のレベルが低減されます。
  • ソース システムに直接アクセスする必要があるセマンティック モデル作成者はあまりいません。 ソース システムは、照合が複雑なため、特殊なアクセス許可が必要になる場合があります。
  • セマンティック モデルでは、データフローによってデータが抽出されるソース システムではなく、データフローへの接続が更新されるため、ソース システムで実行される更新の数が減少します。
  • データフロー データは、スナップショットを時間で表現するため、多くのセマンティック モデルで使用された場合に一貫性が高まります。
  • データ準備ロジックをデータフローに分離すると、セマンティック モデルの更新の成功率を高めるのに役立ちます。 データフローの更新が失敗した場合は、セマンティック モデルが最後に成功したデータフローの更新を使用して更新されます。

ヒント

スター スキーマの設計原則を適用して、データフロー テーブルを作成します。 スター スキーマ設計は、Power BI セマンティック モデルの作成に適しています。 また、データフローの出力を絞り込んで、フレンドリ名を適用し、特定のデータ型を使用します。 これらの手法は、依存セマンティック モデルの一貫性を高め、セマンティック モデル作成者が行う必要がある作業量を減らすのに役立ちます。

セマンティック モデル作成者の柔軟性

セマンティック モデル作成者が Power BI Desktop でデータ フローに接続した場合は、正確なデータフロー出力の使用に制限されません。 引き続き Power Query のすべての機能を利用できます。 この機能は、追加のデータ準備作業が必要な場合やデータのさらなる変換が必要な場合に便利です。

データフローの高度な機能

セルフサービスからエンタープライズ対応にデータフローを変えることが可能な、多くの設計手法、パターン、ベスト プラクティスがあります。 ライセンス モードが Premium per userPremium 容量 または Fabric 容量 に設定されているワークスペース内のデータフローは、高度な機能の恩恵を受けることができます。

重要

この記事では、Power BI Premium またはその容量サブスクリプション (P SKU) に言及することがあります。 現在、Microsoft は購入オプションを統合し、容量あたりの Power BI Premium SKU を廃止していることに注意してください。 新規および既存のお客様は、代わりに Fabric 容量サブスクリプション (F SKU) の購入をご検討ください。

詳細については、「Power BI Premium ライセンスに関する重要な更新」と「Power BI Premium のよく寄せられる質問」を参照してください。

Note

高度な機能の 1 つがデータフローの増分更新です。 セマンティック モデルの増分更新は Power BI Pro 機能ですが、データフローの増分更新は Premium 機能です。

データフローの高度な機能の詳細については、 高度なデータ準備の使用シナリオを参照してください。

データフローとセマンティック モデルの更新

前述したように、データフローはセマンティック モデルのデータ ソースです。 ほとんどの場合、複数のデータ更新スケジュールが含まれます。データフロー用に 1 つとセマンティック モデルごとに 1 つずつです。 また、セマンティック モデルからデータフローまで DirectQuery を使用することもできます。これは Premium 機能です (シナリオ図には示されていません)。

Azure Data Lake Storage Gen2

Microsoft Azure では、ADLS Gen2 アカウントは、階層型名前空間が有効になっている特定の種類の Azure Storage アカウントです。 ADLS Gen2 には、分析ワークロードの処理において、パフォーマンス、管理、およびセキュリティのメリットがあります。 既定で、Power BI データフローでは、内部ストレージが使用されます。これは、Power BI サービスによって管理される組み込みのデータ レイク アカウントです。 必要に応じて、組織は、独自の ADLS Gen2 アカウントに接続することによって、独自のデータ レイクの持ち込みが可能になります。

組織のデータ レイク アカウントを使用するメリットを以下に示します。

  • Power BI データフローによって格納されたデータは、(必要に応じて) 他のユーザーまたはプロセスによってデータ レイクからアクセスできます。 これは、データフローの再利用が Power BI の範囲を超えて発生した場合に役に立ちます。 たとえば、Azure Data Factory からデータにアクセスすることができます。
  • データ レイク内のデータは、(必要に応じて) 他のツールまたはシステムによって管理できます。 その場合、Power BI は、データを管理するのではなく、使用します (シナリオ図には示されていません)。

テナント レベルのストレージ

管理ポータルの [Azure 接続] セクションに、ADLS Gen2 アカウントへの接続を構成するための設定があります。 この設定を構成すると、独自のデータ レイクの持ち込みが可能になります。 設定が完了すると、ワークスペースがそのデータ レイク アカウントを使用するように設定できます

重要

[Azure 接続] の設定は、Power BI テナント内のすべてのデータフローが既定でこのアカウントに格納されるということではありません。 明示的なストレージ アカウント (内部ストレージではなく) を使用するには、各ワークスペースを明確に接続する必要があります。

ワークスペースでデータフローを作成する前に、ワークスペース Azure 接続を設定することが不可欠です。 同じ Azure ストレージ アカウントが、Power BI セマンティック モデルのバックアップに使用されます。

ワークスペース レベルのストレージ

Power BI 管理者は、ワークスペース レベルのストレージ アクセス許可を可能にするための設定を構成できます (管理ポータルの [Azure 接続] セクションで)。 この設定を有効にすると、ワークスペース管理者は、テナント レベルで定義されているストレージ アカウントとは別のストレージ アカウントを使用できます。 この設定の有効化は、特に、Azure で独自のデータ レイクを管理している分散型の事業単位に役立ちます。

注意

管理ポータルのワークスペース レベルのストレージ アクセス許可は、Power BI テナント内のすべてのワークスペースに適用されます。

Common Data Model 形式

ADLS Gen2 アカウント内のデータは、CDM (Common Data Model) 構造体に格納されます。 CDM 構造体は、自己記述スキーマとデータの格納方法を示すメタデータ形式です。 CDM 構造体を使用すると、多数のアプリケーション間でデータを共有するために標準化された形式で意味論的一貫性が確保されます (シナリオ図には示されていません)。

別のワークスペースに公開する

依存セマンティック モデルが格納される場所とは別のワークスペースにデータフローを公開するメリットは複数あります。 1 つのメリットは、コンテンツの種類を管理する責任者が明確になることです (さまざまな人々がさまざまな責任を負っている場合)。 もう 1 つのメリットは、コンテンツの種類ごとに特定のワークスペース アクセス許可を割り当てることができることです。

注意

Power BI サービスの個人用ワークスペースにデータフローを作成することはできません。

高度なデータ準備の使用シナリオでは、エンタープライズ レベルのセルフサービス作成者をサポートする際の柔軟性を高めるために、複数のワークスペースを設定する方法について説明します。

ゲートウェイの設定

通常、プライベート組織ネットワークまたは仮想ネットワーク内に存在するデータ ソースに接続するには、オンプレミス データ ゲートウェイが必要です。

データ ゲートウェイは、次の場合に必要です。

  • プライベート組織データに接続する Power Query Online のデータフローを作成する。
  • プライベート組織データに接続するデータフローを更新する。

ヒント

データフローには、"標準モード" で一元化されたデータ ゲートウェイが必要です。 データフローを操作する場合、"個人用モード" のゲートウェイはサポートされません。

システム監視

アクティビティ ログには、Power BI サービス内で発生したユーザー アクティビティが記録されます。 Power BI 管理者は、収集されたアクティビティ ログ データを使用して、使用パターンや導入を理解する際に役立つ監査を実行できます。 アクティビティ ログは、ガバナンスの取り組み、セキュリティの監査、コンプライアンスの要件をサポートするためにも重要です。 セルフサービス データ準備シナリオは、特に、データフローの使用状況を追跡するのに役立ちます。

シリーズの次の記事では、高度なデータ準備の使用シナリオについて説明します。