Power BI でのプロファイルデータ

20 分

データのプロファイリングとは、異常の特定、基になるデータ構造の調査と開発、および行数、値分布、最小値と最大値、平均のようなデータ統計のクエリなど、データの微妙な差異を調べることです。この概念は、データの操作とデータの分布の識別を単純にし、それによりフロントエンドのデータを処理しレポートの要素を作成するタスクを簡単に行えるように、データを整形して整理できるので重要です。

あなたは、組織の営業チーム用のレポートを作成しているとします。データの構造やテーブルへのデータの格納方法がわからないため、ビジュアルの開発を始める前に、内部のデータをプロファイリングする必要があります。 Power BI の固有の機能を使用すると、これらのタスクをユーザーにとってわかりやすく簡単なものにできます。

データの構造を調べる

Power Query エディターでデータを調べ始める前に、まず、データが編成されている基になるデータ構造を学習する必要があります。現在のセマンティックモデルは、Power BI Desktop の [モデリング] タブで確認できます。

[モデリング] タブでは、テーブルまたは列を選択することで列やテーブルの特定のプロパティを編集することができ、[データの変換] ボタンを使用して Power Query エディターに移動することでデータを変換できます。さらに、リボンにある [リレーションシップの管理] を使用して、異なるテーブル間のリレーションシップの管理、作成、編集、削除を行うことができます。

データの異常とデータの統計情報を調べる

データソースへの接続を作成して、[データの変換] を選択すると、Power Query エディターが表示されます。そこでは、データ内に異常が存在するかどうかを確認できます。データの異常はデータ内の外れ値です。どのような異常かを確認すると、データの正規分布がどのようなものか、および調査する必要がある特定のデータポイントが存在するかどうかを特定するのに役立ちます。 Power Query エディターでは、列の分布機能を使用することによって、データの異常が特定されます。

リボンの [表示] を選択すると、[データのプレビュー] でいくつかのオプションを選択できます。データの異常と統計を確認するには、[列の分布]、[列の品質]、[列のプロファイル] オプションを選択します。次の図は表示される統計です。

[列の品質] と [列の分布] は、データ列の上のグラフに表示されます。 [列の品質] には、有効、エラー、空のデータの割合が表示されます。 100% のデータが有効であるのが理想的な状況です。

Note

既定では、Power Query によってデータセットの最初の 1000 行が調べられます。これを変更するには、ステータスバーでプロファイルの状態を選択し、[データセット全体に基づく列のプロファイル] を選択します。 ]

[列の分布] では、列内のデータの分布と、個別の値と一意の値の数が表示されます。どちらでも、データの数に関する詳細がわかります。個別の値が重複や null 値を含む列の異なるすべての値であるのに対し、一意の値には重複や null は含まれません。したがって、このテーブルの [個別] を見ると存在する値の合計数がわかり、[一意] を見るとこれらの値のうち 1 回だけ表示される数がわかります。

[列のプロファイル] を使用すると、データの最初の 1,000 行の列内の統計情報をさらに詳細に確認できます。この列には、データのインポートが成功したかどうかを確認するときに重要な行の数など、いくつかの異なる値が表示されます。たとえば、元のデータベースに 100 行ある場合、この行のカウントを使用して実際に 100 行が正常にインポートされたことを確認できます。さらに、この行カウントには、Power BI で外れ値と見なした行の数、空の行と文字列、および列の最小値と最大値が示されます。これは、それぞれ列の最小および最大値を示します。この区別は、数値データの場合に特に重要です。これは、ビジネスで "最大" として識別される値を超える最大値がある場合に、すぐに通知されるためです。この値によって、これらの値に注意が促されます。これは、データをさらに掘り下げて調査する場合に、作業に専念できることを意味します。前の図に示したように、テキスト列にデータが含まれていた場合、最小値はアルファベット順で最初の値で、最大値は最後の値を示します。

また、[値分布] グラフでは、その特定の列のそれぞれの個別の値に対してカウントが示されます。前の図のグラフを見ると、値分布では、"Anthony Gross" が SalesPerson 列で最多回数であることがわかり、"Lily Code" が最少回数であることがわかります。この情報は、外れ値を識別するため、特に重要です。 [値分布] 機能で列のある値が他の値よりはるかに多い場合は、その理由の調査を始める場所を特定できます。

数値列の場合、[列統計] には、ゼロと null 値の数、列の平均値、列の値の標準偏差、列に含まれる偶数と奇数の値の数も含まれます。これらの統計情報は、列内のデータの分布を示すものであり、列のデータを集計して、外れ値を特定するための開始点として機能するため、重要です。

たとえば、請求書データの [値分布] グラフでは、SalesPerson 列の何人かの営業担当者がデータ内で同じ回数示されていることがわかります。さらに、Profit 列や他のいくつかのテーブルにも同じ状況が発生していることがわかります。調査中に、使用していたデータは不適切なデータであり、更新が必要であることがわかります。そのため、すぐに更新を完了します。このグラフを見ないと、このエラーがすぐにわからない可能性があります。このため、値分布が不可欠です。

Power Query エディターで編集を完了し、ビジュアルの作成を開始する準備ができたら、Power Query エディターのリボンで [ホーム] に戻ります。 [閉じて適用] を選択すると、Power BI Desktop に戻り、列の編集や変換も適用されます。

これで、Power BI でプロファイルデータを構成する要素が決定されました。これには、Power BI のデータの読み込み、列のデータの型と形式の明確化と詳細な編集のための列のプロパティの調査、データの異常の検出、Power Query エディターでのデータ統計の表示などが含まれます。この知識を利用して、効率的かつ効果的にデータを調査する機能をツールキットに組み込むことができます。

続行

Power BI でのプロファイル データ

データの構造を調べる

データの異常とデータの統計情報を調べる

フィードバック