Power BI におけるプロファイル データ

完了

データのプロファイリングとは、異常の特定、基になるデータ構造の調査と開発、および行数、値分布、最小値と最大値、平均のようなデータ統計のクエリなど、データの微妙な差異を調べることです。 この概念は、データの操作とデータの分布の識別を単純にし、それによりフロント エンドのデータを処理しレポートの要素を作成するタスクを簡単に行えるように、データを整形して整理できるので重要です。

あなたは組織の営業チームに関するレポートを作成しているとします。 データの構造やテーブルへのデータの格納方法がわからないため、ビジュアルの開発を始める前に、内部のデータをプロファイリングする必要があります。 Power BI には、これらのタスクをユーザーフレンドリーかつ簡単に実行できる固有の機能が備わっています。

データの構造を調べる

Power Query エディターでデータを調べ始める前に、まずデータが整理される基礎となるデータ構造について理解する必要があります。 Power BI Desktop の モデル タブで現在のセマンティック モデルを表示できます。

モデル タブでは、テーブルまたは列を選択して特定の列とテーブルのプロパティを編集したり、データの変換 ボタンを使用して Power Query エディターにデータを変換したりできます。 さらに、リボンにあるリレーションシップの管理を使用して、異なるテーブル間のリレーションシップの管理、作成、編集、削除を行うことができます。

データの異常とデータの統計情報を調べる

データ ソースへの接続を作成し、データの変換を選択すると、Power Query エディターに移動し、データ内に異常が存在するかどうかを判断できます。 データの異常はデータ内の外れ値です。 どのような異常かを確認すると、データの正規分布がどのようなものか、および調査する必要がある特定のデータポイントが存在するかどうかを特定するのに役立ちます。 Power Query エディターは、列の分布機能を使用してデータの異常を判別します。

リボンの 表示 を選択し、データ プレビュー の下でいくつかのオプションから選択できます。 データの異常と統計を確認するには、列の分布列の品質列のプロファイル オプションを選択します。 次の図は表示される統計です。

列の品質列の分布は、データ列の上のグラフに表示されます。 列の品質には、有効なデータ、エラーのあるデータ、空のデータの割合が表示されます。 100% のデータが有効であるのが理想的な状況です。

既定では、Power Query はデータ セットの最初の 1000 行を調べます。 これを変更するには、ステータス バーでプロファイルの状態を選択し、データ セット全体に基づく列のプロファイルを選択します。 ]

列の分布では、列内のデータの分布と、個別の値と一意の値の数が表示されます。どちらでも、データの数に関する詳細がわかります。 個別の値とは、重複値や null 値を含む、列内のすべての異なる値ですが、一意の値には重複値や null 値は含まれません。 したがって、このテーブルの個別を見ると存在する値の合計数がわかり、一意を見るとこれらの値のうち 1 回だけ表示される数がわかります。

列プロファイルを使用すると、最初の 1,000 行のデータの列内の統計情報をより詳細に確認できます。 この列には、データのインポートが成功したかどうかを確認するときに重要な行の数など、いくつかの異なる値が表示されます。 たとえば、元のデータベースに 100 行ある場合、この行のカウントを使用して実際に 100 行が正常にインポートされたことを確認できます。 さらに、この行数には、Power BI が外れ値、空の行、文字列とみなした行の数と、列内の最小値と最大値を示す最小値と最大値が表示されます。 この区別は数値データの場合に特に重要です。なぜなら、ビジネスで "最大" と定義される値を超える最大値がある場合、すぐに通知されるからです。この値によって、これらの値に注意が向けられるため、データのより深い分析に集中可能になります。 前の図に示したように、テキスト列にデータが含まれていた場合、最小値はアルファベット順で最初の値で、最大値は最後の値を示します。

また、値分布グラフでは、その特定の列のそれぞれの個別の値に対してカウントが示されます。 前の図のグラフを見ると、値の分布から、"Anthony Gross" が SalesPerson 列内で最も多く出現し、"Lily Code" が最も少なく出現していることがわかります。 この情報は、外れ値を識別するため、特に重要です。 値分布機能で列のある値が他の値よりはるかに多い場合は、その理由の調査を始める場所を特定できます。

数値列の場合、列統計には、ゼロと null 値の数、列の平均値、列の値の標準偏差、列に含まれる偶数と奇数の値の数も含まれます。 これらの統計情報は、列内のデータの分布を示すものであり、列のデータを集計して、外れ値を特定するための開始点として機能するため、重要です。

たとえば、請求書データを調べているときに、値分布グラフを見ると、SalesPerson 列の数人の営業担当者がデータ内で同じ回数出現していることが分かります。 さらに、Profit 列や他のいくつかのテーブルにも同じ状況が発生していることがわかります。 調査中に、使用していたデータは不適切なデータであり、更新が必要であることがわかります。そのため、すぐに更新を完了します。 このグラフを見ないと、このエラーがすぐにわからない可能性があります。このため、値分布が不可欠です。

Power Query エディターで編集を完了し、ビジュアルの構築を開始する準備ができたら、Power Query エディターのリボンの ホーム に戻ります。 閉じて適用 を選択すると、Power BI Desktop に戻り、列の編集/変換も適用されます。

これで、Power BI のプロファイリング データを構成する要素が決定されました。これには、Power BI へのデータの読み込み、列のプロパティの照会による列内のデータの種類と形式についての明確化とさらなる編集、データの異常の検出、Power Query エディターでのデータ統計の表示が含まれます。 この知識を利用して、効率的かつ効果的にデータを調査する機能をツールキットに組み込むことができます。