データ プロファイリング ツールの使用

データ プロファイリング ツールにより、Power Query エディターでデータをクリーンアップ、変換、解釈するための新しい直感的な方法が提供されます。 具体的な内容を次に示します。

  • 列の品質

  • 列の分布

  • 列のプロファイル

データ プロファイリング ツールを有効にするには、リボンの [表示] タブに移動します。 次の図に示すように、Power Query デスクトップで、[データ プレビュー] グループで必要なオプションを有効にします。

データ プロファイリング ツール。

Power Query Online で、データ ビュー を選択し、ドロップダウン リストで必要なオプションを有効にします。

<代替テキスト>

オプションを有効にした後、Power Query エディターに次の図のような情報が表示されます。

有効になっているデータ プロファイリング ツール。

Note

既定では、Power Query はデータの最初の 1,000 行に対してこのデータ プロファイリングを実行します。 データ セット全体に対して動作させるには、エディタ ウィンドウの左下隅にある [上位 1000 行に基づく列プロファイリング] メッセージを選択して、列プロファイリングを [データ セット全体に基づく列プロファイリング] に変更します。

列の品質

列の品質機能では、行の値が次の 5 つのカテゴリでラベル付けされます。

  • 有効。緑色で表示されます。

  • エラー。赤色で表示されます。

  • 。濃い灰色で表示されます。

  • 不明。緑色の破線で表示されます。 列にエラーがある場合に、残りのデータの品質が不明であることを示します。

  • 予期しないエラー。赤色の破線で表示されます。

これらのインジケーターは、次の図に示すように、小さな横棒グラフの一部として、列の名前のすぐ下に表示されます。

テーブル内の各列の上にデータ品質インジケーターとラベルが表示された横棒グラフの拡張ビュー。

各列の品質カテゴリのレコード数もパーセンテージとして表示されます。

いずれかの列をポイントすると、列全体の値の品質の数値分布が表示されます。 さらに、省略記号ボタン (...) を選ぶと、値に対する操作のクイック アクション ボタンがいくつか開きます。

有効な名前が 701 個 (100%)、エラーが 0 個、空が 0 個の名前列の分布。クイック アクション コマンドが表示されています。

列の分布

この機能は、各列の値の頻度と分布を示す一連のビジュアルを列の名前の下に表示します。 これらの視覚化のデータは、頻度が最も高い値から降順に並べ替えられます。

列の分布。

いずれかの列の分布データにカーソルを合わせると、列内の全体的なデータに関する情報 (個別のカウントと一意の値) が表示されます。 省略記号ボタンを選んで、使用可能な操作のメニューから選ぶこともできます。

列分布オプション。

列のプロファイル

この機能を使用すると、列内のデータの詳細を確認できます。 列分布グラフとは別に、列統計グラフが含まれます。 この情報は、次の図に示すように、データ プレビュー セクションの下に表示されます。

列のプロファイル。

値でフィルター処理する

右側の値分布グラフを操作し、グラフの各部分にマウス ポインターを合わせていずれかの棒を選ぶことができます。

値分布横棒グラフの棒にマウス ポインターを合わせると、その棒の個々のデータが表示されます。

右クリックすると、その値に使用できる変換のセットが表示されます。

値分布棒グラフ内の 1 つの棒に使用できる変換を含むショートカット メニューを表示します。

データをコピーする

列統計と値分布の両方のセクションの右上隅にある省略記号ボタン (...) を選んで、[コピー] ショートカット メニューを表示できます。 いずれかのセクションに表示されるデータを選んで、クリップボードにコピーします。

列統計をコピーします。

値でグループ化する

値分布グラフの右上隅にある省略記号ボタン (...) を選ぶと、[コピー] に加えて [グループ化] を選ぶことができます。 この機能を使用して、グラフ内の値を使用可能なオプションのセットによってグループ化します。

値分布でグループ化します。

次の図は、テキスト長でグループ化された製品名の列を示しています。 グラフ内の値をグループ化した後は、「値でフィルター処理する」の説明に従って、グラフ内の個々の値を操作できます。

テーブルの [名前] 列にあるストア名のテキスト長の分布を示す新しい横棒グラフ。