Microsoft Fabric で Data Wrangler を使用してデータ準備を促進する方法

[アーティクル]
11/15/2023

Data Wrangler は、探索的データ分析用のイマーシブインターフェイスをユーザーに提供するノートブックベースのツールです。この機能は、グリッドのようなデータ表示と動的な概要統計、組み込みの視覚化、および一般的なデータクリーニング操作のライブラリを組み合わせたものです。各操作は数回クリックするだけで適用でき、データ表示はリアルタイムで更新されて、再利用可能な関数としてノートブックに保存して戻せる、pandas または PySpark のコードを生成します。この記事は、pandas DataFrames の探索と変換に重点を置いています。 Spark DataFrames に対して Data Wrangler を使用する手順については、こちらを参照してください。

前提条件

Microsoft Fabric サブスクリプションを取得します。または、無料の Microsoft Fabric 試用版にサインアップします。
Microsoft Fabric にサインインします。
ホームページの左側にある環境スイッチャーを使って、Synapse Data Science 環境に切り替えます。

制限事項

Data Wrangler は現在、一般提供で、pandas コード生成とパブリックプレビューでの Spark コード生成をサポートしています。
カスタムコード操作は現在、pandas DataFrames でのみサポートされています。
Data Wrangler の表示は、大きなモニターでより効果的に機能しますが、小さなスクリーンに対応させるため、インターフェイスのさまざまな部分を最小化したり非表示にしたりできます。

Data Wrangler の起動

Data Wrangler は、Microsoft Fabric ノートブックから直接起動して、pandas または Spark の DataFrame を探索して変換することができます。 Spark DataFrames で Data Wrangler を使用することの概要については、この関連記事を参照してください。下のコードスニペットは、pandas DataFrame にサンプルデータを読み込む方法を示しています。

import pandas as pd

# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)

ノートブックリボンの [データ] タブで、Data Wrangler ドロップダウンプロンプトを使用して、編集に使用できるアクティブな DataFrames を参照します。 Data Wrangler で開く内容を選択します。

ヒント

ノートブックカーネルがビジー状態の間は、Data Wrangler を開くことができません。実行中のセルは、Data Wrangler を起動する前に実行を完了する必要があります。

カスタムサンプルの選択

Data Wrangler では、ドロップダウンから [カスタムサンプルの選択] を選択し、任意のアクティブな DataFrame のカスタムサンプルを開くことができます。そうすると、目的のサンプルのサイズ (行数) とサンプリング方法 (最初のレコード、最後のレコード、またはランダムセット) を指定するオプションが表示されるポップアップが起動します。

概要統計情報の表示

Data Wrangler が読み込まれると、[概要] パネルに、選択された DataFrame の説明的な概要が表示されます。この概要には、DataFrame のディメンション、欠損値などの情報が含まれています。 [Data Wrangler] グリッドで列を選択すると、[概要] パネルを更新し、その特定の列に関する説明的な統計情報を表示するよう求めるプロンプトが表示されます。すべての列に関するクイック分析情報は、そのヘッダーでも利用できます。

ヒント

列固有の統計情報とビジュアル ([概要] パネル内と列ヘッダー内の両方) は、列のデータ型によって異なります。たとえば、数値列のビン分割されたヒストグラムは、列が数値型としてキャストされている場合にのみ列ヘッダーに表示されます。 [操作] パネルを使用して、最も正確な表示を行うために列の種類を再キャストします。

データクリーニング操作の参照

データクリーニング手順の検索可能な一覧は、[操作] パネルにあります。 (各列ヘッダーのメニューには、同じ操作の、より細かな選択が表示されます。)[操作] パネルからデータクリーニング手順を選択すると、その手順を完了するために必要なパラメータと共に、対象の 1 列または複数列を提供するプロンプトが表示されます。たとえば、列を数値的にスケーリングするプロンプトには、新しい値の範囲が必要です。

操作のプレビューと適用

選択した操作の結果は、Data Wrangler 表示グリッドで自動的にプレビューされ、対応するコードがグリッドの下のパネルに自動的に表示されます。プレビューされたコードをコミットするには、いずれかの場所で [適用] を選択します。プレビューされたコードを削除し、新しい操作を試すには、[破棄] を選択します。

操作が適用されると、Data Wrangler 表示グリッドと概要統計情報が更新され、結果が反映されます。コードは、[クリーニングの手順] パネルにある、コミットされた操作の実行中の一覧に表示されます。

ヒント

[クリーニングの手順] パネルで、そのステップににカーソルを合わせると表示されるごみ箱アイコンを使用して、最後に適用されたステップをいつでも元に戻すことができます。

次の表は、Data Wrangler で現在サポートされている操作をまとめたものです。

操作	説明
並べ替え	列を昇順または降順で並べ替え
Assert	1 つ以上の条件に基づいて行をフィルター処理します。
One-hot エンコード	既存の列の一意の値ごとに新しい列を作成し、行ごとにその値の有無を示す
区切り記号を使用した One-hot エンコード	区切り記号を使用してカテゴリデータを分割し、One-hot エンコードを行う
列のタイプの変更	列のデータ型を変更する
列をドロップする	1 つまたは複数の列の削除
列の選択	保持する 1 つ以上の列を選択し、残りの列を削除する
列の名前の変更	列の名前変更
欠損値をドロップする	欠損値を含む行を削除する
重複する行をドロップする	1 つ以上の列に重複する値を持つすべての行をドロップする
欠落値を入力する	欠損値のあるセルを新しい値に置き換える
検索および置換	セルを完全に一致するパターンに置き換える
列と集計ごとにグループ化	列の値でグループ化し、結果を集計する
空白を取り除く	テキストの先頭と末尾から空白文字を削除する
テキストの分割	ユーザー定義の区切り記号に基づいて列を複数の列に分割する
テキストを小文字に変換する	テキストを小文字に変換する
テキストを大文字に変換する	テキストを大文字に変換する
最小値/最大値をスケーリングする	最小値と最大値の間で数値列をスケーリングする
フラッシュフィル	既存の列から派生した例に基づいて新しい列を自動的に作成する

コードの保存とエクスポート

[Data Wrangler] 表示グリッドの上にあるツールバーには、生成されたコードを保存するためのオプションがあります。コードをクリップボードにコピーしたり、関数としてノートブックにエクスポートしたりすることができます。コードをエクスポートすると、Data Wrangler が閉じられ、ノートブックのコードセルに新しい関数が追加されます。クリーニングされた DataFrame を csv ファイルとしてダウンロードすることもできます。

ヒント

Data Wrangler で生成されたコードは、新しいセルを手動で実行するまで適用されず、元の DataFrame は上書きされません。

Spark DataFrames で Data Wrangler を試すには、この関連記事を参照してください。
VS Code で Data Wrangler を試すには、「VS Code の Data Wrangler」を参照してください。

Share via

Microsoft Fabric で Data Wrangler を使用してデータ準備を促進する方法

前提条件

制限事項

Data Wrangler の起動

カスタムサンプルの選択

概要統計情報の表示

データクリーニング操作の参照

操作のプレビューと適用

コードの保存とエクスポート

フィードバック

フィードバック

その他のリソース

Share via

Microsoft Fabric で Data Wrangler を使用してデータ準備を促進する方法

前提条件

制限事項

Data Wrangler の起動

カスタム サンプルの選択

概要統計情報の表示

データ クリーニング操作の参照

操作のプレビューと適用

コードの保存とエクスポート

関連するコンテンツ

フィードバック

フィードバック

その他のリソース

カスタムサンプルの選択

データクリーニング操作の参照