Microsoft Fabric で Data Wrangler を使用してデータ準備を促進する方法
Data Wrangler は、探索的データ分析用のイマーシブ インターフェイスをユーザーに提供するノートブック ベースのツールです。 この機能は、グリッドのようなデータ表示と動的な概要統計、組み込みの視覚化、および一般的なデータ クリーニング操作のライブラリを組み合わせたものです。 各操作は数回クリックするだけで適用でき、データ表示はリアルタイムで更新されて、再利用可能な関数としてノートブックに保存して戻せる、pandas または PySpark のコードを生成します。 この記事は、pandas DataFrames の探索と変換に重点を置いています。 Spark DataFrames に対して Data Wrangler を使用する手順については、こちらを参照してください。
前提条件
Microsoft Fabric サブスクリプションを取得します。 または、無料の Microsoft Fabric 試用版にサインアップします。
Microsoft Fabric にサインインします。
ホーム ページの左側にある環境スイッチャーを使って、Synapse Data Science 環境に切り替えます。
制限事項
- Data Wrangler は現在、一般提供で、pandas コード生成とパブリック プレビューでの Spark コード生成をサポートしています。
- カスタム コード操作は現在、pandas DataFrames でのみサポートされています。
- Data Wrangler の表示は、大きなモニターでより効果的に機能しますが、小さなスクリーンに対応させるため、インターフェイスのさまざまな部分を最小化したり非表示にしたりできます。
Data Wrangler の起動
Data Wrangler は、Microsoft Fabric ノートブックから直接起動して、pandas または Spark の DataFrame を探索して変換することができます。 Spark DataFrames で Data Wrangler を使用することの概要については、この関連記事を参照してください。 下のコード スニペットは、pandas DataFrame にサンプル データを読み込む方法を示しています。
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
ノートブック リボンの [データ] タブで、Data Wrangler ドロップダウン プロンプトを使用して、編集に使用できるアクティブな DataFrames を参照します。 Data Wrangler で開く内容を選択します。
ヒント
ノートブック カーネルがビジー状態の間は、Data Wrangler を開くことができません。 実行中のセルは、Data Wrangler を起動する前に実行を完了する必要があります。
カスタム サンプルの選択
Data Wrangler では、ドロップダウンから [カスタム サンプルの選択] を選択し、任意のアクティブな DataFrame のカスタム サンプルを開くことができます。 そうすると、目的のサンプルのサイズ (行数) とサンプリング方法 (最初のレコード、最後のレコード、またはランダム セット) を指定するオプションが表示されるポップアップが起動します。
概要統計情報の表示
Data Wrangler が読み込まれると、[概要] パネルに、選択された DataFrame の説明的な概要が表示されます。 この概要には、DataFrame のディメンション、欠損値などの情報が含まれています。 [Data Wrangler] グリッドで列を選択すると、[概要] パネルを更新し、その特定の列に関する説明的な統計情報を表示するよう求めるプロンプトが表示されます。 すべての列に関するクイック分析情報は、そのヘッダーでも利用できます。
ヒント
列固有の統計情報とビジュアル ([概要] パネル内と列ヘッダー内の両方) は、列のデータ型によって異なります。 たとえば、数値列のビン分割されたヒストグラムは、列が数値型としてキャストされている場合にのみ列ヘッダーに表示されます。 [操作] パネルを使用して、最も正確な表示を行うために列の種類を再キャストします。
データ クリーニング操作の参照
データ クリーニング手順の検索可能な一覧は、[操作] パネルにあります。 (各列ヘッダーのメニューには、同じ操作の、より細かな選択が表示されます。)[操作] パネルからデータクリーニング手順を選択すると、その手順を完了するために必要なパラメータと共に、対象の 1 列または複数列を提供するプロンプトが表示されます。 たとえば、列を数値的にスケーリングするプロンプトには、新しい値の範囲が必要です。
操作のプレビューと適用
選択した操作の結果は、Data Wrangler 表示グリッドで自動的にプレビューされ、対応するコードがグリッドの下のパネルに自動的に表示されます。 プレビューされたコードをコミットするには、いずれかの場所で [適用] を選択します。 プレビューされたコードを削除し、新しい操作を試すには、[破棄] を選択します。
操作が適用されると、Data Wrangler 表示グリッドと概要統計情報が更新され、結果が反映されます。 コードは、[クリーニングの手順] パネルにある、コミットされた操作の実行中の一覧に表示されます。
ヒント
[クリーニングの手順] パネルで、そのステップににカーソルを合わせると表示されるごみ箱アイコンを使用して、最後に適用されたステップをいつでも元に戻すことができます。
次の表は、Data Wrangler で現在サポートされている操作をまとめたものです。
操作 | 説明 |
---|---|
並べ替え | 列を昇順または降順で並べ替え |
Assert | 1 つ以上の条件に基づいて行をフィルター処理します。 |
One-hot エンコード | 既存の列の一意の値ごとに新しい列を作成し、行ごとにその値の有無を示す |
区切り記号を使用した One-hot エンコード | 区切り記号を使用してカテゴリ データを分割し、One-hot エンコードを行う |
列のタイプの変更 | 列のデータ型を変更する |
列をドロップする | 1 つまたは複数の列の削除 |
列の選択 | 保持する 1 つ以上の列を選択し、残りの列を削除する |
列の名前の変更 | 列の名前変更 |
欠損値をドロップする | 欠損値を含む行を削除する |
重複する行をドロップする | 1 つ以上の列に重複する値を持つすべての行をドロップする |
欠落値を入力する | 欠損値のあるセルを新しい値に置き換える |
検索および置換 | セルを完全に一致するパターンに置き換える |
列と集計ごとにグループ化 | 列の値でグループ化し、結果を集計する |
空白を取り除く | テキストの先頭と末尾から空白文字を削除する |
テキストの分割 | ユーザー定義の区切り記号に基づいて列を複数の列に分割する |
テキストを小文字に変換する | テキストを小文字に変換する |
テキストを大文字に変換する | テキストを大文字に変換する |
最小値/最大値をスケーリングする | 最小値と最大値の間で数値列をスケーリングする |
フラッシュ フィル | 既存の列から派生した例に基づいて新しい列を自動的に作成する |
コードの保存とエクスポート
[Data Wrangler] 表示グリッドの上にあるツール バーには、生成されたコードを保存するためのオプションがあります。 コードをクリップボードにコピーしたり、関数としてノートブックにエクスポートしたりすることができます。 コードをエクスポートすると、Data Wrangler が閉じられ、ノートブックのコード セルに新しい関数が追加されます。 クリーニングされた DataFrame を csv ファイルとしてダウンロードすることもできます。
ヒント
Data Wrangler で生成されたコードは、新しいセルを手動で実行するまで適用されず、元の DataFrame は上書きされません。
関連するコンテンツ
- Spark DataFrames で Data Wrangler を試すには、この関連記事を参照してください。
- VS Code で Data Wrangler を試すには、「VS Code の Data Wrangler」を参照してください。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示