DataFrame クラス

定義

名前付き列に編成されたデータの分散コレクション。

public sealed class DataFrame
type DataFrame = class
Public NotInheritable Class DataFrame
継承
DataFrame

プロパティ

Item[String]

列名に基づいて列を選択します。

メソッド

Agg(Column, Column[])

グループを含まない全体 DataFrame の集計。

Alias(String)

エイリアスが設定された新しい DataFrame を返します。 As() と同じです。

As(String)

エイリアスが設定された新しい DataFrame を返します。

Cache()

既定のストレージ レベルのMEMORY_AND_DISKでこれを DataFrame 保持します。

Checkpoint(Boolean)

この DataFrameのチェックポイントされたバージョンを返します。

Coalesce(Int32)

要求されるパーティションの数が少ない場合は、正確にnumPartitionsパーティションを含む新しい DataFrame を返します。 より多くのパーティションが要求された場合は、現在のパーティション数にとどまります。

Col(String)

列名に基づいて列を選択します。

Collect()

この DataFrame内のすべての行を含む配列を返します。

ColRegex(String)

正規表現として指定された列名に基づいて列を選択します。

Columns()

すべての列名を返します。

Count()

DataFrame の行の数を返します。

CreateGlobalTempView(String)

指定した名前を使用してグローバル一時ビューを作成します。 この一時ビューの有効期間は、この Spark アプリケーションに関連付けられています。

CreateOrReplaceGlobalTempView(String)

指定した名前を使用してグローバル一時ビューを作成または置換します。 この一時ビューの有効期間は、この Spark アプリケーションに関連付けられています。

CreateOrReplaceTempView(String)

指定した名前を使用してローカル一時ビューを作成または置換します。 この一時ビューの有効期間は、この DataFrameを作成した SparkSession に関連付けられます。

CreateTempView(String)

指定した名前を使用してローカル一時ビューを作成します。 この一時ビューの有効期間は、この DataFrameを作成した SparkSession に関連付けられます。

CrossJoin(DataFrame)

明示的なデカルト結合と別 DataFrameの 。

Cube(Column[])

指定した列を使用して、現在 DataFrame の の多次元キューブを作成します。

Cube(String, String[])

指定した列を使用して、現在 DataFrame の の多次元キューブを作成します。

Describe(String[])

count、mean、stddev、min、max など、数値列と文字列列の基本的な統計を計算します。列が指定されていない場合、この関数は、すべての数値列または文字列列の統計を計算します。

Distinct()

この DataFrameの一意の行のみを含む新しいデータセットを返します。 これは DropDuplicates() のエイリアスです。

Drop(Column)

列が削除された新しい DataFrame を返します。 に同等の式を持つ列がない場合 DataFrame 、これは no-op です。

Drop(String[])

列が削除された新しい DataFrame を返します。 スキーマに列名が含まれていない場合、これは操作なしです。

DropDuplicates()

この DataFrameの一意の行のみを含む新しい DataFrame を返します。 これは Distinct() のエイリアスです。

DropDuplicates(String, String[])

列のサブセットのみを考慮して、重複する行が削除された新しい DataFrame を返します。

DTypes()

すべての列名とそのデータ型をタプルの IEnumerable として返します。

Except(DataFrame)

この DataFrame 内の行を含む新しい DataFrame を返しますが、別DataFrameの では返しません。

ExceptAll(DataFrame)

重複を保持しながら、このDataFrame内の行を含む新しいDataFrameを返しますが、別DataFrameの行には含まれません。

Explain(Boolean)

デバッグ目的でプラン (論理と物理) をコンソールに出力します。

Explain(String)

プラン (論理および物理) を、指定された explain モードで指定された形式で出力します。

Filter(Column)

指定された条件を使用して行をフィルター処理します。

Filter(String)

指定された SQL 式を使用して行をフィルター処理します。

First()

最初の行を返します。 Alis for Head().

GroupBy(Column[])

指定した列を使用して DataFrame をグループ化し、それらの列に対して集計を実行できるようにします。

GroupBy(String, String[])

指定した列を使用して DataFrame をグループ化します。

Head()

最初の行を返します。

Head(Int32)

最初 n の行を返します。

Hint(String, Object[])

現在 DataFrameの に関するヒントを指定します。

Intersect(DataFrame)

この DataFrame と 別DataFrameの の両方でのみ行を含む新しい DataFrame を返します。

IntersectAll(DataFrame)

重複を保持しながら、これとDataFrameDataFrameの両方の行のみを含む新しいDataFrame行を返します。

IsEmpty()

この DataFrame が空の場合は true を返します。

IsLocal()

Collect() メソッドと Take() メソッドを Spark Executor なしでローカルで実行できる場合は true を返します。

IsStreaming()

到着時にデータを継続的に返す 1 つ以上のソースが含まれている場合 DataFrame は true を返します。

Join(DataFrame)

DataFrameの と結合します。

Join(DataFrame, Column, String)

指定された結合式を使用して、別 DataFrameの と結合します。

Join(DataFrame, IEnumerable<String>, String)

指定された列を使用して、別 DataFrame の列と等結合します。 述語を持つクロス結合は、内部結合として指定されます。 クロス結合を明示的に実行する場合は、 メソッドを使用します crossJoin

Join(DataFrame, String)

指定された列を使用して、内部等価結合を別 DataFrame の列と結合します。

Limit(Int32)

最初numberの行を取得して新しい DataFrame を返します。

LocalCheckpoint(Boolean)

この DataFrameのローカルでチェックポイントが設定されたバージョンを返します。

Na()

不足しているデータを操作するための を DataFrameNaFunctions 返します。

Observe(String, Column, Column[])

データセットで観察する (名前付き) メトリックを定義します。 このメソッドは、入力と同じ結果を返す 'observed' DataFrame を返します。次の保証があります。

  1. その時点でデータセットを通過しているすべてのデータに対して定義された集計 (メトリック) が計算されます。
  2. 完了ポイントに達するとすぐに、定義された集計列の値が報告されます。完了ポイントは、クエリの終了 (バッチ モード) またはストリーミング エポックの終了です。 集計の値には、前の完了ポイント以降に処理されたデータのみが反映されます。

継続的な実行は現在サポートされていないことに注意してください。

OrderBy(Column[])

指定された式で並べ替えられた新しいデータセットを返します。

OrderBy(String, String[])

指定された式で並べ替えられた新しいデータセットを返します。

Persist()

既定のストレージ レベルのMEMORY_AND_DISKでこれを DataFrame 保持します。

Persist(StorageLevel)

これを DataFrame 特定のストレージ レベルで保持します。

PrintSchema()

スキーマを優れたツリー形式でコンソールに出力します。

PrintSchema(Int32)

指定したレベルまでのスキーマを、優れたツリー形式でコンソールに出力します。

RandomSplit(Double[], Nullable<Int64>)

これを DataFrame 指定された重みでランダムに分割します。

Repartition(Column[])

パーティションの数として を使用してspark.sql.shuffle.partitions、指定されたパーティション分割式によってパーティション分割された新しい DataFrame を返します。

Repartition(Int32)

パーティションが正確numPartitionsに含まれる新しい DataFrame を返します。

Repartition(Int32, Column[])

指定されたパーティション分割式によってパーティション分割された新しい DataFrame を に numPartitions返します。 結果として得られる DataFrame ハッシュはパーティション分割されます。

RepartitionByRange(Column[])

パーティションの数として を使用してspark.sql.shuffle.partitions、指定されたパーティション分割式によってパーティション分割された新しい DataFrame を返します。 結果として得られるデータセットは、範囲がパーティション分割されます。

RepartitionByRange(Int32, Column[])

指定されたパーティション分割式によってパーティション分割された新しい DataFrame を に numPartitions返します。 結果として得られる DataFrame 範囲はパーティション分割されます。

Rollup(Column[])

指定した列を使用して、現在 DataFrame の の多次元ロールアップを作成します。

Rollup(String, String[])

指定した列を使用して、現在 DataFrame の の多次元ロールアップを作成します。

Sample(Double, Boolean, Nullable<Int64>)

ユーザー指定のシードを使用して、行の一部 (置換なし) をサンプリングして新しい DataFrame を返します。

Schema()

この DataFrameに関連付けられているスキーマを返します。

Select(Column[])

列ベースの式のセットを選択します。

Select(String, String[])

列のセットを選択します。 これは Select() のバリアントで、列名を使用して既存の列のみを選択できます (つまり、式を作成できません)。

SelectExpr(String[])

SQL 式のセットを選択します。 これは、SQL 式を受け入れる Select() のバリアントです。

Show(Int32, Int32, Boolean)

の行を DataFrame 表形式で表示します。

Sort(Column[])

指定された式で並べ替えられた新しい DataFrame を返します。

Sort(String, String[])

指定した列で並べ替えられた新しい DataFrame を、すべて昇順で返します。

SortWithinPartitions(Column[])

指定された式で並べ替えられた各パーティションを持つ新しい DataFrame を返します。

SortWithinPartitions(String, String[])

指定された式で並べ替えられた各パーティションを持つ新しい DataFrame を返します。

Stat()

機能する統計関数の DataFrameStatFunctions サポートに対する を返します。

StorageLevel()

の現在StorageLevel()の をDataFrame取得します。

Summary(String[])

数値列と文字列列の指定された統計を計算します。

Tail(Int32)

内の最後 n の行を返します DataFrame

Take(Int32)

内の最初 n の行を返します DataFrame

ToDF()

この厳密に型指定されたデータのコレクションをジェネリック DataFrameに変換します。

ToDF(String[])

この厳密に型指定されたデータのコレクションをジェネリック DataFrame に変換し、列の名前を変更します。

ToJSON()

DataFrame の内容を JSON 文字列の DataFrame として返します。

ToLocalIterator()

この DataFrame内のすべての行を含む反復子を返します。 反復子は、この DataFrameの最大パーティションと同じ量のメモリを消費します。

ToLocalIterator(Boolean)

この DataFrame内のすべての行を含む反復子を返します。 反復子は、この DataFrameの最大パーティションと同じ量のメモリを消費します。 プリフェッチでは、最大 2 つのパーティションのメモリまで消費される可能性があります。

Transform(Func<DataFrame,DataFrame>)

カスタム変換をチェーンするための簡潔な構文。

Union(DataFrame)

この DataFrame と別DataFrameの 内の行の和集合を含む新しい DataFrame を返します。

UnionByName(DataFrame)

この DataFrame と別DataFrameの の行の和集合を含む新しい DataFrame を返し、名前で列を解決します。

Unpersist(Boolean)

データセットを非永続的としてマークし、そのデータセットのすべてのブロックをメモリとディスクから削除します。

Where(Column)

指定された条件を使用して行をフィルター処理します。 これは Filter() のエイリアスです。

Where(String)

指定された SQL 式を使用して行をフィルター処理します。 これは Filter() のエイリアスです。

WithColumn(String, Column)

列を追加するか、同じ名前の既存の列を置き換えて、新しい DataFrame を返します。

WithColumnRenamed(String, String)

列の名前が変更された新しいデータセットを返します。 スキーマに が含 existingNameまれていない場合、これは操作なしです。

WithWatermark(String, String)

この DataFrame のイベント時間の基準値を定義します。 ウォーターマークは、それ以上遅延データが到着しないと仮定する前の時点を追跡します。

Write()

非ストリーミング データセットのコンテンツを外部ストレージに保存するためのインターフェイス。

WriteStream()

ストリーミング データセットのコンテンツを外部ストレージに保存するためのインターフェイス。

WriteTo(String)

v2 ソース用の書き込み構成ビルダーを作成します。

適用対象