DataFrame クラス

リファレンス

定義

名前空間:: Microsoft.Spark.Sql

アセンブリ:: Microsoft.Spark.dll

パッケージ:: Microsoft.Spark v1.0.0

重要

一部の情報は、リリース前に大きく変更される可能性があるプレリリースされた製品に関するものです。 Microsoft は、ここに記載されている情報について、明示または黙示を問わず、一切保証しません。

名前付き列に編成されたデータの分散コレクション。

public sealed class DataFrame

type DataFrame = class

Public NotInheritable Class DataFrame

継承: Object
DataFrame

プロパティ

Item[String]

列名に基づいて列を選択します。

メソッド

Agg(Column, Column[])	グループを含まない全体 `DataFrame` の集計。
Alias(String)	エイリアスが設定された新しい `DataFrame` を返します。 As() と同じです。
As(String)	エイリアスが設定された新しい `DataFrame` を返します。
Cache()	既定のストレージレベルのMEMORY_AND_DISKでこれを DataFrame 保持します。
Checkpoint(Boolean)	この `DataFrame`のチェックポイントされたバージョンを返します。
Coalesce(Int32)	要求されるパーティションの数が少ない場合は、正確に`numPartitions`パーティションを含む新しい `DataFrame` を返します。より多くのパーティションが要求された場合は、現在のパーティション数にとどまります。
Col(String)	列名に基づいて列を選択します。
Collect()	この `DataFrame`内のすべての行を含む配列を返します。
ColRegex(String)	正規表現として指定された列名に基づいて列を選択します。
Columns()	すべての列名を返します。
Count()	`DataFrame` の行の数を返します。
CreateGlobalTempView(String)	指定した名前を使用してグローバル一時ビューを作成します。この一時ビューの有効期間は、この Spark アプリケーションに関連付けられています。
CreateOrReplaceGlobalTempView(String)	指定した名前を使用してグローバル一時ビューを作成または置換します。この一時ビューの有効期間は、この Spark アプリケーションに関連付けられています。
CreateOrReplaceTempView(String)	指定した名前を使用してローカル一時ビューを作成または置換します。この一時ビューの有効期間は、この `DataFrame`を作成した SparkSession に関連付けられます。
CreateTempView(String)	指定した名前を使用してローカル一時ビューを作成します。この一時ビューの有効期間は、この `DataFrame`を作成した SparkSession に関連付けられます。
CrossJoin(DataFrame)	明示的なデカルト結合と別 `DataFrame`の。
Cube(Column[])	指定した列を使用して、現在 `DataFrame` のの多次元キューブを作成します。
Cube(String, String[])	指定した列を使用して、現在 `DataFrame` のの多次元キューブを作成します。
Describe(String[])	count、mean、stddev、min、max など、数値列と文字列列の基本的な統計を計算します。列が指定されていない場合、この関数は、すべての数値列または文字列列の統計を計算します。
Distinct()	この `DataFrame`の一意の行のみを含む新しいデータセットを返します。これは DropDuplicates() のエイリアスです。
Drop(Column)	列が削除された新しい `DataFrame` を返します。に同等の式を持つ列がない場合 `DataFrame` 、これは no-op です。
Drop(String[])	列が削除された新しい `DataFrame` を返します。スキーマに列名が含まれていない場合、これは操作なしです。
DropDuplicates()	この `DataFrame`の一意の行のみを含む新しい `DataFrame` を返します。これは Distinct() のエイリアスです。
DropDuplicates(String, String[])	列のサブセットのみを考慮して、重複する行が削除された新しい `DataFrame` を返します。
DTypes()	すべての列名とそのデータ型をタプルの IEnumerable として返します。
Except(DataFrame)	この `DataFrame` 内の行を含む新しい `DataFrame` を返しますが、別`DataFrame`のでは返しません。
ExceptAll(DataFrame)	重複を保持しながら、この`DataFrame`内の行を含む新しい`DataFrame`を返しますが、別`DataFrame`の行には含まれません。
Explain(Boolean)	デバッグ目的でプラン (論理と物理) をコンソールに出力します。
Explain(String)	プラン (論理および物理) を、指定された explain モードで指定された形式で出力します。
Filter(Column)	指定された条件を使用して行をフィルター処理します。
Filter(String)	指定された SQL 式を使用して行をフィルター処理します。
First()	最初の行を返します。 Alis for Head().
GroupBy(Column[])	指定した列を使用して DataFrame をグループ化し、それらの列に対して集計を実行できるようにします。
GroupBy(String, String[])	指定した列を使用して DataFrame をグループ化します。
Head()	最初の行を返します。
Head(Int32)	最初 `n` の行を返します。
Hint(String, Object[])	現在 `DataFrame`のに関するヒントを指定します。
Intersect(DataFrame)	この `DataFrame` と別`DataFrame`のの両方でのみ行を含む新しい `DataFrame` を返します。
IntersectAll(DataFrame)	重複を保持しながら、これと`DataFrame`別`DataFrame`の両方の行のみを含む新しい`DataFrame`行を返します。
IsEmpty()	この DataFrame が空の場合は true を返します。
IsLocal()	Collect() メソッドと Take() メソッドを Spark Executor なしでローカルで実行できる場合は true を返します。
IsStreaming()	到着時にデータを継続的に返す 1 つ以上のソースが含まれている場合 `DataFrame` は true を返します。
Join(DataFrame)	別 `DataFrame`のと結合します。
Join(DataFrame, Column, String)	指定された結合式を使用して、別 `DataFrame`のと結合します。
Join(DataFrame, IEnumerable<String>, String)	指定された列を使用して、別 `DataFrame` の列と等結合します。述語を持つクロス結合は、内部結合として指定されます。クロス結合を明示的に実行する場合は、メソッドを使用します `crossJoin` 。
Join(DataFrame, String)	指定された列を使用して、内部等価結合を別 `DataFrame` の列と結合します。
Limit(Int32)	最初`number`の行を取得して新しい `DataFrame` を返します。
LocalCheckpoint(Boolean)	この `DataFrame`のローカルでチェックポイントが設定されたバージョンを返します。
Na()	不足しているデータを操作するためのを `DataFrameNaFunctions` 返します。
Observe(String, Column, Column[])	データセットで観察する (名前付き) メトリックを定義します。このメソッドは、入力と同じ結果を返す 'observed' DataFrame を返します。次の保証があります。その時点でデータセットを通過しているすべてのデータに対して定義された集計 (メトリック) が計算されます。完了ポイントに達するとすぐに、定義された集計列の値が報告されます。完了ポイントは、クエリの終了 (バッチモード) またはストリーミングエポックの終了です。集計の値には、前の完了ポイント以降に処理されたデータのみが反映されます。継続的な実行は現在サポートされていないことに注意してください。
OrderBy(Column[])	指定された式で並べ替えられた新しいデータセットを返します。
OrderBy(String, String[])	指定された式で並べ替えられた新しいデータセットを返します。
Persist()	既定のストレージレベルのMEMORY_AND_DISKでこれを DataFrame 保持します。
Persist(StorageLevel)	これを DataFrame 特定のストレージレベルで保持します。
PrintSchema()	スキーマを優れたツリー形式でコンソールに出力します。
PrintSchema(Int32)	指定したレベルまでのスキーマを、優れたツリー形式でコンソールに出力します。
RandomSplit(Double[], Nullable<Int64>)	これを `DataFrame` 指定された重みでランダムに分割します。
Repartition(Column[])	パーティションの数としてを使用して`spark.sql.shuffle.partitions`、指定されたパーティション分割式によってパーティション分割された新しい `DataFrame` を返します。
Repartition(Int32)	パーティションが正確`numPartitions`に含まれる新しい `DataFrame` を返します。
Repartition(Int32, Column[])	指定されたパーティション分割式によってパーティション分割された新しい `DataFrame` をに `numPartitions`返します。結果として得られる `DataFrame` ハッシュはパーティション分割されます。
RepartitionByRange(Column[])	パーティションの数としてを使用して`spark.sql.shuffle.partitions`、指定されたパーティション分割式によってパーティション分割された新しい `DataFrame` を返します。結果として得られるデータセットは、範囲がパーティション分割されます。
RepartitionByRange(Int32, Column[])	指定されたパーティション分割式によってパーティション分割された新しい `DataFrame` をに `numPartitions`返します。結果として得られる `DataFrame` 範囲はパーティション分割されます。
Rollup(Column[])	指定した列を使用して、現在 `DataFrame` のの多次元ロールアップを作成します。
Rollup(String, String[])	指定した列を使用して、現在 `DataFrame` のの多次元ロールアップを作成します。
Sample(Double, Boolean, Nullable<Int64>)	ユーザー指定のシードを使用して、行の一部 (置換なし) をサンプリングして新しい `DataFrame` を返します。
Schema()	この `DataFrame`に関連付けられているスキーマを返します。
Select(Column[])	列ベースの式のセットを選択します。
Select(String, String[])	列のセットを選択します。これは Select() のバリアントで、列名を使用して既存の列のみを選択できます (つまり、式を作成できません)。
SelectExpr(String[])	SQL 式のセットを選択します。これは、SQL 式を受け入れる Select() のバリアントです。
Show(Int32, Int32, Boolean)	の行を `DataFrame` 表形式で表示します。
Sort(Column[])	指定された式で並べ替えられた新しい `DataFrame` を返します。
Sort(String, String[])	指定した列で並べ替えられた新しい `DataFrame` を、すべて昇順で返します。
SortWithinPartitions(Column[])	指定された式で並べ替えられた各パーティションを持つ新しい `DataFrame` を返します。
SortWithinPartitions(String, String[])	指定された式で並べ替えられた各パーティションを持つ新しい `DataFrame` を返します。
Stat()	機能する統計関数の `DataFrameStatFunctions` サポートに対するを返します。
StorageLevel()	の現在StorageLevel()のをDataFrame取得します。
Summary(String[])	数値列と文字列列の指定された統計を計算します。
Tail(Int32)	内の最後 `n` の行を返します `DataFrame`。
Take(Int32)	内の最初 `n` の行を返します `DataFrame`。
ToDF()	この厳密に型指定されたデータのコレクションをジェネリック `DataFrame`に変換します。
ToDF(String[])	この厳密に型指定されたデータのコレクションをジェネリック `DataFrame` に変換し、列の名前を変更します。
ToJSON()	DataFrame の内容を JSON 文字列の DataFrame として返します。
ToLocalIterator()	この `DataFrame`内のすべての行を含む反復子を返します。反復子は、この `DataFrame`の最大パーティションと同じ量のメモリを消費します。
ToLocalIterator(Boolean)	この `DataFrame`内のすべての行を含む反復子を返します。反復子は、この `DataFrame`の最大パーティションと同じ量のメモリを消費します。プリフェッチでは、最大 2 つのパーティションのメモリまで消費される可能性があります。
Transform(Func<DataFrame,DataFrame>)	カスタム変換をチェーンするための簡潔な構文。
Union(DataFrame)	この `DataFrame` と別`DataFrame`の内の行の和集合を含む新しい `DataFrame` を返します。
UnionByName(DataFrame)	この `DataFrame` と別`DataFrame`のの行の和集合を含む新しい `DataFrame` を返し、名前で列を解決します。
Unpersist(Boolean)	データセットを非永続的としてマークし、そのデータセットのすべてのブロックをメモリとディスクから削除します。
Where(Column)	指定された条件を使用して行をフィルター処理します。これは Filter() のエイリアスです。
Where(String)	指定された SQL 式を使用して行をフィルター処理します。これは Filter() のエイリアスです。
WithColumn(String, Column)	列を追加するか、同じ名前の既存の列を置き換えて、新しい `DataFrame` を返します。
WithColumnRenamed(String, String)	列の名前が変更された新しいデータセットを返します。スキーマにが含 `existingName`まれていない場合、これは操作なしです。
WithWatermark(String, String)	この DataFrame のイベント時間の基準値を定義します。ウォーターマークは、それ以上遅延データが到着しないと仮定する前の時点を追跡します。
Write()	非ストリーミングデータセットのコンテンツを外部ストレージに保存するためのインターフェイス。
WriteStream()	ストリーミングデータセットのコンテンツを外部ストレージに保存するためのインターフェイス。
WriteTo(String)	v2 ソース用の書き込み構成ビルダーを作成します。

適用対象

次の方法で共有

DataFrame クラス

定義

プロパティ

メソッド

適用対象

その他のリソース