DataFrame クラス
定義
重要
一部の情報は、リリース前に大きく変更される可能性があるプレリリースされた製品に関するものです。 Microsoft は、ここに記載されている情報について、明示または黙示を問わず、一切保証しません。
名前付き列に編成されたデータの分散コレクション。
public sealed class DataFrame
type DataFrame = class
Public NotInheritable Class DataFrame
- 継承
-
DataFrame
プロパティ
Item[String] |
列名に基づいて列を選択します。 |
メソッド
Agg(Column, Column[]) |
グループを含まない全体 |
Alias(String) |
エイリアスが設定された新しい |
As(String) |
エイリアスが設定された新しい |
Cache() |
既定のストレージ レベルのMEMORY_AND_DISKでこれを DataFrame 保持します。 |
Checkpoint(Boolean) |
この |
Coalesce(Int32) |
要求されるパーティションの数が少ない場合は、正確に |
Col(String) |
列名に基づいて列を選択します。 |
Collect() |
この |
ColRegex(String) |
正規表現として指定された列名に基づいて列を選択します。 |
Columns() |
すべての列名を返します。 |
Count() |
|
CreateGlobalTempView(String) |
指定した名前を使用してグローバル一時ビューを作成します。 この一時ビューの有効期間は、この Spark アプリケーションに関連付けられています。 |
CreateOrReplaceGlobalTempView(String) |
指定した名前を使用してグローバル一時ビューを作成または置換します。 この一時ビューの有効期間は、この Spark アプリケーションに関連付けられています。 |
CreateOrReplaceTempView(String) |
指定した名前を使用してローカル一時ビューを作成または置換します。 この一時ビューの有効期間は、この |
CreateTempView(String) |
指定した名前を使用してローカル一時ビューを作成します。 この一時ビューの有効期間は、この |
CrossJoin(DataFrame) |
明示的なデカルト結合と別 |
Cube(Column[]) |
指定した列を使用して、現在 |
Cube(String, String[]) |
指定した列を使用して、現在 |
Describe(String[]) |
count、mean、stddev、min、max など、数値列と文字列列の基本的な統計を計算します。列が指定されていない場合、この関数は、すべての数値列または文字列列の統計を計算します。 |
Distinct() |
この |
Drop(Column) |
列が削除された新しい |
Drop(String[]) |
列が削除された新しい |
DropDuplicates() |
この |
DropDuplicates(String, String[]) |
列のサブセットのみを考慮して、重複する行が削除された新しい |
DTypes() |
すべての列名とそのデータ型をタプルの IEnumerable として返します。 |
Except(DataFrame) |
この |
ExceptAll(DataFrame) |
重複を保持しながら、この |
Explain(Boolean) |
デバッグ目的でプラン (論理と物理) をコンソールに出力します。 |
Explain(String) |
プラン (論理および物理) を、指定された explain モードで指定された形式で出力します。 |
Filter(Column) |
指定された条件を使用して行をフィルター処理します。 |
Filter(String) |
指定された SQL 式を使用して行をフィルター処理します。 |
First() |
最初の行を返します。 Alis for Head(). |
GroupBy(Column[]) |
指定した列を使用して DataFrame をグループ化し、それらの列に対して集計を実行できるようにします。 |
GroupBy(String, String[]) |
指定した列を使用して DataFrame をグループ化します。 |
Head() |
最初の行を返します。 |
Head(Int32) |
最初 |
Hint(String, Object[]) |
現在 |
Intersect(DataFrame) |
この |
IntersectAll(DataFrame) |
重複を保持しながら、これと |
IsEmpty() |
この DataFrame が空の場合は true を返します。 |
IsLocal() |
Collect() メソッドと Take() メソッドを Spark Executor なしでローカルで実行できる場合は true を返します。 |
IsStreaming() |
到着時にデータを継続的に返す 1 つ以上のソースが含まれている場合 |
Join(DataFrame) |
別 |
Join(DataFrame, Column, String) |
指定された結合式を使用して、別 |
Join(DataFrame, IEnumerable<String>, String) |
指定された列を使用して、別 |
Join(DataFrame, String) |
指定された列を使用して、内部等価結合を別 |
Limit(Int32) |
最初 |
LocalCheckpoint(Boolean) |
この |
Na() |
不足しているデータを操作するための を |
Observe(String, Column, Column[]) |
データセットで観察する (名前付き) メトリックを定義します。 このメソッドは、入力と同じ結果を返す 'observed' DataFrame を返します。次の保証があります。
継続的な実行は現在サポートされていないことに注意してください。 |
OrderBy(Column[]) |
指定された式で並べ替えられた新しいデータセットを返します。 |
OrderBy(String, String[]) |
指定された式で並べ替えられた新しいデータセットを返します。 |
Persist() |
既定のストレージ レベルのMEMORY_AND_DISKでこれを DataFrame 保持します。 |
Persist(StorageLevel) |
これを DataFrame 特定のストレージ レベルで保持します。 |
PrintSchema() |
スキーマを優れたツリー形式でコンソールに出力します。 |
PrintSchema(Int32) |
指定したレベルまでのスキーマを、優れたツリー形式でコンソールに出力します。 |
RandomSplit(Double[], Nullable<Int64>) |
これを |
Repartition(Column[]) |
パーティションの数として を使用して |
Repartition(Int32) |
パーティションが正確 |
Repartition(Int32, Column[]) |
指定されたパーティション分割式によってパーティション分割された新しい |
RepartitionByRange(Column[]) |
パーティションの数として を使用して |
RepartitionByRange(Int32, Column[]) |
指定されたパーティション分割式によってパーティション分割された新しい |
Rollup(Column[]) |
指定した列を使用して、現在 |
Rollup(String, String[]) |
指定した列を使用して、現在 |
Sample(Double, Boolean, Nullable<Int64>) |
ユーザー指定のシードを使用して、行の一部 (置換なし) をサンプリングして新しい |
Schema() |
この |
Select(Column[]) |
列ベースの式のセットを選択します。 |
Select(String, String[]) |
列のセットを選択します。 これは Select() のバリアントで、列名を使用して既存の列のみを選択できます (つまり、式を作成できません)。 |
SelectExpr(String[]) |
SQL 式のセットを選択します。 これは、SQL 式を受け入れる Select() のバリアントです。 |
Show(Int32, Int32, Boolean) |
の行を |
Sort(Column[]) |
指定された式で並べ替えられた新しい |
Sort(String, String[]) |
指定した列で並べ替えられた新しい |
SortWithinPartitions(Column[]) |
指定された式で並べ替えられた各パーティションを持つ新しい |
SortWithinPartitions(String, String[]) |
指定された式で並べ替えられた各パーティションを持つ新しい |
Stat() |
機能する統計関数の |
StorageLevel() |
の現在StorageLevel()の をDataFrame取得します。 |
Summary(String[]) |
数値列と文字列列の指定された統計を計算します。 |
Tail(Int32) |
内の最後 |
Take(Int32) |
内の最初 |
ToDF() |
この厳密に型指定されたデータのコレクションをジェネリック |
ToDF(String[]) |
この厳密に型指定されたデータのコレクションをジェネリック |
ToJSON() |
DataFrame の内容を JSON 文字列の DataFrame として返します。 |
ToLocalIterator() |
この |
ToLocalIterator(Boolean) |
この |
Transform(Func<DataFrame,DataFrame>) |
カスタム変換をチェーンするための簡潔な構文。 |
Union(DataFrame) |
この |
UnionByName(DataFrame) |
この |
Unpersist(Boolean) |
データセットを非永続的としてマークし、そのデータセットのすべてのブロックをメモリとディスクから削除します。 |
Where(Column) |
指定された条件を使用して行をフィルター処理します。 これは Filter() のエイリアスです。 |
Where(String) |
指定された SQL 式を使用して行をフィルター処理します。 これは Filter() のエイリアスです。 |
WithColumn(String, Column) |
列を追加するか、同じ名前の既存の列を置き換えて、新しい |
WithColumnRenamed(String, String) |
列の名前が変更された新しいデータセットを返します。
スキーマに が含 |
WithWatermark(String, String) |
この DataFrame のイベント時間の基準値を定義します。 ウォーターマークは、それ以上遅延データが到着しないと仮定する前の時点を追跡します。 |
Write() |
非ストリーミング データセットのコンテンツを外部ストレージに保存するためのインターフェイス。 |
WriteStream() |
ストリーミング データセットのコンテンツを外部ストレージに保存するためのインターフェイス。 |
WriteTo(String) |
v2 ソース用の書き込み構成ビルダーを作成します。 |