次の方法で共有


PySpark のリファレンス

このページでは、Spark 用 Python API である PySpark で使用できるリファレンスの概要について説明します。 PySpark の詳細については、 Azure Databricks の PySpark に関するページを参照してください。

リファレンス Description
コア クラス SparkSession や DataFrame の基礎など、PySpark SQL を操作するための主なクラス。
Spark セッション PySpark アプリケーションでデータを読み取り、SQL クエリを実行するためのエントリ ポイント。
Configuration Spark SQL のランタイム構成オプション (実行とオプティマイザーの設定を含む)。
Databricks でのみ使用できる構成の詳細については、「 Azure Databricks での Spark 構成プロパティの設定」を参照してください。
DataFrame リレーショナル データベース内のテーブルと同様に、名前付き列に編成されたデータの分散コレクション。
[入力または出力] さまざまなファイル形式とデータ ソースからデータを読み取り、データを書き込むためのメソッド。
コラム 変換や式など、DataFrame 列を操作するための操作。
データ型 PySpark SQL で使用可能なデータ型 (プリミティブ型、複合型、ユーザー定義型など)。
個々のフィールド値へのアクセスを提供する DataFrame 内のデータ行を表します。
関数 データ操作、変換、集計操作用の組み込み関数。
ウィンドウ 現在の行に関連する一連のテーブル行にわたって計算を実行するためのウィンドウ関数。
グルーピング データをグループ化し、グループ化された DataFrame に対して集計操作を実行するためのメソッド。
カタログ データベース、テーブル、関数、およびその他のカタログ メタデータを管理するためのインターフェイス。
Avro Apache Avro 形式でのデータの読み取りと書き込みのサポート。
観測 メトリックを収集し、監視とデバッグのためにクエリの実行中に DataFrames を監視します。
UDF カスタム Python ロジックを DataFrame 列に適用するためのユーザー定義関数。
UDTF 入力行ごとに複数の行を返すユーザー定義テーブル関数。
VariantVal 動的な型と入れ子構造をサポートする柔軟なスキーマで半構造化データを処理します。
ProtoBuf プロトコル バッファー形式を使用したデータのシリアル化と逆シリアル化のサポート。
Python DataSource 外部システムから読み取るカスタム データ ソースを実装するための API。 カスタム データ ソースの詳細については、「 PySpark カスタム データ ソース」を参照してください。
ステートフル プロセッサ 構造化ストリーミングでの複雑なステートフル操作のストリーミング バッチ間の状態を管理します。