本页提供了 PySpark(适用于 Spark 的 Python API)的参考资料概述。 有关 PySpark 的详细信息,请参阅 Azure Databricks 上的 PySpark。
| Reference | Description |
|---|---|
| 核心类 | 用于处理 PySpark SQL 的主要类,包括 SparkSession 和数据帧基础知识。 |
| Spark 会话 | 用于在 PySpark 应用程序中读取数据和执行 SQL 查询的入口点。 |
| 配置 | Spark SQL 的运行时配置选项,包括执行和优化器设置。 有关仅在 Databricks 上可用的配置的信息,请参阅 Azure Databricks 上的“设置 Spark 配置属性”。 |
| DataFrame | 组织为命名列的数据的分布式集合,类似于关系数据库中的表。 |
| 输入/输出 | 用于从各种文件格式和数据源读取和写入数据的方法。 |
| 列 | 用于处理 DataFrame 列的操作,包括转换和表达式。 |
| 数据类型 | PySpark SQL 中的可用数据类型,包括基元类型、复杂类型和用户定义的类型。 |
| 行 | 表示 DataFrame 中的数据行,提供对单个字段值的访问权限。 |
| 函数 | 用于数据处理、转换和聚合操作的内置函数。 |
| 窗口 | 用于对与当前行相关的一组表行执行计算的窗口函数。 |
| 分组 | 分组数据帧的方法和对其执行聚合操作的方法。 |
| 目录 | 用于管理数据库、表、函数和其他目录元数据的接口。 |
| Avro | 支持以 Apache Avro 格式读取和写入数据。 |
| 观测 | 收集指标并在查询执行期间观察 DataFrame,以便进行监视和调试。 |
| UDF | 用于将自定义 Python 逻辑应用于 DataFrame 列的用户定义函数。 |
| UDTF | 用户定义的表函数,用于为每个输入行返回多行。 |
| VariantVal | 处理具有灵活架构、支持动态类型和嵌套结构的半结构化数据。 |
| ProtoBuf | 支持使用协议缓冲区格式序列化和反序列化数据。 |
| Python DataSource | 用于实现从外部系统读取的自定义数据源的 API。 有关自定义数据源的信息,请参阅 PySpark 自定义数据源。 |
| 有状态处理器 | 管理结构化流式处理中复杂有状态操作的流批状态。 |