通过


PySpark 参考

本页提供了 PySpark(适用于 Spark 的 Python API)的参考资料概述。 有关 PySpark 的详细信息,请参阅 Azure Databricks 上的 PySpark

Reference Description
核心类 用于处理 PySpark SQL 的主要类,包括 SparkSession 和数据帧基础知识。
Spark 会话 用于在 PySpark 应用程序中读取数据和执行 SQL 查询的入口点。
配置 Spark SQL 的运行时配置选项,包括执行和优化器设置。
有关仅在 Databricks 上可用的配置的信息,请参阅 Azure Databricks 上的“设置 Spark 配置属性”。
DataFrame 组织为命名列的数据的分布式集合,类似于关系数据库中的表。
输入/输出 用于从各种文件格式和数据源读取和写入数据的方法。
用于处理 DataFrame 列的操作,包括转换和表达式。
数据类型 PySpark SQL 中的可用数据类型,包括基元类型、复杂类型和用户定义的类型。
表示 DataFrame 中的数据行,提供对单个字段值的访问权限。
函数 用于数据处理、转换和聚合操作的内置函数。
窗口 用于对与当前行相关的一组表行执行计算的窗口函数。
分组 分组数据帧的方法和对其执行聚合操作的方法。
目录 用于管理数据库、表、函数和其他目录元数据的接口。
Avro 支持以 Apache Avro 格式读取和写入数据。
观测 收集指标并在查询执行期间观察 DataFrame,以便进行监视和调试。
UDF 用于将自定义 Python 逻辑应用于 DataFrame 列的用户定义函数。
UDTF 用户定义的表函数,用于为每个输入行返回多行。
VariantVal 处理具有灵活架构、支持动态类型和嵌套结构的半结构化数据。
ProtoBuf 支持使用协议缓冲区格式序列化和反序列化数据。
Python DataSource 用于实现从外部系统读取的自定义数据源的 API。 有关自定义数据源的信息,请参阅 PySpark 自定义数据源
有状态处理器 管理结构化流式处理中复杂有状态操作的流批状态。