Microsoft.Spark.Sql 命名空间

ArrowFunctions

可用于数据帧操作的函数。

Builder

使用数据集和数据帧 API 对 Spark 进行编程的入口点。

Column

Column 类表示将基于 DataFrame 中的数据计算的列。

DataFrame

组织为命名列的数据的分布式集合。

DataFrameFunctions

可用于托管数据帧的函数。

DataFrameNaFunctions

提供用于处理 中 DataFrame缺失数据的功能。

DataFrameReader

DataFrameReader 提供从外部存储系统加载 DataFrame 的功能, (例如文件系统、键值存储等) 。

DataFrameStatFunctions

为 提供统计函数 DataFrame

DataFrameUdfRegistrationExtensions

UdfRegistration 的扩展方法。

DataFrameWriter

用于将数据帧写入外部存储系统的接口 (,例如文件系统、键值存储等) 。

DataFrameWriterV2

用于使用 v2 API 将 写入 DataFrame 外部存储的接口。

Functions

可用于数据帧操作的函数。

GenericRow

表示 RDD 中的行对象,等效于 Spark 中的 GenericRow。

RelationalGroupedDataset

用于对数据帧进行聚合的一组方法。

Row

表示 RDD 中的行对象,等效于 Spark 中的 GenericRowWithSchema。

RuntimeConfig

Spark 的运行时配置接口。

SparkSession

使用数据集和数据帧 API 对 Spark 进行编程的入口点。

StorageLevel

用于控制 RDD 存储的标志。 每个 StorageLevel 记录是否使用内存,是否在 RDD 内存不足时将其拖放到磁盘,是否将数据以特定于 JAVA 的序列化格式保留在内存中,以及是否在多个节点上复制 RDD 分区。 还包含一些常用存储级别的静态属性,MEMORY_ONLY。

UdfRegistration

用于注册用户定义函数的函数。

UdfRegistrationExtensions

UdfRegistration 的扩展方法。

接口

IForeachWriter

用于编写自定义逻辑以处理查询生成的数据的接口。 这通常用于将流式查询的输出写入任意存储系统。

枚举

SaveMode

SaveMode 用于指定将数据帧保存到数据源的预期行为。