Microsoft.Spark.Sql 命名空间
重要
一些信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 对于此处提供的信息,Microsoft 不作任何明示或暗示的担保。
类
ArrowFunctions |
可用于数据帧操作的函数。 |
Builder |
使用数据集和数据帧 API 对 Spark 进行编程的入口点。 |
Column |
Column 类表示将基于 DataFrame 中的数据计算的列。 |
DataFrame |
组织为命名列的数据的分布式集合。 |
DataFrameFunctions |
可用于托管数据帧的函数。 |
DataFrameNaFunctions |
提供用于处理 中 DataFrame缺失数据的功能。 |
DataFrameReader |
DataFrameReader 提供从外部存储系统加载 DataFrame 的功能, (例如文件系统、键值存储等) 。 |
DataFrameStatFunctions |
为 提供统计函数 DataFrame。 |
DataFrameUdfRegistrationExtensions |
UdfRegistration 的扩展方法。 |
DataFrameWriter |
用于将数据帧写入外部存储系统的接口 (,例如文件系统、键值存储等) 。 |
DataFrameWriterV2 |
用于使用 v2 API 将 写入 DataFrame 外部存储的接口。 |
Functions |
可用于数据帧操作的函数。 |
GenericRow |
表示 RDD 中的行对象,等效于 Spark 中的 GenericRow。 |
RelationalGroupedDataset |
用于对数据帧进行聚合的一组方法。 |
Row |
表示 RDD 中的行对象,等效于 Spark 中的 GenericRowWithSchema。 |
RuntimeConfig |
Spark 的运行时配置接口。 |
SparkSession |
使用数据集和数据帧 API 对 Spark 进行编程的入口点。 |
StorageLevel |
用于控制 RDD 存储的标志。 每个 StorageLevel 记录是否使用内存,是否在 RDD 内存不足时将其拖放到磁盘,是否将数据以特定于 JAVA 的序列化格式保留在内存中,以及是否在多个节点上复制 RDD 分区。 还包含一些常用存储级别的静态属性,MEMORY_ONLY。 |
UdfRegistration |
用于注册用户定义函数的函数。 |
UdfRegistrationExtensions |
UdfRegistration 的扩展方法。 |
接口
IForeachWriter |
用于编写自定义逻辑以处理查询生成的数据的接口。 这通常用于将流式查询的输出写入任意存储系统。 |
枚举
SaveMode |
SaveMode 用于指定将数据帧保存到数据源的预期行为。 |
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈