DataFrame 类

参考

定义

命名空间:: Microsoft.Spark.Sql

程序集:: Microsoft.Spark.dll

包:: Microsoft.Spark v1.0.0

重要

一些信息与预发行产品相关，相应产品在发行之前可能会进行重大修改。对于此处提供的信息，Microsoft 不作任何明示或暗示的担保。

组织到命名列中的分布式数据集合。

public sealed class DataFrame

type DataFrame = class

Public NotInheritable Class DataFrame

继承: Object
DataFrame

属性

Item[String]

根据列名称选择列。

方法

Agg(Column, Column[])	不带组的整个 `DataFrame` 聚合。
Alias(String)	返回具有别名集的新 `DataFrame` 值。与 As () 相同。
As(String)	返回具有别名集的新 `DataFrame` 值。
Cache()	使用默认存储级别MEMORY_AND_DISK保留此 DataFrame 文件。
Checkpoint(Boolean)	返回此 `DataFrame`的检查点版本。
Coalesce(Int32)	当请求的分区较少时，返回具有完全`numPartitions`分区的新`DataFrame`。如果请求更多分区，它将保持当前分区数。
Col(String)	根据列名称选择列。
Collect()	返回一个数组，其中包含此 `DataFrame`中的所有行。
ColRegex(String)	根据指定为正则表达式的列名称选择列。
Columns()	返回所有列名。
Count()	返回 `DataFrame` 中的行数。
CreateGlobalTempView(String)	使用给定名称创建全局临时视图。此临时视图的生存期绑定到此 Spark 应用程序。
CreateOrReplaceGlobalTempView(String)	使用给定名称创建或替换全局临时视图。此临时视图的生存期绑定到此 Spark 应用程序。
CreateOrReplaceTempView(String)	使用给定名称创建或替换本地临时视图。此临时视图的生存期与创建此 `DataFrame`的 SparkSession 相关联。
CreateTempView(String)	使用给定名称创建本地临时视图。此临时视图的生存期与创建此 `DataFrame`的 SparkSession 相关联。
CrossJoin(DataFrame)	显式笛卡尔联接与另一个 `DataFrame`。
Cube(Column[])	使用指定的列为当前 `DataFrame` 创建多维多维多维数据集。
Cube(String, String[])	使用指定的列为当前 `DataFrame` 创建多维多维多维数据集。
Describe(String[])	计算数值列和字符串列的基本统计信息，包括 count、mean、stddev、min 和 max。如果未提供任何列，此函数将计算所有数字列或字符串列的统计信息。
Distinct()	返回一个新的数据集，该数据集仅包含此 `DataFrame`中的唯一行。这是 DropDuplicates () 的别名。
Drop(Column)	返回删除了列的新 `DataFrame` 值。如果没有具有等效表达式的列， `DataFrame` 则表示无操作。
Drop(String[])	返回已删除列的新 `DataFrame` 值。如果架构不包含列名 () ，则为无操作。
DropDuplicates()	返回仅包含此 `DataFrame`中的唯一行的新 `DataFrame` 。这是 Distinct () 的别名。
DropDuplicates(String, String[])	返回一个新的， `DataFrame` 其中删除了重复行，只考虑列的子集。
DTypes()	以元组的 IEnumerable 形式返回所有列名及其数据类型。
Except(DataFrame)	返回包含此 `DataFrame` 中的新`DataFrame`行，但不在另一个 `DataFrame`中返回。
ExceptAll(DataFrame)	在保留重复项时，返回包含此`DataFrame`中的新`DataFrame`行，但不在另一个`DataFrame`行中。
Explain(Boolean)	将计划 (逻辑和物理) 打印到控制台以进行调试。
Explain(String)	使用给定解释模式指定的格式打印 (逻辑和物理) 的计划。
Filter(Column)	使用给定条件筛选行。
Filter(String)	使用给定的 SQL 表达式筛选行。
First()	返回第一行。 Alis for Head () 。
GroupBy(Column[])	使用指定的列对数据帧进行分组，以便我们可以对其运行聚合。
GroupBy(String, String[])	使用指定的列对数据帧进行分组。
Head()	返回第一行。
Head(Int32)	返回第一 `n` 行。
Hint(String, Object[])	指定对当前 `DataFrame`的一些提示。
Intersect(DataFrame)	仅返回此 `DataFrame` 和另一个中包含的新`DataFrameDataFrame`行。
IntersectAll(DataFrame)	仅返回包含此`DataFrame`行和另一行`DataFrame`的新`DataFrame`包含行，同时保留重复项。
IsEmpty()	如果此 DataFrame 为空，则返回 true。
IsLocal()	如果 Collect () 和 Take () 方法可以在不带任何 Spark 执行程序的情况下在本地运行，则返回 true。
IsStreaming()	如果它 `DataFrame` 包含一个或多个源，这些源在数据到达时连续返回数据，则返回 true。
Join(DataFrame)	与另一个 `DataFrame`联接。
Join(DataFrame, Column, String)	使用给定的联接表达式与另一个 `DataFrame`联接。
Join(DataFrame, IEnumerable<String>, String)	使用给定列与另一个 `DataFrame` 进行等价联接。将具有谓词的交叉联接指定为内部联接。如果要显式执行交叉联接， `crossJoin` 请使用方法。
Join(DataFrame, String)	使用给定列与另一个 `DataFrame` 内部等值联接。
Limit(Int32)	通过采用第一`number`行返回新的 `DataFrame` 。
LocalCheckpoint(Boolean)	返回此 `DataFrame`的本地检查点版本。
Na()	返回用于 `DataFrameNaFunctions` 处理缺失数据的。
Observe(String, Column, Column[])	定义 () 数据集上要观察的指标。此方法返回一个“观察到的”数据帧，该数据帧返回与输入相同的结果，并具有以下保证：它将计算定义聚合 (指标，) 此时流经数据集的所有数据。一旦到达完成点，它将立即报告定义的聚合列的值。完成点是查询 (批处理模式) 结束或流式处理纪元的结束。聚合的值仅反映自上一个完成点以来处理的数据。请注意，当前不支持连续执行。
OrderBy(Column[])	返回按给定表达式排序的新数据集。
OrderBy(String, String[])	返回按给定表达式排序的新数据集。
Persist()	使用默认存储级别MEMORY_AND_DISK保留此 DataFrame 文件。
Persist(StorageLevel)	使用给定的存储级别保留此 DataFrame 数据。
PrintSchema()	以漂亮的树格式将架构打印到控制台。
PrintSchema(Int32)	以漂亮的树格式将架构打印到主机的给定级别。
RandomSplit(Double[], Nullable<Int64>)	使用提供的权重随机拆分此 `DataFrame` 内容。
Repartition(Column[])	返回由给定分区表达式分区的新 `DataFrame` ，使用 `spark.sql.shuffle.partitions` 作为分区数。
Repartition(Int32)	返回一个刚`numPartitions`好包含分区的新`DataFrame`值。
Repartition(Int32, Column[])	将给定分区表达式分区的新 `DataFrame` 返回到中 `numPartitions`。生成的 `DataFrame` 是哈希分区。
RepartitionByRange(Column[])	返回由给定分区表达式分区的新 `DataFrame` ，使用 `spark.sql.shuffle.partitions` 作为分区数。生成的数据集已分区区域。
RepartitionByRange(Int32, Column[])	将给定分区表达式分区的新 `DataFrame` 返回到中 `numPartitions`。生成的 `DataFrame` 是已分区范围。
Rollup(Column[])	使用指定的列为当前 `DataFrame` 创建多维汇总。
Rollup(String, String[])	使用指定的列为当前 `DataFrame` 创建多维汇总。
Sample(Double, Boolean, Nullable<Int64>)	通过使用用户提供的种子，通过在不使用替换) 的情况下 (对行的一小部分进行采样来返回新的 `DataFrame` 。
Schema()	返回与此 `DataFrame`关联的架构。
Select(Column[])	选择一组基于列的表达式。
Select(String, String[])	选择一组列。这是 Select () 的变体，它只能使用列名 (即不能) 构造表达式的现有列。
SelectExpr(String[])	选择一组 SQL 表达式。这是接受 SQL 表达式的 Select () 的变体。
Show(Int32, Int32, Boolean)	以表格形式显示的 `DataFrame` 行。
Sort(Column[])	返回按给定表达式排序的新 `DataFrame` 值。
Sort(String, String[])	返回按指定列排序的新 `DataFrame` 值，全部按升序排列。
SortWithinPartitions(Column[])	返回一个新的 `DataFrame` ，其中每个分区按给定表达式排序。
SortWithinPartitions(String, String[])	返回一个新的 `DataFrame` ，其中每个分区按给定表达式排序。
Stat()	返回工作 `DataFrameStatFunctions` 统计函数支持的。
StorageLevel()	DataFrame获取的当前 StorageLevel()。
Summary(String[])	计算数值列和字符串列的指定统计信息。
Tail(Int32)	返回中的最后 `n` 一 `DataFrame`行。
Take(Int32)	返回中的`DataFrame`前`n`一行。
ToDF()	将此强类型数据集合转换为泛型 `DataFrame`。
ToDF(String[])	将此强类型数据集合转换为重命名了列的泛型 `DataFrame` 。
ToJSON()	以 JSON 字符串的数据帧的形式返回数据帧的内容。
ToLocalIterator()	返回一个迭代器，其中包含此 `DataFrame`中的所有行。迭代器占用的内存量与此 `DataFrame`中最大的分区的内存量相同。
ToLocalIterator(Boolean)	返回一个迭代器，其中包含此 `DataFrame`中的所有行。迭代器占用的内存量与此 `DataFrame`中最大的分区的内存量相同。使用预提取时，最多可能会占用 2 个最大分区的内存。
Transform(Func<DataFrame,DataFrame>)	用于链接自定义转换的简洁语法。
Union(DataFrame)	返回包含此 `DataFrame` 和另一个 `DataFrameDataFrame`中的行的新联合。
UnionByName(DataFrame)	返回一个新的 `DataFrame` 包含此 `DataFrame` 和另一个 `DataFrame`中的行的联合，按名称解析列。
Unpersist(Boolean)	将数据集标记为非永久性数据集，并从内存和磁盘中删除其所有块。
Where(Column)	使用给定条件筛选行。这是 Filter () 的别名。
Where(String)	使用给定的 SQL 表达式筛选行。这是 Filter () 的别名。
WithColumn(String, Column)	通过添加列或替换同名的现有列来返回新的 `DataFrame` 。
WithColumnRenamed(String, String)	返回重命名了列的新数据集。如果架构不包含 `existingName`，则为无操作。
WithWatermark(String, String)	定义此数据帧的事件时间水印。水印跟踪一个时间点，在此时间点之前，我们假定不会再有后期数据到达。
Write()	用于将非流式处理数据集的内容保存到外部存储的接口。
WriteStream()	用于将流式处理数据集的内容保存到外部存储的接口。
WriteTo(String)	为 v2 源创建写入配置生成器。

适用于

DataFrame 类

定义

属性

方法

适用于

反馈

其他资源