DataFrame 类

定义

组织到命名列中的分布式数据集合。

public sealed class DataFrame
type DataFrame = class
Public NotInheritable Class DataFrame
继承
DataFrame

属性

Item[String]

根据列名称选择列。

方法

Agg(Column, Column[])

不带组的整个 DataFrame 聚合。

Alias(String)

返回具有别名集的新 DataFrame 值。 与 As () 相同。

As(String)

返回具有别名集的新 DataFrame 值。

Cache()

使用默认存储级别MEMORY_AND_DISK保留此 DataFrame 文件。

Checkpoint(Boolean)

返回此 DataFrame的检查点版本。

Coalesce(Int32)

当请求的分区较少时,返回具有完全numPartitions分区的新DataFrame。 如果请求更多分区,它将保持当前分区数。

Col(String)

根据列名称选择列。

Collect()

返回一个数组,其中包含此 DataFrame中的所有行。

ColRegex(String)

根据指定为正则表达式的列名称选择列。

Columns()

返回所有列名。

Count()

返回 DataFrame 中的行数。

CreateGlobalTempView(String)

使用给定名称创建全局临时视图。 此临时视图的生存期绑定到此 Spark 应用程序。

CreateOrReplaceGlobalTempView(String)

使用给定名称创建或替换全局临时视图。 此临时视图的生存期绑定到此 Spark 应用程序。

CreateOrReplaceTempView(String)

使用给定名称创建或替换本地临时视图。 此临时视图的生存期与创建此 DataFrame的 SparkSession 相关联。

CreateTempView(String)

使用给定名称创建本地临时视图。 此临时视图的生存期与创建此 DataFrame的 SparkSession 相关联。

CrossJoin(DataFrame)

显式笛卡尔联接与另一个 DataFrame

Cube(Column[])

使用指定的列为当前 DataFrame 创建多维多维多维数据集。

Cube(String, String[])

使用指定的列为当前 DataFrame 创建多维多维多维数据集。

Describe(String[])

计算数值列和字符串列的基本统计信息,包括 count、mean、stddev、min 和 max。如果未提供任何列,此函数将计算所有数字列或字符串列的统计信息。

Distinct()

返回一个新的数据集,该数据集仅包含此 DataFrame中的唯一行。 这是 DropDuplicates () 的别名。

Drop(Column)

返回删除了列的新 DataFrame 值。 如果 没有具有等效表达式的列, DataFrame 则表示无操作。

Drop(String[])

返回已删除列的新 DataFrame 值。 如果架构不包含列名 () ,则为无操作。

DropDuplicates()

返回仅包含此 DataFrame中的唯一行的新 DataFrame 。 这是 Distinct () 的别名。

DropDuplicates(String, String[])

返回一个新的 , DataFrame 其中删除了重复行,只考虑列的子集。

DTypes()

以元组的 IEnumerable 形式返回所有列名及其数据类型。

Except(DataFrame)

返回包含此 DataFrame 中的新DataFrame行,但不在另一个 DataFrame中返回 。

ExceptAll(DataFrame)

在保留重复项时,返回包含此DataFrame中的新DataFrame行,但不在另一个DataFrame行中。

Explain(Boolean)

将计划 (逻辑和物理) 打印到控制台以进行调试。

Explain(String)

使用给定解释模式指定的格式打印 (逻辑和物理) 的计划。

Filter(Column)

使用给定条件筛选行。

Filter(String)

使用给定的 SQL 表达式筛选行。

First()

返回第一行。 Alis for Head () 。

GroupBy(Column[])

使用指定的列对数据帧进行分组,以便我们可以对其运行聚合。

GroupBy(String, String[])

使用指定的列对数据帧进行分组。

Head()

返回第一行。

Head(Int32)

返回第一 n 行。

Hint(String, Object[])

指定对当前 DataFrame的一些提示。

Intersect(DataFrame)

仅返回此 DataFrame 和另一个 中包含的新DataFrameDataFrame行。

IntersectAll(DataFrame)

仅返回包含此DataFrame行和另一行DataFrame的新DataFrame包含行,同时保留重复项。

IsEmpty()

如果此 DataFrame 为空,则返回 true。

IsLocal()

如果 Collect () 和 Take () 方法可以在不带任何 Spark 执行程序的情况下在本地运行,则返回 true。

IsStreaming()

如果它 DataFrame 包含一个或多个源,这些源在数据到达时连续返回数据,则返回 true。

Join(DataFrame)

与另一个 DataFrame联接。

Join(DataFrame, Column, String)

使用给定的联接表达式与另一个 DataFrame联接。

Join(DataFrame, IEnumerable<String>, String)

使用给定列与另一个 DataFrame 进行等价联接。 将具有谓词的交叉联接指定为内部联接。 如果要显式执行交叉联接, crossJoin 请使用 方法。

Join(DataFrame, String)

使用给定列与另一个 DataFrame 内部等值联接。

Limit(Int32)

通过采用第一number行返回新的 DataFrame

LocalCheckpoint(Boolean)

返回此 DataFrame的本地检查点版本。

Na()

返回用于 DataFrameNaFunctions 处理缺失数据的 。

Observe(String, Column, Column[])

定义 () 数据集上要观察的指标。 此方法返回一个“观察到的”数据帧,该数据帧返回与输入相同的结果,并具有以下保证:

  1. 它将计算定义聚合 (指标,) 此时流经数据集的所有数据。
  2. 一旦到达完成点,它将立即报告定义的聚合列的值。完成点是查询 (批处理模式) 结束或流式处理纪元的结束。 聚合的值仅反映自上一个完成点以来处理的数据。

请注意,当前不支持连续执行。

OrderBy(Column[])

返回按给定表达式排序的新数据集。

OrderBy(String, String[])

返回按给定表达式排序的新数据集。

Persist()

使用默认存储级别MEMORY_AND_DISK保留此 DataFrame 文件。

Persist(StorageLevel)

使用给定的存储级别保留此 DataFrame 数据。

PrintSchema()

以漂亮的树格式将架构打印到控制台。

PrintSchema(Int32)

以漂亮的树格式将架构打印到主机的给定级别。

RandomSplit(Double[], Nullable<Int64>)

使用提供的权重随机拆分此 DataFrame 内容。

Repartition(Column[])

返回由给定分区表达式分区的新 DataFrame ,使用 spark.sql.shuffle.partitions 作为分区数。

Repartition(Int32)

返回一个刚numPartitions好包含分区的新DataFrame值。

Repartition(Int32, Column[])

将给定分区表达式分区的新 DataFrame 返回到 中 numPartitions。 生成的 DataFrame 是哈希分区。

RepartitionByRange(Column[])

返回由给定分区表达式分区的新 DataFrame ,使用 spark.sql.shuffle.partitions 作为分区数。 生成的数据集已分区区域。

RepartitionByRange(Int32, Column[])

将给定分区表达式分区的新 DataFrame 返回到 中 numPartitions。 生成的 DataFrame 是已分区范围。

Rollup(Column[])

使用指定的列为当前 DataFrame 创建多维汇总。

Rollup(String, String[])

使用指定的列为当前 DataFrame 创建多维汇总。

Sample(Double, Boolean, Nullable<Int64>)

通过使用用户提供的种子,通过在不使用替换) 的情况下 (对行的一小部分进行采样来返回新的 DataFrame

Schema()

返回与此 DataFrame关联的架构。

Select(Column[])

选择一组基于列的表达式。

Select(String, String[])

选择一组列。 这是 Select () 的变体,它只能使用列名 (即不能) 构造表达式的现有列。

SelectExpr(String[])

选择一组 SQL 表达式。 这是接受 SQL 表达式的 Select () 的变体。

Show(Int32, Int32, Boolean)

以表格形式显示 的 DataFrame 行。

Sort(Column[])

返回按给定表达式排序的新 DataFrame 值。

Sort(String, String[])

返回按指定列排序的新 DataFrame 值,全部按升序排列。

SortWithinPartitions(Column[])

返回一个新的 DataFrame ,其中每个分区按给定表达式排序。

SortWithinPartitions(String, String[])

返回一个新的 DataFrame ,其中每个分区按给定表达式排序。

Stat()

返回工作 DataFrameStatFunctions 统计函数支持的 。

StorageLevel()

DataFrame获取 的当前 StorageLevel()

Summary(String[])

计算数值列和字符串列的指定统计信息。

Tail(Int32)

返回 中的最后 nDataFrame行。

Take(Int32)

返回 中的DataFramen一行。

ToDF()

将此强类型数据集合转换为泛型 DataFrame

ToDF(String[])

将此强类型数据集合转换为重命名了列的泛型 DataFrame

ToJSON()

以 JSON 字符串的数据帧的形式返回数据帧的内容。

ToLocalIterator()

返回一个迭代器,其中包含此 DataFrame中的所有行。 迭代器占用的内存量与此 DataFrame中最大的分区的内存量相同。

ToLocalIterator(Boolean)

返回一个迭代器,其中包含此 DataFrame中的所有行。 迭代器占用的内存量与此 DataFrame中最大的分区的内存量相同。 使用预提取时,最多可能会占用 2 个最大分区的内存。

Transform(Func<DataFrame,DataFrame>)

用于链接自定义转换的简洁语法。

Union(DataFrame)

返回包含此 DataFrame 和另一个 DataFrameDataFrame中的行的新联合。

UnionByName(DataFrame)

返回一个新的 DataFrame 包含此 DataFrame 和另一个 DataFrame中的行的联合,按名称解析列。

Unpersist(Boolean)

将数据集标记为非永久性数据集,并从内存和磁盘中删除其所有块。

Where(Column)

使用给定条件筛选行。 这是 Filter () 的别名。

Where(String)

使用给定的 SQL 表达式筛选行。 这是 Filter () 的别名。

WithColumn(String, Column)

通过添加列或替换同名的现有列来返回新的 DataFrame

WithColumnRenamed(String, String)

返回重命名了列的新数据集。 如果架构不包含 existingName,则为无操作。

WithWatermark(String, String)

定义此数据帧的事件时间水印。 水印跟踪一个时间点,在此时间点之前,我们假定不会再有后期数据到达。

Write()

用于将非流式处理数据集的内容保存到外部存储的接口。

WriteStream()

用于将流式处理数据集的内容保存到外部存储的接口。

WriteTo(String)

为 v2 源创建写入配置生成器。

适用于