DataFrame 类
定义
重要
一些信息与预发行产品相关,相应产品在发行之前可能会进行重大修改。 对于此处提供的信息,Microsoft 不作任何明示或暗示的担保。
组织到命名列中的分布式数据集合。
public sealed class DataFrame
type DataFrame = class
Public NotInheritable Class DataFrame
- 继承
-
DataFrame
属性
Item[String] |
根据列名称选择列。 |
方法
Agg(Column, Column[]) |
不带组的整个 |
Alias(String) |
返回具有别名集的新 |
As(String) |
返回具有别名集的新 |
Cache() |
使用默认存储级别MEMORY_AND_DISK保留此 DataFrame 文件。 |
Checkpoint(Boolean) |
返回此 |
Coalesce(Int32) |
当请求的分区较少时,返回具有完全 |
Col(String) |
根据列名称选择列。 |
Collect() |
返回一个数组,其中包含此 |
ColRegex(String) |
根据指定为正则表达式的列名称选择列。 |
Columns() |
返回所有列名。 |
Count() |
返回 |
CreateGlobalTempView(String) |
使用给定名称创建全局临时视图。 此临时视图的生存期绑定到此 Spark 应用程序。 |
CreateOrReplaceGlobalTempView(String) |
使用给定名称创建或替换全局临时视图。 此临时视图的生存期绑定到此 Spark 应用程序。 |
CreateOrReplaceTempView(String) |
使用给定名称创建或替换本地临时视图。 此临时视图的生存期与创建此 |
CreateTempView(String) |
使用给定名称创建本地临时视图。 此临时视图的生存期与创建此 |
CrossJoin(DataFrame) |
显式笛卡尔联接与另一个 |
Cube(Column[]) |
使用指定的列为当前 |
Cube(String, String[]) |
使用指定的列为当前 |
Describe(String[]) |
计算数值列和字符串列的基本统计信息,包括 count、mean、stddev、min 和 max。如果未提供任何列,此函数将计算所有数字列或字符串列的统计信息。 |
Distinct() |
返回一个新的数据集,该数据集仅包含此 |
Drop(Column) |
返回删除了列的新 |
Drop(String[]) |
返回已删除列的新 |
DropDuplicates() |
返回仅包含此 |
DropDuplicates(String, String[]) |
返回一个新的 , |
DTypes() |
以元组的 IEnumerable 形式返回所有列名及其数据类型。 |
Except(DataFrame) |
返回包含此 |
ExceptAll(DataFrame) |
在保留重复项时,返回包含此 |
Explain(Boolean) |
将计划 (逻辑和物理) 打印到控制台以进行调试。 |
Explain(String) |
使用给定解释模式指定的格式打印 (逻辑和物理) 的计划。 |
Filter(Column) |
使用给定条件筛选行。 |
Filter(String) |
使用给定的 SQL 表达式筛选行。 |
First() |
返回第一行。 Alis for Head () 。 |
GroupBy(Column[]) |
使用指定的列对数据帧进行分组,以便我们可以对其运行聚合。 |
GroupBy(String, String[]) |
使用指定的列对数据帧进行分组。 |
Head() |
返回第一行。 |
Head(Int32) |
返回第一 |
Hint(String, Object[]) |
指定对当前 |
Intersect(DataFrame) |
仅返回此 |
IntersectAll(DataFrame) |
仅返回包含此 |
IsEmpty() |
如果此 DataFrame 为空,则返回 true。 |
IsLocal() |
如果 Collect () 和 Take () 方法可以在不带任何 Spark 执行程序的情况下在本地运行,则返回 true。 |
IsStreaming() |
如果它 |
Join(DataFrame) |
与另一个 |
Join(DataFrame, Column, String) |
使用给定的联接表达式与另一个 |
Join(DataFrame, IEnumerable<String>, String) |
使用给定列与另一个 |
Join(DataFrame, String) |
使用给定列与另一个 |
Limit(Int32) |
通过采用第一 |
LocalCheckpoint(Boolean) |
返回此 |
Na() |
返回用于 |
Observe(String, Column, Column[]) |
定义 () 数据集上要观察的指标。 此方法返回一个“观察到的”数据帧,该数据帧返回与输入相同的结果,并具有以下保证:
请注意,当前不支持连续执行。 |
OrderBy(Column[]) |
返回按给定表达式排序的新数据集。 |
OrderBy(String, String[]) |
返回按给定表达式排序的新数据集。 |
Persist() |
使用默认存储级别MEMORY_AND_DISK保留此 DataFrame 文件。 |
Persist(StorageLevel) |
使用给定的存储级别保留此 DataFrame 数据。 |
PrintSchema() |
以漂亮的树格式将架构打印到控制台。 |
PrintSchema(Int32) |
以漂亮的树格式将架构打印到主机的给定级别。 |
RandomSplit(Double[], Nullable<Int64>) |
使用提供的权重随机拆分此 |
Repartition(Column[]) |
返回由给定分区表达式分区的新 |
Repartition(Int32) |
返回一个刚 |
Repartition(Int32, Column[]) |
将给定分区表达式分区的新 |
RepartitionByRange(Column[]) |
返回由给定分区表达式分区的新 |
RepartitionByRange(Int32, Column[]) |
将给定分区表达式分区的新 |
Rollup(Column[]) |
使用指定的列为当前 |
Rollup(String, String[]) |
使用指定的列为当前 |
Sample(Double, Boolean, Nullable<Int64>) |
通过使用用户提供的种子,通过在不使用替换) 的情况下 (对行的一小部分进行采样来返回新的 |
Schema() |
返回与此 |
Select(Column[]) |
选择一组基于列的表达式。 |
Select(String, String[]) |
选择一组列。 这是 Select () 的变体,它只能使用列名 (即不能) 构造表达式的现有列。 |
SelectExpr(String[]) |
选择一组 SQL 表达式。 这是接受 SQL 表达式的 Select () 的变体。 |
Show(Int32, Int32, Boolean) |
以表格形式显示 的 |
Sort(Column[]) |
返回按给定表达式排序的新 |
Sort(String, String[]) |
返回按指定列排序的新 |
SortWithinPartitions(Column[]) |
返回一个新的 |
SortWithinPartitions(String, String[]) |
返回一个新的 |
Stat() |
返回工作 |
StorageLevel() |
DataFrame获取 的当前 StorageLevel()。 |
Summary(String[]) |
计算数值列和字符串列的指定统计信息。 |
Tail(Int32) |
返回 中的最后 |
Take(Int32) |
返回 中的 |
ToDF() |
将此强类型数据集合转换为泛型 |
ToDF(String[]) |
将此强类型数据集合转换为重命名了列的泛型 |
ToJSON() |
以 JSON 字符串的数据帧的形式返回数据帧的内容。 |
ToLocalIterator() |
返回一个迭代器,其中包含此 |
ToLocalIterator(Boolean) |
返回一个迭代器,其中包含此 |
Transform(Func<DataFrame,DataFrame>) |
用于链接自定义转换的简洁语法。 |
Union(DataFrame) |
返回包含此 |
UnionByName(DataFrame) |
返回一个新的 |
Unpersist(Boolean) |
将数据集标记为非永久性数据集,并从内存和磁盘中删除其所有块。 |
Where(Column) |
使用给定条件筛选行。 这是 Filter () 的别名。 |
Where(String) |
使用给定的 SQL 表达式筛选行。 这是 Filter () 的别名。 |
WithColumn(String, Column) |
通过添加列或替换同名的现有列来返回新的 |
WithColumnRenamed(String, String) |
返回重命名了列的新数据集。
如果架构不包含 |
WithWatermark(String, String) |
定义此数据帧的事件时间水印。 水印跟踪一个时间点,在此时间点之前,我们假定不会再有后期数据到达。 |
Write() |
用于将非流式处理数据集的内容保存到外部存储的接口。 |
WriteStream() |
用于将流式处理数据集的内容保存到外部存储的接口。 |
WriteTo(String) |
为 v2 源创建写入配置生成器。 |
适用于
反馈
https://aka.ms/ContentUserFeedback。
即将发布:在整个 2024 年,我们将逐步淘汰作为内容反馈机制的“GitHub 问题”,并将其取代为新的反馈系统。 有关详细信息,请参阅:提交和查看相关反馈