Functions 类

定义

可用于数据帧操作的函数。

public static class Functions
type Functions = class
Public Class Functions
继承
Functions

方法

Abs(Column)

计算绝对值。

Acos(Column)

以弧度为单位的 column 反余弦值,好像由 java.lang.Math.acos计算。

Acos(String)

以弧度为单位的 columnName 反余弦值,好像由 java.lang.Math.acos计算。

AddMonths(Column, Column)

返回在 startDate 之后 numMonths 的日期。

AddMonths(Column, Int32)

返回在 startDate 之后 numMonths 的日期。

ApproxCountDistinct(Column)

返回组中非重复项的近似数目。

ApproxCountDistinct(Column, Double)

返回组中非重复项的近似数目。

ApproxCountDistinct(String)

返回组中非重复项的近似数目。

ApproxCountDistinct(String, Double)

返回组中非重复项的近似数目。

Array(Column[])

创建新的数组列。 输入列必须具有相同的数据类型。

Array(String, String[])

创建新的数组列。 输入列必须具有相同的数据类型。

ArrayContains(Column, Object)

如果数组为 null,则返回 null;如果数组包含 value,则返回 true;否则返回 false。

ArrayDistinct(Column)

从数组中删除重复值。

ArrayExcept(Column, Column)

返回 中 col1 元素的数组,但不返回 中的元素, col2而不返回重复项。 结果中元素的顺序不确定。

ArrayIntersect(Column, Column)

返回给定两个数组的交集中元素的数组,没有重复项。

ArrayJoin(Column, String)

使用 delimiter连接 的column元素。

ArrayJoin(Column, String, String)

使用 delimiter连接 的column元素。 Null 值替换为 nullReplacement

ArrayMax(Column)

返回数组中的最大值。

ArrayMin(Column)

返回数组中的最小值。

ArrayPosition(Column, Object)

查找给定数组中值第一个匹配项的位置。 如果任一参数为 null,则返回 null。

ArrayRemove(Column, Object)

从给定数组中删除等于 元素的所有元素。

ArrayRepeat(Column, Column)

创建一个数组, left 其中包含参数重复参数 right 给定的次数。

ArrayRepeat(Column, Int32)

创建一个数组, left 其中包含参数重复的 count 次数。

ArraySort(Column)

按升序对输入数组进行排序。 输入数组的元素必须是可排序的。 将在返回的数组末尾放置 Null 元素。

ArraysOverlap(Column, Column)

如果 和 a2 至少有一个非 null 元素共同,则a1返回 true。 如果不是,并且两个数组都是非空的,并且其中任何一个数组都包含 null,则返回 null。 否则返回 false。

ArraysZip(Column[])

返回合并的结构数组,其中的第 N 个结构包含输入数组的所有的第 N 个值。

ArrayUnion(Column, Column)

返回给定两个数组的并集中元素的数组,没有重复项。

Asc(String)

根据列的升序返回排序表达式。

Ascii(Column)

计算字符串列的第一个字符的数值,并将结果作为 int 列返回。

AscNullsFirst(String)

根据列的升序返回排序表达式,null 值在非 null 值之前返回。

AscNullsLast(String)

根据列的升序返回排序表达式,null 值显示在非 null 值之后。

Asin(Column)

的反正弦 column 值(以弧度为单位),好像由 java.lang.Math.asin计算。

Asin(String)

的反正弦 columnName 值(以弧度为单位),好像由 java.lang.Math.asin计算。

Atan(Column)

column 反正切(以弧度为单位),就像由 计算一 java.lang.Math.atan样。

Atan(String)

columnName 反正切(以弧度为单位),就像由 计算一 java.lang.Math.atan样。

Atan2(Column, Column)

计算给定 xy的 atan2。

Atan2(Column, Double)

计算给定 xy的 atan2。

Atan2(Column, String)

计算给定 xy的 atan2。

Atan2(Double, Column)

计算给定 xy的 atan2。

Atan2(Double, String)

计算给定 xy的 atan2。

Atan2(String, Column)

计算给定 xy的 atan2。

Atan2(String, Double)

计算给定 xy的 atan2。

Atan2(String, String)

计算给定 xy的 atan2。

Avg(Column)

返回某组中的值的平均值。

Avg(String)

返回某组中的值的平均值。

Base64(Column)

计算二进制列的 BASE64 编码,并将其作为字符串列返回。

Bin(Column)

一个表达式,返回给定长列的二进制值的字符串表示形式。 例如,bin (“12”) 返回“1100”。

Bin(String)

一个表达式,返回给定长列的二进制值的字符串表示形式。 例如,bin (“12”) 返回“1100”。

BitwiseNOT(Column)

按位计算 NOT。

Broadcast(DataFrame)

将数据帧标记为足够小,以便在广播联接中使用。

Bround(Column)

返回舍入到 0 位小数位数的值 column ,HALF_EVEN舍入模式。

Bround(Column, Int32)

返回舍入到scale小数位数的值column,HALF_EVEN舍入模式。

Bucket(Column, Column)

按输入列的哈希进行分区的任何类型的转换。

Bucket(Int32, Column)

按输入列的哈希进行分区的任何类型的转换。

CallUDF(String, Column[])

调用通过 SparkSession.Udf () 注册的用户定义函数。Register () 。

Cbrt(Column)

计算给定列的多维数据集根。

Cbrt(String)

计算给定列的多维数据集根。

Ceil(Column)

计算给定值的上限。

Ceil(String)

计算给定值的上限。

Coalesce(Column[])

返回不为 null 的第一列;如果所有输入均为 null,则返回 null。

Col(String)

返回基于给定列名称的 Column。 Column () 的别名。

CollectList(Column)

返回具有重复项的对象的列表。

CollectList(String)

返回具有重复项的对象的列表。

CollectSet(Column)

返回一组对象,其中消除了重复元素。

CollectSet(String)

返回一组对象,其中消除了重复元素。

Column(String)

返回基于给定列名称的 Column。

Concat(Column[])

将多个输入列一起连接成一列。

ConcatWs(String, Column[])

使用给定分隔符将多个输入字符串列串联到单个字符串列。

Conv(Column, Int32, Int32)

将字符串列中的数字从一个基数转换为另一个基。

Corr(Column, Column)

返回两列的 Pearson 相关系数。

Corr(String, String)

返回两列的 Pearson 相关系数。

Cos(Column)

计算角度的余弦值,就像通过 java.lang.Math.cos

Cos(String)

计算角度的余弦值,就像通过 java.lang.Math.cos

Cosh(Column)

计算角度的双曲余弦值,就像通过 java.lang.Math.cosh

Cosh(String)

计算角度的双曲余弦值,就像通过 java.lang.Math.cosh

Count(Column)

返回组中的项数。

Count(String)

返回组中的项数。

CountDistinct(Column, Column[])

返回组中非重复项的数目。

CountDistinct(String, String[])

返回组中非重复项的数目。

CovarPop(Column, Column)

返回两列的填充协方差。

CovarPop(String, String)

返回两列的填充协方差。

CovarSamp(Column, Column)

返回两列的示例协方差。

CovarSamp(String, String)

返回两列的示例协方差。

Crc32(Column)

计算二进制列 (CRC32) 循环冗余检查值,并将值作为 bigint 返回。

CumeDist()

Window 函数:返回窗口分区中值的累积分布,即当前行下方的行的分数。

CurrentDate()

以日期列的形式返回当前日期。

CurrentRow()

Window 函数:返回表示窗口分区中当前行的特殊帧边界。

CurrentTimestamp()

以时间戳列的形式返回当前时间戳。

DateAdd(Column, Column)

返回晚于 days 几天的 start日期。

DateAdd(Column, Int32)

返回晚于 days 几天的 start日期。

DateDiff(Column, Column)

返回从 startend 的天数。

DateFormat(Column, String)

将日期/时间戳/字符串转换为由第二个参数提供的日期格式指定的格式的字符串值。

DateSub(Column, Column)

返回前几天的start日期days

DateSub(Column, Int32)

返回前几天的start日期days

DateTrunc(String, Column)

返回截断到格式指定的单位的时间戳。

DayOfMonth(Column)

从给定日期/时间戳/字符串中提取月中的某一天作为整数。

DayOfWeek(Column)

从给定日期/时间戳/字符串中提取一周中的某一天作为整数。

DayOfYear(Column)

从给定日期/时间戳/字符串中提取一年中的某一天作为整数。

Days(Column)

时间戳和日期的转换,将数据分区为天。

Decode(Column, String)

使用提供的字符集 (“US-ASCII”、“ISO-8859-1”、“UTF-8”、“UTF-16BE”、“UTF-16LE”、“UTF-16LE”、“UTF-16”)

Degrees(Column)

将以弧度度量的角度转换为以度度量的大致等效角度。

Degrees(String)

将以弧度度量的角度转换为以度度量的大致等效角度。

DenseRank()

Window 函数:返回窗口分区中行的排名,没有任何间隔。

Desc(String)

根据列的降序返回排序表达式。

DescNullsFirst(String)

根据列的降序返回排序表达式,null 值在非 null 值之前返回。

DescNullsLast(String)

根据列的降序返回排序表达式,null 值显示在非 null 值之后。

ElementAt(Column, Object)

如果列为数组,则返回 中给定索引处 value 的数组元素。 如果列为 map,则返回 中 value 给定键的值。

Encode(Column, String)

使用提供的字符集 (“US-ASCII”、“ISO-8859-1”、“UTF-8”、“UTF-16BE”、“UTF-16LE”、“UTF-16LE”、“UTF-16”)

Exp(Column)

计算给定值的指数。

Exp(String)

计算给定值的指数。

Explode(Column)

为给定数组或映射列中的每个元素创建一个新行。

ExplodeOuter(Column)

为给定数组或映射列中的每个元素创建一个新行。 与 Explode () 不同,如果数组/映射为 null 或为空,则生成 null。

Expm1(Column)

计算给定值减 1 的指数。

Expm1(String)

计算给定值减 1 的指数。

Expr(String)

将表达式字符串分析为它所表示的列。

Factorial(Column)

计算给定值的阶乘。

First(Column, Boolean)

返回组中列的第一个值。

First(String, Boolean)

返回组中列的第一个值。

Flatten(Column)

从数组数组创建单个数组。 如果嵌套数组的结构深于两个级别,则仅删除一个嵌套级别。

Floor(Column)

计算给定值的下限。

Floor(String)

计算给定值的下限。

FormatNumber(Column, Int32)

将给定数字 column 的格式设置为“#,###,###”格式,舍入到给定 d 的小数位数,HALF_EVEN舍入模式,并将结果作为字符串列返回。

FormatString(String, Column[])

设置 printf-style 参数的格式,并将结果作为字符串列返回。

FromCsv(Column, Column, Dictionary<String,String>)

将包含 CSV 字符串的列分析为 StructType 具有指定架构的 。

FromCsv(Column, StructType, Dictionary<String,String>)

将包含 CSV 字符串的列分析为 StructType 具有指定架构的 。

FromJson(Column, Column, Dictionary<String,String>)

将包含 JSON 字符串的列分析为 StructType 具有指定架构的 StructTypeArrayType

FromJson(Column, String, Dictionary<String,String>)

将包含 JSON 字符串的列分析为 StructType 具有指定架构的 StructTypeArrayType

FromUnixTime(Column)

将 UNIX epoch (1970-01-01 00:00:00 UTC) 的秒数转换为表示当前系统时区中该时刻的时间戳的字符串,默认格式为“yyyy-MM-dd HH:mm:ss”。

FromUnixTime(Column, String)

将 UNIX epoch (1970-01-01 00:00:00 UTC) 的秒数转换为表示当前系统时区中具有给定格式的时刻时间戳的字符串。

FromUtcTimestamp(Column, Column)

给定类似于“2017-07-14 02:40:00.0”的时间戳,将其解释为 UTC 中的时间,并将该时间呈现为给定时区中的时间戳。 例如,“GMT+1”会生成“2017-07-14 03:40:00.0”。

FromUtcTimestamp(Column, String)

给定类似于“2017-07-14 02:40:00.0”的时间戳,将其解释为 UTC 中的时间,并将该时间呈现为给定时区中的时间戳。 例如,“GMT+1”会生成“2017-07-14 03:40:00.0”。

GetJsonObject(Column, String)

根据指定的路径从 JSON 字符串中提取 JSON 对象,并返回提取的 JSON 对象的 JSON 字符串。

Greatest(Column[])

返回值列表的最大值,跳过 null 值。

Greatest(String, String[])

返回列名列表的最大值,跳过 null 值。

Grouping(Column)

指示 GROUP BY 列表中的指定列是否聚合,对于结果集中的聚合返回 1,对于未聚合,返回 0。

Grouping(String)

指示 GROUP BY 列表中的指定列是否聚合,对于结果集中的聚合返回 1,对于未聚合,返回 0。

GroupingId(Column[])

返回组中非重复项的数目。

GroupingId(String, String[])

返回组中非重复项的数目。

Hash(Column[])

计算给定列的哈希代码,并将结果作为 int 列返回。

Hex(Column)

计算给定列的十六进制值。

Hour(Column)

从给定的日期/时间戳/字符串中提取整数形式的小时数。

Hours(Column)

将数据分区为小时时间戳的转换。

Hypot(Column, Column)

sqrt(a^2^ + b^2^)没有中间溢出或下溢的计算。

Hypot(Column, Double)

sqrt(a^2^ + b^2^)没有中间溢出或下溢的计算。

Hypot(Column, String)

sqrt(a^2^ + b^2^)没有中间溢出或下溢的计算。

Hypot(Double, Column)

sqrt(a^2^ + b^2^)没有中间溢出或下溢的计算。

Hypot(Double, String)

sqrt(a^2^ + b^2^)没有中间溢出或下溢的计算。

Hypot(String, Column)

sqrt(a^2^ + b^2^)没有中间溢出或下溢的计算。

Hypot(String, Double)

sqrt(a^2^ + b^2^)没有中间溢出或下溢的计算。

Hypot(String, String)

sqrt(a^2^ + b^2^)没有中间溢出或下溢的计算。

InitCap(Column)

通过将每个单词的第一个字母转换为大写,返回一个新的字符串列。 单词由空格分隔。

InputFileName()

为当前 Spark 任务的文件名创建字符串列。

Instr(Column, String)

找到给定子字符串的第一个匹配项的位置。

IsNaN(Column)

返回 true,该列是 NaN。

IsNull(Column)

返回 true iff 列是否为 null。

JsonTuple(Column, String[])

根据给定的字段名称为 JSON 列创建新行。

Kurtosis(Column)

返回组中值的峰度。

Kurtosis(String)

返回组中值的峰度。

Lag(Column, Int32, Object)

Window 函数:返回当前行前的“offset”行的值;如果当前行之前的“offset”行数小于“偏移量”,则返回 null。 例如,一个的“offset”将返回窗口分区中任意给定点的前一行。

Lag(String, Int32, Object)

Window 函数:返回当前行前的“offset”行的值;如果当前行之前的“offset”行数小于“偏移量”,则返回 null。 例如,一个的“offset”将返回窗口分区中任意给定点的前一行。

Last(Column, Boolean)

返回组中列的最后一个值。

Last(String, Boolean)

返回组中列的最后一个值。

LastDay(Column)

返回给定日期所属的月份的最后一天。

Lead(Column, Int32, Object)

Window 函数:返回当前行后的“offset”行的值;如果当前行之后的“偏移量”行数小于“偏移量”,则返回 null。 例如,一个位置的“偏移量”将返回窗口分区中任意给定点处的下一行。

Lead(String, Int32, Object)

Window 函数:返回当前行后的“offset”行的值;如果当前行之后的“偏移量”行数小于“偏移量”,则返回 null。 例如,一个位置的“偏移量”将返回窗口分区中任意给定点处的下一行。

Least(Column[])

返回值列表的最小值,跳过 null 值。

Least(String, String[])

返回值列表的最小值,跳过 null 值。

Length(Column)

计算给定字符串的字符长度或二进制字符串的字节数。

Levenshtein(Column, Column)

计算两个给定字符串列的 Levenshtein 距离。

Lit(Object)

创建文本值的列。

Locate(String, Column)

找到给定子字符串的第一个匹配项的位置。

Locate(String, Column, Int32)

从给定位置偏移量开始,找到给定子字符串的第一个匹配项的位置。

Log(Column)

计算给定值的自然对数。

Log(Double, Column)

计算第二个参数的第一个基于参数的对数。

Log(Double, String)

计算第二个参数的第一个基于参数的对数。

Log(String)

计算给定值的自然对数。

Log10(Column)

以 10 为底计算给定值的对数。

Log10(String)

以 10 为底计算给定值的对数。

Log1p(Column)

计算给定值加 1 的自然对数。

Log1p(String)

计算给定值加 1 的自然对数。

Log2(Column)

计算以 2 为底的给定列的对数。

Log2(String)

计算以 2 为底的给定列的对数。

Lower(Column)

将字符串列转换为小写。

Lpad(Column, Int32, String)

将带 pad 的字符串列左填充到给定长度 len。 如果字符串列长于 len,则返回值将缩短为 len 字符。

Ltrim(Column)

为给定字符串列剪裁左端的空格。

Ltrim(Column, String)

为给定字符串列从左端剪裁指定的字符串。

Map(Column[])

创建新的地图列。

MapConcat(Column[])

返回所有给定映射的并集。

MapEntries(Column)

返回给定映射中所有条目的无序数组。

MapFromArrays(Column, Column)

创建新的地图列。 第一列中的数组用于键。 第二列中的数组用于值。 键的数组中的所有元素不应为 null。

MapFromEntries(Column)

返回从给定的条目数组创建的映射。

MapKeys(Column)

返回包含映射键的无序数组。

MapValues(Column)

返回包含映射值的无序数组。

Max(Column)

返回组中列的最大值。

Max(String)

返回组中列的最大值。

Md5(Column)

计算二进制列的 MD5 摘要,并将值作为 32 个字符的十六进制字符串返回。

Mean(Column)

返回组中列的平均值。

Mean(String)

返回组中列的平均值。

Min(Column)

返回组中列的最小值。

Min(String)

返回组中列的最小值。

Minute(Column)

从给定日期/时间戳/字符串中提取整数形式的分钟数。

MonotonicallyIncreasingId()

生成单调递增 64 位整数的列表达式。

Month(Column)

从给定日期/时间戳/字符串中提取整数形式的月份。

Months(Column)

时间戳和日期的转换,将数据分区为月。

MonthsBetween(Column, Column)

返回日期 endstasrt之间的月数。

MonthsBetween(Column, Column, Boolean)

返回日期 endstart之间的月数。 如果 roundOff 设置为 true,则结果四舍五入为 8 位;否则不会舍入。

NaNvl(Column, Column)

如果不是 NaN,则返回 col1;如果 col1 为 NaN,则返回 col2。

Negate(Column)

一元减去,即求反表达式。

NextDay(Column, String)

给定日期列后,返回第一个日期,该日期晚于指定星期几的日期列的值。

Not(Column)

布尔表达式的反转,即 NOT。

Ntile(Int32)

Window 函数:返回有序窗口分区中从 1 到 n 非独占) (的 ntile 组 ID。 例如,如果 n 为 4,则行的第一季度将得到值 1,第二季度将得到 2,第三季度将得到 3,最后一个季度将得到 4。

Overlay(Column, Column, Column)

用 覆盖 的src指定部分,从 的src字节位置posreplace开始。

Overlay(Column, Column, Column, Column)

使用 覆盖 的src指定部分,从 的字节位置srcpos开始,然后继续处理lenreplace字节。

PercentRank()

窗口函数:返回相对排名 (即窗口分区中行的百分位) 。

Pmod(Column, Column)

返回 dividend mod 除数的正值。

PosExplode(Column)

为具有给定数组或映射列中位置的每个元素创建一个新行。

PosExplodeOuter(Column)

为具有给定数组或映射列中位置的每个元素创建一个新行。 与 Posexplode () 不同,如果数组/映射为 null 或为空,则生成行 (null、null) 。

Pow(Column, Column)

返回第二个参数的幂引发的第一个参数的值。

Pow(Column, Double)

返回第二个参数的幂引发的第一个参数的值。

Pow(Column, String)

返回第二个参数的幂引发的第一个参数的值。

Pow(Double, Column)

返回第二个参数的幂引发的第一个参数的值。

Pow(Double, String)

返回第二个参数的幂引发的第一个参数的值。

Pow(String, Column)

返回第二个参数的幂引发的第一个参数的值。

Pow(String, Double)

返回第二个参数的幂引发的第一个参数的值。

Pow(String, String)

返回第二个参数的幂引发的第一个参数的值。

Quarter(Column)

从给定日期/时间戳/字符串中提取整数形式的季度。

Radians(Column)

将以度为单位的角度转换为以弧度为单位的大致等效角度。

Radians(String)

将以度为单位的角度转换为以弧度为单位的大致等效角度。

Rand()

从 U[0.0, 1.0] 生成具有独立且分布相同的 (i.d.) 样本的随机列。

Rand(Int64)

从 U[0.0, 1.0] 生成具有独立且分布相同的 (i.d.) 样本的随机列。

Randn()

从标准正态分布生成具有独立且分布相同的 (i.d.) 样本的随机列。

Randn(Int64)

从标准正态分布生成具有独立且分布相同的 (i.d.) 样本的随机列。

Rank()

窗口函数:返回窗口分区中行的排名。

RegexpExtract(Column, String, Int32)

从指定的字符串列中提取由 Java 正则表达式匹配的特定组。

RegexpReplace(Column, Column, Column)

使用给定的替换字符串替换与模式匹配的指定字符串值的所有子字符串。

RegexpReplace(Column, String, String)

使用给定的替换字符串替换与模式匹配的指定字符串值的所有子字符串。

Repeat(Column, Int32)

重复字符串列 n 次,并将其作为新字符串列返回。

Reverse(Column)

反转字符串列并将其作为新字符串列返回。

Rint(Column)

返回与参数值最接近且等于数学整数的双精度值。

Rint(String)

返回与参数值最接近且等于数学整数的双精度值。

Round(Column)

返回舍入到 0 位小数的 的值 column ,HALF_UP舍入模式。

Round(Column, Int32)

返回舍入到scale小数位数的值column,HALF_UP舍入模式。

RowNumber()

Window 函数:在窗口分区中返回从 1 开始的序号。

Rpad(Column, Int32, String)

将带 pad 的字符串列右填充到给定长度 len。 如果字符串列长于 len,则返回值将缩短为 len 字符。

Rtrim(Column)

为指定的字符串值剪裁右端的空格。

Rtrim(Column, String)

从给定字符串列的右端剪裁指定的字符串。

SchemaOfCsv(Column)

分析 CSV 字符串,并推断其 DDL 格式的架构。

SchemaOfCsv(Column, Dictionary<String,String>)

分析 CSV 字符串,并推断其 DDL 格式的架构。

SchemaOfCsv(String)

分析 CSV 字符串,并推断其 DDL 格式的架构。

SchemaOfJson(Column)

分析 JSON 字符串,并推断其 DDL 格式的架构。

SchemaOfJson(Column, Dictionary<String,String>)

分析 JSON 字符串,并推断其 DDL 格式的架构。

SchemaOfJson(String)

分析 JSON 字符串,并推断其 DDL 格式的架构。

Second(Column)

从给定日期/时间戳/字符串中提取整数形式的秒数。

Sequence(Column, Column)

生成从开始到停止的整数序列,如果 start 小于或等于 stop,则递增 1,否则为 -1。

Sequence(Column, Column, Column)

生成从 startstop的整数序列,按 step递增。

Sha1(Column)

计算二进制列的 SHA-1 摘要,并将值作为 40 个字符的十六进制字符串返回。

Sha2(Column, Int32)

计算二进制列的 SHA-2 系列哈希函数,并将值作为十六进制字符串返回。

ShiftLeft(Column, Int32)

将给定值 numBits 左移。

ShiftRight(Column, Int32)

(有符号) 右移给定值 numBits

ShiftRightUnsigned(Column, Int32)

无符号将给定值 numBits 右移。

Shuffle(Column)

返回给定数组的随机排列。

Signum(Column)

计算给定值的符号。

Signum(String)

计算给定值的符号。

Sin(Column)

计算角度的正弦值,就像由 计算一 java.lang.Math.sin样。

Sin(String)

计算角度的正弦值,就像由 计算一 java.lang.Math.sin样。

Sinh(Column)

计算角度的双曲正弦值,就像由 计算一 java.lang.Math.sin样。

Sinh(String)

计算角度的双曲正弦值,就像由 计算一 java.lang.Math.sin样。

Size(Column)

返回数组或映射的长度。

Skewness(Column)

返回组中值的偏斜度。

Skewness(String)

返回组中值的偏斜度。

Slice(Column, Int32, Int32)

返回一个数组,其中包含从索引start (或从末尾开始的所有元素column(如果 start 为负) 指定的 length)。

SortArray(Column, Boolean)

按升序 (默认) 或降序(数组元素的自然顺序)对给定列的输入数组进行排序。

Soundex(Column)

返回指定表达式的 soundex 代码。

SparkPartitionId()

分区 ID。

Split(Column, String)

使用正则表达式模式拆分字符串。

Split(Column, String, Int32)

在给定模式的匹配项周围拆分 str。

Sqrt(Column)

计算指定浮点值的平方根。

Sqrt(String)

计算指定浮点值的平方根。

Stddev(Column)

StddevSamp () 的别名。

Stddev(String)

StddevSamp () 的别名。

StddevPop(Column)

返回组中表达式的总体标准偏差。

StddevPop(String)

返回组中表达式的总体标准偏差。

StddevSamp(Column)

返回组中表达式的样本标准偏差。

StddevSamp(String)

返回组中表达式的样本标准偏差。

Struct(Column[])

创建组成多个输入列的新结构列。

Struct(String, String[])

创建组成多个输入列的新结构列。

Substring(Column, Int32, Int32)

返回从给定长度的给定位置开始) 字节数组的子字符串 (或切片。

SubstringIndex(Column, String, Int32)

返回给定分隔符出现之前 count 给定字符串的子字符串。

Sum(Column)

返回表达式中所有值的总和。

Sum(String)

返回表达式中所有值的总和。

SumDistinct(Column)

返回表达式中非重复值的总和。

SumDistinct(String)

返回表达式中非重复值的总和。

Tan(Column)

计算给定值的正切值,就像由 计算一 java.lang.Math.tan样。

Tan(String)

计算给定值的正切值,就像由 计算一 java.lang.Math.tan样。

Tanh(Column)

计算给定值的双曲正切值,就像由 计算一 java.lang.Math.tanh样。

Tanh(String)

计算给定值的双曲正切值,就像由 计算一 java.lang.Math.tanh样。

ToCsv(Column)

将包含 StructType 的列转换为具有指定架构的 CSV 字符串。

ToCsv(Column, Dictionary<String,String>)

将包含 StructType 的列转换为具有指定架构的 CSV 字符串。

ToDate(Column)

通过将规则强制转换为 ,将 列 DateType 转换为 DateType

ToDate(Column, String)

将列转换为 DateType 具有指定格式的 。

ToJson(Column, Dictionary<String,String>)

将包含 StructTypeArrayType of、StructTypeMapTypeArrayTypeMapType列转换为 JSON 字符串。

ToTimestamp(Column)

通过将规则 TimestampType转换为 ,将时间字符串转换为 Unix 时间戳 ((以秒为单位) )。

ToTimestamp(Column, String)

将时间字符串转换为以指定格式) 以秒为单位的 Unix 时间戳 (。

ToUtcTimestamp(Column, Column)

给定类似于“2017-07-14 02:40:00.0”的时间戳,将其解释为给定时区中的时间,并将该时间呈现为 UTC 的时间戳。 例如,“GMT+1”会生成“2017-07-14 01:40:00.0”。

ToUtcTimestamp(Column, String)

给定类似于“2017-07-14 02:40:00.0”的时间戳,将其解释为给定时区中的时间,并将该时间呈现为 UTC 的时间戳。 例如,“GMT+1”会生成“2017-07-14 01:40:00.0”。

Translate(Column, String, String)

通过给定 replaceString转换与 列中给定 matchingString 的匹配的任何字符。

Trim(Column)

为指定的字符串列剪裁两端的空格。

Trim(Column, String)

为指定的字符串列剪裁两端的指定字符。

Trunc(Column, String)

返回截断到格式指定的单位的日期。

Udf(Func<Row>, StructType)

从指定的委托创建 UDF。

Udf<A1,RT>(Func<A1,RT>)

从指定的委托创建 UDF。

Udf<T>(Func<T,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,T7,T8,T9,T10,TResult>(Func<T1,T2,T3,T4,T5,T6,T7,T8,T9,T10,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,T7,T8,T9,T10>(Func<T1,T2,T3,T4,T5,T6,T7,T8,T9,T10,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,T7,T8,T9,TResult>(Func<T1,T2,T3,T4,T5,T6,T7,T8,T9,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,T7,T8,T9>(Func<T1,T2,T3,T4,T5,T6,T7,T8,T9,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,T7,T8,TResult>(Func<T1,T2,T3,T4,T5,T6,T7,T8,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,T7,T8>(Func<T1,T2,T3,T4,T5,T6,T7,T8,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,T7,TResult>(Func<T1,T2,T3,T4,T5,T6,T7,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,T7>(Func<T1,T2,T3,T4,T5,T6,T7,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6,TResult>(Func<T1,T2,T3,T4,T5,T6,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,T6>(Func<T1,T2,T3,T4,T5,T6,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5,TResult>(Func<T1,T2,T3,T4,T5,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,T5>(Func<T1,T2,T3,T4,T5,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4,TResult>(Func<T1,T2,T3,T4,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2,T3,T4>(Func<T1,T2,T3,T4,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,T3,TResult>(Func<T1,T2,T3,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2,T3>(Func<T1,T2,T3,Row>, StructType)

从指定的委托创建 UDF。

Udf<T1,T2,TResult>(Func<T1,T2,TResult>)

从指定的委托创建 UDF。

Udf<T1,T2>(Func<T1,T2,Row>, StructType)

从指定的委托创建 UDF。

Udf<TResult>(Func<TResult>)

从指定的委托创建 UDF。

Unbase64(Column)

解码 BASE64 编码的字符串列,并将其作为二进制列返回。

UnboundedFollowing()

Window 函数:返回表示窗口分区中最后一行的特殊帧边界。

UnboundedPreceding()

窗口函数:返回表示窗口分区中第一行的特殊帧边界。

Unhex(Column)

十六进制的反函数。 将每对字符解释为十六进制数字,并转换为数字的字节表示形式。

UnixTimestamp()

以秒) 返回当前 Unix 时间戳 (。

UnixTimestamp(Column)

使用默认时区和默认区域设置,将格式为 yyyy-MM-dd HH:mm:ss 的时间字符串转换为 Unix 时间戳 ((以秒) 为单位)。

UnixTimestamp(Column, String)

将具有给定格式的时间字符串转换为 Unix 时间戳 (,以秒为单位) 。

Upper(Column)

将字符串列转换为大写。

Variance(Column)

VarSamp () 的别名。

Variance(String)

VarSamp () 的别名。

VarPop(Column)

返回组中值的总体方差。

VarPop(String)

返回组中值的总体方差。

VarSamp(Column)

返回组中值的无偏方差。

VarSamp(String)

返回组中值的无偏方差。

WeekOfYear(Column)

从给定日期/时间戳/字符串中提取整数形式的周数。

When(Column, Object)

计算条件并返回多个可能的结果表达式之一。 如果未在末尾定义否则,则对于不匹配的条件,将返回 null。

Window(Column, String)

根据指定列的时间戳生成翻转时间窗口。

Window(Column, String, String)

在给定时间戳列的情况下,将行桶化为一个或多个时间窗口。

Window(Column, String, String, String)

在给定时间戳列的情况下,将行桶化为一个或多个时间窗口。

XXHash64(Column[])

使用 xxHash 算法的 64 位变体计算给定列的哈希代码,并将结果作为长列返回。

Year(Column)

从给定日期/时间戳/字符串中提取整数形式的年份。

Years(Column)

时间戳和日期的转换,将数据分区为年。

适用于