Compartir a través de


Funciones de PySpark

En esta página se proporciona una lista de las funciones SQL de PySpark disponibles en Databricks con vínculos a la documentación de referencia correspondiente.

Funciones normales

Función Description
broadcast(df) Marca un DataFrame lo suficientemente pequeño como para usarlo en combinaciones de difusión.
call_function(funcName, *cols) Llamar a una función SQL.
col(col) Devuelve una columna basada en el nombre de columna especificado.
column(col) Devuelve una columna basada en el nombre de columna especificado.
lit(col) Crea una columna de valor literal.
expr(str) Analiza la cadena de expresión en la columna que representa

Funciones condicionales

Función Description
coalesce(*cols) Devuelve la primera columna que no es null.
ifnull(col1, col2) Devuelve col2 si col1 es null o col1 de lo contrario.
nanvl(col1, col2) Devuelve col1 si no es NaN o col2 si col1 es NaN.
nullif(col1, col2) Devuelve null si col1 es igual a col2 o col1 de lo contrario.
nullifzero(col) Devuelve null si col es igual a cero o col en caso contrario.
nvl(col1, col2) Devuelve col2 si col1 es null o col1 de lo contrario.
nvl2(col1, col2, col3) Devuelve col2 si col1 no es null o col3 de lo contrario.
when(condition, value) Evalúa una lista de condiciones y devuelve una de las varias expresiones de resultado posibles.
zeroifnull(col) Devuelve cero si col es nulo o col en caso contrario.

Funciones de coincidencia de patrones

Función Description
equal_null(col1, col2) Devuelve el mismo resultado que el operador EQUAL(=) para operandos que no son NULL, pero devuelve true si ambos son NULL, false si uno de ellos es NULL.
ilike(str, pattern[, escapeChar]) Devuelve true si str coincide con el patrón de forma insensible a mayúsculas y minúsculas, null si alguno de los argumentos es null, false de lo contrario.
isnan(col) Expresión que devuelve verdadero (true) si un valor en la columna es NaN.
isnotnull(col) Devuelve verdadero si col no es nulo o falso en caso contrario.
isnull(col) Expresión que devuelve true si la columna es null.
like(str, pattern[, escapeChar]) Devuelve true si str coincide con el patrón con escape, null si alguno de los argumentos es NULL; en caso contrario, false.
regexp(str, regexp) Devuelve true si str coincide con el regex de Java, o false en caso contrario.
regexp_like(str, regexp) Devuelve true si str coincide con el regex de Java, o false en caso contrario.
rlike(str, regexp) Devuelve true si str coincide con el regex de Java, o false en caso contrario.

Funciones de ordenación

Función Description
asc(col) Devuelve una expresión de ordenación para la columna de destino en orden ascendente.
asc_nulls_first(col) Devuelve una expresión de ordenación basada en el orden ascendente del nombre de columna especificado, y los valores NULL se devuelven antes que los valores que no son NULL.
asc_nulls_last(col) Devuelve una expresión de ordenación basada en el orden ascendente del nombre de columna especificado y los valores NULL aparecen después de valores que no son NULL.
desc(col) Devuelve una expresión de ordenación para la columna de destino en orden descendente.
desc_nulls_first(col) Devuelve una expresión de ordenación basada en el orden descendente del nombre de columna especificado y los valores NULL aparecen antes de los valores que no son NULL.
desc_nulls_last(col) Devuelve una expresión de ordenación basada en el orden descendente del nombre de columna especificado y los valores NULL aparecen después de valores que no son NULL.

Funciones matemáticas

Función Description
abs(col) Calcula el valor absoluto de la columna o expresión especificada.
acos(col) Calcula el coseno inverso (también conocido como arcocoseno) de la columna o expresión especificadas.
acosh(col) Calcula el coseno hiperbólico inverso (también conocido como arcosh) de la columna o expresión especificada.
asin(col) Calcula el seno inverso de la columna de entrada.
asinh(col) Calcula el seno hiperbólico inverso de la columna de entrada.
atan(col) Calcular tangente inversa de la columna de entrada.
atan2(col1, col2) Calcular el ángulo en radianes entre el eje X positivo de un plano y el punto dado por las coordenadas
atanh(col) Calcula la tangente hiperbólica inversa de la columna de entrada.
bin(col) Devuelve la representación de cadena del valor binario de la columna especificada.
bround(col[, scale]) Redondea el valor especificado a posiciones decimales de escala utilizando el modo de redondeo HALF_EVEN si la escala >= 0 o en la parte integral cuando la escala < 0.
cbrt(col) Calcula la raíz del cubo del valor especificado.
ceil(col[, scale]) Calcula el límite máximo del valor especificado.
ceiling(col[, scale]) Calcula el límite máximo del valor especificado.
conv(col, fromBase, toBase) Convierta un número en una columna de texto de una base a otra.
cos(col) Calcula el coseno de la columna de entrada.
cosh(col) Calcula el coseno hiperbólico de la columna de entrada.
cot(col) Calcula la cotangente de la columna de entrada.
csc(col) Calcula la cosecante de la columna de entrada.
degrees(col) Convierte un ángulo medido en radianes a un ángulo aproximadamente equivalente medido en grados.
e() Devuelve el número de Euler.
exp(col) Calcula el valor exponencial del valor especificado.
expm1(col) Calcula la exponencial del valor especificado menos uno.
factorial(col) Calcula el factorial del valor especificado.
floor(col[, scale]) Calcula el piso del valor especificado.
greatest(*cols) Devuelve el mayor valor de la lista de nombres de columna, omitiendo valores NULL.
hex(col) Calcula el valor hexadecimal de la columna especificada, que podría ser StringType, BinaryType, IntegerType o LongType.
hypot(col1, col2) sqrt(a^2 + b^2) Calcula sin desbordamiento intermedio o subflujo.
least(*cols) Devuelve el valor mínimo de la lista de nombres de columna, omitiendo valores NULL.
ln(col) Devuelve el logaritmo natural del argumento.
log(arg1[, arg2]) Devuelve el primer logaritmo basado en argumentos del segundo argumento.
log10(col) Calcula el logaritmo del valor especificado en Base 10.
log1p(col) Calcula el logaritmo natural del valor especificado más uno.
log2(col) Devuelve el logaritmo base-2 del argumento.
negate(col) Devuelve el valor negativo.
negative(col) Devuelve el valor negativo.
pi() Devuelve Pi.
pmod(dividend, divisor) Devuelve el valor positivo del divisor mod de dividendo.
positive(col) Devuelve el valor .
pow(col1, col2) Devuelve el valor del primer argumento elevado a la potencia del segundo argumento.
power(col1, col2) Devuelve el valor del primer argumento elevado a la potencia del segundo argumento.
radians(col) Convierte un ángulo medido en grados a un ángulo aproximadamente equivalente medido en radianes.
rand([seed]) Genera una columna aleatoria con muestras independientes y distribuidas de forma idéntica (i.i.d.) distribuidas uniformemente en [0.0, 1.0).
randn([seed]) Genera una columna aleatoria con muestras independientes y distribuidas de forma idéntica (i.i.d.) a partir de la distribución normal estándar.
rint(col) Devuelve el valor doble más cercano en el valor al argumento y es igual a un entero matemático.
round(col[, scale]) Redondee el valor especificado a las posiciones decimales según el modo de redondeo HALF_UP si la escala >= 0 o en la parte integral cuando la escala < 0.
sec(col) Calcula la separación de la columna de entrada.
sign(col) Calcula el signo del valor dado.
signum(col) Calcula el signo del valor dado.
sin(col) Calcula seno de la columna de entrada.
sinh(col) Calcula el seno hiperbólico de la columna de entrada.
sqrt(col) Calcula la raíz cuadrada del valor float especificado.
tan(col) Calcula la tangente de la columna de entrada.
tanh(col) Calcula la tangente hiperbólica de la columna de entrada.
try_add(left, right) Devuelve la suma de izquierda y derecha y el resultado es nulo en caso de desbordamiento.
try_divide(left, right) Devuelve dividendos o divisores.
try_mod(left, right) Devuelve el resto después del dividendo o divisor.
try_multiply(left, right) Devuelve izquierda por derecha, y el resultado es nulo si hay desbordamiento.
try_subtract(left, right) Devuelve left menos right y el resultado es nulo en caso de desbordamiento.
unhex(col) Inverso de hex.
uniform(min, max[, seed]) Devuelve un valor aleatorio con valores independientes y distribuidos de forma idéntica (i.i.d.) con el intervalo de números especificado.
width_bucket(v, min, max, numBucket) Devuelve el número de compartimento en el que el valor de esta expresión caería después de evaluarse.

Funciones de cadena

Función Description
ascii(col) Calcula el valor numérico del primer carácter de la columna de cadena.
base64(col) Calcula la codificación BASE64 de una columna binaria y la devuelve como una columna de cadena.
bit_length(col) Calcula la longitud de bits de la columna de cadena especificada.
btrim(str[, trim]) Quite los caracteres de espacio en blanco iniciales y finales de "str".
char(col) Devuelve el carácter ASCII cuyo valor binario es equivalente a col.
char_length(str) Devuelve la longitud de caracteres de los datos de cadena o el número de bytes de datos binarios.
character_length(str) Devuelve la longitud de caracteres de los datos de cadena o el número de bytes de datos binarios.
collate(col, collation) Marca una columna determinada con la intercalación especificada.
collation(col) Devuelve el nombre de intercalación de una columna determinada.
concat_ws(sep, *cols) Concatena varias columnas de cadena de entrada juntas en una sola columna de cadena mediante el separador especificado.
contains(left, right) Devuelve un valor booleano.
decode(col, charset) Calcula el primer argumento en una cadena de un binario mediante el juego de caracteres proporcionado (uno de US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, ). UTF-32
elt(*inputs) Devuelve la entrada n-ésima, por ejemplo, devuelve input2 cuando n es 2.
encode(col, charset) Calcula el primer argumento en un binario desde una cadena mediante el juego de caracteres proporcionado (uno de US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, ). UTF-32
endswith(str, suffix) Devuelve un valor booleano.
find_in_set(str, str_array) Devuelve el índice (basado en 1) de la cadena especificada (str) en la lista delimitada por comas (strArray).
format_number(col, d) Da formato al número X a un formato como #,--#,--#.--, redondeado a d posiciones decimales con el modo de redondeo HALF_EVEN y devuelve el resultado como una cadena.
format_string(format, *cols) Da formato a los argumentos en estilo printf y devuelve el resultado como una columna de cadena.
initcap(col) Traduzca la primera letra de cada palabra a mayúsculas en la oración.
instr(str, substr) Busque la posición de la primera aparición de la columna 'substr' en la cadena proporcionada.
is_valid_utf8(str) Devuelve true si la entrada es una cadena UTF-8 válida; de lo contrario, devuelve false.
lcase(str) Devuelve str con todos los caracteres cambiados a minúsculas.
left(str, len) Devuelve los caracteres len más a la izquierda (len pueden ser de tipo cadena) de la cadena str, si len es menor o igual que 0, el resultado es una cadena vacía.
length(col) Calcula la longitud de caracteres de los datos de cadena o el número de bytes de datos binarios.
levenshtein(left, right[, threshold]) Calcula la distancia levenshtein de las dos cadenas dadas.
locate(substr, str[, pos]) Busque la posición de la primera aparición de "substr" en una columna de texto, después de la posición pos.
lower(col) Convierte una expresión de cadena en minúsculas.
lpad(col, len, pad) Relleno izquierdo de la columna de cadena para ancho de len con almohadilla.
ltrim(col[, trim]) Recorte los espacios del extremo izquierdo para el valor de cadena especificado.
make_valid_utf8(str) Devuelve una nueva cadena en la que todas las secuencias de bytes UTF-8 no válidas, si las hay, se reemplazan por el carácter de reemplazo Unicode (U+FFFD).
mask(col[, upperChar, lowerChar, digitChar, ...]) Enmascara el valor de cadena especificado.
octet_length(col) Calcula la longitud de bytes de la columna de cadena especificada.
overlay(src, replace, pos[, len]) Superponga la parte especificada de src con replace, empezando por la posición de byte pos de src y después para los bytes len.
position(substr, str[, start]) Devuelve la posición de la primera aparición de la subcadena en str después del inicio de la posición.
printf(format, *cols) Da formato a los argumentos en estilo printf y devuelve el resultado como una columna de cadena.
randstr(length[, seed]) Devuelve una cadena de la longitud especificada cuyos caracteres se eligen uniformemente de forma aleatoria a partir del siguiente grupo de caracteres: 0-9, a-z, A-Z.
regexp_count(str, regexp) Devuelve un recuento del número de veces que el patrón regex de Java coincide con la cadena str.
regexp_extract(str, pattern, idx) Extraiga un grupo específico coincidente con la expresión regular regexp de Java de la columna de texto especificada.
regexp_extract_all(str, regexp[, idx]) Extraiga todas las cadenas de la cadena que coincidan con la expresión regular de Java y que correspondan al índice de grupo de la expresión regular.
regexp_instr(str, regexp[, idx]) Devuelve la posición de la primera subcadena de la cadena que coincide con el regex regexp de Java y correspondiente al índice del grupo regex.
regexp_replace(string, pattern, replacement) Reemplace todas las subcadenas del valor de cadena especificado que coincidan con regexp por reemplazo.
regexp_substr(str, regexp) Devuelve la primera subcadena que coincide con el regex regex de Java dentro de la cadena str.
repeat(col, n) Repite una columna de cadena n veces y la devuelve como una nueva columna de cadena.
replace(src, search[, replace]) Reemplaza todas las ocurrencias de "search" con "replace".
right(str, len) Devuelve los caracteres len más a la derecha (len pueden ser de tipo de cadena) de la cadena str, si len es menor o igual que 0, el resultado es una cadena vacía.
rpad(col, len, pad) Relleno derecho de la columna de cadena para ancho de len con almohadilla.
rtrim(col[, trim]) Recorte los espacios del extremo derecho para el valor de cadena especificado.
sentences(string[, language, country]) Divide una cadena en matrices de oraciones, donde cada oración es una matriz de palabras.
soundex(col) Devuelve la codificación SoundEx para una cadena.
split(str, pattern[, limit]) Divide la cadena alrededor de las coincidencias del patrón especificado.
split_part(src, delimiter, partNum) Divide str por delimitador y devuelve la parte solicitada de la división (basada en 1).
startswith(str, prefix) Devuelve un valor booleano.
substr(str, pos[, len]) Devuelve la subcadena de str que comienza en pos y es de longitud len, o el segmento de matriz de bytes que comienza en pos y es de longitud len.
substring(str, pos, len) La subcadena comienza en pos y tiene una longitud de len cuando str es de tipo String, o devuelve el segmento de la matriz de bytes que comienza en pos con una longitud de len cuando str es de tipo Binary.
substring_index(str, delim, count) Devuelve la subcadena de la cadena str antes de contar las apariciones del delimitador delim.
to_binary(col[, format]) Convierte la col de entrada en un valor binario basado en el formato proporcionado.
to_char(col, format) Convierta col en una cadena basada en el formato .
to_number(col, format) Convierta la cadena 'col' en un número basado en el formato de cadena 'format'.
to_varchar(col, format) Convierta col en una cadena basada en el formato .
translate(srcCol, matching, replace) Traduzca cualquier carácter del srcCol por un carácter que coincida.
trim(col[, trim]) Recorte los espacios de ambos extremos de la columna de cadena especificada.
try_to_binary(col[, format]) Intente realizar la to_binary operación, pero devuelva un valor NULL en lugar de generar un error si no se puede realizar la conversión.
try_to_number(col, format) Convierta la cadena col en un número en función del formato de cadena format.
try_validate_utf8(str) Devuelve el valor de entrada si corresponde a una cadena UTF-8 válida o NULL en caso contrario.
ucase(str) Devuelve str con todos los caracteres cambiados a mayúsculas.
unbase64(col) Descodifica una columna de cadena codificada en BASE64 y la devuelve como una columna binaria.
upper(col) Convierte una expresión de cadena de texto a mayúsculas.
validate_utf8(str) Devuelve el valor de entrada si corresponde a una cadena UTF-8 válida o emite un error en caso contrario.

Funciones bit a bit

Función Description
bit_count(col) Devuelve el número de bits que se establecen en el argumento expr como un entero de 64 bits sin signo o NULL si el argumento es NULL.
bit_get(col, pos) Devuelve el valor del bit (0 o 1) en la posición especificada.
bitwise_not(col) Calcula lo bit a bit.
getbit(col, pos) Devuelve el valor del bit (0 o 1) en la posición especificada.
shiftleft(col, numBits) Cambie el valor especificado numBits a la izquierda.
shiftright(col, numBits) (Firmado) desplaza el valor especificado numBits a la derecha.
shiftrightunsigned(col, numBits) Unsigned desplaza el valor especificado numBits a la derecha.

Funciones de fecha y hora

Función Description
add_months(start, months) Devuelve la fecha que es meses después del inicio.
convert_timezone(sourceTz, targetTz, sourceTs) Convierte la marca de tiempo sin zona horaria sourceTs de la zona horaria sourceTz a targetTz.
curdate() Devuelve la fecha actual al principio de la evaluación de consultas como una columna DateType.
current_date() Devuelve la fecha actual al principio de la evaluación de consultas como una columna DateType.
current_timestamp() Devuelve la marca de tiempo actual al principio de la evaluación de consultas como una columna TimestampType.
current_timezone() Devuelve la zona horaria local de la sesión actual.
date_add(start, days) Devuelve la fecha que es días después del inicio.
date_diff(end, start) Devuelve el número de días desde el principio hasta el final.
date_format(date, format) Convierte una fecha/marca de tiempo/cadena en un valor de cadena en el formato especificado por el formato de fecha proporcionado por el segundo argumento.
date_from_unix_date(days) Crear fecha a partir del número de días desde 1970-01-01.
date_part(field, source) Extrae una parte del origen de fecha/hora o intervalo.
date_sub(start, days) Devuelve la fecha que es [número de] días antes de la fecha de inicio.
date_trunc(format, timestamp) Devuelve el timestamp truncado a la unidad especificada por el formato.
dateadd(start, days) Devuelve la fecha que es días después del inicio.
datediff(end, start) Devuelve el número de días desde el principio hasta el final.
datepart(field, source) Extrae una parte del origen de fecha/hora o intervalo.
day(col) Extraiga el día del mes de una fecha y marca de tiempo determinada como entero.
dayname(col) Devuelve el nombre del día abreviado de tres letras a partir de la fecha especificada.
dayofmonth(col) Extraiga el día del mes de una fecha y marca de tiempo determinada como entero.
dayofweek(col) Extraiga el día de la semana de una fecha o marca de tiempo determinada como entero.
dayofyear(col) Extraiga el día del año de una fecha y marca de tiempo determinada como entero.
extract(field, source) Extrae una parte del origen de fecha/hora o intervalo.
from_unixtime(timestamp[, format]) Convierte el número de segundos de la época unix (1970-01-01 00:00:00 UTC) en una cadena que representa la marca de tiempo de ese momento en la zona horaria del sistema actual en el formato especificado.
from_utc_timestamp(timestamp, tz) Se trata de una función común para las bases de datos que admiten TIMESTAMP WITHOUT TIMEZONE.
hour(col) Extraiga las horas de una marca de tiempo dada como un número entero.
last_day(date) Devuelve el último día del mes al que pertenece la fecha especificada.
localtimestamp() Devuelve la marca de tiempo actual sin zona horaria al principio de la evaluación de consultas como una marca de tiempo sin columna de zona horaria.
make_date(year, month, day) Devuelve una columna con una fecha creada a partir de las columnas year, month y day.
make_dt_interval([days, hours, mins, secs]) Construya una duración de tipo DayTimeIntervalType a partir de días, horas, minutos y segundos.
make_interval([years, months, weeks, days, ...]) Crear intervalo a partir de años, meses, semanas, días, horas, minutos y segundos.
make_timestamp(years, months, days, hours, ...) Cree una marca de tiempo a partir de años, meses, días, horas, minutos, segundos y campos de zona horaria.
make_timestamp_ltz(years, months, days, ...) Cree la marca de tiempo actual con la zona horaria local a partir de años, meses, días, horas, minutos, segundos y campos de zona horaria.
make_timestamp_ntz(years, months, days, ...) Cree campos de fecha y hora local a partir de años, meses, días, horas, minutos, segundos.
make_ym_interval([years, months]) Formar un intervalo año-mes a partir de años y meses.
minute(col) Extraer los minutos de una marca de tiempo dada como entero.
month(col) Extraiga el mes de una fecha o marca de tiempo determinada como entero.
monthname(col) Devuelve el nombre del mes abreviado de tres letras a partir de la fecha especificada.
months_between(date1, date2[, roundOff]) Devuelve el número de meses entre fechas fecha1 y fecha2.
next_day(date, dayOfWeek) Devuelve la primera fecha que es posterior al valor de la columna de fecha en función del argumento de segundo día de la semana.
now() Devuelve la marca de tiempo actual al principio de la evaluación de consultas.
quarter(col) Extraiga el trimestre de una fecha y marca de tiempo determinada como entero.
second(col) Extraiga los segundos de una fecha determinada como entero.
session_window(timeColumn, gapDuration) Genera una ventana de sesión con una marca de tiempo que especifica una columna.
timestamp_add(unit, quantity, ts) Obtiene la diferencia entre las marcas de tiempo de las unidades especificadas truncando la parte de fracción.
timestamp_diff(unit, start, end) Obtiene la diferencia entre las marcas de tiempo de las unidades especificadas truncando la parte de fracción.
timestamp_micros(col) Crea una marca de tiempo a partir del número de microsegundos desde la época UTC.
timestamp_millis(col) Crea una marca de tiempo a partir del número de milisegundos desde la época UTC.
timestamp_seconds(col) Convierte el número de segundos de la época de Unix (1970-01-01T00:00:00Z) en una marca de tiempo.
to_date(col[, format]) Convierte una columna en pyspark.sql.types.DateType con el formato especificado opcionalmente.
to_timestamp(col[, format]) Convierte una columna en pyspark.sql.types.TimestampType mediante el formato especificado opcionalmente.
to_timestamp_ltz(timestamp[, format]) Transforma la marca de tiempo según el formato en una marca de tiempo con zona horaria.
to_timestamp_ntz(timestamp[, format]) Convierte la marca de tiempo con el formato en una marca de tiempo sin zona horaria.
to_unix_timestamp(timestamp[, format]) Devuelve la marca de tiempo de UNIX de la hora especificada.
to_utc_timestamp(timestamp, tz) Se trata de una función común para las bases de datos que admiten TIMESTAMP WITHOUT TIMEZONE.
trunc(date, format) Devuelve la fecha truncada a la unidad especificada por el formato .
try_make_interval([years, months, weeks, ...]) Intente realizar una make_interval operación, pero devuelva un valor NULL en lugar de generar un error si no se puede crear el intervalo.
try_make_timestamp(years, months, days, ...) Intente crear la marca de tiempo a partir de años, meses, días, horas, minutos, segundos y campos de zona horaria.
try_make_timestamp_ltz(years, months, days, ...) Intente crear la marca de tiempo actual con campos de zona horaria local a partir de años, meses, días, horas, minutos, segundos y zona horaria.
try_make_timestamp_ntz(years, months, days, ...) Intente crear campos de fecha y hora locales a partir de años, meses, días, horas, minutos, segundos.
try_to_timestamp(col[, format]) Analiza la columna con el formato para convertir en una marca de tiempo.
unix_date(col) Devuelve el número de días desde 1970-01-01.
unix_micros(col) Devuelve el número de microsegundos desde 1970-01-01 00:00:00 UTC.
unix_millis(col) Devuelve el número de milisegundos desde 1970-01-01 00:00:00 UTC.
unix_seconds(col) Devuelve el número de segundos desde 1970-01-01 00:00:00 UTC.
unix_timestamp([timestamp, format]) Convierta la cadena de tiempo con un patrón dado ('aaaa-MM-dd HH:mm:ss', de forma predeterminada) a la marca de tiempo de Unix (en segundos), con la zona horaria predeterminada y la configuración regional predeterminada, devuelve null si se produjo un error.
weekday(col) Devuelve el día de la semana para date/timestamp (0 = lunes, 1 = martes, ..., 6 = domingo).
weekofyear(col) Extraiga el número de semana de una fecha determinada como entero.
window(timeColumn, windowDuration[, ...]) Clasifique las filas en una o más ventanas de tiempo dado un column de especificación de marca de tiempo.
window_time(windowColumn) Calcula la hora del evento desde una columna de ventana.
year(col) Extraiga el año de una fecha o marca de tiempo determinada como entero.

Funciones hash

Función Description
crc32(col) Calcula el valor de comprobación de redundancia cíclica (CRC32) de una columna binaria y devuelve el valor como un bigint.
hash(*cols) Calcula el código hash de columnas dadas y devuelve el resultado como una columna int.
md5(col) Calcula el resumen MD5 y devuelve el valor como una cadena hexadecimal de 32 caracteres.
sha(col) Devuelve un valor hash SHA1 como una cadena hexadecimal de la columna.
sha1(col) Devuelve el resultado de cadena hexadecimal de SHA-1.
sha2(col, numBits) Devuelve la cadena hexadecimal resultado de las funciones hash de la familia SHA-2 (SHA-224, SHA-256, SHA-384 y SHA-512).
xxhash64(*cols) Calcula el código hash de las columnas dadas mediante la variante de 64 bits del algoritmo xxHash y devuelve el resultado como una columna larga.

Funciones de colección

Función Description
aggregate(col, initialValue, merge[, finish]) Aplica un operador binario a un estado inicial y a todos los elementos de la matriz y lo reduce a un único estado.
array_sort(col[, comparator]) Ordena la matriz de entrada en orden ascendente.
cardinality(col) Devuelve la longitud de la matriz o mapa almacenada en la columna.
concat(*cols) Concatena varias columnas de entrada juntas en una sola columna.
element_at(col, extraction) Devuelve el elemento de la matriz en el índice especificado (basado en 1).
exists(col, f) Devuelve si un predicado contiene uno o varios elementos de la matriz.
filter(col, f) Devuelve un arreglo de elementos para los que un predicado se cumple en un arreglo dado.
forall(col, f) Devuelve si un predicado se cumple para cada elemento del array.
map_filter(col, f) Devuelve una nueva columna de mapa cuyos pares clave-valor satisfacen una función de predicado determinada.
map_zip_with(col1, col2, f) Combina dos mapas dados en un único mapa aplicando una función a los pares clave-valor.
reduce(col, initialValue, merge[, finish]) Aplica un operador binario a un estado inicial y a todos los elementos de la matriz y lo reduce a un único estado.
reverse(col) Devuelve una cadena invertida o una matriz con elementos en orden inverso.
size(col) Devuelve la longitud de la matriz o mapa almacenada en la columna.
transform(col, f) Devuelve una matriz de elementos después de aplicar una transformación a cada elemento de la matriz de entrada.
transform_keys(col, f) Aplica una función a cada par clave-valor de un mapa y devuelve un mapa con los resultados de esas aplicaciones como claves nuevas para los pares.
transform_values(col, f) Aplica una función a cada par clave-valor de un mapa y devuelve un mapa con los resultados de esas aplicaciones como los nuevos valores de los pares.
try_element_at(col, extraction) Devuelve el elemento de matriz en el índice especificado (basado en 1).
zip_with(left, right, f) Combine dos matrices dadas, en modo de elemento, en una sola matriz mediante una función .

Funciones de matriz

Función Description
array(*cols) Crea una nueva columna de matriz a partir de las columnas de entrada o los nombres de columna.
array_append(col, value) Devuelve una nueva columna de matriz añadiendo el valor a la columna de matriz existente.
array_compact(col) Quita valores NULL de la matriz.
array_contains(col, value) Devuelve un valor booleano que indica si la matriz contiene el valor especificado: null si la matriz es null, true si la matriz contiene el valor especificado y false de lo contrario.
array_distinct(col) Quita los valores duplicados de la matriz.
array_except(col1, col2) Devuelve una nueva matriz que contiene los elementos presentes en col1, pero no en col2, sin duplicados.
array_insert(arr, pos, value) Inserta un elemento en una matriz determinada en un índice de matriz especificado.
array_intersect(col1, col2) Devuelve una nueva matriz que contiene la intersección de elementos en col1 y col2, sin duplicados.
array_join(col, delimiter[, null_replacement]) Devuelve una columna de cadena mediante la concatenación de los elementos de la columna de matriz de entrada mediante el delimitador.
array_max(col) Devuelve el valor máximo de la matriz.
array_min(col) Devuelve el valor mínimo de la matriz.
array_position(col, value) Busca la posición de la primera aparición del valor especificado en la matriz especificada.
array_prepend(col, value) Devuelve una matriz que contiene el elemento especificado como primer elemento y el resto de los elementos de la matriz original.
array_remove(col, element) Quite todos los elementos que son iguales al elemento de la matriz especificada.
array_repeat(col, count) Crea una matriz que contiene tiempos de recuento repetidos de columnas.
array_size(col) Devuelve el número total de elementos de la matriz.
array_union(col1, col2) Devuelve una nueva matriz que contiene la unión de elementos en col1 y col2, sin duplicados.
arrays_overlap(a1, a2) Devuelve una columna booleana que indica si las matrices de entrada tienen elementos comunes que no son NULL, devolviendo true si lo hacen, null si las matrices no contienen ningún elemento común, pero no están vacíos y al menos uno de ellos contiene un elemento NULL y false en caso contrario.
arrays_zip(*cols) Devuelve una matriz combinada de estructuras en las que la estructura N contiene todos los valores N de matrices de entrada.
flatten(col) Crea una sola matriz a partir de una matriz de matrices.
get(col, index) Devuelve el elemento de una matriz en el índice especificado (basado en 0).
sequence(start, stop[, step]) Genera una secuencia de enteros desde el inicio hasta el fin, incrementando por paso.
shuffle(col[, seed]) Genera una permutación aleatoria de la matriz especificada.
slice(x, start, length) Devuelve una nueva columna de matriz mediante la segmentación de la columna de matriz de entrada de un índice inicial a una longitud específica.
sort_array(col[, asc]) Ordena la matriz de entrada en orden ascendente o descendente según la ordenación natural de los elementos de matriz.

Funciones de estructura

Función Description
named_struct(*cols) Crea una estructura con los nombres y valores de campo especificados.
struct(*cols) Crea una nueva columna de estructura.

Funciones de mapeo

Función Description
create_map(*cols) Crea una nueva columna de mapa a partir de un número par de columnas de entrada o columnas de referencia.
map_concat(*cols) Devuelve la unión de todos los mapas especificados.
map_contains_key(col, value) Devuelve true si el mapa contiene la clave.
map_entries(col) Devuelve una matriz desordenada de todas las entradas del mapa especificado.
map_from_arrays(col1, col2) Crea un nuevo mapa a partir de dos matrices.
map_from_entries(col) Transforma una matriz de entradas del par clave-valor (estructuras con dos campos) en un mapa.
map_keys(col) Devuelve una matriz desordenada que contiene las claves del mapa.
map_values(col) Devuelve una matriz desordenada que contiene los valores del mapa.
str_to_map(text[, pairDelim, keyValueDelim]) Convierte una cadena en un mapa después de dividir el texto en pares clave-valor mediante delimitadores.

Funciones agregadas

Función Description
any_value(col[, ignoreNulls]) Devuelve algún valor de col para un grupo de filas.
approx_count_distinct(col[, rsd]) Devuelve una nueva columna, que calcula el recuento distinto aproximado de elementos de una columna especificada o un grupo de columnas.
approx_percentile(col, percentage[, accuracy]) Devuelve el percentil aproximado de la columna numérica col, que es el valor más pequeño de los valores de col ordenados (ordenados de menos a mayor), de modo que no más de un porcentaje de valores col es menor que el valor o igual que ese valor.
array_agg(col) Devuelve una lista de objetos con duplicados.
avg(col) Devuelve el promedio de los valores de un grupo.
bit_and(col) Devuelve el AND a nivel de bits de todos los valores de entrada que no son NULL, o NULL si no hay ninguno.
bit_or(col) Devuelve el OR a nivel de bits de todos los valores de entrada que no son NULL, o NULL si no hay ninguno.
bit_xor(col) Devuelve el XOR bit a bit de todos los valores de entrada que no son nulos, o nulo si no hay ninguno.
bitmap_construct_agg(col) Devuelve un mapa de bits con las posiciones del conjunto de bits de todos los valores de la columna de entrada.
bitmap_or_agg(col) Devuelve un mapa de bits que es el OR bit a bit de todos los mapas de bits de la columna de entrada.
bool_and(col) Devuelve verdadero si todos los valores de col son verdaderos.
bool_or(col) Devuelve verdadero si al menos un valor de col es verdadero.
collect_list(col) Recopila los valores de una columna en una lista, mantiene duplicados y devuelve esta lista de objetos.
collect_set(col) Recopila los valores de una columna en un conjunto, eliminando duplicados y devuelve este conjunto de objetos.
corr(col1, col2) Devuelve una nueva columna para el coeficiente de correlación de Pearson para col1 y col2.
count(col) Devuelve el número de elementos de un grupo.
count_distinct(col, *cols) Devuelve una nueva Columna para un conteo distinto de una columna o múltiples columnas.
count_if(col) Devuelve el número de valores TRUE para la columna.
count_min_sketch(col, eps, confidence[, seed]) Devuelve un boceto count-min de una columna con el epsilon, la confianza y la semilla especificados.
covar_pop(col1, col2) Devuelve una nueva columna para la covarianza de población de col1 y col2.
covar_samp(col1, col2) Devuelve una nueva columna para la covarianza de ejemplo de col1 y col2.
every(col) Devuelve verdadero si todos los valores de col son verdaderos.
first(col[, ignorenulls]) Devuelve el primer valor de un grupo.
first_value(col[, ignoreNulls]) Devuelve el primer valor de col para un grupo de filas.
grouping(col) Indica si una columna especificada de una GROUP BY lista se agrega o no, devuelve 1 para agregados o 0 para no agregados en el conjunto de resultados.
grouping_id(*cols) Devuelve el nivel de agrupación, igual a
histogram_numeric(col, nBins) Calcula un histograma en "col" numérico mediante intervalos nb.
hll_sketch_agg(col[, lgConfigK]) Devuelve la representación binaria actualizable de Datasketches HllSketch configurada con lgConfigK arg.
hll_union_agg(col[, allowDifferentLgConfigK]) Devuelve la representación binaria actualizable de Datasketches HllSketch, generada mediante la combinación de instancias de Datasketches HllSketch creadas anteriormente a través de una instancia de Unión de Datasketches.
kurtosis(col) Devuelve la curtosis de los valores de un grupo.
last(col[, ignorenulls]) Devuelve el último valor de un grupo.
last_value(col[, ignoreNulls]) Devuelve el último valor de col para un grupo de filas.
listagg(col[, delimiter]) Devuelve la concatenación de valores de entrada que no son NULL, separados por el delimitador.
listagg_distinct(col[, delimiter]) Devuelve la concatenación de valores de entrada distintos que no son NULL, separados por el delimitador.
max(col) Devuelve el valor máximo de la expresión en un grupo.
max_by(col, ord) Devuelve el valor del parámetro col asociado al valor máximo del parámetro ord.
mean(col) Devuelve el promedio de los valores de un grupo.
median(col) Devuelve la mediana de los valores de un grupo.
min(col) Devuelve el valor mínimo de la expresión en un grupo.
min_by(col, ord) Devuelve el valor del parámetro col asociado al valor mínimo del parámetro ord.
mode(col[, deterministic]) Devuelve el valor más frecuente de un grupo.
percentile(col, percentage[, frequency]) Devuelve los percentiles exactos de la columna numérica expr en los porcentajes especificados con el intervalo de valores en [0,0, 1,0].
percentile_approx(col, percentage[, accuracy]) Devuelve el percentil aproximado de la columna numérica col, que es el valor más pequeño de los valores de col ordenados (ordenados de menos a mayor), de modo que no más de un porcentaje de valores col es menor que el valor o igual que ese valor.
product(col) Devuelve el producto de los valores de un grupo.
regr_avgx(y, x) Devuelve el promedio de la variable independiente para los pares que no son NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
regr_avgy(y, x) Devuelve el promedio de la variable dependiente para los pares que no son NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
regr_count(y, x) Devuelve el número de pares de números no NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
regr_intercept(y, x) Devuelve la interceptación de la línea de regresión lineal univariante para pares no NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
regr_r2(y, x) Devuelve el coeficiente de determinación de pares no NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
regr_slope(y, x) Devuelve la pendiente de la línea de regresión lineal para pares que no son NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
regr_sxx(y, x) Devuelve REGR_COUNT(y, x) * VAR_POP(x) para pares que no son NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
regr_sxy(y, x) Devuelve REGR_COUNT(y, x) * COVAR_POP(y, x) para pares que no son NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
regr_syy(y, x) Devuelve REGR_COUNT(y, x) * VAR_POP(y) para pares no NULL en un grupo, donde y es la variable dependiente y x es la variable independiente.
skewness(col) Devuelve la asimetría de los valores de un grupo.
some(col) Devuelve verdadero si al menos un valor de col es verdadero.
std(col) Alias para stddev_samp.
stddev(col) Alias para stddev_samp.
stddev_pop(col) Devuelve la desviación estándar de población de la expresión en un grupo.
stddev_samp(col) Devuelve la desviación estándar de muestra no sesgada de la expresión en un grupo.
string_agg(col[, delimiter]) Devuelve la concatenación de valores de entrada que no son NULL, separados por el delimitador.
string_agg_distinct(col[, delimiter]) Devuelve la concatenación de valores de entrada distintos que no son NULL, separados por el delimitador.
sum(col) Devuelve la suma de todos los valores de la expresión.
sum_distinct(col) Devuelve la suma de valores distintos en la expresión.
try_avg(col) Devuelve la media calculada a partir de los valores de un grupo y el resultado es nulo en caso de desbordamiento.
try_sum(col) Devuelve la suma calculada a partir de los valores de un grupo, y el resultado será NULL en caso de desbordamiento.
var_pop(col) Devuelve la varianza de población de los valores de un grupo.
var_samp(col) Devuelve la varianza de muestra no sesgada de los valores de un grupo.
variance(col) Alias para var_samp

Funciones de ventana

Función Description
cume_dist() Devuelve la distribución acumulativa de valores dentro de una partición de ventana, es decir, la fracción de filas que están por debajo de la fila actual.
dense_rank() Devuelve el rango de filas dentro de una partición de ventana, sin espacios.
lag(col[, offset, default]) Devuelve el valor que es las filas de desplazamiento antes de la fila actual y el valor predeterminado si hay menos que filas de desplazamiento antes de la fila actual.
lead(col[, offset, default]) Devuelve el valor que se encuentra después de un número especificado de filas de desfase tras la fila actual, o el valor predeterminado si hay menos filas que dicho desfase después de la fila actual.
nth_value(col, offset[, ignoreNulls]) Devuelve el valor que es la fila de desplazamiento del marco de ventana (contando desde 1) y null si el tamaño del marco de ventana es menor que las filas de desplazamiento.
ntile(n) Devuelve el identificador de grupo ntile (de 1 a n inclusive) en una partición de ventana ordenada.
percent_rank() Devuelve el rango relativo (es decir,
rank() Devuelve el rango de filas dentro de una partición de ventana.
row_number() Devuelve un número secuencial a partir de 1 dentro de una partición de ventana.

Funciones del generador

Función Description
explode(col) Devuelve una nueva fila para cada elemento de la matriz o mapa especificados.
explode_outer(col) Devuelve una nueva fila para cada elemento de la matriz o mapa especificados.
inline(col) Explota una matriz de estructuras en una tabla.
inline_outer(col) Explota una matriz de estructuras en una tabla.
posexplode(col) Devuelve una nueva fila para cada elemento con posición en la matriz o mapa especificados.
posexplode_outer(col) Devuelve una nueva fila para cada elemento con posición en la matriz o mapa especificados.
stack(*cols) Separa col1, ..., colk en n filas.

Funciones de transformación de particiones

Función Description
partitioning.years(col) Una transformación para las marcas de tiempo y las fechas para dividir los datos en años.
partitioning.months(col) Una transformación para las marcas de tiempo y las fechas para dividir los datos en meses.
partitioning.days(col) Una transformación para las marcas de tiempo y las fechas para dividir los datos en días.
partitioning.hours(col) Una transformación para las marcas de tiempo para dividir los datos en horas.
partitioning.bucket(numBuckets, col) Transformación para cualquier tipo que particione mediante un hash de la columna de entrada.

Funciones geoespaciales H3 (Databricks)

Función Description
h3_boundaryasgeojson(col) Devuelve el límite de una celda H3 en formato GeoJSON.
h3_boundaryaswkb(col) Devuelve el límite de una celda H3 en formato WKB.
h3_boundaryaswkt(col) Devuelve el límite de una celda H3 en formato WKT.
h3_centerasgeojson(col) Devuelve el centro de una celda H3 en formato GeoJSON.
h3_centeraswkb(col) Devuelve el centro de una celda H3 en formato WKB.
h3_centeraswkt(col) Devuelve el centro de una celda H3 en formato WKT.
h3_compact(col) Compacta el conjunto de entradas de identificadores de celda H3 lo mejor posible
h3_coverash3(col1,col2) Devuelve un array de identificadores de celda representados como enteros largos, correspondientes a hexágonos o pentágonos de la resolución especificada que cubren mínimamente la geografía lineal o areal de entrada.
h3_coverash3string(col1,col2) Devuelve una matriz de identificadores de celda representados como cadenas, correspondientes a hexágonos o pentágonos de la resolución especificada que cubren mínimamente la geografía lineal o areal de entrada.
h3_distance(col1,col2) Devuelve la distancia en la cuadrícula entre dos identificadores de celda H3.
h3_h3tostring(col) Convierte un identificador de celda H3 en una cadena que representa el identificador de celda como una cadena hexadecimal.
h3_hexring(col1,col2) Devuelve una matriz de identificadores de celda H3 que forman un anillo hexagonal hueco centrado en la celda H3 de origen y que están a una distancia de la cuadrícula k desde la celda H3 de origen
h3_ischildof(col1,col2) Devuelve True si el primer identificador de celda H3 es un hijo del segundo identificador de celda H3.
h3_ispentagon(col) Devuelve True si el identificador de celda H3 de entrada representa un pentágono.
h3_isvalid(col) Devuelve True si la entrada representa un identificador de celda H3 válido.
h3_kring(col1,col2) Devuelve los identificadores de celda H3 que están dentro de la distancia (cuadrícula) k del identificador de celda de origen.
h3_kringdistances(col1,col2) Devuelve todos los ID de celda H3 (representados como enteros largos o cadenas) dentro de la distancia de cuadrícula k desde el ID de celda H3 original, junto con su distancia desde el ID de celda H3 original.
h3_longlatash3(col1,col2,col3) Devuelve el identificador de celda H3 (como BIGINT) correspondiente a la longitud y latitud proporcionadas en la resolución especificada.
h3_longlatash3string(col1,col2,col3) Devuelve el identificador de celda H3 (como una cadena) correspondiente a la longitud y latitud proporcionadas en la resolución especificada.
h3_maxchild(col1,col2) Devuelve el hijo con el valor máximo de la celda H3 de entrada en la resolución especificada.
h3_minchild(col1,col2) Devuelve el hijo de valor mínimo de la celda H3 de entrada en la resolución especificada.
h3_pointash3(col1,col2) Devuelve el identificador de celda H3 (como BIGINT) correspondiente al punto proporcionado en la resolución especificada.
h3_pointash3string(col1,col2) Devuelve el identificador de celda H3 (como una cadena) correspondiente al punto proporcionado en la resolución especificada.
h3_polyfillash3(col1,col2) Devuelve una matriz de identificadores de celda representados como enteros largos, correspondientes a hexágonos o pentágonos de la resolución especificada que contiene la geografía areal de entrada.
h3_polyfillash3string(col1,col2) Devuelve una matriz de identificadores de celda representados como cadenas, correspondientes a hexágonos o pentágonos de la resolución especificada contenida por la entrada areal geography.
h3_resolution(col) Devuelve la resolución del identificador de celda H3.
h3_stringtoh3(col) Convierte el identificador de celda H3 de representación de cadena en su representación de entero grande.
h3_tessellateaswkb(col1,col2) Devuelve una matriz de estructuras que representan los chips que cubren la geografía en la resolución especificada.
h3_tochildren(col1,col2) Devuelve los identificadores de celda H3 secundarios del identificador de celda H3 de entrada en la resolución especificada.
h3_toparent(col1,col2) Devuelve el identificador de celda H3 primario del identificador de celda H3 de entrada en la resolución especificada.
h3_try_coverash3(col1,col2) Devuelve un array de identificadores de celda representados como enteros largos, correspondientes a hexágonos o pentágonos de la resolución especificada que cubren mínimamente la geografía lineal o areal de entrada.
h3_try_coverash3string(col1,col2) Devuelve una matriz de identificadores de celda representados como cadenas, correspondientes a hexágonos o pentágonos de la resolución especificada que cubren mínimamente la geografía lineal o areal de entrada.
h3_try_distance(col1,col2) Devuelve la distancia de cuadrícula entre dos identificadores de celda H3 de la misma resolución, o None si la distancia no está definida.
h3_try_polyfillash3(col1,col2) Devuelve una matriz de identificadores de celda representados como enteros largos, correspondientes a hexágonos o pentágonos de la resolución especificada que contiene la geografía areal de entrada.
h3_try_polyfillash3string(col1,col2) Devuelve una matriz de identificadores de celda representados como cadenas, correspondientes a hexágonos o pentágonos de la resolución especificada contenida por la entrada areal geography.
h3_try_tessellateaswkb(col1,col2) Devuelve una matriz de estructuras que representan los chips que cubren la geografía en la resolución especificada, o null si la geometría no es válida.
h3_try_validate(col) Devuelve el valor de entrada si es una celda H3 válida o Ninguna de lo contrario.
h3_uncompact(col1,col2) Descomprime el conjunto de entradas de identificadores de celda H3 a la resolución especificada.
h3_validate(col) Devuelve el valor de entrada si es una celda H3 válida o emite un error en caso contrario.

Funciones geoespaciales ST (Databricks)

Función Description
st_addpoint(col1,col2,col3) Añade un nuevo punto en la n-ésima posición de la línea de entrada Geography o Geometry
st_area(col) Devuelve el área de la geografía o geometría de entrada.
st_asbinary(col1,col2) Devuelve el valor geography o geometry de entrada en formato WKB.
st_asewkb(col1,col2) Devuelve el valor geometry de entrada en formato EWKB.
st_asewkt(col) Devuelve el valor de entrada Geography o Geometry en formato EWKT.
st_asgeojson(col) Devuelve el valor geography o geometry de entrada en formato GeoJSON.
st_astext(col) Devuelve el valor geography o geometry de entrada en formato WKT.
st_aswkb(col1,col2) Devuelve el valor geography o geometry de entrada en formato WKB.
st_aswkt(col) Devuelve el valor geography o geometry de entrada en formato WKT.
st_buffer(col1,col2) Devuelve el buffer de la geometría de entrada utilizando el radio especificado.
st_centroid(col) Devuelve el centroide de la geometría de entrada como una geometría de punto 2D.
st_concavehull(col1,col2,col3) Devuelve el casco cóncavo de la geometría de entrada como una geometría utilizando la relación de longitud especificada.
st_contains(col1,col2) Devuelve True si la primera geometría contiene la segunda geometría.
st_convexhull(col) Devuelve la envolvente convexa de la geometría de entrada como geometría.
st_covers(col1,col2) Devuelve True si la primera geometría cubre la segunda geometría.
st_difference(col1,col2) Devuelve el conjunto de puntos diferente de las dos geometrías de entrada como una geometría 2D.
st_dimension(col) Devuelve la dimensión topológica de la proyección 2D de la geometría de entrada.
st_disjoint(col1,col2) Devuelve True si las dos geometrías están separadas
st_distance(col1,col2) Devuelve la distancia cartesiana 2D entre las dos geometrías de entrada.
st_distancesphere(col1,col2) Devuelve la distancia esférica (en metros) entre dos geometrías de punto, medida en una esfera cuyo radio es el radio medio del elipsoide WGS84.
st_distancespheroid(col1,col2) Devuelve la distancia geodesica (en metros) entre dos geometrías de punto en el WGS84 elipsoid
st_dwithin(col1,col2,col3) Devuelve True si la distancia cartesiana 2D entre las dos geometrías de entrada es menor o igual que la distancia de entrada.
st_endpoint(col) Devuelve el último punto de la cadena de línea de entrada o None si no existe.
st_envelope(col) Devuelve el cuadro delimitador mínimo alineado con los ejes cartesianos 2D de la geometría no vacía de entrada, como geometría.
st_envelope_agg(col) Devuelve el sobre de todas las geometrías de la columna, o None si la columna tiene cero filas o contiene solo valores None.
st_equals(col1,col2) Devuelve True si las dos geometrías son geométricamente iguales
st_exteriorring(col) Devuelve el anillo exterior (shell), como una cadena de líneas, del valor Geography o Geometry de entrada que representa un polígono.
st_flipcoordinates(col) Intercambia coordenadas X e Y de la geometría de entrada
st_geogfromgeojson(col) Analiza la descripción de GeoJSON y devuelve el valor geography correspondiente.
st_geogfromtext(col) Analiza la descripción de WKT y devuelve el valor geography correspondiente.
st_geogfromwkb(col) Analiza la descripción de WKB de entrada y devuelve el valor Geography correspondiente.
st_geogfromwkt(col) Analiza la descripción de WKT y devuelve el valor geography correspondiente.
st_geohash(col1,col2) Devuelve el geohash de la geometría de entrada.
st_geometryn(col1,col2) Devuelve el elemento n-º basado en 1 de la geometría múltiple de entrada, o None si no existe.
st_geometrytype(col) Devuelve el tipo del valor Geography o Geometry de entrada como una cadena.
st_geomfromewkb(col) Analiza la descripción de EWKB de entrada y devuelve el valor geometry correspondiente.
st_geomfromgeohash(col) Devuelve el cuadro de cuadrícula geohash correspondiente al valor de geohash de entrada como una geometría de polígono 2D.
st_geomfromgeojson(col) Analiza la descripción de GeoJSON y devuelve el valor de Geometría correspondiente.
st_geomfromtext(col1,col2) Analiza la descripción de WKT y devuelve el valor geometry correspondiente.
st_geomfromwkb(col1,col2) Analiza la descripción de WKB de entrada y devuelve el valor geometry correspondiente.
st_geomfromwkt(col1,col2) Analiza la descripción de WKT y devuelve el valor geometry correspondiente.
st_intersection(col1,col2) Devuelve la intersección del conjunto de puntos de las dos geometrías de entrada como una geometría 2D.
st_intersects(col1,col2) Devuelve True si las dos geometrías se intersecan
st_isempty(col) Devuelve True si el valor Geography o Geometry de entrada no contiene ningún punto no vacío.
st_isvalid(col) Devuelve True si la geometría de entrada es una geometría válida en el sentido de OGC.
st_length(col) Devuelve la longitud del valor de geometría o geografía de entrada.
st_m(col) Devuelve la coordenada M de la geometría del punto de entrada, o None si la geometría del punto de entrada está vacía o si no tiene una coordenada M.
st_makeline(col) Devuelve una geometría de cadena de línea cuyos puntos son los puntos no vacíos de las geometrías de la matriz de entrada de geometrías, que se espera que sean puntos, líneas o varios puntos.
st_makepolygon(col1,col2) Construye un polígono a partir del límite exterior de entrada y una matriz opcional de límites internos, representados como líneas cerradas.
st_multi(col) Devuelve el valor de entrada Geography o Geometry como un valor geoespacial múltiple equivalente, manteniendo el SRID original.
st_ndims(col) Devuelve la dimensión de coordenada del valor Geography o Geometry de entrada.
st_npoints(col) Devuelve el número de puntos no vacíos en el valor de entrada Geography o Geometry.
st_numgeometries(col) Devuelve el número de geometrías de la geometría de entrada.
st_perimeter(col) Devuelve el perímetro de la geografía o geometría de entrada.
st_point(col1,col2,col3) Devuelve una geometría de punto 2D con las coordenadas x e y especificadas y el valor SRID.
st_pointfromgeohash(col) Devuelve el centro del cuadro de cuadrícula geohash correspondiente al valor de geohash de entrada como una geometría de punto 2D.
st_pointn(col1,col2) Devuelve el punto n-ésimo basado en la línea de entrada, o None si no existe.
st_removepoint(col1,col2) Quita el n-ésimo punto de la cadena de líneas Geography o Geometry de entrada.
st_reverse(col) Invierte el orden de los vértices en el valor de entrada de Geography o Geometry.
st_rotate(col1,col2) Gira la geometría de entrada alrededor del eje Z por el ángulo de rotación especificado (en radianes)
st_scale(col1,col2,col3,col4) Escala la geometría de entrada en las direcciones X, Y y Z (opcional) mediante los factores especificados.
st_setpoint(col1,col2,col3) Establece el enésimo punto en la línea de entrada de Geografía o Geometría
st_setsrid(col1,col2) Devuelve un nuevo valor geometry cuyo SRID es el valor SRID especificado.
st_simplify(col1,col2) Simplifica la geometría de entrada mediante el algoritmo de Douglas-Peucker
st_srid(col) Devuelve el SRID del valor geoespacial de entrada.
st_startpoint(col) Devuelve el primer punto de la cadena de línea de entrada o None si no existe.
st_touches(col1,col2) Devuelve True si las dos geometrías se tocan entre sí
st_transform(col1,col2) Transforma las coordenadas X e Y de la geometría de entrada en el sistema de referencia de coordenadas (CRS) descrito por el valor SRID proporcionado.
st_translate(col1,col2,col3,col4) Traslada la geometría de entrada en las direcciones X, Y y opcionalmente Z, mediante los desplazamientos proporcionados.
st_union(col1,col2) Devuelve la unión de conjunto de puntos de las dos geometrías de entrada como una geometría 2D.
st_union_agg(col) Devuelve la unión a un punto de todas las geometrías de la columna, o None si la columna tiene cero filas, o solo None contiene valores.
st_within(col1,col2) Devuelve True si la primera geometría está dentro de la segunda geometría.
st_x(col) Devuelve la coordenada X de la geometría del punto de entrada o None si la geometría del punto de entrada está vacía.
st_xmax(col) Devuelve la coordenada X máxima de la geometría de entrada o None si la geometría de entrada está vacía.
st_xmin(col) Devuelve la coordenada X mínima de la geometría de entrada o None si la geometría de entrada está vacía.
st_y(col) Devuelve la coordenada Y de la geometría del punto de entrada o None si la geometría del punto de entrada está vacía.
st_ymax(col) Devuelve la coordenada Y máxima de la geometría de entrada o None si la geometría de entrada está vacía.
st_ymin(col) Devuelve la coordenada Y mínima de la geometría de entrada o None si la geometría de entrada está vacía.
st_z(col) Devuelve la coordenada Z de la geometría del punto de entrada, o None si la geometría del punto de entrada está vacía o si no tiene una coordenada Z.
st_zmax(col) Devuelve la coordenada Z máxima de la geometría de entrada o None si la geometría de entrada está vacía o no contiene coordenadas Z.
st_zmin(col) Devuelve la coordenada Z mínima de la geometría de entrada, o None si la geometría de entrada está vacía o no contiene coordenadas Z.
to_geography(col) Analiza el valor binario o de cadena de entrada y devuelve el valor geography correspondiente.
to_geometry(col) Analiza el valor binario o de cadena de entrada y devuelve el valor geometry correspondiente.
try_to_geography(col) Analiza el valor binario o de cadena de entrada y devuelve el valor geography correspondiente, o None si la entrada no es válida.
try_to_geometry(col) Analiza el valor binario o de cadena de entrada y devuelve el valor geometry correspondiente, o None si la entrada no es válida.

Funciones CSV

Función Description
from_csv(col, schema[, options]) Analiza una columna que contiene una cadena CSV en una fila con el esquema especificado.
schema_of_csv(csv[, options]) Analiza una cadena CSV e deduce su esquema en formato DDL.
to_csv(col[, options]) Convierte una columna que contiene un StructType en una cadena CSV.

Funciones JSON

Función Description
from_json(col, schema[, options]) Analiza una columna que contiene una cadena JSON en un objeto MapType con StringType como tipo de claves, StructType o ArrayType con el esquema especificado.
get_json_object(col, path) Extrae un objeto JSON de una cadena JSON basada en la ruta de acceso JSON especificada y devuelve la cadena JSON de dicho objeto extraído.
json_array_length(col) Devuelve el número de elementos de la matriz JSON más externa.
json_object_keys(col) Devuelve todas las claves del objeto JSON más externo como una matriz.
json_tuple(col, *fields) Crea una nueva fila para una columna json según los nombres de campo especificados.
schema_of_json(json[, options]) Analiza una cadena JSON e deduce su esquema en formato DDL.
to_json(col[, options]) Convierte una columna que contiene StructType, ArrayType o MapType en una cadena JSON.

Funciones variantes

Función Description
is_variant_null(v) Compruebe si un valor variant es un variant nulo.
parse_json(col) Analiza una columna que contiene una cadena JSON en un VariantType.
schema_of_variant(v) Devuelve el esquema en formato SQL de una variante.
schema_of_variant_agg(v) Devuelve el esquema combinado en el formato SQL de una columna variant.
try_variant_get(v, path, targetType) Extrae una subvariante de v según la ruta de acceso y, a continuación, convierte la subvariante en targetType.
variant_get(v, path, targetType) Extrae una subvariante de v según la ruta de acceso y, a continuación, convierte la subvariante en targetType.
try_parse_json(col) Analiza una columna que contiene una cadena JSON en un VariantType.
to_variant_object(col) Convierte una columna que contiene datos anidados como matrices, mapas o estructuras en variantes, donde los mapas y las estructuras se convierten en objetos de tipo variant desordenados, a diferencia de las estructuras ordenadas en SQL.

Funciones XML

Función Description
from_xml(col, schema[, options]) Analiza una columna que contiene una cadena XML en una fila con el esquema especificado.
schema_of_xml(xml[, options]) Analiza una cadena XML e deduce su esquema en formato DDL.
to_xml(col[, options]) Convierte una columna que contiene un StructType en una cadena XML.
xpath(xml, path) Devuelve una matriz de cadenas de valores dentro de los nodos de xml que coinciden con la expresión XPath.
xpath_boolean(xml, path) Devuelve true si la expresión XPath se evalúa como true o si se encuentra un nodo coincidente.
xpath_double(xml, path) Devuelve un valor doble, el valor cero si no se encuentra ninguna coincidencia o NaN si se encuentra una coincidencia, pero el valor no es numérico.
xpath_float(xml, path) Devuelve un valor float, el valor cero si no se encuentra ninguna coincidencia o NaN si se encuentra una coincidencia, pero el valor no es numérico.
xpath_int(xml, path) Devuelve un valor entero o el valor cero si no se encuentra ninguna coincidencia o se encuentra una coincidencia, pero el valor no es numérico.
xpath_long(xml, path) Devuelve un valor entero largo o el valor cero si no se encuentra ninguna coincidencia o se encuentra una coincidencia, pero el valor no es numérico.
xpath_number(xml, path) Devuelve un valor doble, el valor cero si no se encuentra ninguna coincidencia o NaN si se encuentra una coincidencia, pero el valor no es numérico.
xpath_short(xml, path) Devuelve un valor entero corto o el valor cero si no se encuentra ninguna coincidencia o se encuentra una coincidencia, pero el valor no es numérico.
xpath_string(xml, path) Devuelve el contenido de texto del primer nodo xml que coincide con la expresión XPath.

Funciones de dirección URL

Función Description
parse_url(url, partToExtract[, key]) Extrae una parte especificada de una dirección URL.
try_parse_url(url, partToExtract[, key]) Intente realizar la parse_url operación, pero devuelva un valor NULL en lugar de generar un error si no se puede realizar el análisis.
url_decode(str) Descodifica una cadena con codificación URL en application/x-www-form-urlencoded formato a su formato original.
url_encode(str) Codifica una cadena en una cadena con codificación URL en formato "application/x-www-form-urlencoded".
try_url_decode(str) Intente realizar la url_decode operación, pero devuelva un valor NULL en lugar de generar un error si no se puede realizar la descodificación.

Funciones varias

Función Description
aes_decrypt(input, key[, mode, padding, aad]) Devuelve un valor descifrado de entrada mediante AES en modo con relleno.
aes_encrypt(input, key[, mode, padding, iv, aad]) Devuelve un valor cifrado de entrada mediante AES en modo determinado con el relleno especificado.
assert_true(col[, errMsg]) Devuelve null si la columna de entrada es true; produce una excepción con el mensaje de error proporcionado de lo contrario.
bitmap_bit_position(col) Devuelve la posición de bits de la columna de entrada especificada.
bitmap_bucket_number(col) Devuelve el número de cubo de la columna de entrada especificada.
bitmap_count(col) Devuelve la cantidad de bits establecidos en el bitmap de entrada.
current_catalog() Devuelve el catálogo actual.
current_database() Devuelve la base de datos actual.
current_schema() Devuelve el esquema actual.
current_user() Devuelve el usuario actual.
hll_sketch_estimate(col) Devuelve el número estimado de valores únicos a partir de la representación binaria de un Datasketches HllSketch.
hll_union(col1, col2[, allowDifferentLgConfigK]) Combina dos representaciones binarias de objetos Datasketches HllSketch mediante un objeto Datasketches Union.
input_file_block_length() Devuelve la longitud del bloque que se lee o -1 si no está disponible.
input_file_block_start() Devuelve el desplazamiento inicial del bloque que se lee o -1 si no está disponible.
input_file_name() Crea una columna de cadena para el nombre de archivo de la tarea de Spark actual.
java_method(*cols) Llama a un método con reflexión.
monotonically_increasing_id() Columna que genera enteros de 64 bits aumentando monotonicamente.
raise_error(errMsg) Lanza una excepción con el mensaje de error proporcionado.
reflect(*cols) Llama a un método con reflexión.
session_user() Devuelve el nombre de usuario del contexto de ejecución actual.
spark_partition_id() Columna para el identificador de partición.
try_aes_decrypt(input, key[, mode, padding, aad]) Intente realizar la aes_decrypt operación, pero devuelva un valor NULL en lugar de generar un error si no se puede realizar el descifrado.
try_reflect(*cols) Intente realizar una reflect operación, pero devuelva un valor NULL en lugar de generar un error si el método invoke produjo una excepción.
typeof(col) Devuelve una cadena de tipo con formato DDL para el tipo de datos de la entrada.
user() Devuelve el usuario actual.
version() Devuelve la versión de Spark.

Funciones UDF, UDTF, UDT

Función Description
call_udf(udfName, *cols) Llame a una función definida por el usuario.
pandas_udf([f, returnType, functionType]) Crea una función definida por el usuario de Pandas (a.k.a).
udf([f, returnType, useArrow]) Crea una función definida por el usuario (UDF).
udtf([cls, returnType, useArrow]) Crea una función de tabla definida por el usuario (UDTF).
unwrap_udt(col) Desencapsular columna de tipo de datos UDT en su tipo subyacente.

Funciones con valores de tabla

Función Description
TableValuedFunction.collations() Obtenga todas las colaciones de cadenas de Spark SQL.
TableValuedFunction.explode(collection) Devuelve un DataFrame que contiene una nueva fila para cada elemento de la matriz o mapa especificados.
TableValuedFunction.explode_outer(collection) Devuelve un DataFrame que contiene una nueva fila para cada elemento con posición en la matriz o mapa especificados.
TableValuedFunction.inline(input) Explota una matriz de estructuras en una tabla.
TableValuedFunction.inline_outer(input) Explota una matriz de estructuras en una tabla.
TableValuedFunction.json_tuple(input, *fields) Crea una nueva fila para una columna json según los nombres de campo especificados.
TableValuedFunction.posexplode(collection) Devuelve un DataFrame que contiene una nueva fila para cada elemento con posición en la matriz o mapa especificados.
TableValuedFunction.posexplode_outer(collection) Devuelve un DataFrame que contiene una nueva fila para cada elemento con posición en la matriz o mapa especificados.
TableValuedFunction.range(start[, end, ...]) Cree un DataFrame con una columna denominada id de tipo pyspark.sql.types.LongType, que contiene elementos de un rango de principio a fin (exclusivo), con un valor de paso.
TableValuedFunction.sql_keywords() Obtenga palabras clave de Spark SQL.
TableValuedFunction.stack(n, *fields) Separa col1, ..., colk en n filas.
TableValuedFunction.variant_explode(input) Separa un objeto o matriz variant en varias filas que contienen sus campos o elementos.
TableValuedFunction.variant_explode_outer(input) Separa un objeto o matriz variant en varias filas que contienen sus campos o elementos.