Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Esta página fornece uma lista de funções SQL do PySpark disponíveis no Databricks com links para a documentação de referência correspondente.
Funções normais
| Função | Description |
|---|---|
broadcast(df) |
Marca um DataFrame como pequeno o suficiente para uso em junções de difusão. |
call_function(funcName, *cols) |
Chame uma função SQL. |
col(col) |
Retorna uma coluna com base no nome da coluna fornecido. |
column(col) |
Retorna uma coluna com base no nome da coluna fornecido. |
lit(col) |
Cria uma coluna de valor literal. |
expr(str) |
Analisa a cadeia de caracteres de expressão na coluna que ela representa |
Funções condicionais
| Função | Description |
|---|---|
coalesce(*cols) |
Retorna a primeira coluna que não é nula. |
ifnull(col1, col2) |
Retorna col2 se col1 for nulo; caso contrário, retorna col1. |
nanvl(col1, col2) |
Retorna col1 se não for NaN, caso contrário, retorna col2. |
nullif(col1, col2) |
Retorna nulo se col1 é igual a col2, ou col1 caso contrário. |
nullifzero(col) |
Retornará nulo se col for igual a zero ou col caso contrário. |
nvl(col1, col2) |
Retorna col2 se col1 for nulo; caso contrário, retorna col1. |
nvl2(col1, col2, col3) |
Retorna col2 se col1 não for nulo ou col3 caso contrário. |
when(condition, value) |
Avalia uma lista de condições e retorna uma das várias expressões de resultado possíveis. |
zeroifnull(col) |
Retorna zero se col for nulo, ou col caso contrário. |
Funções de correspondência de padrões
| Função | Description |
|---|---|
equal_null(col1, col2) |
Retorna o mesmo resultado que o operador EQUAL(=) para operandos não nulos, mas retorna true se ambos forem nulos, false se um deles for nulo. |
ilike(str, pattern[, escapeChar]) |
Retorna verdadeiro se str corresponder ao padrão com escape sem diferenciar maiúsculas de minúsculas, null se algum argumento for null, caso contrário, falso. |
isnan(col) |
Uma expressão que retorna verdadeiro se a coluna for não numérico. |
isnotnull(col) |
Retorna verdadeiro se col não for nulo, ou falso caso contrário. |
isnull(col) |
Uma expressão que retorna verdadeiro se a coluna estiver nula. |
like(str, pattern[, escapeChar]) |
Retorna true se str corresponder ao padrão com escape, nulo se algum argumento for nulo e false caso contrário. |
regexp(str, regexp) |
Retorna true se str corresponder ao regex Java, ou false caso contrário. |
regexp_like(str, regexp) |
Retorna true se str corresponder ao regex Java, ou false caso contrário. |
rlike(str, regexp) |
Retorna true se str corresponder ao regex Java, ou false caso contrário. |
Funções de classificação
| Função | Description |
|---|---|
asc(col) |
Retorna uma expressão de classificação para a coluna de destino em ordem crescente. |
asc_nulls_first(col) |
Retorna uma expressão de classificação com base na ordem crescente do nome da coluna fornecida e os valores nulos retornam antes dos valores não nulos. |
asc_nulls_last(col) |
Retorna uma expressão de classificação com base na ordem crescente do nome da coluna fornecida e os valores nulos aparecem após valores não nulos. |
desc(col) |
Retorna uma expressão de classificação para a coluna de destino em ordem decrescente. |
desc_nulls_first(col) |
Retorna uma expressão de classificação com base na ordem decrescente do nome da coluna fornecida e os valores nulos são exibidos antes dos valores não nulos. |
desc_nulls_last(col) |
Retorna uma expressão de classificação com base na ordem decrescente do nome da coluna fornecida e os valores nulos aparecem após valores não nulos. |
Funções matemáticas
| Função | Description |
|---|---|
abs(col) |
Calcula o valor absoluto da coluna ou expressão fornecida. |
acos(col) |
Calcula o cosseno inverso (também conhecido como arccosina) da coluna ou expressão fornecida. |
acosh(col) |
Calcula o cosseno hiperbólico inverso (também conhecido como arcosh) da coluna ou expressão fornecida. |
asin(col) |
Calcula o seno inverso da coluna de entrada. |
asinh(col) |
Calcula o seno hiperbólico inverso da coluna de entrada. |
atan(col) |
Calcular a tangente inversa da coluna de entrada. |
atan2(col1, col2) |
Calcular o ângulo em radianos entre o eixo x positivo de um plano e o ponto fornecido pelas coordenadas |
atanh(col) |
Calcula a tangente hiperbólica inversa da coluna de entrada. |
bin(col) |
Retorna a representação de cadeia de caracteres do valor binário da coluna fornecida. |
bround(col[, scale]) |
Arredonde o valor fornecido para um número específico de casas decimais usando o modo de arredondamento HALF_EVEN se a escala >= 0 ou na parte inteira quando a escala < 0. |
cbrt(col) |
Calcula a raiz cúbica do valor fornecido. |
ceil(col[, scale]) |
Calcula o teto do valor fornecido. |
ceiling(col[, scale]) |
Calcula o teto do valor fornecido. |
conv(col, fromBase, toBase) |
Converta um número em uma coluna de string de uma base para outra. |
cos(col) |
Calcula o cosseno da coluna de entrada. |
cosh(col) |
Calcula o cosseno hiperbólico da coluna de entrada. |
cot(col) |
Calcula o cotangente da coluna de entrada. |
csc(col) |
Calcula a cossecante da coluna de entrada. |
degrees(col) |
Converte um ângulo medido em radianos em um ângulo aproximadamente equivalente medido em graus. |
e() |
Retorna o número de Euler. |
exp(col) |
Calcula o exponencial do valor fornecido. |
expm1(col) |
Calcula o exponencial do valor fornecido menos um. |
factorial(col) |
Calcula o fatorial do valor fornecido. |
floor(col[, scale]) |
Calcula o piso do valor fornecido. |
greatest(*cols) |
Retorna o maior valor da lista de nomes de coluna, ignorando valores nulos. |
hex(col) |
Calcula o valor hex da coluna fornecida, que pode ser StringType, BinaryType, IntegerType ou LongType. |
hypot(col1, col2) |
Cálculos sqrt(a^2 + b^2) sem estouro intermediário ou subfluxo. |
least(*cols) |
Retorna o menor valor da lista de nomes de coluna, ignorando valores nulos. |
ln(col) |
Retorna o logaritmo natural do argumento. |
log(arg1[, arg2]) |
Retorna o primeiro logaritmo baseado em argumento do segundo argumento. |
log10(col) |
Calcula o logaritmo do valor fornecido na Base 10. |
log1p(col) |
Calcula o logaritmo natural do valor fornecido mais um. |
log2(col) |
Retorna o logaritmo de base 2 do argumento. |
negate(col) |
Retorna o valor negativo. |
negative(col) |
Retorna o valor negativo. |
pi() |
Retorna Pi. |
pmod(dividend, divisor) |
Retorna o valor positivo do divisor mod de dividendos. |
positive(col) |
Retorna o valor. |
pow(col1, col2) |
Retorna o valor do primeiro argumento gerado ao poder do segundo argumento. |
power(col1, col2) |
Retorna o valor do primeiro argumento gerado ao poder do segundo argumento. |
radians(col) |
Converte um ângulo medido em graus em um ângulo aproximadamente equivalente medido em radianos. |
rand([seed]) |
Gera uma coluna aleatória com amostras independentes e distribuídas de forma idêntica (i.i.d.) distribuídas uniformemente em [0.0, 1.0). |
randn([seed]) |
Gera uma coluna aleatória com amostras independentes e distribuídas de forma idêntica (i.i.d.) da distribuição normal padrão. |
rint(col) |
Retorna o valor duplo mais próximo do valor do argumento e é igual a um inteiro matemático. |
round(col[, scale]) |
Arredondar o valor fornecido para dimensionar casas decimais usando o modo de arredondamento HALF_UP se a escala >= 0 ou na parte inteira quando a escala < 0. |
sec(col) |
Calcula a secante da coluna de entrada. |
sign(col) |
Calcula o sinal do valor fornecido. |
signum(col) |
Calcula o sinal do valor fornecido. |
sin(col) |
Calcula o seno da coluna de entrada. |
sinh(col) |
Calcula o seno hiperbólico da coluna de entrada. |
sqrt(col) |
Calcula a raiz quadrada do valor flutuante especificado. |
tan(col) |
Calcula a tangente da coluna de entrada. |
tanh(col) |
Calcula a tangente hiperbólica da coluna de entrada. |
try_add(left, right) |
Retorna a soma dos valores à esquerda e à direita, e o resultado é nulo em caso de overflow. |
try_divide(left, right) |
Retorna a razão entre o dividendo e o divisor. |
try_mod(left, right) |
Retorna o resto após a divisão entre dividendo e divisor. |
try_multiply(left, right) |
Retorna o valor à esquerda multiplicado pelo valor à direita, e o resultado é nulo em caso de estouro. |
try_subtract(left, right) |
Retorna à esquerda menos à direita e o resultado é nulo no estouro. |
unhex(col) |
Inverso ao hexadeceno. |
uniform(min, max[, seed]) |
Retorna um valor aleatório com valores independentes e distribuídos de forma idêntica (i.i.d.) com o intervalo de números especificado. |
width_bucket(v, min, max, numBucket) |
Retorna o número do compartimento no qual o valor desta expressão se encaixaria após ser avaliado. |
Funções de cadeia de caracteres
| Função | Description |
|---|---|
ascii(col) |
Calcula o valor numérico do primeiro caractere da coluna de cadeia de caracteres. |
base64(col) |
Calcula a codificação BASE64 de uma coluna binária e a retorna como uma coluna de cadeia de caracteres. |
bit_length(col) |
Calcula o comprimento do bit para a coluna de cadeia de caracteres especificada. |
btrim(str[, trim]) |
Remova os caracteres de corte à esquerda e à direita do str. |
char(col) |
Retorna o caractere ASCII que tem o equivalente binário a col. |
char_length(str) |
Retorna o tamanho, em caracteres, dos dados da cadeia de caracteres ou o número de bytes de dados binários. |
character_length(str) |
Retorna o tamanho, em caracteres, dos dados da cadeia de caracteres ou o número de bytes de dados binários. |
collate(col, collation) |
Marca uma determinada coluna com ordenação especificada. |
collation(col) |
Retorna o nome de ordenação de uma determinada coluna. |
concat_ws(sep, *cols) |
Concatena várias colunas de cadeia de caracteres de entrada em uma única coluna de cadeia de caracteres, usando o separador especificado. |
contains(left, right) |
Retorna um booliano. |
decode(col, charset) |
Calcula o primeiro argumento em uma cadeia de caracteres de um binário usando o conjunto de caracteres fornecido (um de US-ASCII, ISO-8859-1, , UTF-8, UTF-16BE, UTF-16LE, UTF-16, , ). UTF-32 |
elt(*inputs) |
Retorna a entrada n-th, por exemplo, retorna input2 quando n é 2. |
encode(col, charset) |
Calcula o primeiro argumento em binário a partir de uma cadeia de caracteres usando o conjunto de caracteres fornecido (um de US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32). |
endswith(str, suffix) |
Retorna um booliano. |
find_in_set(str, str_array) |
Retorna o índice (baseado em 1) da cadeia de caracteres determinada (str) na lista delimitada por vírgulas (strArray). |
format_number(col, d) |
Formata o número X para um formato como #,--#,--#.--, arredondado para casas decimais d com HALF_EVEN modo redondo e retorna o resultado como uma cadeia de caracteres. |
format_string(format, *cols) |
Formata os argumentos no estilo printf e retorna o resultado como uma coluna de cadeia de caracteres. |
initcap(col) |
Converta a primeira letra de cada palavra para maiúsculas na frase. |
instr(str, substr) |
Localize a posição da primeira ocorrência da coluna substr na cadeia de caracteres fornecida. |
is_valid_utf8(str) |
Retornará true se a entrada for uma cadeia de caracteres UTF-8 válida, caso contrário, retornará false. |
lcase(str) |
Retorna str com todos os caracteres alterados para minúsculas. |
left(str, len) |
Retorna os primeiros len caracteres da string str (len pode ser do tipo string), se len for menor ou igual a 0, o resultado será uma string vazia. |
length(col) |
Calcula o comprimento do caractere de dados de cadeia de caracteres ou o número de bytes de dados binários. |
levenshtein(left, right[, threshold]) |
Calcula a distância Levenshtein das duas strings fornecidas. |
locate(substr, str[, pos]) |
Localize a posição da primeira ocorrência de substr em uma coluna de string, após a posição pos. |
lower(col) |
Converte uma expressão de cadeia de caracteres em letras minúsculas. |
lpad(col, len, pad) |
Preencha à esquerda a coluna de string até a largura 'len' com 'pad'. |
ltrim(col[, trim]) |
Corte os espaços da extremidade esquerda para o valor de cadeia de caracteres especificado. |
make_valid_utf8(str) |
Retorna uma nova cadeia de caracteres na qual todas as sequências de bytes UTF-8 inválidas, se houver, são substituídas pelo caractere de substituição Unicode (U+FFFD). |
mask(col[, upperChar, lowerChar, digitChar, ...]) |
Mascara o valor de cadeia de caracteres fornecido. |
octet_length(col) |
Calcula o comprimento do byte para a coluna de cadeia de caracteres especificada. |
overlay(src, replace, pos[, len]) |
Sobreponha a parte especificada do src com replace, começando da posição de byte pos de src e continuando por len bytes. |
position(substr, str[, start]) |
Retorna a posição da primeira ocorrência de substr em str após a posição inicial. |
printf(format, *cols) |
Formata os argumentos no estilo printf e retorna o resultado como uma coluna de cadeia de caracteres. |
randstr(length[, seed]) |
Retorna uma cadeia de caracteres do comprimento especificado cujos caracteres são escolhidos uniformemente aleatoriamente do seguinte pool de caracteres: 0-9, a-z, A-Z. |
regexp_count(str, regexp) |
Retorna uma contagem do número de vezes que o padrão regex do Java é correspondido na cadeia de caracteres str. |
regexp_extract(str, pattern, idx) |
Extraia um grupo específico correspondido pelo Java regex, a partir da coluna de string especificada. |
regexp_extract_all(str, regexp[, idx]) |
Extraia todas as cadeias de caracteres no str que correspondem ao regexp do Java regex e correspondentes ao índice do grupo regex. |
regexp_instr(str, regexp[, idx]) |
Retorna a posição da primeira subcadeia de caracteres na string que corresponde ao padrão regex Java e é correspondente ao índice do grupo no regex. |
regexp_replace(string, pattern, replacement) |
Substitua todas as substrings do valor de cadeia de caracteres especificado que correspondem ao regexp por um valor de substituição. |
regexp_substr(str, regexp) |
Retorna a primeira subcadeia de caracteres que corresponde ao regex Java dentro da cadeia de caracteres str. |
repeat(col, n) |
Repete uma coluna de cadeia de caracteres n vezes e a retorna como uma nova coluna de cadeia de caracteres. |
replace(src, search[, replace]) |
Substitui todas as ocorrências de pesquisa por substituição. |
right(str, len) |
Retorna os caracteres len mais à direita (len pode ser do tipo string) da string str; se len for menor ou igual a 0, o resultado será uma string vazia. |
rpad(col, len, pad) |
Teclado direito da coluna de cadeia de caracteres para largura len com pad. |
rtrim(col[, trim]) |
Corte os espaços da extremidade direita para o valor de cadeia de caracteres especificado. |
sentences(string[, language, country]) |
Divide uma cadeia de caracteres em matrizes de frases, em que cada frase é uma matriz de palavras. |
soundex(col) |
Retorna a codificação SoundEx para uma cadeia de caracteres |
split(str, pattern[, limit]) |
Divide a string em torno de correspondências do padrão fornecido. |
split_part(src, delimiter, partNum) |
Divide str por delimitador e retorna parte solicitada da divisão (com base em 1). |
startswith(str, prefix) |
Retorna um booliano. |
substr(str, pos[, len]) |
Retorna a subcadeia de caracteres de str que começa em pos e é de comprimento len, ou a fatia de matriz de bytes que começa em pos e é de comprimento len. |
substring(str, pos, len) |
A substring começa em pos e tem comprimento len quando str é do tipo String ou retorna o trecho do array de bytes que começa em pos em byte e tem comprimento len quando str é do tipo Binary. |
substring_index(str, delim, count) |
Retorna a substring da cadeia de caracteres str antes de count ocorrências do delimitador delim. |
to_binary(col[, format]) |
Converte o col de entrada em um valor binário com base no formato fornecido. |
to_char(col, format) |
Converta col em uma cadeia de caracteres com base no formato. |
to_number(col, format) |
Converta a string 'col' em um número com base no formato de string 'format'. |
to_varchar(col, format) |
Converta col em uma cadeia de caracteres com base no formato. |
translate(srcCol, matching, replace) |
Traduza qualquer caractere no srcCol por um caractere correspondente. |
trim(col[, trim]) |
Corte os espaços de ambas as extremidades para a coluna de cadeia de caracteres especificada. |
try_to_binary(col[, format]) |
Tente executar a to_binary operação, mas retorne um valor NULL em vez de gerar um erro se a conversão não puder ser executada. |
try_to_number(col, format) |
Converter cadeia de caracteres col em um número com base no formato de cadeia de caracteres format. |
try_validate_utf8(str) |
Retorna o valor de entrada se corresponder a uma cadeia de caracteres UTF-8 válida ou NULL caso contrário. |
ucase(str) |
Retorna str com todos os caracteres alterados para maiúsculas. |
unbase64(col) |
Decodifica uma coluna de cadeia de caracteres codificada em BASE64 e a retorna como uma coluna binária. |
upper(col) |
Converte uma expressão de cadeia de caracteres em maiúsculas. |
validate_utf8(str) |
Retorna o valor de entrada se corresponder a uma string UTF-8 válida, ou gera um erro caso contrário. |
Funções bit a bit
| Função | Description |
|---|---|
bit_count(col) |
Retorna o número de bits definidos no argumento expr como um inteiro sem sinal de 64 bits ou NULL se o argumento for NULL. |
bit_get(col, pos) |
Retorna o valor do bit (0 ou 1) na posição especificada. |
bitwise_not(col) |
Calcula a negação bit a bit. |
getbit(col, pos) |
Retorna o valor do bit (0 ou 1) na posição especificada. |
shiftleft(col, numBits) |
Desloce o valor fornecido numBits para a esquerda. |
shiftright(col, numBits) |
(Assinado) mova o valor fornecido numBits para a direita. |
shiftrightunsigned(col, numBits) |
Mude sem sinal o valor fornecido numBits para a direita. |
Funções de data/hora
| Função | Description |
|---|---|
add_months(start, months) |
Retorna a data que é meses após a data de início. |
convert_timezone(sourceTz, targetTz, sourceTs) |
Converte o carimbo de data/hora sourceTs sem fuso horário do fuso horário sourceTz para targetTz. |
curdate() |
Retorna a data atual no início da avaliação da consulta como uma coluna DateType. |
current_date() |
Retorna a data atual no início da avaliação da consulta como uma coluna DateType. |
current_timestamp() |
Retorna a data/hora atual no início da avaliação da consulta como uma coluna do tipo TimestampType. |
current_timezone() |
Retorna o fuso horário local da sessão atual. |
date_add(start, days) |
Retorna a data que é |
date_diff(end, start) |
Retorna o número de dias do início ao fim. |
date_format(date, format) |
Converte uma data/carimbo de data/hora/texto em um valor de texto no formato especificado pelo segundo argumento. |
date_from_unix_date(days) |
Crie uma data a partir do número de dias desde 1970-01-01. |
date_part(field, source) |
Extrai uma parte da origem de data/carimbo de data/hora ou intervalo. |
date_sub(start, days) |
Retorna a data que é dias antes do início. |
date_trunc(format, timestamp) |
Retorna o timestamp truncado na unidade especificada pelo formato. |
dateadd(start, days) |
Retorna a data que é |
datediff(end, start) |
Retorna o número de dias do início ao fim. |
datepart(field, source) |
Extrai uma parte da origem de data/carimbo de data/hora ou intervalo. |
day(col) |
Extraia o dia do mês de um determinado timestamp/data como um inteiro. |
dayname(col) |
Retorna o nome do dia, abreviado em três letras, da data fornecida. |
dayofmonth(col) |
Extraia o dia do mês de um determinado timestamp/data como um inteiro. |
dayofweek(col) |
Extraia o dia da semana de uma determinada data/timestamp como inteiro. |
dayofyear(col) |
Extraia o dia do ano de uma determinada data/timestamp como inteiro. |
extract(field, source) |
Extrai uma parte da origem de data/carimbo de data/hora ou intervalo. |
from_unixtime(timestamp[, format]) |
Converte o número de segundos desde a época Unix (1970-01-01 00:00:00 UTC) em uma string que representa o timestamp daquele momento no fuso horário atual do sistema, no formato fornecido. |
from_utc_timestamp(timestamp, tz) |
Essa é uma função comum para bancos de dados que dão suporte a TIMESTAMP WITHOUT TIMEZONE. |
hour(col) |
Extraia as horas de um determinado timestamp como inteiro. |
last_day(date) |
Retorna o último dia do mês ao qual a data determinada pertence. |
localtimestamp() |
Retorna o carimbo de data/hora atual sem fuso horário no início da avaliação da consulta como um carimbo de data/hora sem coluna de fuso horário. |
make_date(year, month, day) |
Retorna uma coluna com uma data criada a partir das colunas ano, mês e dia. |
make_dt_interval([days, hours, mins, secs]) |
Crie uma duração de DayTimeIntervalType a partir de dias, horas, minutos e segundos. |
make_interval([years, months, weeks, days, ...]) |
Crie um intervalo de anos, meses, semanas, dias, horas, minutos e segundos. |
make_timestamp(years, months, days, hours, ...) |
Crie um carimbo de data/hora a partir dos campos de anos, meses, dias, horas, minutos, segundos e fuso horário. |
make_timestamp_ltz(years, months, days, ...) |
Crie o carimbo de data/hora atual a partir de anos, meses, dias, horas, minutos, segundos e fuso horário local. |
make_timestamp_ntz(years, months, days, ...) |
Crie data-hora local a partir de anos, meses, dias, horas, minutos, segundos. |
make_ym_interval([years, months]) |
Crie um intervalo de ano-mês a partir de anos, meses. |
minute(col) |
Extraia os minutos de um determinado timestamp como inteiro. |
month(col) |
Extraia o mês de uma data/hora fornecida como um número inteiro. |
monthname(col) |
Retorna o nome do mês abreviado de três letras da data fornecida. |
months_between(date1, date2[, roundOff]) |
Retorna o número de meses entre data1 e data2. |
next_day(date, dayOfWeek) |
Retorna a primeira data que é posterior ao valor da coluna de data com base no argumento do segundo dia da semana. |
now() |
Retorna o carimbo de data/hora atual no início da avaliação da consulta. |
quarter(col) |
Extraia o trimestre de uma data/hora especificada como inteiro. |
second(col) |
Extraia os segundos de uma determinada data como inteiro. |
session_window(timeColumn, gapDuration) |
Gera uma janela de sessão a partir de uma coluna que especifica o carimbo de data/hora. |
timestamp_add(unit, quantity, ts) |
Obtém a diferença entre os timestamps nas unidades especificadas, truncando a parte fracionária. |
timestamp_diff(unit, start, end) |
Obtém a diferença entre os timestamps nas unidades especificadas, truncando a parte fracionária. |
timestamp_micros(col) |
Cria um timestamp a partir do número de microssegundos desde o início da era UTC. |
timestamp_millis(col) |
Cria um timestamp a partir do número de milissegundos desde a época Unix. |
timestamp_seconds(col) |
Converte o número de segundos da Época Unix (1970-01-01T00:00:00Z) para um timestamp. |
to_date(col[, format]) |
Converte uma coluna em pyspark.sql.types.DateType usando o formato opcionalmente especificado. |
to_timestamp(col[, format]) |
Converte uma coluna em pyspark.sql.types.TimestampType usando o formato opcionalmente especificado. |
to_timestamp_ltz(timestamp[, format]) |
Converte o carimbo de data/hora usando o formato específico para um carimbo de data/hora com fuso horário. |
to_timestamp_ntz(timestamp[, format]) |
Analisa o carimbo de data/hora com o formato para um carimbo de data/hora sem fuso horário. |
to_unix_timestamp(timestamp[, format]) |
Retorna o carimbo de data/hora UNIX do tempo determinado. |
to_utc_timestamp(timestamp, tz) |
Essa é uma função comum para bancos de dados que dão suporte a TIMESTAMP WITHOUT TIMEZONE. |
trunc(date, format) |
Retorna a data truncada para a unidade especificada pelo formato. |
try_make_interval([years, months, weeks, ...]) |
Tente executar uma make_interval operação, mas retorne um valor NULL em vez de gerar um erro se o intervalo não puder ser criado. |
try_make_timestamp(years, months, days, ...) |
Tente criar carimbo de data/hora a partir de anos, meses, dias, horas, minutos, segundos e fuso horário. |
try_make_timestamp_ltz(years, months, days, ...) |
Tente criar o carimbo de data/hora atual com o fuso horário local a partir dos campos de anos, meses, dias, horas, minutos, segundos e fuso horário. |
try_make_timestamp_ntz(years, months, days, ...) |
Tente criar data/hora local a partir dos campos anos, meses, dias, horas, minutos e segundos. |
try_to_timestamp(col[, format]) |
Analisa a coluna com o formato para um timestamp. |
unix_date(col) |
Retorna o número de dias desde 1970-01-01. |
unix_micros(col) |
Retorna o número de microssegundos desde 1970-01-01 00:00:00 UTC. |
unix_millis(col) |
Retorna o número de milissegundos desde 1970-01-01 00:00:00 UTC. |
unix_seconds(col) |
Retorna o número de segundos desde 1970-01-01 00:00:00 UTC. |
unix_timestamp([timestamp, format]) |
Converter string de tempo com determinado padrão ('yyyy-MM-dd HH:mm:ss', por padrão) para timestamp Unix (em segundos), usando o fuso horário padrão e a localidade padrão, retorna nulo se falhar. |
weekday(col) |
Retorna o dia da semana para data/timestamp (0 = segunda-feira, 1 = terça-feira, ..., 6 = domingo). |
weekofyear(col) |
Extraia o número da semana de uma determinada data como inteiro. |
window(timeColumn, windowDuration[, ...]) |
Distribuir linhas em uma ou mais janelas de tempo com base em uma coluna de carimbo de data/hora especificada. |
window_time(windowColumn) |
Calcula o tempo do evento a partir de uma coluna de janela. |
year(col) |
Extraia o ano de um determinado timestamp como inteiro. |
Funções de hash
| Função | Description |
|---|---|
crc32(col) |
Calcula o valor de verificação de redundância cíclica (CRC32) de uma coluna binária e retorna o valor como um bigint. |
hash(*cols) |
Calcula o código hash de determinadas colunas e retorna o resultado como uma coluna int. |
md5(col) |
Calcula o resumo do MD5 e retorna o valor como uma cadeia de caracteres hexadecimais de 32 caracteres. |
sha(col) |
Retorna um valor de hash sha1 como uma cadeia de caracteres hexadecimais do col. |
sha1(col) |
Retorna o resultado da cadeia de caracteres hex de SHA-1. |
sha2(col, numBits) |
Retorna o resultado na cadeia de caracteres hexadecimal da família SHA-2 de funções de hash (SHA-224, SHA-256, SHA-384 e SHA-512). |
xxhash64(*cols) |
Calcula o código hash de determinadas colunas usando a variante de 64 bits do algoritmo xxHash e retorna o resultado como uma coluna longa. |
Funções de coleção
| Função | Description |
|---|---|
aggregate(col, initialValue, merge[, finish]) |
Aplica um operador binário a um estado inicial e a todos os elementos na matriz e reduz isso a um único estado. |
array_sort(col[, comparator]) |
Classifica a matriz de entrada em ordem crescente. |
cardinality(col) |
Retorna o comprimento da matriz ou mapa armazenado na coluna. |
concat(*cols) |
Concatena várias colunas de entrada em uma única coluna. |
element_at(col, extraction) |
Retorna o elemento da matriz no índice fornecido (baseado em 1). |
exists(col, f) |
Retorna se um predicado é válido para um ou mais elementos na matriz. |
filter(col, f) |
Retorna uma matriz de elementos para a qual um predicado se mantém em uma determinada matriz. |
forall(col, f) |
Retorna se um predicado é válido para cada elemento na matriz. |
map_filter(col, f) |
Retorna uma nova coluna de mapa cujos pares chave-valor atendem a uma determinada função de predicado. |
map_zip_with(col1, col2, f) |
Mescla dois mapas determinados em um único mapa aplicando uma função aos pares chave-valor. |
reduce(col, initialValue, merge[, finish]) |
Aplica um operador binário a um estado inicial e a todos os elementos na matriz e reduz isso a um único estado. |
reverse(col) |
Retorna uma cadeia de caracteres invertida ou uma matriz com elementos em ordem inversa. |
size(col) |
Retorna o comprimento da matriz ou mapa armazenado na coluna. |
transform(col, f) |
Retorna uma matriz de elementos depois de aplicar uma transformação a cada elemento na matriz de entrada. |
transform_keys(col, f) |
Aplica uma função a cada par chave-valor em um mapa e retorna um mapa com os resultados dessas aplicações como as novas chaves para os pares. |
transform_values(col, f) |
Aplica uma função a cada par chave-valor em um mapa e retorna um mapa com os resultados desses aplicativos como os novos valores para os pares. |
try_element_at(col, extraction) |
Retorna o elemento da matriz em determinado índice (baseado em 1). |
zip_with(left, right, f) |
Mesclar duas matrizes específicas, em termos de elemento, em uma única matriz usando uma função. |
Funções de matriz
| Função | Description |
|---|---|
array(*cols) |
Cria uma nova coluna de array a partir das colunas fornecidas ou dos nomes das colunas. |
array_append(col, value) |
Retorna uma nova coluna de matriz acrescentando o valor ao col de matriz existente. |
array_compact(col) |
Remove valores nulos da matriz. |
array_contains(col, value) |
Retorna um booliano que indica se a matriz contém o valor fornecido: nulo se a matriz for nula, true se a matriz contiver o valor fornecido e false caso contrário. |
array_distinct(col) |
Remove valores duplicados da matriz. |
array_except(col1, col2) |
Retorna uma nova matriz que contém os elementos presentes em col1, mas não em col2, sem duplicatas. |
array_insert(arr, pos, value) |
Insere um item em uma determinada matriz em um índice de matriz especificado. |
array_intersect(col1, col2) |
Retorna uma nova matriz que contém a interseção de elementos em col1 e col2, sem duplicatas. |
array_join(col, delimiter[, null_replacement]) |
Retorna uma coluna de cadeia de caracteres concatenando os elementos da coluna de matriz de entrada usando o delimitador. |
array_max(col) |
Retorna o valor máximo da matriz. |
array_min(col) |
Retorna o valor mínimo da matriz. |
array_position(col, value) |
Localiza a posição da primeira ocorrência do valor fornecido na matriz fornecida. |
array_prepend(col, value) |
Retorna uma matriz que contém o elemento fornecido como o primeiro elemento e o restante dos elementos da matriz original. |
array_remove(col, element) |
Remova todos os elementos que são iguais ao elemento da matriz fornecida. |
array_repeat(col, count) |
Cria uma matriz que contém uma coluna repetidamente tempo de contagem. |
array_size(col) |
Retorna o número total de elementos na matriz. |
array_union(col1, col2) |
Retorna uma nova matriz que contém a união de elementos em col1 e col2, sem duplicatas. |
arrays_overlap(a1, a2) |
Retorna uma coluna booliana indicando se as matrizes de entrada têm elementos não nulos comuns, retornando true se o fizerem, nulo se as matrizes não contiverem elementos comuns, mas não estiverem vazias e pelo menos uma delas contiver um elemento nulo e false caso contrário. |
arrays_zip(*cols) |
Retorna uma matriz mesclada de structs em que o struct N-th contém todos os valores N-th de matrizes de entrada. |
flatten(col) |
Cria uma única matriz a partir de uma matriz de matrizes. |
get(col, index) |
Retorna o elemento de uma matriz no índice fornecido (baseado em 0). |
sequence(start, stop[, step]) |
Gere uma sequência de inteiros do início ao fim, incrementando por etapa. |
shuffle(col[, seed]) |
Gera uma permutação aleatória da matriz fornecida. |
slice(x, start, length) |
Retorna uma nova coluna de matriz segmentando a coluna de matriz de entrada de um índice inicial até um comprimento específico. |
sort_array(col[, asc]) |
Classifica a matriz de entrada em ordem crescente ou decrescente de acordo com a ordenação natural dos elementos da matriz. |
Funções de struct
| Função | Description |
|---|---|
named_struct(*cols) |
Cria um struct com os valores e nomes de campo fornecidos. |
struct(*cols) |
Cria uma nova coluna de struct. |
Funções de mapa
| Função | Description |
|---|---|
create_map(*cols) |
Cria uma nova coluna de mapa a partir de um número par de colunas de entrada ou de referências a colunas. |
map_concat(*cols) |
Retorna a união de todos os mapas especificados. |
map_contains_key(col, value) |
Retorna true se o mapa contiver a chave. |
map_entries(col) |
Retorna uma matriz não ordenada de todas as entradas no mapa especificado. |
map_from_arrays(col1, col2) |
Cria um novo mapa de duas matrizes. |
map_from_entries(col) |
Transforma uma matriz de entradas de par chave-valor (structs com dois campos) em um mapa. |
map_keys(col) |
Retorna uma matriz não ordenada que contém as chaves do mapa. |
map_values(col) |
Retorna uma matriz não ordenada que contém os valores do mapa. |
str_to_map(text[, pairDelim, keyValueDelim]) |
Converte uma cadeia de caracteres em um mapa depois de dividir o texto em pares chave/valor usando delimitadores. |
Funções de agregação
| Função | Description |
|---|---|
any_value(col[, ignoreNulls]) |
Retorna algum valor de col para um grupo de linhas. |
approx_count_distinct(col[, rsd]) |
Retorna uma nova Coluna, que estima a contagem distinta aproximada de elementos em uma coluna especificada ou em um grupo de colunas. |
approx_percentile(col, percentage[, accuracy]) |
Retorna o percentil aproximado da coluna numérica col, que é o menor valor entre os valores ordenados de col, classificados do menor para o maior, de modo que não mais do que a porcentagem dos valores de col é menor ou igual a esse valor. |
array_agg(col) |
Retorna uma lista de objetos com duplicatas. |
avg(col) |
Retorna a média dos valores em um grupo. |
bit_and(col) |
Retorna a operação AND bit a bit de todos os valores de entrada não nulos, ou nulo se não houver nenhum. |
bit_or(col) |
Retorna o OU bit a bit de todos os valores de entrada não nulos, ou retorna nulo se não houver valores. |
bit_xor(col) |
Retorna o XOR bit a bit de todos os valores de entrada não nulos, ou nulo se não houver nenhum valor de entrada. |
bitmap_construct_agg(col) |
Retorna um bitmap com as posições dos bits definidos de todos os valores da coluna de entrada. |
bitmap_or_agg(col) |
Retorna um bitmap que é o OR bit a bit de todos os bitmaps da coluna de entrada. |
bool_and(col) |
Retorna true se todos os valores de col forem verdadeiros. |
bool_or(col) |
Retornará true se pelo menos um valor de col for verdadeiro. |
collect_list(col) |
Coleta os valores de uma coluna em uma lista, mantendo duplicatas e retorna essa lista de objetos. |
collect_set(col) |
Coleta os valores de uma coluna em um conjunto, eliminando duplicatas e retorna esse conjunto de objetos. |
corr(col1, col2) |
Retorna uma nova coluna para o Coeficiente de Correlação Pearson para col1 e col2. |
count(col) |
Retorna o número de itens de um grupo. |
count_distinct(col, *cols) |
Retorna uma nova coluna para contagem distinta de coluna ou colunas. |
count_if(col) |
Retorna o número de valores TRUE para a coluna. |
count_min_sketch(col, eps, confidence[, seed]) |
Retorna um esboço de contagem min de uma coluna com o esp, confiança e semente determinados. |
covar_pop(col1, col2) |
Retorna uma nova coluna para a covariância da população de col1 e col2. |
covar_samp(col1, col2) |
Retorna uma nova coluna para a covariância de exemplo de col1 e col2. |
every(col) |
Retorna true se todos os valores de col forem verdadeiros. |
first(col[, ignorenulls]) |
Retorna o primeiro valor em um grupo. |
first_value(col[, ignoreNulls]) |
Retorna o primeiro valor de col para um grupo de linhas. |
grouping(col) |
Indica se uma coluna especificada em uma GROUP BY lista é agregada ou não, retorna 1 para agregada ou 0 para não agregada no conjunto de resultados. |
grouping_id(*cols) |
Retorna o nível de agrupamento, igual a |
histogram_numeric(col, nBins) |
Calcula um histograma em 'col' numérico usando compartimentos de nb. |
hll_sketch_agg(col[, lgConfigK]) |
Retorna a representação binária atualizável do Datasketches HllSketch configurada com o argumento lgConfigK. |
hll_union_agg(col[, allowDifferentLgConfigK]) |
Retorna a representação binária atualizável do Datasketches HllSketch, gerada pela mesclagem de instâncias de Datasketches HllSketch criadas anteriormente por meio de uma instância do Datasketches Union. |
kurtosis(col) |
Retorna a kurtose dos valores em um grupo. |
last(col[, ignorenulls]) |
Retorna o último valor em um grupo. |
last_value(col[, ignoreNulls]) |
Retorna o último valor de col para um grupo de linhas. |
listagg(col[, delimiter]) |
Retorna a concatenação de valores de entrada não nulos, separados pelo delimitador. |
listagg_distinct(col[, delimiter]) |
Retorna a concatenação de valores de entrada não nulos distintos, separados pelo delimitador. |
max(col) |
Retorna o valor máximo da expressão em um grupo. |
max_by(col, ord) |
Retorna o valor do parâmetro col associado ao valor máximo do parâmetro ord. |
mean(col) |
Retorna a média dos valores em um grupo. |
median(col) |
Retorna a mediana dos valores em um grupo. |
min(col) |
Retorna o valor mínimo da expressão em um grupo. |
min_by(col, ord) |
Retorna o valor do parâmetro col associado ao valor mínimo do parâmetro ord. |
mode(col[, deterministic]) |
Retorna o valor mais frequente em um grupo. |
percentile(col, percentage[, frequency]) |
Retorna os percentis exatos da coluna numérica expr nas percentagens fornecidas com intervalo de valor em [0.0, 1.0]. |
percentile_approx(col, percentage[, accuracy]) |
Retorna o percentil aproximado da coluna numérica col, que é o menor valor entre os valores ordenados de col, classificados do menor para o maior, de modo que não mais do que a porcentagem dos valores de col é menor ou igual a esse valor. |
product(col) |
Retorna o produto dos valores em um grupo. |
regr_avgx(y, x) |
Retorna a média da variável independente para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente. |
regr_avgy(y, x) |
Retorna a média da variável dependente para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente. |
regr_count(y, x) |
Retorna o número de pares de números não nulos em um grupo, em que y é a variável dependente e x é a variável independente. |
regr_intercept(y, x) |
Retorna o intercepto da linha de regressão linear univariada para pares não nulos em um grupo, onde y é a variável dependente e x é a variável independente. |
regr_r2(y, x) |
Retorna o coeficiente de determinação para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente. |
regr_slope(y, x) |
Retorna a inclinação da linha de regressão linear para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente. |
regr_sxx(y, x) |
Retorna REGR_COUNT(y, x) * VAR_POP(x) para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente. |
regr_sxy(y, x) |
Retorna REGR_COUNT(y, x) * COVAR_POP(y, x) para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente. |
regr_syy(y, x) |
Retorna REGR_COUNT(y, x) * VAR_POP(y) para pares não nulos em um grupo, em que y é a variável dependente e x é a variável independente. |
skewness(col) |
Retorna a distorção dos valores em um grupo. |
some(col) |
Retornará true se pelo menos um valor de col for verdadeiro. |
std(col) |
Alias para stddev_samp. |
stddev(col) |
Alias para stddev_samp. |
stddev_pop(col) |
Retorna o desvio padrão da população da expressão em um grupo. |
stddev_samp(col) |
Retorna o desvio padrão amostral não tendencioso da expressão de um grupo. |
string_agg(col[, delimiter]) |
Retorna a concatenação de valores de entrada não nulos, separados pelo delimitador. |
string_agg_distinct(col[, delimiter]) |
Retorna a concatenação de valores de entrada não nulos distintos, separados pelo delimitador. |
sum(col) |
Retorna a soma de todos os valores na expressão. |
sum_distinct(col) |
Retorna a soma de valores distintos na expressão. |
try_avg(col) |
Retorna a média calculada a partir dos valores de um grupo e o resultado é nulo em caso de estouro. |
try_sum(col) |
Retorna a soma calculada dos valores de um grupo, e o resultado é nulo em caso de estouro. |
var_pop(col) |
Retorna a variação da população dos valores em um grupo. |
var_samp(col) |
Retorna a variância amostral não enviesada dos valores em um grupo. |
variance(col) |
Alias para var_samp |
Funções da janela
| Função | Description |
|---|---|
cume_dist() |
Retorna a distribuição cumulativa de valores em uma partição de janela, ou seja, a fração de linhas abaixo da linha atual. |
dense_rank() |
Retorna a classificação de linhas dentro de uma partição de janela, sem nenhuma lacuna. |
lag(col[, offset, default]) |
Retorna o valor que está a um determinado número de linhas antes da linha atual, e retorna o valor padrão se houver menos linhas que esse número antes da linha atual. |
lead(col[, offset, default]) |
Retorna o valor na linha que está deslocada em relação à linha atual, ou o valor padrão caso haja menos linhas disponíveis do que o deslocamento especificado após a linha atual. |
nth_value(col, offset[, ignoreNulls]) |
Retorna o valor que é a linha de deslocamento do quadro da janela (contando de 1) e nulo se o tamanho do quadro de janela for menor que as linhas de deslocamento. |
ntile(n) |
Retorna a ID do grupo ntile (de 1 a n inclusive) em uma partição de janela ordenada. |
percent_rank() |
Retorna a classificação relativa (ou seja, |
rank() |
Retorna a classificação de linhas dentro de uma partição de janela. |
row_number() |
Retorna um número sequencial começando em 1 dentro de uma partição de janela. |
Funções de gerador
| Função | Description |
|---|---|
explode(col) |
Retorna uma nova linha para cada elemento na matriz ou mapa fornecido. |
explode_outer(col) |
Retorna uma nova linha para cada elemento na matriz ou mapa fornecido. |
inline(col) |
Explode uma matriz de structs em uma tabela. |
inline_outer(col) |
Explode uma matriz de structs em uma tabela. |
posexplode(col) |
Retorna uma nova linha para cada elemento com posição na matriz ou mapa fornecido. |
posexplode_outer(col) |
Retorna uma nova linha para cada elemento com posição na matriz ou mapa fornecido. |
stack(*cols) |
Separa col1, ..., colk em n linhas. |
Funções de transformação de partição
| Função | Description |
|---|---|
partitioning.years(col) |
Uma transformação para carimbos de data/hora e datas para dividir dados em anos. |
partitioning.months(col) |
Uma transformação para carimbos de data/hora e datas que particiona os dados em meses. |
partitioning.days(col) |
Uma transformação para timestamps e datas que particiona dados em dias. |
partitioning.hours(col) |
Uma transformação para carimbos de data/hora para particionar dados em horas. |
partitioning.bucket(numBuckets, col) |
Uma transformação para qualquer tipo que particiona usando um hash da coluna de entrada. |
Funções geoespaciais H3 (Databricks)
| Função | Description |
|---|---|
h3_boundaryasgeojson(col) |
Retorna o limite de uma célula H3 no formato GeoJSON |
h3_boundaryaswkb(col) |
Retorna o limite de uma célula H3 no formato WKB |
h3_boundaryaswkt(col) |
Retorna o limite de uma célula H3 no formato WKT |
h3_centerasgeojson(col) |
Retorna o centro de uma célula H3 no formato GeoJSON |
h3_centeraswkb(col) |
Retorna o centro de uma célula H3 no formato WKB |
h3_centeraswkt(col) |
Retorna o centro de uma célula H3 no formato WKT |
h3_compact(col) |
Compacta o conjunto de entrada de IDs de célula H3 da melhor maneira possível |
h3_coverash3(col1,col2) |
Retorna uma matriz de IDs de célula representadas como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que abrangem minimamente a geografia linear ou areal de entrada |
h3_coverash3string(col1,col2) |
Retorna uma matriz de IDs de célula representadas como cadeias de caracteres, correspondentes a hexágonos ou pentágonos da resolução especificada que abrangem minimamente a geografia linear ou areal de entrada |
h3_distance(col1,col2) |
Retorna a distância da grade entre duas IDs de célula H3 |
h3_h3tostring(col) |
Converte um ID de célula do H3 em uma string que representa o ID da célula como uma sequência hexadecimal. |
h3_hexring(col1,col2) |
Retorna uma matriz de IDs de célula H3 que formam um anel hexagonal oco centrado na célula H3 de origem e que estão a uma distância de grade k da célula H3 de origem |
h3_ischildof(col1,col2) |
Retorna True se a primeira ID da célula H3 for um filho da segunda ID da célula H3 |
h3_ispentagon(col) |
Retorna True se a ID da célula H3 de entrada representa um pentágono |
h3_isvalid(col) |
Retorna True se a entrada representa uma ID de célula H3 válida |
h3_kring(col1,col2) |
Retorna as IDs de célula H3 que estão dentro (grade) da distância k da ID da célula de origem |
h3_kringdistances(col1,col2) |
Retorna todas as IDs de células H3 (representadas como inteiros longos ou cadeias de caracteres) que estão a uma distância de grade k da ID de célula H3 de origem, juntamente com suas distâncias em relação à ID de célula H3 de origem. |
h3_longlatash3(col1,col2,col3) |
Retorna a ID da célula H3 (como um BIGINT) correspondente à longitude e latitude fornecidas na resolução especificada |
h3_longlatash3string(col1,col2,col3) |
Retorna a ID da célula H3 (como uma cadeia de caracteres) correspondente à longitude e latitude fornecidas na resolução especificada |
h3_maxchild(col1,col2) |
Retorna o filho com o valor máximo da célula H3 de entrada na resolução especificada. |
h3_minchild(col1,col2) |
Retorna o filho com o menor valor da célula H3 de entrada na resolução especificada |
h3_pointash3(col1,col2) |
Retorna a ID da célula H3 (como um BIGINT) correspondente ao ponto fornecido na resolução especificada |
h3_pointash3string(col1,col2) |
Retorna a ID da célula H3 (como uma cadeia de caracteres) correspondente ao ponto fornecido na resolução especificada |
h3_polyfillash3(col1,col2) |
Retorna uma matriz de IDs de célula representadas como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidas na geografia areal de entrada |
h3_polyfillash3string(col1,col2) |
Retorna um array de IDs de células representadas como cadeias de caracteres, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidas na área geográfica de entrada. |
h3_resolution(col) |
Retorna a resolução da ID da célula H3 |
h3_stringtoh3(col) |
Converte a ID da célula H3 de representação em cadeia de caracteres para sua representação de inteiro grande |
h3_tessellateaswkb(col1,col2) |
Retorna uma lista de estruturas que representam os chips que abrangem a geografia na resolução especificada |
h3_tochildren(col1,col2) |
Retorna os IDs das células H3 filhas do ID de célula H3 informado na resolução especificada |
h3_toparent(col1,col2) |
Retorna o ID da célula H3 pai do ID da célula H3 de entrada na resolução especificada |
h3_try_coverash3(col1,col2) |
Retorna uma matriz de IDs de célula representadas como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que abrangem minimamente a geografia linear ou areal de entrada |
h3_try_coverash3string(col1,col2) |
Retorna uma matriz de IDs de célula representadas como cadeias de caracteres, correspondentes a hexágonos ou pentágonos da resolução especificada que abrangem minimamente a geografia linear ou areal de entrada |
h3_try_distance(col1,col2) |
Retorna a distância da grade entre duas IDs de célula H3 da mesma resolução ou None se a distância for indefinida |
h3_try_polyfillash3(col1,col2) |
Retorna uma matriz de IDs de célula representadas como inteiros longos, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidas na geografia areal de entrada |
h3_try_polyfillash3string(col1,col2) |
Retorna um array de IDs de células representadas como cadeias de caracteres, correspondentes a hexágonos ou pentágonos da resolução especificada que estão contidas na área geográfica de entrada. |
h3_try_tessellateaswkb(col1,col2) |
Retorna um array de estruturas que representam os chips que abrangem a geografia na resolução especificada ou null se a geometria for inválida |
h3_try_validate(col) |
Retornará o valor de entrada se for uma célula H3 válida ou Nenhuma, caso contrário |
h3_uncompact(col1,col2) |
Descompacta o conjunto de entrada de IDs de célula H3 para a resolução especificada |
h3_validate(col) |
Retorna o valor de entrada se for uma célula H3 válida ou emite um erro caso contrário. |
Funções Geoespaciais ST (Databricks)
| Função | Description |
|---|---|
st_addpoint(col1,col2,col3) |
Adiciona um novo ponto na n-ésima posição do linestring de entrada de Geografia ou Geometria |
st_area(col) |
Retorna a área da geografia ou geometria de entrada |
st_asbinary(col1,col2) |
Retorna o valor de entrada Geography ou Geometry no formato WKB |
st_asewkb(col1,col2) |
Retorna o valor de entrada Geometry no formato EWKB |
st_asewkt(col) |
Retorna o valor de entrada Geography ou Geometry no formato EWKT |
st_asgeojson(col) |
Retorna o valor de entrada geography ou geometry no formato GeoJSON |
st_astext(col) |
Retorna o valor de entrada Geography ou Geometry no formato WKT. |
st_aswkb(col1,col2) |
Retorna o valor de entrada Geography ou Geometry no formato WKB |
st_aswkt(col) |
Retorna o valor de entrada Geography ou Geometry no formato WKT. |
st_buffer(col1,col2) |
Retorna o buffer da geometria de entrada usando o raio especificado |
st_centroid(col) |
Retorna o centroide da geometria de entrada como uma geometria de ponto 2D |
st_concavehull(col1,col2,col3) |
Retorna o casco côncavo da geometria de entrada como uma geometria usando a taxa de comprimento especificada |
st_contains(col1,col2) |
Retorna True se a primeira geometria contiver a segunda geometria |
st_convexhull(col) |
Retorna o casco convexo da geometria de entrada como uma geometria |
st_covers(col1,col2) |
Retorna True se a primeira geometria abrange a segunda geometria |
st_difference(col1,col2) |
Retorna o conjunto de pontos diferente das duas geometrias de entrada como uma geometria 2D |
st_dimension(col) |
Retorna a dimensão topológica da projeção 2D da geometria de entrada |
st_disjoint(col1,col2) |
Retorna True se as duas geometrias estiverem desarticuladas |
st_distance(col1,col2) |
Retorna a distância cartesiana 2D entre as duas geometrias de entrada |
st_distancesphere(col1,col2) |
Retorna a distância esférica (em metros) entre geometrias de dois pontos, medida em uma esfera cujo raio é o raio médio do elipsóide WGS84 |
st_distancespheroid(col1,col2) |
Retorna a distância geodésica (em metros) entre geometrias de dois pontos no elipsoide WGS84 |
st_dwithin(col1,col2,col3) |
Retorna True se a distância cartesiana 2D entre as duas geometrias de entrada for menor ou igual à distância de entrada |
st_endpoint(col) |
Retorna o último ponto da linha de entrada ou None se ela não existe |
st_envelope(col) |
Retorna a caixa delimitadora mínima alinhada ao eixo cartesiano 2D (envelope) da geometria não vazia de entrada, como uma geometria |
st_envelope_agg(col) |
Retorna o envelope de todas as geometrias na coluna, ou None se a coluna tem linhas zero ou contém apenas valores None |
st_equals(col1,col2) |
Retorna True se as duas geometrias forem geométricas iguais |
st_exteriorring(col) |
Retorna o anel exterior (shell), como uma linha, do valor de entrada geography ou geometry que representa um polígono |
st_flipcoordinates(col) |
Troca as coordenadas X e Y da geometria de entrada |
st_geogfromgeojson(col) |
Analisa a descrição GeoJSON e retorna o valor de Geografia correspondente |
st_geogfromtext(col) |
Analisa a descrição WKT e retorna o valor correspondente Geografia |
st_geogfromwkb(col) |
Analisa a descrição WKB de entrada e retorna o valor Geografia correspondente |
st_geogfromwkt(col) |
Analisa a descrição WKT e retorna o valor correspondente Geografia |
st_geohash(col1,col2) |
Retorna o geohash da Geometria de entrada |
st_geometryn(col1,col2) |
Retorna o elemento n-ésimo baseado em 1 da multi-geometria de entrada ou None se não existir |
st_geometrytype(col) |
Retorna o tipo do valor de entrada geography ou geometry como uma string |
st_geomfromewkb(col) |
Analisa a descrição EWKB de entrada e retorna o Geometry valor correspondente |
st_geomfromgeohash(col) |
Retorna a caixa de grade geohash correspondente ao valor geohash de entrada como uma geometria de polígono 2D |
st_geomfromgeojson(col) |
Analisa a descrição GeoJSON e retorna o valor de Geometria correspondente |
st_geomfromtext(col1,col2) |
Analisa a descrição WKT e retorna o valor de Geometry correspondente |
st_geomfromwkb(col1,col2) |
Analisa a descrição WKB de entrada e retorna o valor de Geometry correspondente |
st_geomfromwkt(col1,col2) |
Analisa a descrição WKT e retorna o valor de Geometry correspondente |
st_intersection(col1,col2) |
Retorna a interseção de um conjunto de pontos das duas geometrias de entrada como uma geometria 2D. |
st_intersects(col1,col2) |
Retorna True se as duas geometrias se cruzam |
st_isempty(col) |
Retornará True se o valor geography ou geometry de entrada não contiver nenhum ponto não vazio |
st_isvalid(col) |
Retorna True se a geometria de entrada for uma geometria válida no sentido OGC |
st_length(col) |
Retorna o comprimento da geometria de entrada ou do valor de geografia |
st_m(col) |
Retorna a coordenada M da geometria do ponto de entrada ou None se a geometria do ponto de entrada estiver vazia ou se ela não tiver uma coordenada M |
st_makeline(col) |
Retorna uma geometria de linestring cujos pontos são os pontos não vazios das geometrias na matriz de entrada de geometrias, que devem ser pontos, linhas de linha ou vários pontos |
st_makepolygon(col1,col2) |
Constrói um polígono a partir do limite externo de entrada e de um array opcional de limites internos, representados como linhas fechadas. |
st_multi(col) |
Retorna o valor de entrada geography ou geometry como um valor geoespacial múltiplo equivalente, mantendo o SRID original. |
st_ndims(col) |
Retorna a dimensão da coordenada do valor Geography ou Geometry de entrada |
st_npoints(col) |
Retorna o número de pontos não vazios no valor de entrada geography ou geometry |
st_numgeometries(col) |
Retorna o número de geometrias na geometria de entrada |
st_perimeter(col) |
Retorna o perímetro da geografia ou geometria de entrada |
st_point(col1,col2,col3) |
Retorna uma Geometria de ponto 2D com as coordenadas x e y fornecidas e o valor SRID |
st_pointfromgeohash(col) |
Retorna o centro da grade de geohash correspondente ao valor de geohash de entrada como uma geometria 2D de ponto. |
st_pointn(col1,col2) |
Retorna o n-ésimo ponto, com base em 1, da linha de string de entrada ou None caso ele não exista |
st_removepoint(col1,col2) |
Remove o ponto n-ésimo da Geografia ou Geometria da linestring de entrada |
st_reverse(col) |
Inverte a ordem dos vértices no valor de entrada Geography ou Geometry |
st_rotate(col1,col2) |
Gira a geometria de entrada ao redor do eixo Z pelo ângulo de rotação fornecido (em radianos) |
st_scale(col1,col2,col3,col4) |
Dimensiona a geometria de entrada nas direções X, Y e Z (opcional) usando os fatores especificados |
st_setpoint(col1,col2,col3) |
Estabelece o n-ésimo ponto no linestring Geography ou Geometry de entrada. |
st_setsrid(col1,col2) |
Retorna um novo valor geometry cujo SRID é o valor SRID especificado |
st_simplify(col1,col2) |
Simplifica a geometria de entrada usando o algoritmo Douglas-Peucker |
st_srid(col) |
Retorna o SRID do valor geoespacial de entrada |
st_startpoint(col) |
Retorna o primeiro ponto da linha de entrada ou None se ela não existe |
st_touches(col1,col2) |
Retorna True caso as duas geometrias se toquem |
st_transform(col1,col2) |
Transforma as coordenadas X e Y da geometria de entrada no CRS (sistema de referência de coordenadas) descrito pelo valor srid fornecido |
st_translate(col1,col2,col3,col4) |
Translada a geometria de entrada nas direções X, Y e na direção Z (opcional) usando os deslocamentos fornecidos. |
st_union(col1,col2) |
Retorna a união de conjunto de pontos das duas geometrias de entrada como uma geometria 2D |
st_union_agg(col) |
Retorna a união pontual de todas as geometrias na coluna ou None se a coluna tem zero linhas ou contém apenas None valores |
st_within(col1,col2) |
Retorna True se a primeira geometria estiver dentro da segunda geometria |
st_x(col) |
Retorna a coordenada X da geometria do ponto de entrada ou None se a geometria do ponto de entrada estiver vazia |
st_xmax(col) |
Retorna a coordenada X máxima da geometria de entrada ou None se a geometria de entrada estiver vazia |
st_xmin(col) |
Retorna a coordenada X mínima da geometria de entrada ou None se a geometria de entrada estiver vazia |
st_y(col) |
Retorna a coordenada Y da geometria do ponto de entrada ou None se a geometria do ponto de entrada estiver vazia |
st_ymax(col) |
Retorna a coordenada Y máxima da geometria de entrada ou None se a geometria de entrada estiver vazia |
st_ymin(col) |
Retorna a coordenada mínima Y da geometria de entrada ou None se a geometria de entrada estiver vazia |
st_z(col) |
Retorna a coordenada Z da geometria do ponto de entrada ou None se a geometria do ponto de entrada estiver vazia ou se ela não tiver uma coordenada Z |
st_zmax(col) |
Retorna a coordenada Z máxima da geometria de entrada ou None se a geometria de entrada estiver vazia ou não contiver coordenadas Z |
st_zmin(col) |
Retorna a coordenada Z mínima da geometria de entrada ou None se a geometria de entrada estiver vazia ou não contiver coordenadas Z |
to_geography(col) |
Analisa o valor binário ou de cadeia de caracteres de entrada e retorna o valor de Geografia correspondente |
to_geometry(col) |
Analisa o valor BINÁRIO ou de cadeia de caracteres de entrada e retorna o valor de Geometry correspondente |
try_to_geography(col) |
Analisa o valor binário ou de cadeia de caracteres de entrada e retorna o valor geography correspondente ou None se a entrada é inválida |
try_to_geometry(col) |
Analisa o valor binário ou de cadeia de caracteres de entrada e retorna o valor geometry correspondente ou None se a entrada é inválida |
Funções CSV
| Função | Description |
|---|---|
from_csv(col, schema[, options]) |
Analisa uma coluna que contém uma cadeia de caracteres CSV em uma linha com o esquema especificado. |
schema_of_csv(csv[, options]) |
Analisa uma cadeia de caracteres CSV e infere seu esquema no formato DDL. |
to_csv(col[, options]) |
Converte uma coluna que contém um StructType em uma cadeia de caracteres CSV. |
Funções JSON
| Função | Description |
|---|---|
from_json(col, schema[, options]) |
Analisa uma coluna que contém uma cadeia de caracteres JSON em um MapType com StringType como tipo de chave, StructType ou ArrayType com o esquema especificado. |
get_json_object(col, path) |
Extrai o objeto json de uma cadeia de caracteres json com base no caminho json especificado e retorna a cadeia de caracteres json do objeto json extraído. |
json_array_length(col) |
Retorna o número de elementos na matriz JSON mais externa. |
json_object_keys(col) |
Retorna todas as chaves do objeto JSON mais externo como uma matriz. |
json_tuple(col, *fields) |
Cria uma nova linha para uma coluna json de acordo com os nomes de campo especificados. |
schema_of_json(json[, options]) |
Analisa uma cadeia de caracteres JSON e infere seu esquema no formato DDL. |
to_json(col[, options]) |
Converte uma coluna que contém um StructType, ArrayType ou um MapType em uma cadeia de caracteres JSON. |
Funções variantes
| Função | Description |
|---|---|
is_variant_null(v) |
Verifique se um valor do tipo variant é nulo. |
parse_json(col) |
Analisa uma coluna que contém uma cadeia de caracteres JSON em um VariantType. |
schema_of_variant(v) |
Retorna o esquema no formato SQL de uma variante. |
schema_of_variant_agg(v) |
Retorna o esquema mesclado no formato SQL de uma coluna variante. |
try_variant_get(v, path, targetType) |
Extrai uma sub-variante de v de acordo com o caminho e, em seguida, converte a sub-variante em targetType. |
variant_get(v, path, targetType) |
Extrai uma sub-variante de v de acordo com o caminho e, em seguida, converte a sub-variante em targetType. |
try_parse_json(col) |
Analisa uma coluna que contém uma cadeia de caracteres JSON em um VariantType. |
to_variant_object(col) |
Converte uma coluna que contém entradas aninhadas (matriz/mapa/estrutura) em variantes, onde mapas e estruturas são convertidos em objetos de variantes que não são ordenados, ao contrário das estruturas SQL. |
Funções XML
| Função | Description |
|---|---|
from_xml(col, schema[, options]) |
Analisa uma coluna que contém uma cadeia de caracteres XML para uma linha com o esquema especificado. |
schema_of_xml(xml[, options]) |
Analisa uma cadeia de caracteres XML e infere seu esquema no formato DDL. |
to_xml(col[, options]) |
Converte uma coluna que contém um StructType em uma cadeia de caracteres XML. |
xpath(xml, path) |
Retorna uma matriz de strings dos valores dentro dos nós do XML que correspondem à expressão XPath. |
xpath_boolean(xml, path) |
Retorna verdadeiro se a expressão XPath for avaliada como verdadeira ou se um nó correspondente for encontrado. |
xpath_double(xml, path) |
Retorna um valor duplo, o valor zero se nenhuma correspondência for encontrada ou NaN se uma correspondência for encontrada, mas o valor não for numérico. |
xpath_float(xml, path) |
Retorna um valor flutuante, o valor zero se nenhuma correspondência for encontrada ou NaN se uma correspondência for encontrada, mas o valor não for numérico. |
xpath_int(xml, path) |
Retorna um valor inteiro ou o valor zero se nenhuma correspondência for encontrada ou uma correspondência for encontrada, mas o valor não for numérico. |
xpath_long(xml, path) |
Retorna um valor inteiro longo ou o valor zero se nenhuma correspondência for encontrada ou uma correspondência for encontrada, mas o valor não for numérico. |
xpath_number(xml, path) |
Retorna um valor duplo, o valor zero se nenhuma correspondência for encontrada ou NaN se uma correspondência for encontrada, mas o valor não for numérico. |
xpath_short(xml, path) |
Retorna um valor inteiro curto ou o valor zero se nenhuma correspondência for encontrada ou uma correspondência for encontrada, mas o valor não for numérico. |
xpath_string(xml, path) |
Retorna o conteúdo do texto do primeiro nó xml que corresponde à expressão XPath. |
Funções de URL
| Função | Description |
|---|---|
parse_url(url, partToExtract[, key]) |
Extrai uma parte especificada de uma URL. |
try_parse_url(url, partToExtract[, key]) |
Tente executar a parse_url operação, mas retorne um valor NULL em vez de gerar um erro se a análise não puder ser executada. |
url_decode(str) |
Decodifica uma cadeia de caracteres codificada em URL em application/x-www-form-urlencoded formato para seu formato original. |
url_encode(str) |
Codifica uma cadeia de caracteres em uma cadeia de caracteres codificada em URL no formato 'application/x-www-form-urlencoded'. |
try_url_decode(str) |
Tente executar a url_decode operação, mas retorne um valor NULL em vez de gerar um erro se a decodificação não puder ser executada. |
Funções diversas
| Função | Description |
|---|---|
aes_decrypt(input, key[, mode, padding, aad]) |
Retorna um valor descriptografado de entrada usando AES em modo com preenchimento. |
aes_encrypt(input, key[, mode, padding, iv, aad]) |
Retorna um valor criptografado de entrada usando AES no modo fornecido com o padding especificado. |
assert_true(col[, errMsg]) |
Retornará nulo se a coluna de entrada for verdadeira; gera uma exceção com a mensagem de erro fornecida caso contrário. |
bitmap_bit_position(col) |
Retorna a posição de bit para a coluna de entrada dada. |
bitmap_bucket_number(col) |
Retorna o número do bucket para a coluna de entrada fornecida. |
bitmap_count(col) |
Retorna o número de bits definidos no bitmap de entrada. |
current_catalog() |
Retorna o catálogo atual. |
current_database() |
Retorna o banco de dados atual. |
current_schema() |
Retorna o esquema atual. |
current_user() |
Retorna o usuário atual. |
hll_sketch_estimate(col) |
Retorna o número estimado de valores exclusivos dada a representação binária de um Datasketches HllSketch. |
hll_union(col1, col2[, allowDifferentLgConfigK]) |
Mescla duas representações binárias de objetos Datasketches HllSketch usando um objeto Datasketches Union. |
input_file_block_length() |
Retorna o comprimento do bloco que está sendo lido ou -1 se não estiver disponível. |
input_file_block_start() |
Retorna o deslocamento inicial do bloco que está sendo lido ou -1 se não estiver disponível. |
input_file_name() |
Cria uma coluna de string para o nome do arquivo da tarefa Spark atual. |
java_method(*cols) |
Chama um método com reflexão. |
monotonically_increasing_id() |
Uma coluna que gera inteiros de 64 bits que aumentam monotonamente. |
raise_error(errMsg) |
Gera uma exceção com a mensagem de erro fornecida. |
reflect(*cols) |
Chama um método com reflexão. |
session_user() |
Retorna o nome de usuário do contexto de execução atual. |
spark_partition_id() |
Uma coluna para ID de partição. |
try_aes_decrypt(input, key[, mode, padding, aad]) |
Tente executar a aes_decrypt operação, mas retorne um valor NULL em vez de gerar um erro se a descriptografia não puder ser executada. |
try_reflect(*cols) |
Tente executar uma reflect operação, mas retorne um valor NULL em vez de gerar um erro se o método de invocação gerar exceção. |
typeof(col) |
Retornar cadeia de caracteres de tipo formatada em DDL para o tipo de dados da entrada. |
user() |
Retorna o usuário atual. |
version() |
Retorna a versão do Spark. |
Funções UDF, UDTF, UDT
| Função | Description |
|---|---|
call_udf(udfName, *cols) |
Chame uma função definida pelo usuário. |
pandas_udf([f, returnType, functionType]) |
Cria uma função definida pelo usuário do Pandas (também conhecida como. |
udf([f, returnType, useArrow]) |
Cria uma UDF (função definida pelo usuário). |
udtf([cls, returnType, useArrow]) |
Cria uma função de tabela definida pelo usuário (UDTF). |
unwrap_udt(col) |
Desestruturar a coluna de tipo de dados UDT em seu tipo subjacente. |
Funções com valor de tabela
| Função | Description |
|---|---|
TableValuedFunction.collations() |
Obtenha todas as ordenações de cadeia de caracteres SQL do Spark. |
TableValuedFunction.explode(collection) |
Retorna um DataFrame que contém uma nova linha para cada elemento na matriz ou mapa fornecido. |
TableValuedFunction.explode_outer(collection) |
Retorna um DataFrame que contém uma nova linha para cada elemento com posição na matriz ou mapa fornecido. |
TableValuedFunction.inline(input) |
Explode uma matriz de structs em uma tabela. |
TableValuedFunction.inline_outer(input) |
Explode uma matriz de structs em uma tabela. |
TableValuedFunction.json_tuple(input, *fields) |
Cria uma nova linha para uma coluna json de acordo com os nomes de campo especificados. |
TableValuedFunction.posexplode(collection) |
Retorna um DataFrame que contém uma nova linha para cada elemento com posição na matriz ou mapa fornecido. |
TableValuedFunction.posexplode_outer(collection) |
Retorna um DataFrame que contém uma nova linha para cada elemento com posição na matriz ou mapa fornecido. |
TableValuedFunction.range(start[, end, ...]) |
Crie um DataFrame com uma única coluna do tipo pyspark.sql.types.LongType chamada id, contendo elementos em um intervalo do início ao fim (exclusivo) com um valor de passo definido por step. |
TableValuedFunction.sql_keywords() |
Obtenha palavras-chave sql do Spark. |
TableValuedFunction.stack(n, *fields) |
Separa col1, ..., colk em n linhas. |
TableValuedFunction.variant_explode(input) |
Separa um objeto/matriz variante em várias linhas que contêm seus campos/elementos. |
TableValuedFunction.variant_explode_outer(input) |
Separa um objeto/matriz variante em várias linhas que contêm seus campos/elementos. |