Sdílet prostřednictvím


Funkce PySpark

Tato stránka obsahuje seznam funkcí SQL PySpark dostupných v Databricks s odkazy na odpovídající referenční dokumentaci.

Normální funkce

Funkce Description
broadcast(df) Označí dataframe malý dost na to, aby byl použit ve vysílacích spojeních.
call_function(funcName, *cols) Volání funkce SQL
col(col) Vrátí sloupec na základě daného názvu sloupce.
column(col) Vrátí sloupec na základě daného názvu sloupce.
lit(col) Vytvoří sloupec literální hodnoty.
expr(str) Parsuje řetězec výrazu na sloupec, který reprezentuje.

Podmíněné funkce

Funkce Description
coalesce(*cols) Vrátí první sloupec, který nemá hodnotu null.
ifnull(col1, col2) Vrátí sloupec 2, pokud je sloupec 1 null, jinak vrátí sloupec 1.
nanvl(col1, col2) Vrátí col1, pokud není NaN, nebo col2, pokud col1 je NaN.
nullif(col1, col2) Vrátí hodnotu null, pokud se sloupec 1 rovná sloupci 2, v opačném případě vrátí sloupec 1.
nullifzero(col) Vrátí hodnotu null, pokud je col roven nule, nebo col jinak.
nvl(col1, col2) Vrátí sloupec 2, pokud je sloupec 1 null, jinak vrátí sloupec 1.
nvl2(col1, col2, col3) Vrátí sloupec 2, pokud sloupec 1 nemá hodnotu null, jinak sloupec 3.
when(condition, value) Vyhodnotí seznam podmínek a vrátí jeden z více možných výsledných výrazů.
zeroifnull(col) Vrátí nulu, pokud je col null, jinak col.

Funkce porovnávání vzorů

Funkce Description
equal_null(col1, col2) Vrátí stejný výsledek jako operátor EQUAL(=) pro operandy, které nemají hodnotu null, ale vrátí hodnotu true, pokud jsou obě hodnoty null, a false, pokud jedna z nich má hodnotu null.
ilike(str, pattern[, escapeChar]) Vrátí hodnotu true, pokud str odpovídá vzoru s útěkovými znaky bez ohledu na velikost písmen, null, pokud jsou některé argumenty null, jinak false.
isnan(col) Výraz, který vrátí hodnotu true, pokud je sloupec NaN.
isnotnull(col) Vrátí hodnotu true, pokud sloupec nemá hodnotu null nebo hodnotu false.
isnull(col) Výraz, který vrátí hodnotu true, pokud má sloupec hodnotu null.
like(str, pattern[, escapeChar]) Vrátí hodnotu true, pokud str odpovídá vzoru s escape sekvencí, null, pokud je některý argument null, jinak false.
regexp(str, regexp) Vrátí true, pokud se str shoduje s regulárním výrazem Java regexp, jinak vrátí false.
regexp_like(str, regexp) Vrátí true, pokud se str shoduje s regulárním výrazem Java regexp, jinak vrátí false.
rlike(str, regexp) Vrátí true, pokud se str shoduje s regulárním výrazem Java regexp, jinak vrátí false.

Funkce řazení

Funkce Description
asc(col) Vrátí výraz řazení pro cílový sloupec ve vzestupném pořadí.
asc_nulls_first(col) Vrátí výraz řazení založený na vzestupném pořadí daného názvu sloupce a nulové hodnoty jsou umístěny před nenulové hodnoty.
asc_nulls_last(col) Vrátí výraz řazení založený na vzestupném pořadí daného názvu sloupce a null hodnoty se zobrazí až po nenulových hodnotách.
desc(col) Vrátí výraz řazení pro cílový sloupec v sestupném pořadí.
desc_nulls_first(col) Vrátí výraz řazení založený na sestupném pořadí daného názvu sloupce a hodnoty null se zobrazí před hodnotami, které nejsou null.
desc_nulls_last(col) Vrátí výraz řazení založený na sestupném pořadí daného názvu sloupce a hodnoty null se zobrazí po hodnotách, které nejsou null.

Matematické funkce

Funkce Description
abs(col) Vypočítá absolutní hodnotu daného sloupce nebo výrazu.
acos(col) Vypočítá inverzní kosinus (označovaný také jako arkusinus) daného sloupce nebo výrazu.
acosh(col) Vypočítá inverzní hyperbolický kosinus (označovaný také jako arcosh) daného sloupce nebo výrazu.
asin(col) Vypočítá inverzní sinus vstupního sloupce.
asinh(col) Vypočítá hyperbolický sinus vstupního sloupce.
atan(col) Výpočet inverzní tangens vstupního sloupce
atan2(col1, col2) Výpočet úhlu v radiánech mezi kladnou osou x roviny a bodem zadaným souřadnicemi
atanh(col) Vypočítá inverzní hyperbolický tangens vstupního sloupce.
bin(col) Vrátí řetězcovou reprezentaci binární hodnoty daného sloupce.
bround(col[, scale]) Zaokrouhlí danou hodnotu na desetinná místa pomocí režimu zaokrouhlování HALF_EVEN, pokud je přesnost >= 0, nebo na celou část při přesnosti < 0.
cbrt(col) Vypočítá kořen datové krychle dané hodnoty.
ceil(col[, scale]) Vypočítá strop dané hodnoty.
ceiling(col[, scale]) Vypočítá strop dané hodnoty.
conv(col, fromBase, toBase) Převede číslo v řetězcovém sloupci z jedné základny na druhou.
cos(col) Vypočítá kosinus vstupního sloupce.
cosh(col) Vypočítá hyperbolický kosinus vstupního sloupce.
cot(col) Vypočítá kotangens vstupního sloupce.
csc(col) Vypočítá kosekans vstupního sloupce.
degrees(col) Převede úhel měřený v radiánech na přibližně ekvivalentní úhel měřený ve stupních.
e() Vrátí číslo Eulera.
exp(col) Vypočítá exponenciální hodnotu dané hodnoty.
expm1(col) Vypočítá exponenciální hodnotu dané hodnoty minus jednu.
factorial(col) Vypočítá faktoriál dané hodnoty.
floor(col[, scale]) Vypočítá podlahu dané hodnoty.
greatest(*cols) Vrátí nejvyšší hodnotu seznamu názvů sloupců a přeskočí hodnoty null.
hex(col) Vypočítá šestnáctkovou hodnotu daného sloupce, což může být StringType, BinaryType, IntegerType nebo LongType.
hypot(col1, col2) sqrt(a^2 + b^2) Vypočítá bez přechodného přetečení nebo podtečení.
least(*cols) Vrátí nejmenší hodnotu seznamu názvů sloupců a přeskočí hodnoty null.
ln(col) Vrátí přirozený logaritmus argumentu.
log(arg1[, arg2]) Vrátí logaritmus založený na prvním argumentu druhého argumentu.
log10(col) Vypočítá logaritmus dané hodnoty v základu 10.
log1p(col) Vypočítá přirozený logaritmus dané hodnoty plus jednu.
log2(col) Vrátí logaritmus argumentu base-2.
negate(col) Vrátí zápornou hodnotu.
negative(col) Vrátí zápornou hodnotu.
pi() Vrátí π.
pmod(dividend, divisor) Vrátí kladnou hodnotu zbytku po dělení dividendy dělitelem.
positive(col) Vrátí hodnotu.
pow(col1, col2) Vrátí hodnotu prvního argumentu umocněného na mocninu druhého argumentu.
power(col1, col2) Vrátí hodnotu prvního argumentu umocněného na mocninu druhého argumentu.
radians(col) Převede úhel měřený ve stupních na přibližně ekvivalentní úhel měřený v radiánech.
rand([seed]) Vygeneruje náhodný sloupec s nezávislými a identicky distribuovanými vzorky (i.i.d.) rovnoměrně rozloženými v [0,0, 1,0).
randn([seed]) Vygeneruje náhodný sloupec s nezávislými a identicky distribuovanými vzorky (i.i.d.) ze standardního normálního rozdělení.
rint(col) Vrátí dvojitou hodnotu, která je k argumentu nejblíže a je rovna matematickému celočíselnému číslu.
round(col[, scale]) Zaokrouhlí danou hodnotu na desetinná místa pomocí režimu zaokrouhlování HALF_UP, pokud je měřítko >= 0, nebo v celočíselné části při měřítku < 0.
sec(col) Vypočítá sekantu vstupního sloupce.
sign(col) Vypočítá znaménko dané hodnoty.
signum(col) Vypočítá znaménko dané hodnoty.
sin(col) Vypočítá sinus vstupního sloupce.
sinh(col) Vypočítá hyperbolický sinus vstupního sloupce.
sqrt(col) Vypočítá druhou odmocninu zadané hodnoty float.
tan(col) Vypočítá tangens vstupního sloupce.
tanh(col) Vypočítá hyperbolický tangens vstupního sloupce.
try_add(left, right) Vrátí součet zleva a doprava a výsledek je při přetečení null.
try_divide(left, right) Vrátí podíl čitatele a dělitele.
try_mod(left, right) Vrátí zbytek po dělení dělence a dělitele.
try_multiply(left, right) Vrátí hodnotu vlevo vynásobenou vpravo a výsledek je při přetečení null.
try_subtract(left, right) Vrátí hodnotu levé strany minus pravé strany a při přetečení je výsledek null.
unhex(col) Inverze hexadecimální hodnoty.
uniform(min, max[, seed]) Vrátí náhodnou hodnotu s nezávislými a identickými distribuovanými hodnotami (i.i.d.) se zadaným rozsahem čísel.
width_bucket(v, min, max, numBucket) Vrátí číslo kbelíku, do kterého by hodnota tohoto výrazu po vyhodnocení spadla.

Řetězcové funkce

Funkce Description
ascii(col) Vypočítá číslo prvního znaku textového sloupce.
base64(col) Vypočítá kódování BASE64 binárního sloupce a vrátí ho jako řetězcový sloupec.
bit_length(col) Vypočítá délku v bitech pro zadaný sloupec řetězce.
btrim(str[, trim]) Odeberte úvodní a koncové znaky oříznutí z str.
char(col) Vrátí znak ASCII, který má binární ekvivalent odpovídající sloupci.
char_length(str) Vrátí délku znaku řetězcových dat nebo počet bajtů binárních dat.
character_length(str) Vrátí délku znaku řetězcových dat nebo počet bajtů binárních dat.
collate(col, collation) Označí daný sloupec se zadanou kolací.
collation(col) Vrátí název kolace daného sloupce.
concat_ws(sep, *cols) Zřetězí více sloupců vstupního řetězce do jednoho sloupce řetězce pomocí daného oddělovače.
contains(left, right) Vrátí logickou hodnotu.
decode(col, charset) Vypočítá první argument do řetězce z binárního souboru pomocí poskytnuté znakové sady (jeden z US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, , UTF-16). UTF-32
elt(*inputs) Vrátí n-tý vstup, například vrátí vstup2, když n je 2.
encode(col, charset) Vypočítá první argument do binárního souboru z řetězce pomocí poskytnuté znakové sady (jeden z US-ASCII, , ISO-8859-1UTF-8, UTF-16BE, UTF-16LE, , ). UTF-16UTF-32
endswith(str, suffix) Vrátí logickou hodnotu.
find_in_set(str, str_array) Vrátí index (počítaný od 1) daného řetězce (str) v seznamu odděleném čárkami (strArray).
format_number(col, d) Naformátuje číslo X do formátu jako #,--#,--#.--, zaokrouhlené na d desetinných míst pomocí režimu zaokrouhlování HALF_EVEN a vrátí výsledek jako řetězec.
format_string(format, *cols) Naformátuje argumenty ve stylu printf a vrátí výsledek jako řetězcový sloupec.
initcap(col) Přeložte první písmeno každého slova na velké písmeno ve větě.
instr(str, substr) Najděte pozici prvního výskytu podřetězce označeného 'substr' v daném řetězci.
is_valid_utf8(str) Vrátí hodnotu true, pokud je vstup platným řetězcem UTF-8, v opačném případě vrátí hodnotu false.
lcase(str) Vrátí hodnotu str se všemi znaky změněnými na malá písmena.
left(str, len) Vrátí nejlevější znaky z řetězce str podle délky len (délka len může být typu řetězce), výsledek je prázdný řetězec, pokud je len menší nebo rovno 0.
length(col) Vypočítá délku znaku řetězcových dat nebo počet bajtů binárních dat.
levenshtein(left, right[, threshold]) Vypočítá vzdálenost Levenshtein obou daných řetězců.
locate(substr, str[, pos]) Vyhledejte pozici prvního výskytu podřetězce ve sloupci řetězce, po pozici pos.
lower(col) Převede řetězcový výraz na malá písmena.
lpad(col, len, pad) Levá vložka sloupce řetězce na šířku s podložkou.
ltrim(col[, trim]) Oříznout mezery od levého konce pro zadanou řetězcovou hodnotu.
make_valid_utf8(str) Vrátí nový řetězec, ve kterém jsou všechny neplatné sekvence bajtů UTF-8, pokud existují, nahrazeny znakem nahrazení Unicode (U+FFFD).
mask(col[, upperChar, lowerChar, digitChar, ...]) Maskuje danou řetězcovou hodnotu.
octet_length(col) Vypočítá délku v bajtech pro daný sloupec řetězce.
overlay(src, replace, pos[, len]) Překryjte zadanou část src s nahrazením, počínaje od pozice bajtu pos v src a pokračujte pro další len bajtů.
position(substr, str[, start]) Vrátí pozici prvního výskytu podřetězce v řetězci po dané počáteční pozici.
printf(format, *cols) Naformátuje argumenty ve stylu printf a vrátí výsledek jako řetězcový sloupec.
randstr(length[, seed]) Vrátí řetězec zadané délky, jehož znaky jsou náhodně vybrány z následujícího fondu znaků: 0-9, a-z, A-Z.
regexp_count(str, regexp) Vrátí počet, kolikrát se v řetězci str porovnává vzor regulárního výrazu Java regexp.
regexp_extract(str, pattern, idx) Extrahujte konkrétní skupinu, která odpovídá regexp jazyka Java, ze zadaného sloupce řetězce.
regexp_extract_all(str, regexp[, idx]) Extrahujte všechny řetězce ve str, které se shodují s regulárním výrazem v Java regex a odpovídají indexu skupiny regulárního výrazu.
regexp_instr(str, regexp[, idx]) Vrátí pozici prvního podřetězce v str, který se shoduje s regulárním výrazem Java regexp a odpovídá indexu skupiny regexu.
regexp_replace(string, pattern, replacement) Nahraďte všechny podřetězce zadané řetězcové hodnoty, které odpovídají regexp, náhradou.
regexp_substr(str, regexp) Vrátí první podřetězec, který odpovídá regulárnímu výrazu Java „regexp“ ve řetězci str.
repeat(col, n) Opakuje řetězcový sloupec n-krát a vrátí jej jako nový řetězcový sloupec.
replace(src, search[, replace]) Nahradí všechny výskyty hledání nahrazením.
right(str, len) Vrátí nejpravější znaky řetězce str v počtu určeném délkou len (délka může být typu řetězec), pokud je délka menší nebo rovna 0, výsledek je prázdný řetězec.
rpad(col, len, pad) Vyplňte sloupec řetězců zpravicka na šířku délky pomocí výplně.
rtrim(col[, trim]) Ořízněte mezery od pravého konce pro zadanou řetězcovou hodnotu.
sentences(string[, language, country]) Rozdělí řetězec na pole vět, kde každá věta je pole slov.
soundex(col) Vrátí kódování SoundEx pro řetězec.
split(str, pattern[, limit]) Rozdělí str podle shod s daným vzorem.
split_part(src, delimiter, partNum) Rozdělí str oddělovačem a vrátí požadovanou část rozdělení (1).
startswith(str, prefix) Vrátí logickou hodnotu.
substr(str, pos[, len]) Vrátí podřetězec str, který začíná na pos a má délku len, nebo úsek bajtového pole, který začíná na pos a má délku len.
substring(str, pos, len) Podřetězec začíná na pos a je délky len, pokud str je typu String nebo vrátí řez bajtového pole, který začíná na pos v bajtech a je délky len, pokud str je binárního typu.
substring_index(str, delim, count) Vrátí podřetězec z řetězce str před počtem výskytů oddělovače delim.
to_binary(col[, format]) Převede vstupní sloupec na binární hodnotu na základě zadaného formátu.
to_char(col, format) Převeďte „col“ na řetězec na základě formátu.
to_number(col, format) Převést řetězec 'col' na číslo podle formátu 'format'.
to_varchar(col, format) Převeďte „col“ na řetězec na základě formátu.
translate(srcCol, matching, replace) Přeloží libovolný znak ve srcCol odpovídajícím znakem v matching.
trim(col[, trim]) Ořízněte mezery z obou konců ze zadaného sloupce typu řetězec.
try_to_binary(col[, format]) Pokuste se provést to_binary operaci, ale místo vyvolání chyby vrátí hodnotu NULL, pokud převod nelze provést.
try_to_number(col, format) Převeďte řetězec col na číslo dle formátu řetězce format.
try_validate_utf8(str) Vrátí vstupní hodnotu, pokud odpovídá platnému řetězci UTF-8 nebo null jinak.
ucase(str) Vrátí str se všemi znaky změněnými na velká písmena.
unbase64(col) Dekóduje sloupec řetězce s kódováním BASE64 a vrátí ho jako binární sloupec.
upper(col) Převede řetězcový výraz na velká písmena.
validate_utf8(str) Vrátí vstupní hodnotu, pokud odpovídá platnému řetězci UTF-8 nebo vygeneruje chybu v opačném případě.

Bitové funkce

Funkce Description
bit_count(col) Vrátí počet bitů, které jsou nastaveny ve výrazu argumentu jako nepodepsané 64bitové celé číslo, nebo null, pokud je argument NULL.
bit_get(col, pos) Vrátí hodnotu bitu (0 nebo 1) na zadané pozici.
bitwise_not(col) Vypočítá bitové ne.
getbit(col, pos) Vrátí hodnotu bitu (0 nebo 1) na zadané pozici.
shiftleft(col, numBits) Posuň zadanou hodnotu numBits vlevo.
shiftright(col, numBits) (Podepsaný) posune zadanou hodnotu o numBits doprava.
shiftrightunsigned(col, numBits) Bez znaménka posune danou hodnotu numBits doprava.

Datum/čas funkce

Funkce Description
add_months(start, months) Vrátí datum, které je měsíce po začátku.
convert_timezone(sourceTz, targetTz, sourceTs) Převede časové razítko bez časového pásma sourceTs ze zdrojového časového pásma sourceTz na cílové časové pásmo targetTz.
curdate() Vrátí aktuální datum na začátku vyhodnocení dotazu jako sloupec DateType.
current_date() Vrátí aktuální datum na začátku vyhodnocení dotazu jako sloupec DateType.
current_timestamp() Vrátí aktuální časové razítko na začátku vyhodnocení dotazu jako sloupec TimestampType.
current_timezone() Vrátí aktuální místní časové pásmo relace.
date_add(start, days) Vrátí datum, které je dny po zahájení.
date_diff(end, start) Vrátí počet dnů od začátku do konce.
date_format(date, format) Převede datum/časové razítko/řetězec na hodnotu řetězce ve formátu určeném formátem data poskytnutém druhým argumentem.
date_from_unix_date(days) Vytvořte datum z počtu dní od 1970-01-01.
date_part(field, source) Extrahuje část zdroje data a časového razítka nebo intervalu.
date_sub(start, days) Vrátí datum, které je dny před začátkem.
date_trunc(format, timestamp) Vrátí časové razítko zkrácené na jednotku určenou formátem.
dateadd(start, days) Vrátí datum, které je dny po zahájení.
datediff(end, start) Vrátí počet dnů od začátku do konce.
datepart(field, source) Extrahuje část zdroje data a časového razítka nebo intervalu.
day(col) Extrahujte den v měsíci z daného data/časového razítka jako celé číslo.
dayname(col) Vrátí třímísmenný název dne z daného data.
dayofmonth(col) Extrahujte den v měsíci z daného data/časového razítka jako celé číslo.
dayofweek(col) Extrahujte den v týdnu zadaného data nebo časového razítka jako celé číslo.
dayofyear(col) Extrahujte den v roce z daného data/časového razítka jako celé číslo.
extract(field, source) Extrahuje část zdroje data a časového razítka nebo intervalu.
from_unixtime(timestamp[, format]) Převede počet sekund od unixové epochy (1970-01-01 00:00:00 UTC) na řetězec představující časovou značku této chvíle v aktuálním systémovém časovém pásmu ve zadaném formátu.
from_utc_timestamp(timestamp, tz) Toto je běžná funkce pro databáze podporující TIMESTAMP WITHOUT TIMEZONE.
hour(col) Extrahujte hodiny daného časového razítka jako celé číslo.
last_day(date) Vrátí poslední den v měsíci, ke kterému dané datum patří.
localtimestamp() Vrátí aktuální časové razítko bez časového pásma na začátku vyhodnocení dotazu jako časové razítko bez sloupce časového pásma.
make_date(year, month, day) Vrátí sloupec s datem vytvořeným ze sloupců roku, měsíce a dne.
make_dt_interval([days, hours, mins, secs]) Nastavit dobu trvání DayTimeIntervalType z dnů, hodin, minut a sekund.
make_interval([years, months, weeks, days, ...]) Proveďte interval od let, měsíců, týdnů, dnů, hodin, minut a sekund.
make_timestamp(years, months, days, hours, ...) Vytvořte časové razítko z polí roky, měsíce, dny, hodiny, miny, sekundy a časové pásmo.
make_timestamp_ltz(years, months, days, ...) Vytvořte aktuální časové razítko s místním časovým pásmem z polí roky, měsíce, dny, hodiny, miny, sekundy a časové pásmo.
make_timestamp_ntz(years, months, days, ...) Vytvořte místní datum a čas z polí rok, měsíc, den, hodina, minuta a sekunda.
make_ym_interval([years, months]) Vytvořit interval rok-měsíc z let a měsíců.
minute(col) Extrahujte minuty daného časového razítka jako celé číslo.
month(col) Extrahujte měsíc daného data a časového razítka jako celé číslo.
monthname(col) Vrátí třímísmenný název měsíce z daného data.
months_between(date1, date2[, roundOff]) Vrátí počet měsíců mezi datem 1 a datem2.
next_day(date, dayOfWeek) Vrátí první datum, které je pozdější než hodnota ve sloupci data, podle argumentu druhého dne v týdnu.
now() Vrátí aktuální časové razítko na začátku vyhodnocení dotazu.
quarter(col) Extrahujte čtvrtletí daného data a časového razítka jako celé číslo.
second(col) Extrahujte sekundy daného data jako celé číslo.
session_window(timeColumn, gapDuration) Vygeneruje okno relace s časovým razítkem určujícím sloupec.
timestamp_add(unit, quantity, ts) Získá rozdíl mezi časovými razítky v zadaných jednotkách zkrácením části zlomku.
timestamp_diff(unit, start, end) Získá rozdíl mezi časovými razítky v zadaných jednotkách zkrácením části zlomku.
timestamp_micros(col) Vytvoří časové razítko z počtu mikrosekund od epochy UTC.
timestamp_millis(col) Vytvoří časové razítko z počtu milisekund od epochy UTC.
timestamp_seconds(col) Převede počet sekund z epochy Unixu (1970-01-01T00:00:00Z) na časové razítko.
to_date(col[, format]) Převede sloupec na pyspark.sql.types.DateType pomocí volitelného formátu.
to_timestamp(col[, format]) Převede sloupec na pyspark.sql.types.TimestampType pomocí volitelného formátu.
to_timestamp_ltz(timestamp[, format]) Parsuje časové razítko z daného formátu na časové razítko s časovým pásmem.
to_timestamp_ntz(timestamp[, format]) Parsuje časové razítko s formátem do časového razítka bez časového pásma.
to_unix_timestamp(timestamp[, format]) Vrátí UNIX časové razítko pro daný čas.
to_utc_timestamp(timestamp, tz) Toto je běžná funkce pro databáze podporující TIMESTAMP WITHOUT TIMEZONE.
trunc(date, format) Vrátí datum zkrácené na jednotku určenou formátem.
try_make_interval([years, months, weeks, ...]) Zkuste provést make_interval operaci, ale místo vyvolání chyby v případě, že nelze vytvořit interval, vrátí hodnotu NULL.
try_make_timestamp(years, months, days, ...) Zkuste vytvořit časové razítko z let, měsíců, dnů, hodin, minut, sekund a polí časového pásma.
try_make_timestamp_ltz(years, months, days, ...) Pokuste se vytvořit aktuální časové razítko s místním časovým pásmem z polí roky, měsíce, dny, hodiny, miny, sekundy a časové pásmo.
try_make_timestamp_ntz(years, months, days, ...) Zkuste vytvořit místní datum a čas z polí roků, měsíců, dnů, hodin, minut a sekund.
try_to_timestamp(col[, format]) Analyzuje sloupec podle formátu na časové razítko.
unix_date(col) Vrátí počet dní od 1970-01-01.
unix_micros(col) Vrátí počet mikrosekund od 1970-01-01 00:00:00 UTC.
unix_millis(col) Vrátí počet milisekund od 1970-01-01 00:00:00 UTC.
unix_seconds(col) Vrátí počet sekund od 1970-01-01 00:00:00 UTC.
unix_timestamp([timestamp, format]) Převeďte časový řetězec s daným vzorem ('yyyy-MM-dd HH:mm:ss', ve výchozím nastavení) na časové razítko Unixu (v sekundách), pomocí výchozího časového pásma a výchozího národního prostředí vrátí hodnotu null, pokud se nezdaří.
weekday(col) Vrátí den v týdnu pro datum a časové razítko (0 = pondělí, 1 = úterý, ..., 6 = neděle).
weekofyear(col) Extrahujte číslo týdne daného data jako celé číslo.
window(timeColumn, windowDuration[, ...]) Rozdělte řádky do jednoho nebo více časových oken zadaných časovým razítkem určujícím sloupec.
window_time(windowColumn) Vypočítá čas události ze sloupce okna.
year(col) Extrahujte rok daného data a časového razítka jako celé číslo.

Hašovací funkce

Funkce Description
crc32(col) Vypočítá hodnotu kontroly cyklické redundance (CRC32) binárního sloupce a vrátí hodnotu jako bigint.
hash(*cols) Vypočítá hashovací kód zadaných sloupců a vrátí výsledek jako sloupec typu int.
md5(col) Vypočítá MD5 digest a vrátí hodnotu jako šestnáctkový řetězec o délce 32 znaků.
sha(col) Vrátí hodnotu hash sha1 jako šestnáctkový řetězec sloupce.
sha1(col) Vrátí šestnáctkový řetězec výsledku SHA-1.
sha2(col, numBits) Vrátí hexadecimální řetězec jako výsledek hash funkcí z rodiny SHA-2 (SHA-224, SHA-256, SHA-384 a SHA-512).
xxhash64(*cols) Vypočítá hashovací kód daných sloupců pomocí 64bitové varianty algoritmu xxHash a vrátí výsledek jako dlouhý sloupec.

Funkce kolekcí

Funkce Description
aggregate(col, initialValue, merge[, finish]) Použije binární operátor na počáteční stav a všechny prvky v poli a zmenší to na jeden stav.
array_sort(col[, comparator]) Seřadí vstupní pole ve vzestupném pořadí.
cardinality(col) Vrátí délku pole nebo mapy uložené ve sloupci.
concat(*cols) Zřetězí více vstupních sloupců do jednoho sloupce.
element_at(col, extraction) Vrátí prvek pole v daném indexu (založeném na 1).
exists(col, f) Vrátí, zda predikát obsahuje jeden nebo více prvků v poli.
filter(col, f) Vrátí pole prvků, pro které je predikát v daném poli.
forall(col, f) Vrátí, zda predikát platí pro každý prvek v poli.
map_filter(col, f) Vrátí nový sloupec mapy, jehož páry klíč-hodnota splňují danou predikátovou funkci.
map_zip_with(col1, col2, f) Sloučí dvě dané mapy do jedné mapy použitím funkce u párů klíč-hodnota.
reduce(col, initialValue, merge[, finish]) Použije binární operátor na počáteční stav a všechny prvky v poli a zmenší to na jeden stav.
reverse(col) Vrátí obrácený řetězec nebo pole s prvky v obráceném pořadí.
size(col) Vrátí délku pole nebo mapy uložené ve sloupci.
transform(col, f) Vrátí pole prvků po použití transformace na každý prvek ve vstupním poli.
transform_keys(col, f) Aplikuje funkci na každý pár klíč-hodnota v mapě a vrátí mapu s výsledky těchto aplikací jako nové klíče párů.
transform_values(col, f) Použije funkci na každý pár klíč-hodnota v mapě a vrátí mapu s výsledky použití těchto funkcí jako nové hodnoty pro páry.
try_element_at(col, extraction) Vrátí prvek pole v daném indexu (založeném na 1).
zip_with(left, right, f) Sloučte dvě daná pole po prvcích do jednoho pole pomocí funkce.

Funkce polí

Funkce Description
array(*cols) Vytvoří nový sloupec pole ze vstupních sloupců nebo názvů sloupců.
array_append(col, value) Vrátí nové pole přidáním hodnoty k existujícímu poli.
array_compact(col) Odstraní nulové hodnoty z pole.
array_contains(col, value) Vrátí logickou hodnotu označující, zda matice obsahuje danou hodnotu: null, pokud je matice null, true, pokud matice obsahuje danou hodnotu, a hodnotu false v opačném případě.
array_distinct(col) Odebere duplicitní hodnoty z pole.
array_except(col1, col2) Vrátí novou matici obsahující prvky, které jsou přítomné v řádku 1, ale ne v řádku 2, bez duplicit.
array_insert(arr, pos, value) Vloží položku do daného pole v zadaném indexu pole.
array_intersect(col1, col2) Vrátí nové pole obsahující průsečík prvků v col1 a col2 bez duplicit.
array_join(col, delimiter[, null_replacement]) Vrátí řetězcový sloupec zřetězením prvků vstupního sloupce pole pomocí oddělovače.
array_max(col) Vrátí maximální hodnotu pole.
array_min(col) Vrátí minimální hodnotu pole.
array_position(col, value) Vyhledá pozici prvního výskytu dané hodnoty v daném poli.
array_prepend(col, value) Vrátí matici obsahující daný prvek jako první prvek a zbytek prvků z původního pole.
array_remove(col, element) Odeberte všechny prvky, které se rovnají prvku z daného pole.
array_repeat(col, count) Vytvoří pole obsahující počet opakovaných časů sloupce.
array_size(col) Vrátí celkový počet prvků v poli.
array_union(col1, col2) Vrátí nové pole obsahující sjednocení prvků v col1 a col2 bez duplicit.
arrays_overlap(a1, a2) Vrátí logický sloupec označující, jestli vstupní matice mají společné nenulové elementy, vrátí hodnotu true, pokud ano, null pokud pole neobsahují žádné společné prvky, ale nejsou prázdné a alespoň jedna z nich obsahuje prvek null a false jinak.
arrays_zip(*cols) Vrátí sloučenou matici struktur, ve kterých N-th struktura obsahuje všechny N-th hodnoty vstupních polí.
flatten(col) Vytvoří jedno pole z pole polí.
get(col, index) Vrátí prvek pole na zadané pozici s indexem založeným na 0.
sequence(start, stop[, step]) Vygenerujte posloupnost celých čísel od počáteční hodnoty ke koncové hodnotě s přírůstkem podle zadaného kroku.
shuffle(col[, seed]) Vygeneruje náhodnou permutaci daného pole.
slice(x, start, length) Vrátí nový sloupec pole tím, že vytvoří podsekvenci vstupního sloupce pole od počátečního indexu do určité délky.
sort_array(col[, asc]) Seřadí vstupní pole vzestupně nebo sestupně podle přirozeného pořadí prvků pole.

Funkce struktury

Funkce Description
named_struct(*cols) Vytvoří strukturu s danými názvy polí a hodnotami.
struct(*cols) Vytvoří nový sloupec struktury.

Mapové funkce

Funkce Description
create_map(*cols) Vytvoří nový sloupec mapy z sudého počtu vstupních sloupců nebo odkazů na sloupce.
map_concat(*cols) Vrátí sjednocení všech daných map.
map_contains_key(col, value) Vrátí hodnotu true, pokud mapa obsahuje klíč.
map_entries(col) Vrátí neseřazenou matici všech položek v dané mapě.
map_from_arrays(col1, col2) Vytvoří novou mapu ze dvou polí.
map_from_entries(col) Transformuje pole položek páru klíč-hodnota (struktury se dvěma poli) na mapu.
map_keys(col) Vrátí neuspořádané pole obsahující klíče mapy.
map_values(col) Vrátí neuspořádané pole obsahující hodnoty mapy.
str_to_map(text[, pairDelim, keyValueDelim]) Převede řetězec na mapu po rozdělení textu na páry klíč/hodnota pomocí oddělovačů.

Agregační funkce

Funkce Description
any_value(col[, ignoreNulls]) Vrátí nějakou hodnotu sloupce pro skupinu řádků.
approx_count_distinct(col[, rsd]) Vrátí nový sloupec, který odhaduje přibližný počet jedinečných prvků v zadaném sloupci nebo skupině sloupců.
approx_percentile(col, percentage[, accuracy]) Vrátí přibližný percentil číselného sloupce col, což je nejmenší hodnota v seřazených hodnotách sloupce (seřazených od nejmenší po největší), taková, že nejvýše procento hodnot sloupce je menší nebo rovno této hodnotě.
array_agg(col) Vrátí seznam objektů s duplicitami.
avg(col) Vrátí průměr hodnot ve skupině.
bit_and(col) Vrátí bitovou hodnotu AND všech vstupních hodnot, které nejsou null, nebo hodnotu null, pokud žádná.
bit_or(col) Vrátí bitovou hodnotu OR všech vstupních hodnot, které nejsou null, nebo hodnotu null, pokud žádná.
bit_xor(col) Vrátí bitový XOR všech nenulových vstupních hodnot, nebo null, pokud takové nejsou.
bitmap_construct_agg(col) Vrátí rastrový obrázek s pozicemi bitů nastavenými ze všech hodnot ze vstupního sloupce.
bitmap_or_agg(col) Vrátí bitmapu, která je bitovým OR všech bitmap ze zadaného sloupce.
bool_and(col) Vrátí hodnotu true, pokud jsou splněny všechny hodnoty sloupce.
bool_or(col) Vrátí true, pokud je alespoň jedna hodnota ve sloupci pravdivá.
collect_list(col) Shromažďuje hodnoty ze sloupce do seznamu, udržuje duplicity a vrací tento seznam objektů.
collect_set(col) Shromažďuje hodnoty ze sloupce do sady, eliminuje duplicity a vrací tuto sadu objektů.
corr(col1, col2) Vrátí nový sloupec pearsonova korelačního koeficientu pro sloupec 1 a sloupec2.
count(col) Vrátí počet položek ve skupině.
count_distinct(col, *cols) Vrátí nový sloupec pro počítání jedinečných hodnot ve sloupci nebo sloupcích.
count_if(col) Vrátí počet hodnot TRUE pro sloupec.
count_min_sketch(col, eps, confidence[, seed]) Vrátí minimální náčrtek sloupce s daným esp, spolehlivostí a počátečním hodnotami.
covar_pop(col1, col2) Vrátí nový sloupec pro populační kovarianci sloupce 1 a sloupce 2.
covar_samp(col1, col2) Vrátí nový sloupec pro výběrovou kovarianci sloupců col1 a col2.
every(col) Vrátí hodnotu true, pokud jsou splněny všechny hodnoty sloupce.
first(col[, ignorenulls]) Vrátí první hodnotu ve skupině.
first_value(col[, ignoreNulls]) Vrátí první hodnotu sloupce pro skupinu řádků.
grouping(col) Určuje, zda je zadaný sloupec v GROUP BY seznamu agregován nebo ne, vrátí hodnotu 1 pro agregované nebo 0 pro neagregované v sadě výsledků.
grouping_id(*cols) Vrátí úroveň seskupení, která se rovná
histogram_numeric(col, nBins) Vypočítá histogram na číselném sloupci pomocí NB intervalů.
hll_sketch_agg(col[, lgConfigK]) Vrátí aktualizovatelnou binární reprezentaci Datasketches HllSketch nakonfigurované pomocí lgConfigK arg.
hll_union_agg(col[, allowDifferentLgConfigK]) Vrátí aktualizovatelnou binární reprezentaci Datasketches HllSketch vygenerované sloučením dříve vytvořených instancí Datasketches HllSketch prostřednictvím instance Datasketches Union.
kurtosis(col) Vrátí kurtózu hodnot ve skupině.
last(col[, ignorenulls]) Vrátí poslední hodnotu ve skupině.
last_value(col[, ignoreNulls]) Vrátí poslední hodnotu sloupce pro skupinu řádků.
listagg(col[, delimiter]) Vrátí zřetězení vstupních hodnot, které nejsou null, oddělené oddělovačem.
listagg_distinct(col[, delimiter]) Vrátí zřetězení jedinečných nenulových vstupních hodnot, oddělených zadaným oddělovačem.
max(col) Vrátí maximální hodnotu výrazu ve skupině.
max_by(col, ord) Vrátí hodnotu z parametru 'col', která odpovídá maximální hodnotě parametru 'ord'.
mean(col) Vrátí průměr hodnot ve skupině.
median(col) Vrátí medián hodnot ve skupině.
min(col) Vrátí minimální hodnotu výrazu ve skupině.
min_by(col, ord) Vrátí hodnotu z parametru col, který je přidružen k minimální hodnotě z parametru ord.
mode(col[, deterministic]) Vrátí nejčastější hodnotu ve skupině.
percentile(col, percentage[, frequency]) Vrátí přesný percentil (percentily) číselného sloupcového výrazu při daném procentu s rozsahem hodnot [0.0, 1.0].
percentile_approx(col, percentage[, accuracy]) Vrátí přibližný percentil číselného sloupce col, což je nejmenší hodnota v seřazených hodnotách sloupce (seřazených od nejmenší po největší), taková, že nejvýše procento hodnot sloupce je menší nebo rovno této hodnotě.
product(col) Vrátí součin hodnot ve skupině.
regr_avgx(y, x) Vrátí průměr nezávislé proměnné pro páry bez null ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
regr_avgy(y, x) Vrátí průměr závislé proměnné pro páry bez hodnoty null ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
regr_count(y, x) Vrátí počet dvojic nenulových čísel ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
regr_intercept(y, x) Vrátí průsečík jednovariátové lineární regresní přímky pro nenulové páry ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
regr_r2(y, x) Vrátí koeficient určení pro páry bez hodnoty null ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
regr_slope(y, x) Vrátí sklon lineární regresní přímky pro nenulové páry ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
regr_sxx(y, x) Vrátí REGR_COUNT(y, x) * VAR_POP(x) pro nenulové páry ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
regr_sxy(y, x) Vrátí REGR_COUNT(y, x) * COVAR_POP(y, x) pro páry bez hodnot null ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
regr_syy(y, x) Vrátí REGR_COUNT(y, x) * VAR_POP(y) pro nenulové páry ve skupině, kde y je závislá proměnná a x je nezávislá proměnná.
skewness(col) Vrátí nerovnoměrnou distribuci hodnot ve skupině.
some(col) Vrátí true, pokud je alespoň jedna hodnota ve sloupci pravdivá.
std(col) Alias pro stddev_samp.
stddev(col) Alias pro stddev_samp.
stddev_pop(col) Vrátí směrodatnou odchylku základního souboru výrazu ve skupině.
stddev_samp(col) Vrátí nestrannou směrodatnou odchylku vzorku výrazu ve skupině.
string_agg(col[, delimiter]) Vrátí zřetězení vstupních hodnot, které nejsou null, oddělené oddělovačem.
string_agg_distinct(col[, delimiter]) Vrátí zřetězení jedinečných nenulových vstupních hodnot, oddělených zadaným oddělovačem.
sum(col) Vrátí součet všech hodnot ve výrazu.
sum_distinct(col) Vrátí součet jedinečných hodnot ve výrazu.
try_avg(col) Vrátí střední hodnotu vypočítanou z hodnot skupiny a v případě přetečení je výsledek null.
try_sum(col) Vrátí součet vypočítaný z hodnot skupiny a v případě přetečení je výsledek null.
var_pop(col) Vrátí rozptyl základního souboru hodnot ve skupině.
var_samp(col) Vrátí nestrannou ukázkovou odchylku hodnot ve skupině.
variance(col) Alias pro var_samp

Funkce okna

Funkce Description
cume_dist() Vrátí kumulativní rozdělení hodnot v rámci oddílu okna, tj. zlomek řádků pod aktuálním řádkem.
dense_rank() Vrátí pořadí řádků v rámci datového okna bez přerušení.
lag(col[, offset, default]) Vrátí hodnotu posunu řádků před aktuálním řádkem a výchozí hodnotu, pokud je před aktuálním řádkem menší než posun řádků.
lead(col[, offset, default]) Vrátí hodnotu, která je o daný počet řádků posunuta za aktuální řádek, a pokud za aktuálním řádkem není dostatek řádků k posunu, vrátí výchozí hodnotu.
nth_value(col, offset[, ignoreNulls]) Vrátí hodnotu, která je odsazeným řádkem rámce okna (počítá se od 1) a null, pokud je velikost rámečku okna menší než řádky posunu.
ntile(n) Vrátí ID skupiny ntile (od 1 do n včetně) v uspořádané části okna.
percent_rank() Vrátí relativní pořadí (tj.
rank() Vrátí pořadí řádků v rámci oddílu okna.
row_number() Vrátí pořadové číslo v rámci oddílu okna, začínající na 1.

Generátorové funkce

Funkce Description
explode(col) Vrátí nový řádek pro každý prvek v daném poli nebo mapě.
explode_outer(col) Vrátí nový řádek pro každý prvek v daném poli nebo mapě.
inline(col) Převádí pole struktur do tabulky.
inline_outer(col) Převádí pole struktur do tabulky.
posexplode(col) Vrátí nový řádek pro každý prvek s pozicí v daném poli nebo mapě.
posexplode_outer(col) Vrátí nový řádek pro každý prvek s pozicí v daném poli nebo mapě.
stack(*cols) Odděluje sloupce 1, ..., sloupce k do n řádků.

Funkce transformace oddílů

Funkce Description
partitioning.years(col) Transformace časových razítek a dat pro dělení dat podle roků.
partitioning.months(col) Transformace časových razítek a kalendářních dat pro rozdělení dat na měsíce.
partitioning.days(col) Transformace časových razítek a kalendářních dat pro rozdělení dat na dny.
partitioning.hours(col) Transformace časových razítek pro rozdělení dat do hodinových úseků.
partitioning.bucket(numBuckets, col) Transformace pro libovolný typ, který particionuje podle hashování vstupního sloupce.

Geoprostorové funkce H3 (Databricks)

Funkce Description
h3_boundaryasgeojson(col) Vrátí hranici buňky H3 ve formátu GeoJSON.
h3_boundaryaswkb(col) Vrátí hranici buňky H3 ve formátu WKB.
h3_boundaryaswkt(col) Vrátí hranici buňky H3 ve formátu WKT.
h3_centerasgeojson(col) Vrátí střed buňky H3 ve formátu GeoJSON.
h3_centeraswkb(col) Vrátí střed buňky H3 ve formátu WKB.
h3_centeraswkt(col) Vrátí střed buňky H3 ve formátu WKT.
h3_compact(col) Zkomprimuje vstupní sadu ID buněk H3 co nejlépe.
h3_coverash3(col1,col2) Vrátí pole ID buněk reprezentovaných jako dlouhá celá čísla, odpovídajících hexagonům nebo pentagonům zadaného rozlišení, která zajistí minimální pokrytí vstupní lineární nebo areální geografie.
h3_coverash3string(col1,col2) Vrátí pole ID buněk reprezentovaných jako řetězce, odpovídajících šestiúhelníkům nebo pětiúhelníkům zadaného rozlišení, které minimálně pokrývají vstupní lineární nebo plošnou geografii.
h3_distance(col1,col2) Vrátí vzdálenost mřížky mezi dvěma ID buněk H3.
h3_h3tostring(col) Převede ID buňky H3 na řetězec představující ID buňky jako šestnáctkový řetězec.
h3_hexring(col1,col2) Vrátí pole ID buněk H3, která tvoří dutý šestiúhelníkový prstenec s těžištěm v původní buňce H3 a které jsou ve vzdálenosti k od původní buňky H3.
h3_ischildof(col1,col2) Vrátí True, pokud je první ID buňky H3 podřízeným ID druhé buňky H3.
h3_ispentagon(col) Vrátí True , pokud vstupní ID buňky H3 představuje pětiúhelník.
h3_isvalid(col) Vrátí True , pokud vstup představuje platné ID buňky H3.
h3_kring(col1,col2) Vrátí ID buněk H3, které jsou ve vzdálenosti mřížky k od počátečního ID buňky.
h3_kringdistances(col1,col2) Vrátí všechna ID buněk H3 (reprezentovaná jako dlouhá celá čísla nebo řetězce) ve vzdálenosti mřížky k od ID buňky H3 původu spolu s jejich vzdáleností od id buňky H3 původu.
h3_longlatash3(col1,col2,col3) Vrátí ID buňky H3 (jako BIGINT) odpovídající zadané délce a zeměpisné šířce v zadaném rozlišení.
h3_longlatash3string(col1,col2,col3) Vrátí ID buňky H3 (jako řetězec) odpovídající zadané délce a zeměpisné šířce v zadaném rozlišení.
h3_maxchild(col1,col2) Vrátí potomka s maximální hodnotou zadané vstupní buňky H3 při určeném rozlišení.
h3_minchild(col1,col2) Vrátí potomka s minimální hodnotou zadané vstupní buňky H3 v určeném rozlišení.
h3_pointash3(col1,col2) Vrátí ID buňky H3 (jako BIGINT) odpovídající zadanému bodu v zadaném rozlišení.
h3_pointash3string(col1,col2) Vrátí ID buňky H3 (jako řetězec) odpovídající zadanému bodu v zadaném rozlišení.
h3_polyfillash3(col1,col2) Vrátí pole ID buněk reprezentovaných jako dlouhá celá čísla odpovídající šestiúhelníkům nebo pětiúhelníkům zadaného rozlišení, které jsou obsaženy vstupními zeměpisnými oblastmi.
h3_polyfillash3string(col1,col2) Vrátí pole ID buněk reprezentovaných jako řetězce, které odpovídají šestiúhelníkům nebo pětiúhelníkům o zadaném rozlišení, které jsou obsaženy ve vstupní zeměpisné oblasti.
h3_resolution(col) Vrátí rozlišení ID buňky H3.
h3_stringtoh3(col) Převede identifikátor buňky H3 z reprezentace řetězce na reprezentaci velkého celého čísla.
h3_tessellateaswkb(col1,col2) Vrátí pole struktur představujících čipy pokrývající zeměpisné oblasti v zadaném rozlišení.
h3_tochildren(col1,col2) Vrátí ID podřízených buněk H3 vstupního ID buňky H3 v zadaném rozlišení.
h3_toparent(col1,col2) Vrátí ID nadřazené buňky H3 vstupního ID buňky H3 v zadaném rozlišení.
h3_try_coverash3(col1,col2) Vrátí pole ID buněk reprezentovaných jako dlouhá celá čísla, odpovídajících hexagonům nebo pentagonům zadaného rozlišení, která zajistí minimální pokrytí vstupní lineární nebo areální geografie.
h3_try_coverash3string(col1,col2) Vrátí pole ID buněk reprezentovaných jako řetězce, odpovídajících šestiúhelníkům nebo pětiúhelníkům zadaného rozlišení, které minimálně pokrývají vstupní lineární nebo plošnou geografii.
h3_try_distance(col1,col2) Vrátí vzdálenost mřížky mezi dvěma ID buněk H3 stejného rozlišení, nebo None pokud je vzdálenost nedefinovaná.
h3_try_polyfillash3(col1,col2) Vrátí pole ID buněk reprezentovaných jako dlouhá celá čísla odpovídající šestiúhelníkům nebo pětiúhelníkům zadaného rozlišení, které jsou obsaženy vstupními zeměpisnými oblastmi.
h3_try_polyfillash3string(col1,col2) Vrátí pole ID buněk reprezentovaných jako řetězce, které odpovídají šestiúhelníkům nebo pětiúhelníkům o zadaném rozlišení, které jsou obsaženy ve vstupní zeměpisné oblasti.
h3_try_tessellateaswkb(col1,col2) Vrátí pole struktur představujících čipy pokrývající zeměpisné oblasti v zadaném rozlišení nebo hodnotu null, pokud je geometrie neplatná.
h3_try_validate(col) Vrátí vstupní hodnotu, pokud se jedná o platnou buňku H3 nebo žádnou jinou hodnotu.
h3_uncompact(col1,col2) Rozbalí vstupní množinu ID buněk H3 na zadané rozlišení
h3_validate(col) Vrátí vstupní hodnotu, pokud se jedná o platnou buňku H3 nebo vygeneruje chybu v opačném případě.

Geoprostorové funkce ST (Databricks)

Funkce Description
st_addpoint(col1,col2,col3) Přidá nový bod v n-té pozici ve vstupní geografii nebo geometrii.
st_area(col) Vrátí oblast vstupní zeměpisné oblasti nebo geometrie.
st_asbinary(col1,col2) Vrátí vstupní hodnotu Zeměpis nebo Geometrie ve formátu WKB.
st_asewkb(col1,col2) Vrátí vstupní hodnotu geometrie ve formátu EWKB.
st_asewkt(col) Vrátí vstupní zeměpisnou hodnotu nebo geometrii ve formátu EWKT.
st_asgeojson(col) Vrátí vstupní hodnotu Zeměpis nebo Geometrie ve formátu GeoJSON.
st_astext(col) Vrátí vstupní hodnotu zeměpisu nebo geometrie ve formátu WKT.
st_aswkb(col1,col2) Vrátí vstupní hodnotu Zeměpis nebo Geometrie ve formátu WKB.
st_aswkt(col) Vrátí vstupní hodnotu zeměpisu nebo geometrie ve formátu WKT.
st_buffer(col1,col2) Vrátí nárazník vstupní geometrie se zadaným poloměrem.
st_centroid(col) Vrátí centroid vstupní geometrie jako geometrii 2D bodů.
st_concavehull(col1,col2,col3) Vrátí konkávní obal vstupní geometrie jako geometrii pomocí zadaného poměru délky.
st_contains(col1,col2) Vrátí True , pokud první geometrie obsahuje druhou geometrii.
st_convexhull(col) Vrátí konvexní obal vstupní geometrie jako geometrii.
st_covers(col1,col2) Vrátí True , pokud první geometrie pokrývá druhou geometrii.
st_difference(col1,col2) Vrátí množinu bodů, která se liší od dvou vstupních geometrií jako 2D geometrie.
st_dimension(col) Vrátí topologický rozměr 2D projekce vstupní geometrie.
st_disjoint(col1,col2) Vrátí True , pokud jsou dvě geometrie oddělené.
st_distance(col1,col2) Vrátí 2D kartézskou vzdálenost mezi dvěma vstupními geometriemi.
st_distancesphere(col1,col2) Vrací sférickou vzdálenost (v metrech) mezi dvěma bodovými geometriemi, měřeno na kouli, jejíž poloměr je střední poloměr referenčního elipsoidu WGS84.
st_distancespheroid(col1,col2) Vrátí geodesickou vzdálenost (v metrech) mezi dvěma bodovými geometriemi ve WGS84 elipsoidu.
st_dwithin(col1,col2,col3) Vrátí True , pokud je 2D kartézská vzdálenost mezi dvěma vstupními geometriemi menší nebo rovna vstupní vzdálenosti.
st_endpoint(col) Vrátí poslední bod vstupního liniového řetězce, nebo None, pokud neexistuje.
st_envelope(col) Vrátí 2D minimální ohraničující hranici (obálku), která je zarovnaná s osami kartézské soustavy, pro vstupní neprázdnou geometrii jako geometrie.
st_envelope_agg(col) Vrátí obálku všech geometrií ve sloupci, nebo None pokud sloupec obsahuje nulové řádky nebo obsahuje pouze None hodnoty.
st_equals(col1,col2) Vrátí True , pokud jsou dvě geometrie geometricky stejné.
st_exteriorring(col) Vrátí vnější prstenec (shell) jako liniový řetězec vstupní hodnoty Geography nebo Geometry představující mnohoúhelník.
st_flipcoordinates(col) Prohodí souřadnice X a Y vstupní geometrie.
st_geogfromgeojson(col) Parsuje popis GeoJSON a vrátí odpovídající zeměpisnou hodnotu.
st_geogfromtext(col) Parsuje popis WKT a vrátí odpovídající zeměpisnou hodnotu.
st_geogfromwkb(col) Parsuje vstupní popis WKB a vrátí odpovídající zeměpisnou hodnotu.
st_geogfromwkt(col) Parsuje popis WKT a vrátí odpovídající zeměpisnou hodnotu.
st_geohash(col1,col2) Vrátí geohash pro vstupní Geometry
st_geometryn(col1,col2) Vrátí 1-indexovaný n-tý prvek vstupní vícečetné geometrie, nebo None, pokud neexistuje.
st_geometrytype(col) Vrátí typ vstupní zeměpisné hodnoty nebo hodnoty geometrie jako řetězec.
st_geomfromewkb(col) Parsuje vstupní popis EWKB a vrátí odpovídající hodnotu geometrie.
st_geomfromgeohash(col) Vrátí pole mřížky geohash odpovídající vstupní hodnotě geohash jako geometrii 2D polygonu.
st_geomfromgeojson(col) Parsuje popis GeoJSON a vrátí odpovídající hodnotu geometrie .
st_geomfromtext(col1,col2) Parsuje popis WKT a vrátí odpovídající hodnotu geometrie.
st_geomfromwkb(col1,col2) Parsuje vstupní popis WKB a vrátí odpovídající hodnotu geometrie .
st_geomfromwkt(col1,col2) Parsuje popis WKT a vrátí odpovídající hodnotu geometrie.
st_intersection(col1,col2) Vrátí průsečík množiny bodů dvou vstupních geometrií jako 2D geometrii.
st_intersects(col1,col2) Vrátí True , pokud se obě geometrie protínají.
st_isempty(col) Vrátí True , pokud vstupní zeměpisná hodnota nebo hodnota geometrie neobsahuje žádné neprázdné body.
st_isvalid(col) Vrátí True , pokud je vstupní geometrie platnou geometrií ve smyslu OGC.
st_length(col) Vrátí délku vstupní geometrie nebo zeměpisné hodnoty.
st_m(col) Vrátí souřadnici M geometrie vstupního bodu nebo None pokud je geometrie vstupního bodu prázdná nebo pokud nemá souřadnici M.
st_makeline(col) Vrátí geometrii spojnic, jejíž body jsou neprázdné body geometrie ve vstupním poli geometrie, které mají být body, přímky nebo více bodů.
st_makepolygon(col1,col2) Vytvoří mnohoúhelník ze vstupní vnější hranice a volitelnou matici vnitřních hranic reprezentovaných jako uzavřené přímky.
st_multi(col) Vrátí vstupní zeměpisnou hodnotu nebo geometrii jako ekvivalentní multiprostorovou hodnotu, čímž se zachová původní SRID.
st_ndims(col) Vrátí souřadnicový rozměr vstupní zeměpisné hodnoty nebo hodnoty geometrie.
st_npoints(col) Vrátí počet neprázdných bodů ve vstupní hodnotě Zeměpis nebo Geometrie .
st_numgeometries(col) Vrátí počet geometrií ve vstupní geometrii.
st_perimeter(col) Vrátí obvod vstupní geografické oblasti nebo geometrie.
st_point(col1,col2,col3) Vrátí 2D bodovou geometrii s danými souřadnicemi x a y a hodnotou SRID.
st_pointfromgeohash(col) Vrátí střed pole mřížky geohash odpovídající vstupní hodnotě geohash jako geometrii 2D bodů.
st_pointn(col1,col2) Vrátí 1-indexovaný n-tý bod vstupní lomené čáry, nebo None, pokud neexistuje.
st_removepoint(col1,col2) Odebere n-tý bod ze vstupního liniového prvku zeměpisu nebo geometrie.
st_reverse(col) Obrátí pořadí vrcholů ve vstupní hodnotě geografie nebo geometrie.
st_rotate(col1,col2) Otočí vstupní geometrii kolem osy Z podle daného úhlu otáčení (v radiánech).
st_scale(col1,col2,col3,col4) Škáluje vstupní geometrii ve směrech X, Y a Z (volitelné) pomocí daných faktorů.
st_setpoint(col1,col2,col3) Nastaví n-tý bod ve vstupním liniovém řetězci geografie nebo geometrie.
st_setsrid(col1,col2) Vrátí novou hodnotu geometrie , jejíž SRID je zadaná hodnota SRID.
st_simplify(col1,col2) Zjednodušuje vstupní geometrii pomocí algoritmu Douglas-Peucker.
st_srid(col) Vrátí identifikátor SRID vstupní geoprostorové hodnoty.
st_startpoint(col) Vrátí první bod vstupního řetězce řádku, nebo None pokud neexistuje.
st_touches(col1,col2) Vrátí True , pokud se obě geometrie navzájem dotkne.
st_transform(col1,col2) Transformuje souřadnice X a Y vstupní geometrie na referenční systém souřadnic (CRS), který popisuje zadaná hodnota SRID.
st_translate(col1,col2,col3,col4) Přeloží vstupní geometrii ve směrech X, Y a Z (volitelné) pomocí zadaných posunů.
st_union(col1,col2) Vrátí sjednocení množiny bodů dvou vstupních geometrií jako 2D geometrie.
st_union_agg(col) Vrátí bodovou sjednocenost všech geometrií ve sloupci, nebo None, pokud sloupec neobsahuje žádné řádky nebo obsahuje pouze None hodnoty.
st_within(col1,col2) Vrátí True , pokud je první geometrie v rámci druhé geometrie.
st_x(col) Vrátí souřadnici X geometrie vstupního bodu nebo None pokud je geometrie vstupního bodu prázdná.
st_xmax(col) Vrátí maximální souřadnici X vstupní geometrie, nebo None pokud je vstupní geometrie prázdná.
st_xmin(col) Vrátí minimální souřadnici X vstupní geometrie, nebo None pokud je vstupní geometrie prázdná.
st_y(col) Vrátí souřadnici Y geometrie vstupního bodu nebo None pokud je geometrie vstupního bodu prázdná.
st_ymax(col) Vrátí maximální souřadnici Y vstupní geometrie, nebo None pokud je vstupní geometrie prázdná.
st_ymin(col) Vrátí minimální souřadnici Y vstupní geometrie, nebo None pokud je vstupní geometrie prázdná.
st_z(col) Vrátí souřadnici Z geometrie vstupního bodu nebo None pokud je geometrie vstupního bodu prázdná nebo pokud nemá souřadnici Z.
st_zmax(col) Vrátí maximální souřadnici Z vstupní geometrie, nebo None pokud je vstupní geometrie prázdná nebo neobsahuje souřadnice Z.
st_zmin(col) Vrátí minimální souřadnici Z vstupní geometrie, nebo None pokud je vstupní geometrie prázdná nebo neobsahuje souřadnice Z.
to_geography(col) Parsuje vstupní binární nebo řetězcovou hodnotu a vrátí odpovídající zeměpisnou hodnotu.
to_geometry(col) Parsuje vstupní binární nebo řetězcovou hodnotu a vrátí odpovídající hodnotu geometrie.
try_to_geography(col) Parsuje vstupní binární nebo řetězcovou hodnotu a vrátí odpovídající zeměpisnou hodnotu, nebo None je-li vstup neplatný.
try_to_geometry(col) Parsuje vstupní hodnotu BINÁRNÍ nebo řetězcové hodnoty a vrátí odpovídající hodnotu geometrie nebo None pokud je vstup neplatný.

Funkce CSV

Funkce Description
from_csv(col, schema[, options]) Parsuje sloupec obsahující řetězec CSV do řádku se zadaným schématem.
schema_of_csv(csv[, options]) Analyzuje řetězec CSV a odvodí jeho schéma ve formátu DDL.
to_csv(col[, options]) Převede sloupec obsahující typ struktury na řetězec CSV.

Funkce JSON

Funkce Description
from_json(col, schema[, options]) Parsuje sloupec obsahující řetězec JSON do MapType s StringType jako typem klíčů, a dále do StructType nebo ArrayType s určeným schématem.
get_json_object(col, path) Extrahuje objekt JSON z řetězce JSON na základě zadané cesty JSON a vrátí řetězec JSON extrahovaného objektu JSON.
json_array_length(col) Vrátí počet prvků v nejkrajnějším poli JSON.
json_object_keys(col) Vrátí všechny klíče vnějšího objektu JSON jako pole.
json_tuple(col, *fields) Vytvoří nový řádek pro sloupec JSON podle zadaných názvů polí.
schema_of_json(json[, options]) Parsuje řetězec JSON a odvodí jeho schéma ve formátu DDL.
to_json(col[, options]) Převede sloupec obsahující StructType, ArrayType nebo MapType na řetězec JSON.

Variantní funkce

Funkce Description
is_variant_null(v) Zkontrolujte, jestli je hodnota varianty null.
parse_json(col) Parsuje sloupec obsahující řetězec JSON do varianttype.
schema_of_variant(v) Vrátí schéma ve formátu SQL varianty.
schema_of_variant_agg(v) Vrátí sloučené schéma ve formátu SQL ve sloupci varianty.
try_variant_get(v, path, targetType) Extrahuje dílčí variantu z v podle cesty a potom přetypuje dílčí variantu na targetType.
variant_get(v, path, targetType) Extrahuje dílčí variantu z v podle cesty a potom přetypuje dílčí variantu na targetType.
try_parse_json(col) Parsuje sloupec obsahující řetězec JSON do varianttype.
to_variant_object(col) Převede sloupec obsahující vnořené vstupy (array/map/struct) na varianty, ve kterých se mapy a struktury převedou na objekty variant, které nejsou seřazené na rozdíl od struktur SQL.

Funkce XML

Funkce Description
from_xml(col, schema[, options]) Parsuje sloupec obsahující řetězec XML na řádek se zadaným schématem.
schema_of_xml(xml[, options]) Analyzuje řetězec XML a odvodí jeho schéma ve formátu DDL.
to_xml(col[, options]) Převede sloupec obsahující typ struktury na řetězec XML.
xpath(xml, path) Vrátí řetězcové pole hodnot v uzlech xml, které odpovídají výrazu XPath.
xpath_boolean(xml, path) Vrátí hodnotu true, pokud se výraz XPath vyhodnotí jako true nebo pokud se najde odpovídající uzel.
xpath_double(xml, path) Vrátí dvojitou hodnotu, hodnotu nula, pokud se nenajde žádná shoda, nebo NaN, pokud se najde shoda, ale hodnota není číselná.
xpath_float(xml, path) Vrací hodnotu s plovoucí desetinnou čárkou, hodnotu nula, pokud se nenajde žádná shoda, nebo NaN, pokud se shoda najde, ale hodnota není číselná.
xpath_int(xml, path) Vrátí celočíselnou hodnotu nebo hodnotu nula, pokud se nenajde žádná shoda, nebo se najde shoda, ale hodnota není číselná.
xpath_long(xml, path) Vrátí dlouhou celočíselnou hodnotu nebo hodnotu nula, pokud se nenajde žádná shoda, nebo se najde shoda, ale hodnota není číselná.
xpath_number(xml, path) Vrátí dvojitou hodnotu, hodnotu nula, pokud se nenajde žádná shoda, nebo NaN, pokud se najde shoda, ale hodnota není číselná.
xpath_short(xml, path) Vrátí krátkou celočíselnou hodnotu nebo hodnotu nula, pokud se nenajde žádná shoda, nebo se najde shoda, ale hodnota není číselná.
xpath_string(xml, path) Vrátí textový obsah prvního uzlu XML, který odpovídá výrazu XPath.

Funkce URL

Funkce Description
parse_url(url, partToExtract[, key]) Extrahuje zadanou část z adresy URL.
try_parse_url(url, partToExtract[, key]) Pokuste se provést parse_url operaci, ale místo vyvolání chyby v případě, že nelze provést analýzu, vrátí hodnotu NULL.
url_decode(str) Dekóduje řetězec kódovaný adresou URL ve application/x-www-form-urlencoded formátu do původního formátu.
url_encode(str) Zakóduje řetězec do URL-kódovaného řetězce ve formátu 'application/x-www-form-urlencoded'.
try_url_decode(str) Pokuste se provést url_decode operaci, ale místo vyvolání chyby vrátí hodnotu NULL, pokud dekódování nelze provést.

Různé funkce

Funkce Description
aes_decrypt(input, key[, mode, padding, aad]) Vrátí dešifrovanou hodnotu vstupu pomocí AES v režimu s výplní.
aes_encrypt(input, key[, mode, padding, iv, aad]) Vrátí zašifrovanou hodnotu vstupu pomocí AES v daném režimu se zadaným odsazením.
assert_true(col[, errMsg]) Vrátí hodnotu null, pokud je vstupní sloupec pravdivý; vyvolá výjimku s zadanou chybovou zprávou v opačném případě.
bitmap_bit_position(col) Vrátí pozici bitu pro daný vstupní sloupec.
bitmap_bucket_number(col) Vrátí číslo kontejneru pro daný vstupní sloupec.
bitmap_count(col) Vrátí počet nastavených bitů ve vstupní bitmapě.
current_catalog() Vrátí aktuální katalog.
current_database() Vrátí aktuální databázi.
current_schema() Vrátí aktuální schéma.
current_user() Vrátí aktuálního uživatele.
hll_sketch_estimate(col) Vrátí odhadovaný počet jedinečných hodnot vzhledem k binární reprezentaci objektu Datasketches HllSketch.
hll_union(col1, col2[, allowDifferentLgConfigK]) Sloučí dvě binární reprezentace objektů Datasketches HllSketch pomocí objektu Datasketches Union.
input_file_block_length() Vrátí délku bloku, který se čte, nebo -1, pokud není k dispozici.
input_file_block_start() Vrátí počáteční posun bloku, který se čte, nebo -1, pokud není k dispozici.
input_file_name() Vytvoří sloupec řetězce pro název souboru aktuální úlohy Sparku.
java_method(*cols) Volá metodu s reflexí.
monotonically_increasing_id() Sloupec, který generuje monotonicky rostoucí 64bitová celá čísla.
raise_error(errMsg) Vyvolá výjimku se zadanou chybovou zprávou.
reflect(*cols) Volá metodu s reflexí.
session_user() Vrátí uživatelské jméno aktuálního kontextu spuštění.
spark_partition_id() Sloupec pro ID oddílu.
try_aes_decrypt(input, key[, mode, padding, aad]) Pokuste se provést aes_decrypt operaci, ale místo vyvolání chyby vrátí hodnotu NULL, pokud dešifrování nelze provést.
try_reflect(*cols) Pokuste se provést operaci reflect, ale vraťte hodnotu NULL místo vyvolání chyby, pokud metoda vyvolá výjimku.
typeof(col) Vrátí řetězec typu ve formátu DDL pro datový typ vstupu.
user() Vrátí aktuálního uživatele.
version() Vrátí verzi Sparku.

Funkce UDF, UDTF, UDT

Funkce Description
call_udf(udfName, *cols) Volání uživatelem definované funkce
pandas_udf([f, returnType, functionType]) Vytvoří uživatelsky definovanou funkci Pandas (a.k.a.
udf([f, returnType, useArrow]) Vytvoří uživatelem definovanou funkci (UDF).
udtf([cls, returnType, useArrow]) Vytvoří uživatelem definovanou funkci tabulky (UDTF).
unwrap_udt(col) Rozbalte sloupec datového typu UDT do příslušného základního typu.

Funkce založené na hodnotách tabulky

Funkce Description
TableValuedFunction.collations() Zobrazit všechny kolace řetězců Spark SQL.
TableValuedFunction.explode(collection) Vrátí datový rámec obsahující nový řádek pro každý prvek v daném poli nebo mapě.
TableValuedFunction.explode_outer(collection) Vrátí datový rámec obsahující nový řádek pro každý prvek s pozicí v daném poli nebo mapě.
TableValuedFunction.inline(input) Převádí pole struktur do tabulky.
TableValuedFunction.inline_outer(input) Převádí pole struktur do tabulky.
TableValuedFunction.json_tuple(input, *fields) Vytvoří nový řádek pro sloupec JSON podle zadaných názvů polí.
TableValuedFunction.posexplode(collection) Vrátí datový rámec obsahující nový řádek pro každý prvek s pozicí v daném poli nebo mapě.
TableValuedFunction.posexplode_outer(collection) Vrátí datový rámec obsahující nový řádek pro každý prvek s pozicí v daném poli nebo mapě.
TableValuedFunction.range(start[, end, ...]) Vytvořte DataFrame s jedním sloupcem pyspark.sql.types.LongType pojmenovaným id, který obsahuje prvky v rozmezí od start do end (exclusive) se zadanou hodnotou kroku step.
TableValuedFunction.sql_keywords() Získejte klíčová slova Spark SQL.
TableValuedFunction.stack(n, *fields) Odděluje sloupce 1, ..., sloupce k do n řádků.
TableValuedFunction.variant_explode(input) Odděluje objekt nebo pole varianty do více řádků obsahujících jeho pole nebo prvky.
TableValuedFunction.variant_explode_outer(input) Odděluje objekt nebo pole varianty do více řádků obsahujících jeho pole nebo prvky.