Megosztás:


PySpark-függvények

Ez az oldal a Databricksben elérhető PySpark SQL-függvények listáját tartalmazza a megfelelő referenciadokumentációra mutató hivatkozásokkal.

Normál függvények

Funkció Description
broadcast(df) Egy DataFrame-et jelöl meg olyan kicsinek, hogy használható legyen broadcast csatlakozásokhoz.
call_function(funcName, *cols) SQL-függvény meghívása.
col(col) Egy oszlopot ad vissza a megadott oszlopnév alapján. column(col) is engedélyezett.
lit(col) Konstans értékű oszlopot hoz létre.
expr(str) A kifejezés sztringjének elemzése az általa képviselt oszlopba

Rendezési függvények

Funkció Description
asc(col) Növekvő sorrendben adja vissza a céloszlop rendezési kifejezését.
asc_nulls_first(col) Egy rendezési kifejezést ad vissza a megadott oszlopnév növekvő sorrendje szerint, ahol a null értékek megelőzik a nem null értékeket.
asc_nulls_last(col) Egy rendezési kifejezést ad vissza a megadott oszlopnév növekvő sorrendje alapján, és a null értékek nem null értékek után jelennek meg.
desc(col) Csökkenő sorrendben adja vissza a céloszlop rendezési kifejezését.
desc_nulls_first(col) Egy rendezési kifejezést ad vissza a megadott oszlopnév csökkenő sorrendje alapján, és a null értékek nem null értékek előtt jelennek meg.
desc_nulls_last(col) Egy rendezési kifejezést ad vissza a megadott oszlopnév csökkenő sorrendje alapján, és a null értékek nem null értékek után jelennek meg.

Feltételes függvények

Funkció Description
coalesce(*cols) Az első oszlopot adja vissza, amely nem null.
ifnull(col1, col2) A col2 értéket adja vissza, ha az 1. oszlop null értékű, vagy más esetben col1.
nanvl(col1, col2) Az első oszlop értékét adja vissza, ha nem NaN, vagy a második oszlop értékét, ha az első oszlop NaN.
nullif(col1, col2) Null értéket ad vissza, ha az 1. oszlop értéke col2, ellenkező esetben col1.
nullifzero(col) Null értéket ad vissza, ha a col nulla, különben a col értékét adja vissza.
nvl(col1, col2) A col2 értéket adja vissza, ha az 1. oszlop null értékű, vagy más esetben col1.
nvl2(col1, col2, col3) Col2 értéket ad vissza, ha az 1. oszlop nem null, vagy más esetben col3.
when(condition, value) Kiértékeli a feltételek listáját, és több lehetséges eredménykifejezés egyikét adja vissza.
zeroifnull(col) Null értéket ad vissza, ha a col értéke null, vagy más esetben a col értéket adja vissza.

Mintamegfeleltetési függvények

Funkció Description
equal_null(col1, col2) A nem null értékű operandusok EGYENLŐSÉG(=) operátorával megegyező eredményt ad vissza, de igaz értéket ad vissza, ha mindkettő null, hamis, ha az egyik null értékű.
ilike(str, pattern[, escapeChar]) Igaz értéket ad vissza, ha az str megfelel a mintának, kis- és nagybetűkre való érzéketlenséggel, null értéket ad vissza, ha bármelyik argumentum null értékű, egyébként hamis.
isnan(col) Olyan kifejezés, amely igaz értéket ad vissza, ha az oszlop NaN.
isnotnull(col) Igaz értéket ad vissza, ha a col értéke nem null, vagy máskülönben hamis.
isnull(col) Olyan kifejezés, amely igaz értéket ad vissza, ha az oszlop null értékű.
like(str, pattern[, escapeChar]) Igaz értéket ad vissza, ha az str megfelel a mintának escape karakterrel, nullát ad vissza, ha bármelyik argumentum null, hamis egyébként.
regexp(str, regexp) Igaz értéket ad vissza, ha az str illeszkedik a Java regex mintázathoz, ellenkező esetben hamis.
regexp_like(str, regexp) Igaz értéket ad vissza, ha az str illeszkedik a Java regex mintázathoz, ellenkező esetben hamis.
rlike(str, regexp) Igaz értéket ad vissza, ha az str illeszkedik a Java regex mintázathoz, ellenkező esetben hamis.

Matematikai függvények

Funkció Description
abs(col) Kiszámítja az adott oszlop vagy kifejezés abszolút értékét.
acos(col) Kiszámítja az adott oszlop vagy kifejezés inverz koszinuszát (más néven arccosine-t).
acosh(col) Kiszámítja az adott oszlop vagy kifejezés inverz hiperbolikus koszinuszát (más néven arcosh).
asin(col) Kiszámítja a bemeneti oszlop inverz szinuszát.
asinh(col) Kiszámítja a bemeneti oszlop hiperbolikus inverz szinuszát.
atan(col) A bemeneti oszlop inverz tangensének kiszámítása.
atan2(col1, col2) A sík pozitív x tengelye és a koordináták által megadott pont közötti radiánban megadott szög kiszámítása
atanh(col) Kiszámítja a bemeneti oszlop inverz hiperbolikus tangensét.
bin(col) Az adott oszlop bináris értékének sztring-ábrázolását adja vissza.
bround(col[, scale]) A megadott értéket kerekítsük tizedesjegyek számához a HALF_EVEN kerekítési mód alkalmazásával, ha a skála >= 0, vagy az egész része kerekítendő, amikor a skála < 0.
cbrt(col) Kiszámítja a megadott érték kockagyökerét.
ceil(col[, scale]) Kiszámítja a megadott érték felső határát.
ceiling(col[, scale]) Kiszámítja a megadott érték felső határát.
conv(col, fromBase, toBase) Sztringoszlopban lévő szám konvertálása egyik alapról a másikra.
cos(col) Kiszámítja a bemeneti oszlop koszinuszát.
cosh(col) Kiszámítja a bemeneti oszlop koszinusz hiperbolikuszát.
cot(col) Kiszámítja a bemeneti oszlop kotangensét.
csc(col) A bemeneti oszlop kosecantját számítja ki.
degrees(col) A radiánban mért szöget egy fokban mért, körülbelül egyenértékű szögre alakítja át.
e() Euler számát adja vissza.
exp(col) Kiszámítja a megadott érték exponenciális értékét.
expm1(col) Kiszámítja az adott érték exponenciális értékét mínusz egyet.
factorial(col) Kiszámítja a megadott érték faktoriálisát.
floor(col[, scale]) Kiszámítja a megadott érték padlóját.
greatest(*cols) Az oszlopnevek listájának legnagyobb értékét adja vissza, kihagyva a null értékeket.
hex(col) Kiszámítja az adott oszlop hexa értékét, amely lehet StringType, BinaryType, IntegerType vagy LongType.
hypot(col1, col2) Köztes túlcsordulás vagy alulcsordulás nélküli sqrt(a^2 + b^2) számítás.
least(*cols) Az oszlopnevek listájának legkisebb értékét adja vissza, kihagyva a null értékeket.
ln(col) Az argumentum természetes logaritmusát adja vissza.
log(arg1[, arg2]) A második argumentum első argumentumalapú logaritmusát adja vissza.
log10(col) Kiszámítja a megadott érték logaritmusát a 10. bázisban.
log1p(col) Kiszámítja az adott érték természetes logaritmusát plusz egy.
log2(col) Az argumentum 2. bázis logaritmusát adja vissza.
negate(col) A negatív értéket adja vissza.
negative(col) A negatív értéket adja vissza.
pi() A Pi értékét adja vissza.
pmod(dividend, divisor) Az osztalék mod osztó pozitív értékét adja eredményül.
positive(col) Az értéket adja vissza.
pow(col1, col2) A második argumentum hatványára emelt első argumentum értékét adja vissza.
radians(col) A fokban mért szöget radiánban mért, körülbelül egyenértékű szöggé alakítja át.
rand([seed]) Létrehoz egy véletlenszerű oszlopot független és azonos eloszlású (i.i.d.) mintákkal, egységesen elosztva [0.0, 1.0).
randn([seed]) Létrehoz egy véletlenszerű oszlopot független és azonos eloszlásból származó (i.i.d.) mintákkal a szabványos normális eloszlásból.
rint(col) Az argumentumhoz legközelebb eső, matematikai egész számokkal egyenlő dupla értéket adja vissza.
round(col[, scale]) A megadott értéket kerekítsük a tizedesjegyek számához a HALF_UP kerekítési mód használatával, ha a skála >= 0, vagy az egészrésznél, ha a skála < 0.
sec(col) Kiszámítja a bemeneti oszlop szekánsát.
sign(col) Kiszámítja a megadott érték jelét.
signum(col) Kiszámítja a megadott érték jelét.
sin(col) Kiszámítja a bemeneti oszlop szinuszát.
sinh(col) Kiszámítja a bemeneti oszlop szinusz hiperbolikuszát.
sqrt(col) Kiszámítja a megadott lebegőpontos érték négyzetgyökét.
tan(col) A bemeneti oszlop tangensét számítja ki.
tanh(col) Kiszámítja a bemeneti oszlop hiperbolikus tangensét.
try_add(left, right) A bal és a jobb oldali érték összegét adja vissza, az eredmény pedig null értékű a túlcsordulás esetén.
try_divide(left, right) Osztalékot/osztót ad vissza.
try_mod(left, right) Az osztalék/osztó után fennmaradó részt adja eredményül.
try_multiply(left, right) Visszaadja a bal és jobb szorzatát, és túlcsordulás esetén az eredmény null lesz.
try_subtract(left, right) A bal oldali értékből kivonja a jobb oldali értéket, és az eredmény túlcsordulás esetén null lesz.
unhex(col) A hexadecimális szám inverze.
uniform(min, max[, seed]) Véletlenszerű értéket ad vissza független és azonos eloszlású (i.i.d.) értékekkel a megadott számtartománysal.
width_bucket(v, min, max, numBucket) Azt a gyűjtőszámot adja vissza, amelybe a kifejezés értéke a kiértékelés után esne.

Karakterlánc függvények

Funkció Description
ascii(col) Kiszámítja a sztringoszlop első karakterének numerikus értékét.
base64(col) Kiszámítja egy bináris oszlop BASE64-kódolását, és sztringoszlopként adja vissza.
bit_length(col) Kiszámítja a megadott sztringoszlop bithosszát.
btrim(str[, trim]) Távolítsa el a bevezető és záró vágási karaktereket az str.ből.
char(col) Azt az ASCII-karaktert adja vissza, amelynek a bináris értéke megegyezik a col értékével.
char_length(str) A sztringadatok karakterhosszát vagy bináris adatok bájtjainak számát adja vissza.
character_length(str) A sztringadatok karakterhosszát vagy bináris adatok bájtjainak számát adja vissza.
chr(n) Azt az ASCII-karaktert adja vissza, amelynek bináris értéke n.
collate(col, collation) Adott oszlop megjelölése megadott rendezéssel.
collation(col) Egy adott oszlop rendezési nevét adja vissza.
concat_ws(sep, *cols) Több bemeneti sztringoszlop összefűzése egyetlen sztringoszlopba az adott elválasztó használatával.
contains(left, right) Logikai értéket ad vissza.
decode(col, charset) A bináris első argumentumot sztringgé alakítja a megadott karakterkészlet használatával (az US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32 egyikével).
elt(*inputs) Az n-edik bemenetet adja vissza, például a 2. bemenetet, ha n 2.
encode(col, charset) Az első argumentumot átalakítja binárissá egy sztringből a megadott karakterkészlet használatával, ami az egyike a következő karakterkészleteknek: US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32.
endswith(str, suffix) Logikai értéket ad vissza.
find_in_set(str, str_array) Az adott sztring (str) indexét (1-alapú) adja vissza a vesszővel tagolt listában (strArray).
format_number(col, d) Az X számot formázza olyan formátumra, mint a #,--#,--#.--, kerekítve d tizedesjegyre HALF_EVEN kerekítési móddal, és sztringként adja vissza az eredményt.
format_string(format, *cols) Formázza az argumentumokat printf-stílusban, és sztringoszlopként adja vissza az eredményt.
initcap(col) Minden szó első betűjének fordítása nagybetűsre a mondatban.
instr(str, substr) Keresse meg az első előfordulásának helyét a karakterláncban a "substr" oszlop alapján.
is_valid_utf8(str) Igaz értéket ad vissza, ha a bemenet érvényes UTF-8 sztring, ellenkező esetben hamis értéket ad vissza.
lcase(str) Az str értéket adja vissza, és az összes karakter kisbetűsre változott.
left(str, len) A bal szélső len (len lehet karakterlánc típusú) karaktert visszaadja a karakterlánc str-ből, ha a len kisebb vagy egyenlő 0-val, az eredmény egy üres karakterlánc.
length(col) Kiszámítja a sztringadatok karakterhosszát vagy bináris adatok bájtjainak számát.
levenshtein(left, right[, threshold]) Kiszámítja a két megadott sztring Levenshtein-távolságát.
locate(substr, str[, pos]) Keresse meg az alsztring első előfordulásának helyét egy karakterlánc oszlopban, a megadott pozíció után.
lower(col) Sztringkifejezést kisbetűssé alakít át.
lpad(col, len, pad) A karakterlánc oszlopot balról töltse fel a megadott szélességre a kitöltő karakterrel.
ltrim(col[, trim]) A megadott sztringérték bal végéről levághatja a szóközöket.
make_valid_utf8(str) Egy új sztringet ad vissza, amelyben az összes érvénytelen UTF-8 bájtsorozatot felváltja a Unicode helyettesítő karakter (U+FFFD).
mask(col[, upperChar, lowerChar, digitChar, ...]) Maszkolja a megadott karakterlánc értéket.
octet_length(col) Kiszámítja a megadott sztringoszlop bájthosszát.
overlay(src, replace, pos[, len]) Helyezze rá az src megadott részét a replace-re, kezdve az src pozíciójának megadott bájtjától, és folytassa a len bájtig.
position(substr, str[, start]) Az alsztring első előfordulásának pozícióját adja vissza az str-ben a pozíció kezdete után.
printf(format, *cols) Formázza az argumentumokat printf-stílusban, és sztringoszlopként adja vissza az eredményt.
randstr(length[, seed]) A megadott hosszúságú karakterláncot adja vissza, amelynek karaktereit véletlenszerűen választja ki a következő karakterkészletből: 0-9, a-z, A-Z.
regexp_count(str, regexp) A Java regex minta regexp értékének a sztringben való egyeztetésének számát adja vissza.
regexp_extract(str, pattern, idx) A Java regex regexp által egyeztetett adott csoport kinyerése a megadott sztringoszlopból.
regexp_extract_all(str, regexp[, idx]) Bontsa ki az str összes sztringet, amely megfelel a Java regex regexp-nek, és megfelel a regex csoportindexnek.
regexp_instr(str, regexp[, idx]) A Java regex regexp-nek megfelelő és a regex csoportindexnek megfelelő első részstring pozícióját adja vissza az str-ben.
regexp_replace(string, pattern, replacement) Cserélje le a megadott sztringérték azon alsztringjeit, amelyek megfelelnek a regexp-nek, a megadott helyettesítéssel.
regexp_substr(str, regexp) Az első részszöveget adja vissza, amely megegyezik a Java reguláris kifejezéssel a str sztringen belül.
repeat(col, n) Egy sztringoszlopot n alkalommal ismétel meg, és új sztringoszlopként adja vissza.
replace(src, search[, replace]) A keresés összes előfordulását lecseréli a csere gombra.
right(str, len) A jobboldali len (len lehet karakterlánc típusú) karaktert adja vissza a karakterláncból str. Ha len kisebb vagy egyenlő 0-val, az eredmény egy üres karakterlánc.
rpad(col, len, pad) A karakterlánc oszlop jobb oldali kitöltése megadott szélességűre a kitöltő karakterrel.
rtrim(col[, trim]) Vágja le a szóközöket a megadott karakterlánc-érték jobb végéről.
sentences(string[, language, country]) A sztringet mondatok tömbjeire bontja, ahol minden mondat szavak tömbje.
soundex(col) A karakterlánc SoundEx kódolását adja vissza.
split(str, pattern[, limit]) Az adott mintának megfelelő egyezések mentén osztja fel a karakterláncot.
split_part(src, delimiter, partNum) Elválasztja az str-et elválasztójel alapján, és visszaadja a felosztás kért részét (1-alapú).
startswith(str, prefix) Logikai értéket ad vissza.
substr(str, pos[, len]) A pos-ról induló és len hosszúságú str részsztringet adja vissza, vagy a pos-nál kezdődő és len hosszúságú bájttömb szeletét.
substring(str, pos, len) A részsztring pos-ról indul és len hosszúságú, ha a str karakterlánctípusú, vagy visszaadja a bájttömb azon részletét, amely a pos bájtnál kezdődik, és len hosszúságú, ha a str bináris típusú.
substring_index(str, delim, count) Visszaadja a karakterlánc str-ből azokat a részszövegeket, amelyek az elválasztó elválasztójel előfordulásainak számát megelőzik.
to_binary(col[, format]) A bemeneti oszlopot bináris értékké alakítja a megadott formátum alapján.
to_char(col, format) A formátum alapján alakítsa a col stringgé.
to_number(col, format) Konvertálja a "col" sztringet számmá a "formátum" sztringformátum alapján.
to_varchar(col, format) A formátum alapján alakítsa a col stringgé.
translate(srcCol, matching, replace) A srcCol bármely karakterét lefordíthatja egy egyező karakterrel.
trim(col[, trim]) A megadott sztringoszlop mindkét végéről levághatja a szóközöket.
try_to_binary(col[, format]) Próbálja meg végrehajtani a to_binary műveletet, de null értéket ad vissza ahelyett, hogy hibát jelezne, ha az átalakítás nem hajtható végre.
try_to_number(col, format) Sztring col konvertálása számmá a sztringformátum formatalapján.
try_validate_utf8(str) A bemeneti értéket adja vissza, ha az érvényes UTF-8 karakterlánc, máskülönben NULL-t ad vissza.
ucase(str) Az str értéket adja vissza, amelynek minden karaktere nagybetűsre változott.
unbase64(col) Dekódol egy BASE64 kódolású sztringoszlopot, és bináris oszlopként adja vissza.
upper(col) Sztringkifejezést nagybetűssé alakít át.
validate_utf8(str) A bemeneti értéket adja vissza, ha az érvényes UTF-8 sztringnek felel meg, vagy máskülönben hibát ad ki.

Bitenkénti függvények

Funkció Description
bit_count(col) Az argumentumban beállított bitek számát adja vissza mint egy előjel nélküli 64 bites egész szám, vagy NULL értéket ad vissza, ha az argumentum NULL.
bit_get(col, pos) A bit (0 vagy 1) értékét adja vissza a megadott pozícióban.
bitwise_not(col) Bitenkénti logikai NEM műveletet hajt végre.
getbit(col, pos) A bit (0 vagy 1) értékét adja vissza a megadott pozícióban.
shiftleft(col, numBits) Helyezd a megadott értéket numBits-szel balra.
shiftright(col, numBits) (Aláírt) eltolja a megadott numBits értéket jobbra.
shiftrightunsigned(col, numBits) Előjel nélküli jobbra tolás a megadott érték numBits-szel.

Dátum-/időfüggvények

Funkció Description
add_months(start, months) Azt a dátumot adja vissza, amely hónapokkal a kezdés után van.
convert_timezone(sourceTz, targetTz, sourceTs) Az időzóna nélküli időbélyeget a sourceTz időzónából targetTz-vé alakítja.
curdate() A lekérdezés kiértékelésének kezdetének aktuális dátumát adja vissza DateType oszlopként.
current_date() A lekérdezés kiértékelésének kezdetének aktuális dátumát adja vissza DateType oszlopként.
current_timestamp() Az aktuális időbélyeget adja vissza a lekérdezés kiértékelésének kezdetekor Időbélyegtípus oszlopként.
current_timezone() Az aktuális munkamenet helyi időzónájának értékét adja vissza.
date_add(start, days) Visszaadja azt a dátumot, amely napokkal a kezdés után van.
date_diff(end, start) Az elejétől a végéig számított napok számát adja vissza.
date_format(date, format) Dátum/időbélyeg/sztring konvertálása karakterláncként a második argumentum által meghatározott dátumformátum szerint.
date_from_unix_date(days) Dátum létrehozása az 1970-01-01 óta eltelt napok számából.
date_part(field, source) Kinyeri a dátum/időbélyeg vagy intervallum forrásának egy részét.
date_sub(start, days) Azt a dátumot adja vissza, amely napokkal a kezdés előtt van.
date_trunc(format, timestamp) A formátum által megadott egységre csonkolt időbélyeget ad vissza.
dateadd(start, days) Visszaadja azt a dátumot, amely napokkal a kezdés után van.
datediff(end, start) Az elejétől a végéig számított napok számát adja vissza.
datepart(field, source) Kinyeri a dátum/időbélyeg vagy intervallum forrásának egy részét.
day(col) Kinyerheti egy adott dátum/időbélyeg hónapjának napját egész számként.
dayname(col) A hárombetűs rövidített napnevet adja vissza a megadott dátumból.
dayofmonth(col) Kinyerheti egy adott dátum/időbélyeg hónapjának napját egész számként.
dayofweek(col) Kinyerheti egy adott dátum/időbélyeg hétének napját egész számként.
dayofyear(col) Adott dátum/időbélyeg alapján nyerje ki az év napját egész számként.
extract(field, source) Kinyeri a dátum/időbélyeg vagy intervallum forrásának egy részét.
from_unixtime(timestamp[, format]) A Unix-korszak másodperceinek számát (1970-01-01 00:00:00 UTC) egy sztringgé alakítja, amely az adott időpont időbélyegét adja meg az aktuális rendszeridőzónában az adott formátumban.
from_utc_timestamp(timestamp, tz) Ez a TIMESTAMP WITHOUT TIMEZONEfüggvényt támogató adatbázisok gyakori függvénye.
hour(col) Nyerje ki egy adott időbélyeg órákat egész számként.
last_day(date) Annak a hónapnak az utolsó napját adja vissza, amelyhez a megadott dátum tartozik.
localtimestamp() Az aktuális időbélyeget időzóna nélkül adja vissza a lekérdezés kiértékelésének kezdetekor időzóna oszlop nélküli időbélyegként.
make_date(year, month, day) Az év, a hónap és a nap oszlopból összeállított dátummal rendelkező oszlopot ad vissza.
make_dt_interval([days, hours, mins, secs]) A DayTimeIntervalType időtartamának beállítása napok, órák, percek és másodpercek alapján.
make_interval([years, months, weeks, days, ...]) Intervallumot készíthet évek, hónapok, hetek, napok, órák, percek és másodpercek alapján.
make_timestamp(years, months, days, hours, ...) Időbélyeg létrehozása évekből, hónapokból, napokból, órákból, percekből, másodpercekből és időzónából.
make_timestamp_ltz(years, months, days, ...) Hozza létre az aktuális időbélyeget a helyi időzónával évek, hónapok, napok, órák, percek, másodpercek és időzóna mezők alapján.
make_timestamp_ntz(years, months, days, ...) Helyi dátum-idő létrehozása évek, hónapok, napok, órák, percek, másodpercek mezőiből.
make_ym_interval([years, months]) Év és hónap intervallum készítése évekből és hónapokból.
minute(col) Az adott időbélyeg percértékének egész számként való kinyerése.
month(col) Egy adott dátum/időbélyeg hónapjának kinyerése egész számként.
monthname(col) A hárombetűs rövidített hónapnevet adja vissza a megadott dátumból.
months_between(date1, date2[, roundOff]) A dátum1 és a dátum2 közötti hónapok számát adja eredményül.
next_day(date, dayOfWeek) Az első dátumot adja vissza, amely későbbi, mint a dátumoszlop értéke a második hét nap argumentuma alapján.
now() Az aktuális időbélyeget adja vissza a lekérdezés kiértékelésének kezdetekor.
quarter(col) Határozza meg egy adott dátum vagy időbélyeg negyedévét egész számként.
second(col) Egy adott dátum másodperceinek kinyerése egész számként.
session_window(timeColumn, gapDuration) Munkamenetablakot hoz létre egy időbélyeget megadva, amely oszlopot ad meg.
time_diff(unit, start, end) A két alkalommal megadott egységekben mért különbséget adja vissza.
time_from_micros(col) Időértéket hoz létre a mikroszekundumokból éjfél óta.
time_from_millis(col) Ezredmásodpercből hoz létre időértéket éjfél óta.
time_from_seconds(col) Időértéket hoz létre az éjfél óta eltelt másodpercből (támogatja a tört másodpercet).
time_to_micros(col) Kinyeri a mikroszekundumokat a TIME értékből.
time_to_millis(col) Ezredmásodperceket nyer ki a TIME értékből.
time_to_seconds(col) Másodperceket nyer ki a TIME értékből.
time_trunc(unit, time) Az egységhez csonkolt időt ad vissza.
timestamp_add(unit, quantity, ts) A megadott egységekben lévő időbélyegek különbségét kapja meg a törtrész csonkolásával.
timestamp_diff(unit, start, end) A megadott egységekben lévő időbélyegek különbségét kapja meg a törtrész csonkolásával.
timestamp_micros(col) Időbélyeget hoz létre a mikroszekundumok számából az UTC-időszámítás óta.
timestamp_millis(col) Időbélyeget hoz létre az UTC-időszámítás óta eltelt ezredmásodpercből.
timestamp_seconds(col) A Unix-korszak (1970-01-01T00:00:00:00Z) másodperceinek számát időbélyegzővé alakítja.
to_date(col[, format]) Oszlopot konvertál pyspark.sql.types.DateType formátumba az opcionálisan megadott formátum használatával.
to_time(str, format) Az oszlopot az opcionálisan megadott formátummal konvertálja TimeType formátumba.
to_timestamp(col[, format]) Oszlopot konvertál pyspark.sql.types.TimestampType formátumba az opcionálisan megadott formátum használatával.
to_timestamp_ltz(timestamp[, format]) Az időbélyeget a formátummal együtt időzóna szerint elemzi.
to_timestamp_ntz(timestamp[, format]) Az időbélyeget a formátummal elemzi időzóna nélküli időbélyeggé.
to_unix_timestamp(timestamp[, format]) Az adott idő UNIX időbélyegét adja vissza.
to_utc_timestamp(timestamp, tz) Ez a TIMESTAMP WITHOUT TIMEZONEfüggvényt támogató adatbázisok gyakori függvénye.
trunc(date, format) A formátum által megadott egységre csonkolt dátumot ad vissza.
try_make_interval([years, months, weeks, ...]) Próbáljon meg végrehajtani egy make_interval műveletet, de null értéket ad vissza ahelyett, hogy hibát jelezne, ha az intervallum nem hozható létre.
try_make_timestamp(years, months, days, ...) Próbáljon időbélyeget létrehozni évek, hónapok, napok, órák, percek, másodpercek és időzónás mezők alapján.
try_make_timestamp_ltz(years, months, days, ...) Próbálja meg létrehozni az aktuális időbélyeget a helyi időzónával évek, hónapok, napok, órák, percek, másodpercek és időzóna mezők alapján.
try_make_timestamp_ntz(years, months, days, ...) Próbáljon meg helyi dátum-időt létrehozni évek, hónapok, napok, órák, percek, másodpercek mezőiből.
try_to_time(str, format) Az oszlopot az opcionálisan megadott formátummal konvertálja TimeType formátumba.
try_to_timestamp(col[, format]) A col formátumát időbélyegzőre elemzi.
unix_date(col) Az 1970-01-01 óta eltelt napok számát adja eredményül.
unix_micros(col) A mikroszekundumok számát adja vissza 1970-01-01 00:00:00 (UTC) óta.
unix_millis(col) Az ezredmásodpercek számát adja vissza 1970-01-01 00:00:00 (UTC) óta.
unix_seconds(col) Az 1970.01.01. 00:00:00 UTC óta eltelt másodpercek számát adja vissza.
unix_timestamp([timestamp, format]) Konvertálja az idősztringet megadott mintával (alapértelmezés szerint yyyy-MM-dd HH:mm:ss) Unix időbélyegzővé (másodpercben), az alapértelmezett időzónával és az alapértelmezett területi beállítással null értéket ad vissza, ha nem sikerült.
weekday(col) A dátum/időbélyeg hét napját adja vissza (0 = hétfő, 1 = kedd, ..., 6 = vasárnap).
weekofyear(col) Adja meg egy adott dátum hétszámát egész számként.
window(timeColumn, windowDuration[, ...]) Sorok gyűjtőbe helyezése egy vagy több időablakba egy időbélyeget tartalmazó oszlop alapján.
window_time(windowColumn) Egy ablakoszlop eseményidejének kiszámítása.
year(col) Egy adott dátum/időbélyeg évének kinyerése egész számként.

Kivonatfüggvények

Funkció Description
crc32(col) Kiszámítja egy bináris oszlop ciklikus redundancia-ellenőrzési értékét (CRC32), és bigintként adja vissza az értéket.
hash(*cols) Kiszámítja a megadott oszlopok kivonatkódját, és az eredményt int oszlopként adja vissza.
md5(col) Kiszámítja az MD5 kivonatot, és 32 karakteres hexa sztringként adja vissza az értéket.
sha(col) Egy sha1 hash értéket ad vissza a col hexadecimális karakterláncaként.
sha1(col) Az SHA-1 hexa sztringjének eredményét adja vissza.
sha2(col, numBits) Az SHA-2 kivonatfüggvénycsalád (SHA-224, SHA-256, SHA-384 és SHA-512) hexa sztringeredményét adja vissza.
xxhash64(*cols) Kiszámítja az adott oszlopok kivonatkódját az xxHash algoritmus 64 bites változatával, és hosszú oszlopként adja vissza az eredményt.

Gyűjteményfüggvények

Funkció Description
aggregate(col, initialValue, merge[, finish]) Bináris operátort alkalmaz egy kezdeti állapotra és a tömb összes elemére, és ezt egyetlen állapotra csökkenti.
cardinality(col) Az oszlopban tárolt tömb vagy térkép hosszát adja vissza.
concat(*cols) Több bemeneti oszlop összefűzése egyetlen oszlopba.
element_at(col, extraction) Visszaadja a tömb elemét az adott (1-alapú) index alapján.
exists(col, f) Azt adja vissza, hogy egy predikátum a tömb egy vagy több eleméhez rendelkezik-e.
filter(col, f) Olyan elemtömböt ad vissza, amelyhez egy predikátum egy adott tömbben található.
forall(col, f) Visszaadja, hogy egy predikátum igaz-e a tömb minden elemére.
map_filter(col, f) Egy új térképoszlopot ad vissza, amelynek kulcs-érték párjai megfelelnek egy adott predikátumfüggvénynek.
map_zip_with(col1, col2, f) Két adott térképet egyesít egyetlen térképbe úgy, hogy egy függvényt alkalmaz a kulcs-érték párokra.
reduce(col, initialValue, merge[, finish]) Bináris operátort alkalmaz egy kezdeti állapotra és a tömb összes elemére, és ezt egyetlen állapotra csökkenti.
reverse(col) Visszafordított szöveget vagy fordított sorrendű elemeket tartalmazó tömböt ad vissza.
size(col) Az oszlopban tárolt tömb vagy térkép hosszát adja vissza.
transform(col, f) Egy elemtömböt ad vissza, miután átalakítást alkalmaz a bemeneti tömb minden elemére.
transform_keys(col, f) Függvényt alkalmaz a térkép összes kulcs-érték párjára, és visszaad egy térképet, amely az alkalmazás eredményeit tartalmazza a párok új kulcsaként.
transform_values(col, f) Egy függvényt alkalmaz a térkép összes kulcs-érték párjára, és visszaad egy térképet, amely az alkalmazások eredményeit tartalmazza, mint a párok új értékeit.
try_element_at(col, extraction) A tömb adott (1-alapú) indexben lévő elemét adja vissza.
zip_with(left, right, f) Két adott tömb egyesítése egy függvény használatával, elemalapúan egyetlen tömbbe.

Tömb függvények

Funkció Description
array(*cols) Új tömboszlopot hoz létre a bemeneti oszlopokból vagy oszlopnevekből.
array_append(col, value) Egy új tömboszlopot ad vissza úgy, hogy az értéket hozzáfűzi a meglévő tömboszlophoz.
array_compact(col) Eltávolítja a null értékeket a tömbből.
array_contains(col, value) Egy logikai értéket ad vissza, amely azt jelzi, hogy a tömb tartalmazza-e a megadott értéket: null, ha a tömb null, igaz, ha a tömb tartalmazza a megadott értéket, és máskülönben hamis.
array_distinct(col) Eltávolítja az ismétlődő értékeket a tömbből.
array_except(col1, col2) Egy új tömböt ad vissza, amely az 1. col1-ben található elemeket tartalmazza, de nem a col2-ben, ismétlődések nélkül.
array_insert(arr, pos, value) Elemet szúr be egy adott tömbbe egy adott tömbindexen.
array_intersect(col1, col2) Egy új tömböt ad vissza, amely az 1. és a 2. oszlop elemeinek metszetét tartalmazza ismétlődések nélkül.
array_join(col, delimiter[, null_replacement]) Sztringoszlopot ad vissza a bemeneti tömboszlop elemeinek összefűzésével a határoló használatával.
array_max(col) A tömb maximális értékét adja vissza.
array_min(col) A tömb minimális értékét adja vissza.
array_position(col, value) Megkeresi az adott érték első előfordulásának helyét az adott tömbben.
array_prepend(col, value) Egy tömböt ad vissza, amely az adott elemet tartalmazza első elemként, a többi elemet pedig az eredeti tömbből.
array_remove(col, element) Távolítsa el az elemekkel egyenlő elemeket az adott tömbből.
array_repeat(col, count) Olyan tömböt hoz létre, amely ismétlődő számokat tartalmazó oszlopot tartalmaz.
array_size(col) A tömb elemeinek teljes számát adja vissza.
array_sort(col[, comparator]) Növekvő sorrendbe rendezi a bemeneti tömböt.
array_union(col1, col2) Egy új tömböt ad vissza, amely az 1. és a 2. oszlop elemeinek egyesítését tartalmazza ismétlődések nélkül.
arrays_overlap(a1, a2) Logikai oszlopot ad vissza, amely azt jelzi, hogy a bemeneti tömbök közös, nem null értékű elemekkel rendelkeznek-e, igaz értéket adnak vissza, ha igen, null értéket, ha a tömbök nem tartalmaznak közös elemeket, de nem üresek, és legalább az egyik null elemet tartalmaz, máskülönben hamis.
arrays_zip(*cols) Egy egyesített szerkezettömböt ad vissza, amelyben az N-edik szerkezet a bemeneti tömbök összes N-edik értékét tartalmazza.
flatten(col) Egyetlen tömböt hoz létre tömbök tömbjeiből.
get(col, index) Egy tömb elemét adja vissza a megadott (0-alapú) indexben.
sequence(start, stop[, step]) Egész számok sorozatának létrehozása az elejétől a leállásig, lépésenkénti növekményekkel.
shuffle(col[, seed]) Az adott tömb véletlenszerű permutációját hozza létre.
slice(x, start, length) Egy új tömboszlopot ad vissza úgy, hogy a bemeneti tömboszlopot egy kezdőindexből egy adott hosszra szeleteli.
sort_array(col[, asc]) A bemeneti tömböt növekvő vagy csökkenő sorrendbe rendezi a tömbelemek természetes sorrendje szerint.

Struktúrafüggvények

Funkció Description
named_struct(*cols) Létrehoz egy szerkezetet a megadott mezőnevekkel és értékekkel.
struct(*cols) Új szerkezetoszlopot hoz létre.

Térkép funkciók

Funkció Description
create_map(*cols) Páros számú bemeneti oszlopból vagy oszlophivatkozásból hoz létre új térképoszlopot.
map_concat(*cols) Az összes adott térkép egyesítését adja vissza.
map_contains_key(col, value) Igaz értéket ad vissza, ha a térkép tartalmazza a kulcsot.
map_entries(col) Egy rendezetlen tömböt ad vissza az adott térkép összes bejegyzéséből.
map_from_arrays(col1, col2) Új térképet hoz létre két tömbből.
map_from_entries(col) Kulcs-érték pár bejegyzéseinek tömbje (két mezővel rendelkező szerkezetek) térképpé alakítása.
map_keys(col) A térkép kulcsait tartalmazó rendezetlen tömböt ad vissza.
map_values(col) A térkép értékeit tartalmazó rendezetlen tömböt ad vissza.
str_to_map(text[, pairDelim, keyValueDelim]) A sztringeket térképpé alakítja, miután a szöveget kulcs-érték párokra osztotta elválasztójelek használatával.

Összesítő függvények

Funkció Description
any_value(col[, ignoreNulls]) Egy sorcsoporthoz tartozó oszlopértéket ad vissza.
approx_count_distinct(col[, rsd]) Egy új oszlopot ad vissza, amely megbecsüli egy adott oszlop vagy oszlopcsoport elemeinek hozzávetőleges eltérő számát.
approx_percentile(col, percentage[, accuracy]) A számoszlop colának hozzávetőleges percentilisét adja vissza, amely a legkisebb érték a rendezett kol értékekben (a legkisebbtől a legnagyobbig rendezve), így a col értékek legfeljebb százalékos aránya kisebb, mint az érték, vagy egyenlő az adott értékkel.
approx_top_k(col, k, maxItemsTracked) A sztringben, logikai értékben, dátumban, időbélyegben vagy numerikus oszlopban leggyakrabban előforduló k elemértékeket adja vissza a hozzávetőleges számokkal együtt.
array_agg(col) Ismétlődő objektumokat tartalmazó listát ad vissza.
avg(col) Egy csoport értékeinek átlagát adja eredményül.
bit_and(col) Az összes nem null bemeneti érték bitenkénti ÉS értékét adja vissza, vagy null értéket, ha nincs.
bit_or(col) Az összes nem null értékű bemeneti érték bitenkénti VAGY műveletének eredményét adja vissza, vagy null értéket, ha nincs ilyen bemeneti érték.
bit_xor(col) Az összes nem null bemeneti érték bitenkénti XOR-értékét adja vissza, vagy null értéket, ha nincs.
bitmap_construct_agg(col) Egy bitképet ad vissza a bemeneti oszlop összes értékéből beállított bitek pozícióival.
bitmap_or_agg(col) Egy bitképet ad vissza, amely a bemeneti oszlopban lévő összes bitkép bitenkénti vagy összes bitképét tartalmazza.
bool_and(col) Igaz értéket ad vissza, ha a col összes értéke igaz.
bool_or(col) Igaz értéket ad vissza, ha legalább egy oszlop értéke igaz.
collect_list(col) Egy oszlop értékeit egy listába gyűjti, megtartva az ismétlődéseket, és visszaadja az objektumok listáját.
collect_set(col) Összegyűjti egy oszlop értékeit egy halmazba, kiküszöbölve az ismétlődéseket, és visszaadja ezt az objektumkészletet.
corr(col1, col2) Egy új oszlopot ad vissza az oszlop1 és oszlop2 közötti Pearson-féle korrelációs együtthatóhoz.
count(col) Egy csoport elemeinek számát adja vissza.
count_distinct(col, *cols) Új oszlopot ad vissza a megadott oszlop vagy oszlopok különböző értékeinek számához.
count_if(col) Az oszlop IGAZ értékeinek számát adja eredményül.
count_min_sketch(col, eps, confidence[, seed]) Egy oszlop count-min vázlatát adja vissza a megadott esp, megbízhatóság és véletlenszám-generátor magja segítségével.
covar_pop(col1, col2) Egy új oszlopot ad vissza az oszlop1 és oszlop2 népességi kovarianciájának.
covar_samp(col1, col2) Egy új oszlopot ad vissza a col1 és col2 minta kovarianciájához.
every(col) Igaz értéket ad vissza, ha a col összes értéke igaz.
first(col[, ignorenulls]) Egy csoport első értékét adja vissza.
first_value(col[, ignoreNulls]) Az egy sorcsoportban található oszlop első értékét adja vissza.
grouping(col) Azt jelzi, hogy a GROUP BY lista egy adott oszlopa összesítve van-e vagy sem; az eredményhalmazban összesítettként 1-et, nem összesítve 0-t ad vissza.
grouping_id(*cols) A csoportosítás szintjét adja vissza, egyenlő
histogram_numeric(col, nBins) Kiszámítja a hisztogramot a numerikus "col" nb binek használatával.
hll_sketch_agg(col[, lgConfigK]) Az lgConfigK arg használatával konfigurált Datasketches HllSketch frissíthető bináris reprezentációját adja vissza.
hll_union_agg(col[, allowDifferentLgConfigK]) A Datasketches HllSketch frissíthető bináris reprezentációját adja vissza, amely a korábban létrehozott Datasketches HllSketch-példányok Datasketches Union-példányon keresztüli egyesítésével jön létre.
kurtosis(col) Egy csoport értékeinek kurtózisát adja vissza.
last(col[, ignorenulls]) Egy csoport utolsó értékét adja vissza.
last_value(col[, ignoreNulls]) Egy sorcsoport oszlopának utolsó értékét adja vissza.
listagg(col[, delimiter]) A nem null értékű bemeneti értékek összefűzését adja vissza, a határolóval elválasztva.
listagg_distinct(col[, delimiter]) A különböző, nem null input értékek összefűzésének eredményét adja vissza, a határolóval elválasztva.
max(col) Egy csoport kifejezésének maximális értékét adja vissza.
max_by(col, ord) Az ord paraméter maximális értékéhez társított col paraméter értékét adja vissza.
mean(col) Egy csoport értékeinek átlagát adja eredményül.
median(col) Egy csoport értékeinek mediánját adja vissza.
min(col) Egy csoport kifejezésének minimális értékét adja vissza.
min_by(col, ord) A minimális értékkel rendelkező ord paraméterhez társított col paraméter értékét adja vissza.
mode(col[, deterministic]) Egy csoport leggyakoribb értékét adja vissza.
percentile(col, percentage[, frequency]) A numerikus oszlop kitevőjének pontos percentilisét adja vissza az adott százalék(ok) értéktartományával [0,0, 1,0].
percentile_approx(col, percentage[, accuracy]) A számoszlop colának hozzávetőleges percentilisét adja vissza, amely a legkisebb érték a rendezett kol értékekben (a legkisebbtől a legnagyobbig rendezve), így a col értékek legfeljebb százalékos aránya kisebb, mint az érték, vagy egyenlő az adott értékkel.
product(col) Egy csoport értékeinek szorzatát adja vissza.
regr_avgx(y, x) A nem null párok független változójának átlagát adja vissza egy csoportban, ahol az y a függő változó, x pedig a független változó.
regr_avgy(y, x) A nem null párok függő változójának átlagát adja vissza egy csoportban, ahol az y a függő változó, x pedig a független változó.
regr_count(y, x) A nem null értékű számpárok számát adja vissza egy csoportban, ahol az y a függő változó, x pedig a független változó.
regr_intercept(y, x) A nem null párok egyváltozós lineáris regressziós vonalának metszetét adja vissza egy csoportban, ahol y a függő változó, x pedig a független változó.
regr_r2(y, x) A nem null párok meghatározásának együtthatóját adja vissza egy csoportban, ahol az y a függő változó, x pedig a független változó.
regr_slope(y, x) A nem null párok lineáris regressziós vonalának meredekségét adja vissza egy csoportban, ahol y a függő változó, x pedig a független változó.
regr_sxx(y, x) REGR_COUNT(y, x) * VAR_POP(x) értéket ad vissza egy csoport nem null párjaihoz, ahol y a függő változó, az x pedig a független változó.
regr_sxy(y, x) REGR_COUNT(y, x) * COVAR_POP(y, x) értéket ad vissza egy csoport nem null párjaihoz, ahol az y a függő változó, az x pedig a független változó.
regr_syy(y, x) REGR_COUNT(y, x) * VAR_POP(y) értéket ad vissza egy csoport nem null párjaihoz, ahol az y a függő változó, az x pedig a független változó.
skewness(col) A csoport értékeinek ferdeségét adja vissza.
some(col) Igaz értéket ad vissza, ha legalább egy oszlop értéke igaz.
std(col) Alias a következőhöz stddev_samp: .
stddev(col) Alias a következőhöz stddev_samp: .
stddev_pop(col) A csoport kifejezésének populáció standard eltérését adja eredményül.
stddev_samp(col) Egy csoport kifejezésének elfogulatlan mintabeli szórását adja vissza.
string_agg(col[, delimiter]) A nem null értékű bemeneti értékek összefűzését adja vissza, a határolóval elválasztva.
string_agg_distinct(col[, delimiter]) A különböző, nem null input értékek összefűzésének eredményét adja vissza, a határolóval elválasztva.
sum(col) A kifejezés összes értékének összegét adja vissza.
sum_distinct(col) A kifejezés különböző értékeinek összegét adja vissza.
try_avg(col) Egy csoport értékeiből számított középértéket számítja ki, és az eredmény null a túlcsorduláson.
try_sum(col) Egy csoport értékeiből kiszámított összeget számítja ki, és az eredmény null értékű a túlcsordulás esetén.
var_pop(col) Egy csoport értékeinek sokasági varianciáját adja vissza.
var_samp(col) A csoport értékeinek elfogulatlan szórását adja vissza.
variance(col) Alias a következőhöz: var_samp

Ablakfunkciók

Funkció Description
cume_dist() Egy ablakpartíció értékeinek eloszlását adja vissza, azaz az aktuális sor alatti sorok törtrészét.
dense_rank() Egy ablakpartíció sorainak rangját adja vissza, hézagok nélkül.
lag(col[, offset, default]) Az aktuális sor előtti sorok eltolásának értékét adja vissza, az alapértelmezett értéket pedig akkor, ha az aktuális sor előtt kevesebb sor van eltolva.
lead(col[, offset, default]) Azt az értéket adja vissza, amely az aktuális sor után eltolt sorokat adja vissza, és az alapértelmezett értéket, ha az aktuális sor után kevesebb eltolási sor van.
nth_value(col, offset[, ignoreNulls]) Az ablakkeret eltolási sorát (1-től számítva) és null értéket adja vissza, ha az ablakkeret mérete kisebb, mint az eltolási soroké.
ntile(n) Egy rendezett ablakpartíció ntile-csoportazonosítóját adja vissza (1 és n között).
percent_rank() A relatív rangot adja vissza (azaz
rank() Egy ablakpartíció sorainak rangját adja vissza.
row_number() Egy 1-től kezdődő szekvenciális számot ad vissza egy ablakpartícióban.

Generátorfüggvények

Funkció Description
explode(col) Egy új sort ad vissza az adott tömb vagy térkép minden eleméhez.
explode_outer(col) Egy új sort ad vissza az adott tömb vagy térkép minden eleméhez.
inline(col) Tömbstruktúrát bont szét egy táblázatba.
inline_outer(col) Tömbstruktúrát bont szét egy táblázatba.
posexplode(col) Egy új sort ad vissza minden olyan elemhez, amely az adott tömbben vagy térképen található pozícióval rendelkezik.
posexplode_outer(col) Egy új sort ad vissza minden olyan elemhez, amely az adott tömbben vagy térképen található pozícióval rendelkezik.
stack(*cols) Felbontja a col1-tól colk-ig az oszlopokat n sorra.

Partícióátalakítási függvények

Funkció Description
partitioning.years(col) Időbélyegek és dátumok átalakítása az adatok évekre való particionálásához.
partitioning.months(col) Időbélyegek és dátumok átalakítása az adatok hónapokba való particionálásához.
partitioning.days(col) Időbélyegek és dátumok átalakítása az adatok napokra való particionálásához.
partitioning.hours(col) Időbélyegek átalakítása az adatok órákra való particionálásához.
partitioning.bucket(numBuckets, col) Bármely típusra alkalmazható átalakítás, amely a bemeneti oszlop hash alapján particionál.

H3 térinformatikai függvények

Funkció Description
h3_boundaryasgeojson(col) Egy H3 cella határát adja vissza GeoJSON formátumban
h3_boundaryaswkb(col) Egy H3 cella határát adja vissza WKB formátumban
h3_boundaryaswkt(col) Egy H3 cella határát adja vissza WKT formátumban
h3_centerasgeojson(col) Egy H3 cella közepét adja vissza GeoJSON formátumban
h3_centeraswkb(col) Egy H3 cella középpontját adja vissza WKB formátumban
h3_centeraswkt(col) Egy H3 cella középpontját adja vissza WKT formátumban
h3_compact(col) A lehető legjobban tömöríti a H3 cellaazonosítók bemeneti készletét
h3_coverash3(col1,col2) A megadott felbontás hexagonjainak vagy ötszögeinek megfelelő hosszú egész számokat tartalmazó cellaazonosító-tömböt ad vissza, amely minimálisan lefedi a bemeneti lineáris vagy arealföldrajzot
h3_coverash3string(col1,col2) Sztringként ábrázolt cellaazonosító-tömböt ad vissza, ami megfelel a megadott felbontású hatszögeknek vagy ötszögeknek, amelyek minimálisan lefedik a bemeneti lineáris vagy az areális földrajzot.
h3_distance(col1,col2) Két H3 cellaazonosító közötti rácstávolságot adja vissza
h3_h3tostring(col) H3 cellaazonosítót hexadecimális sztringként a cellaazonosítót képviselő sztringgé alakít át
h3_hexring(col1,col2) H3 cellaazonosítók tömbjét adja vissza, amelyek egy üreges hatszögletű gyűrűt alkotnak a forrás H3 cellája körül, és amelyek a forrás H3 cellától k rácsnyi távolságban vannak.
h3_ischildof(col1,col2) Visszaadja True, ha az első H3 cellaazonosító a második H3 cellaazonosító gyermeke.
h3_ispentagon(col) Visszaadja True , ha a bemeneti H3 cellaazonosító egy ötszöget jelöl
h3_isvalid(col) Visszaadja True , ha a bemenet érvényes H3 cellaazonosítót jelöl
h3_kring(col1,col2) Azokat a H3 cellaazonosítókat adja vissza, amelyek a forráscella azonosítójának k távolságán belül vannak (rács)
h3_kringdistances(col1,col2) Visszaadja az összes H3 cellaazonosítót (hosszú egész számként vagy sztringként jelölve) a forrás H3 cellaazonosítójától k távolságon belül, valamint a forrás H3 cellaazonosítójától való távolságukat
h3_longlatash3(col1,col2,col3) A megadott hosszúságnak és szélességnek megfelelő H3 cellaazonosítót adja vissza (BIGINT-ként) a megadott felbontásnál
h3_longlatash3string(col1,col2,col3) A megadott hosszúságnak és szélességnek megfelelő H3 cellaazonosítót adja vissza (sztringként) a megadott felbontásnál
h3_maxchild(col1,col2) A bemeneti H3 cella maximális értékének gyermekét adja vissza a megadott felbontásban
h3_minchild(col1,col2) A bemeneti H3 cella minimális értékének gyermekét adja vissza a megadott felbontásban
h3_pointash3(col1,col2) A megadott pontnak megfelelő H3 cellaazonosítót adja vissza (BIGINT-ként) a megadott felbontásban
h3_pointash3string(col1,col2) A megadott pontnak megfelelő H3 cellaazonosítót adja vissza (sztringként) a megadott felbontásban
h3_polyfillash3(col1,col2) Megadott felbontású hosszú egész számokkal ábrázolt cellaazonosító-tömböt ad vissza, amelyek az input areális földrajz által tartalmazott hatszögeknek vagy ötszögeknek felelnek meg.
h3_polyfillash3string(col1,col2) A megadott felbontású hatszögekhez vagy ötszögekhez tartozó, sztringként ábrázolt cellaazonosítók tömbjét adja vissza, amelyek a megadott területi földrajz által befoglaltak.
h3_resolution(col) Visszaadja a H3 cella-azonosító felbontását.
h3_stringtoh3(col) A H3 cellaazonosító sztringábrázolását nagy egész számra konvertálja
h3_tessellateaswkb(col1,col2) A megadott felbontásban földrajzilag lefedett chipeket képviselő strukturált tömböt ad vissza
h3_tochildren(col1,col2) A bemeneti H3 cellaazonosító gyermek H3 cellaazonosítóit adja vissza a megadott felbontásban
h3_toparent(col1,col2) A bemeneti H3 cellaazonosítójának szülő H3 cellaazonosítóját adja vissza a megadott felbontási szinten.
h3_try_coverash3(col1,col2) A megadott felbontás hexagonjainak vagy ötszögeinek megfelelő hosszú egész számokat tartalmazó cellaazonosító-tömböt ad vissza, amely minimálisan lefedi a bemeneti lineáris vagy arealföldrajzot
h3_try_coverash3string(col1,col2) Sztringként ábrázolt cellaazonosító-tömböt ad vissza, ami megfelel a megadott felbontású hatszögeknek vagy ötszögeknek, amelyek minimálisan lefedik a bemeneti lineáris vagy az areális földrajzot.
h3_try_distance(col1,col2) Az azonos felbontású két H3 cellaazonosító közötti rácstávolságot adja vissza, vagy None ha a távolság nincs meghatározva
h3_try_polyfillash3(col1,col2) Megadott felbontású hosszú egész számokkal ábrázolt cellaazonosító-tömböt ad vissza, amelyek az input areális földrajz által tartalmazott hatszögeknek vagy ötszögeknek felelnek meg.
h3_try_polyfillash3string(col1,col2) A megadott felbontású hatszögekhez vagy ötszögekhez tartozó, sztringként ábrázolt cellaazonosítók tömbjét adja vissza, amelyek a megadott területi földrajz által befoglaltak.
h3_try_tessellateaswkb(col1,col2) Földrajzilag lefedett csipeket ábrázoló struktúrák tömbjét adja vissza a megadott felbontásban, vagy null, ha a geometria érvénytelen.
h3_try_validate(col) A bemeneti értéket adja vissza, ha az érvényes H3 cella, különben None-t ad vissza.
h3_uncompact(col1,col2) Az H3 cellaazonosítók bemeneti halmazának kibontása a megadott felbontáshoz
h3_validate(col) A bemeneti értéket adja vissza, ha helyes az H3 cella, és különben hibát jelez

ST térinformatikai függvények

Funkció Description
st_addpoint(col1,col2,col3) Új pontot ad hozzá az n-edik pozícióhoz a földrajzi vagy geometriai bemeneti vonalakban
st_area(col) A bemeneti földrajzi vagy geometriai terület visszaadása
st_azimuth(col1,col2) Az első ponttól a másodikig északi irányhoz viszonyított azimuthot adja vissza radiánban a [0, 2π)
st_asbinary(col1,col2) A bemeneti földrajzi vagy geometriai értéket adja vissza WKB formátumban
st_asewkb(col1,col2) A bemeneti geometria értékét adja vissza EWKB formátumban
st_asewkt(col) A bemeneti földrajzi vagy geometriai értéket adja vissza EWKT formátumban
st_asgeojson(col) A bemeneti földrajzi vagy geometriai értéket adja vissza GeoJSON formátumban
st_astext(col) A bemeneti földrajzi vagy geometriai értéket adja vissza WKT formátumban
st_aswkb(col1,col2) A bemeneti földrajzi vagy geometriai értéket adja vissza WKB formátumban
st_aswkt(col) A bemeneti földrajzi vagy geometriai értéket adja vissza WKT formátumban
st_buffer(col1,col2) A bemeneti geometria pufferét adja vissza a megadott sugár használatával
st_boundary(col) A bemeneti geometria határát adja vissza geometriaként
st_centroid(col) A bemeneti geometria centroidját adja vissza 2D pontgeometriaként
st_closestpoint(col1,col2) Egy pont 2D-vetületét adja vissza a második geometriához legközelebbi első geometrián
st_concavehull(col1,col2,col3) A bemeneti geometriának a homorú burkát adja vissza mint geometria a megadott hosszarány használatával.
st_contains(col1,col2) Visszaadja True , ha az első geometria tartalmazza a második geometriát
st_convexhull(col) A bemeneti geometria konvex burkát adja vissza geometriaként.
st_covers(col1,col2) Visszaadja True , ha az első geometria lefedi a második geometriát
st_difference(col1,col2) A két bemeneti geometria pontkészletét adja vissza 2D geometriaként
st_dimension(col) A bemeneti geometria 2D vetületének topológiai dimenzióját adja vissza
st_disjoint(col1,col2) Visszaadja True , ha a két geometria különálló
st_distance(col1,col2) A két bemeneti geometria közötti 2D cartesian távolságot adja vissza
st_distancesphere(col1,col2) A gömbfelszíni távolságot adja vissza két pont geometriája között (méterben), egy olyan gömbön mérve, amelynek sugara megegyezik a WGS84 ellipszoid átlagos sugarával.
st_distancespheroid(col1,col2) A WGS84 ellipszoid két pont geometriája közötti geodéziai távolságot adja vissza (méterben).
st_dump(col) A bemeneti geometria egyetlen geometriáit tartalmazó tömböt ad vissza.
st_dwithin(col1,col2,col3) Akkor adja True vissza, ha a két bemeneti geometria közötti 2D cartesian távolság kisebb vagy egyenlő a bemeneti távolságnál
st_endpoint(col) A bemeneti vonalvezetés utolsó pontját adja vissza, vagy None ha nem létezik
st_envelope(col) A bemeneti nem üres geometria 2D cartesian tengelyhez igazított minimális határolókeretét (borítékát) adja vissza geometriaként
st_envelope_agg(col) Az oszlop összes geometriája borítékját adja vissza, vagy None ha az oszlop nulla sorból áll, vagy csak None értékeket tartalmaz
st_equals(col1,col2) Visszaadja True , ha a két geometria geometriailag egyenlő
st_exteriorring(col) A bemeneti földrajzi vagy geometriai érték külső gyűrűjét (héját) adja vissza vonalas vonalként, amely egy sokszöget jelöl
st_flipcoordinates(col) A bemeneti geometria X és Y koordinátáinak felcserélése
st_geogfromgeojson(col) Elemzi a GeoJSON-leírást, és visszaadja a megfelelő földrajzi értéket
st_geogfromtext(col) Elemzi a WKT-leírást, és visszaadja a megfelelő földrajzi értéket
st_geogfromwkb(col) Elemzi a bemeneti WKB-leírást, és visszaadja a megfelelő földrajzi értéket
st_geogfromewkt(col) A kiterjesztett Well-Known szöveg (EWKT) leírását elemzi, és visszaadja a megfelelő földrajzi értéket
st_geogfromwkt(col) Elemzi a WKT-leírást, és visszaadja a megfelelő földrajzi értéket
st_geohash(col1,col2) A bemeneti geometria geohash-értékét adja vissza
st_geometryn(col1,col2) A bemeneti többgeometria 1-alapú n-edik elemét adja vissza, vagy None ha nem létezik
st_geometrytype(col) A bemeneti földrajzi vagy geometriai érték típusát adja vissza sztringként
st_geomfromewkb(col) Elemzi a bemeneti EWKB-leírást, és visszaadja a megfelelő geometriaértéket
st_geomfromewkt(col) A kiterjesztett Well-Known szöveg (EWKT) leírását elemzi, és visszaadja a megfelelő geometriai értéket
st_geomfromgeohash(col) A bemeneti geohash értéknek megfelelő geohash rácsdobozt adja vissza 2D-s sokszögként
st_geomfromgeojson(col) Elemzi a GeoJSON-leírást, és visszaadja a megfelelő geometriai értéket
st_geomfromtext(col1,col2) Elemzi a WKT leírását, és visszaadja a megfelelő geometriai értéket
st_geomfromwkb(col1,col2) Elemzi a bemeneti WKB-leírást, és visszaadja a megfelelő geometriai értéket
st_geomfromwkt(col1,col2) Elemzi a WKT leírását, és visszaadja a megfelelő geometriai értéket
st_intersection(col1,col2) A két bemeneti geometria pontkészletes metszetét adja vissza 2D geometriaként
st_intersects(col1,col2) Visszaadja True , ha a két geometria metszi egymást
st_interiorringn(col1,col2) A bemeneti sokszög n-edik belső gyűrűjét adja vissza vonalzóként
st_isempty(col) Visszaadja True , ha a bemeneti földrajzi vagy geometriai érték nem tartalmaz nem üres pontokat
st_isvalid(col) Visszaadja True , ha a bemeneti geometria érvényes geometria az OGC szerint
st_length(col) A bemeneti geometria vagy a földrajzi érték hosszát adja vissza
st_m(col) A bemeneti pont geometriája M koordinátáját adja vissza, vagy None ha a bemeneti pont geometriája üres, vagy ha nincs M koordinátája
st_makeline(col) Olyan vonalzó geometriát ad vissza, amelynek pontjai a geometriák bemeneti tömbjének nem üres pontjai, amelyek várhatóan pontok, vonalzók vagy többpontok lesznek.
st_makepolygon(col1,col2) A bemeneti külső határból és a belső határok választható tömbéből álló sokszöget hoz létre zárt vonalláncként
st_multi(col) A bemeneti földrajzi vagy geometriai értéket adja vissza egyenértékű több térinformatikai értékként, megtartva az eredeti SRID-t
st_ndims(col) A bemeneti földrajzi vagy geometriai érték koordináta-dimenzióját adja vissza
st_npoints(col) A nem üres pontok számát adja vissza a bemeneti földrajzi vagy geometriai értékben
st_numgeometries(col) A bemeneti geometria geometriáinak számát adja vissza
st_numinteriorrings(col) A bemeneti sokszög belső gyűrűinek számát adja vissza
st_perimeter(col) A bemeneti földrajzi vagy geometriai terület szegélyét adja vissza
st_point(col1,col2,col3) 2D pontgeometriát ad vissza a megadott x és y koordinátákkal és SRID értékkel
st_pointfromgeohash(col) A geohash rácsmező középpontját adja vissza, amely a bemeneti geohash értéknek felel meg 2D pontgeometriaként
st_pointn(col1,col2) A bemeneti vonalvezetés 1-alapú n-edik pontját adja vissza, vagy None ha nem létezik
st_removepoint(col1,col2) Eltávolítja az n-edik pontot a földrajzi vagy geometriai bemeneti vonalakból
st_reverse(col) A csúcspontok sorrendjének megfordítása a bemeneti földrajzi vagy geometriai értékben
st_rotate(col1,col2) Elforgatja a bemeneti geometriát a Z tengely körül a megadott forgatási szög alapján (radiánban)
st_scale(col1,col2,col3,col4) Skálázza a bemeneti geometriát az X, Y és Z (nem kötelező) irányokban az adott tényezők használatával
st_setpoint(col1,col2,col3) A földrajzi vagy geometriai bemeneti vonalak n-edik pontjának beállítása
st_setsrid(col1,col2) Egy új geometriai értéket ad vissza, amelynek SRID-értéke a megadott SRID érték
st_simplify(col1,col2) Leegyszerűsíti a bemeneti geometriát a Douglas-Peucker algoritmus használatával
st_srid(col) A bemeneti térinformatikai érték SRID-jét adja vissza
st_startpoint(col) A bemeneti vonalvezetés első pontját adja vissza, vagy None ha nem létezik
st_touches(col1,col2) Visszaadja True-t, ha a két geometria érinti egymást.
st_transform(col1,col2) Átalakítja a bemeneti geometria X és Y koordinátáit a megadott SRID-érték által leírt koordináta-referenciarendszerre (CRS)
st_translate(col1,col2,col3,col4) Lefordítja a bemeneti geometriát az X, Y és Z (nem kötelező) irányokban a megadott eltolások használatával
st_union(col1,col2) A két bemeneti geometria ponthalmaz-egyesítését adja vissza 2D geometriaként
st_union_agg(col) Az oszlop összes geometriája pontalapú egyesítését adja vissza, vagy None ha az oszlop nulla sorból áll, vagy csak None értékeket tartalmaz
st_within(col1,col2) Visszaadja True , ha az első geometria a második geometrián belül van
st_x(col) A bemeneti pont geometriája X koordinátáját adja vissza, vagy None ha a bemeneti pont geometriája üres
st_xmax(col) A bemeneti geometria maximális X koordinátáját adja vissza, vagy None ha a bemeneti geometria üres
st_xmin(col) A bemeneti geometria minimális X koordinátáját adja vissza, vagy None ha a bemeneti geometria üres
st_y(col) A bemeneti pont geometriája Y koordinátáját adja vissza, vagy None ha a bemeneti pont geometriája üres
st_ymax(col) A bemeneti geometria maximális Y koordinátáját adja vissza, vagy None ha a bemeneti geometria üres
st_ymin(col) A bemeneti geometria minimális Y koordinátáját adja vissza, vagy None ha a bemeneti geometria üres
st_z(col) A bemeneti pont geometriája Z koordinátáját adja vissza, vagy None ha a bemeneti pont geometriája üres, vagy ha nincs Z koordinátája
st_zmax(col) A bemeneti geometria maximális Z koordinátáját adja vissza, vagy None ha a bemeneti geometria üres, vagy nem tartalmaz Z koordinátákat
st_zmin(col) A bemeneti geometria minimális Z koordinátáját adja vissza, vagy None ha a bemeneti geometria üres, vagy nem tartalmaz Z koordinátákat
to_geography(col) Elemzi a bemeneti BINÁRIS vagy sztring értéket, és visszaadja a megfelelő földrajzi értéket
to_geometry(col) Elemzi a bemeneti BINÁRIS vagy sztring értéket, és visszaadja a megfelelő geometriai értéket
try_to_geography(col) Elemzi a bemeneti BINÁRIS vagy sztring értéket, és visszaadja a megfelelő földrajzi értéket, vagy None ha a bemenet érvénytelen
try_to_geometry(col) Elemzi a bemeneti BINÁRIS vagy sztring értéket, és visszaadja a megfelelő geometriai értéket, vagy None ha a bemenet érvénytelen

CSV-függvények

Funkció Description
from_csv(col, schema[, options]) Egy CSV-sztringet tartalmazó oszlopot elemez a megadott sémával rendelkező sorba.
schema_of_csv(csv[, options]) Elemez egy CSV-sztringet, és dDL formátumban következtet a sémájára.
to_csv(col[, options]) A StructType-et tartalmazó oszlopot CSV-sztringgé alakítja át.

JSON-függvények

Funkció Description
from_json(col, schema[, options]) Egy JSON-sztringet tartalmazó oszlopot elemz olyan MapType-ra, ahol a kulcsok típusai StringType, a megadott sémának megfelelően StructType vagy ArrayType típusú.
get_json_object(col, path) JSON-objektumot nyer ki egy json-sztringből a megadott json-elérési út alapján, és visszaadja a kinyert json objektum json-sztringét.
json_array_length(col) A legkülső JSON-tömb elemeinek számát adja vissza.
json_object_keys(col) A legkülső JSON-objektum összes kulcsát tömbként adja vissza.
json_tuple(col, *fields) Új sort hoz létre egy json-oszlophoz a megadott mezőnevek alapján.
schema_of_json(json[, options]) Elemez egy JSON-sztringet, és DDL formátumban következtet a sémájára.
to_json(col[, options]) Egy StructType, ArrayType vagy MapType típusú oszlopot JSON-sztringgé alakít át.

Variant függvények

Funkció Description
is_variant_null(v) Ellenőrizze, hogy a variánsérték null értékű-e.
parse_json(col) Egy JSON-sztringet tartalmazó oszlop elemzése VariantType-fájlba.
schema_of_variant(v) Egy variáns SQL-formátumában adja vissza a sémát.
schema_of_variant_agg(v) Az egyesített sémát egy variánsoszlop SQL-formátumában adja vissza.
try_variant_get(v, path, targetType) Kinyer egy alváltozatot a v-ből az útvonal alapján, majd az alváltozatot átkonvertálja a targetType típusra.
variant_get(v, path, targetType) Kinyer egy alváltozatot a v-ből az útvonal alapján, majd az alváltozatot átkonvertálja a targetType típusra.
try_parse_json(col) Egy JSON-sztringet tartalmazó oszlop elemzése VariantType-fájlba.
to_variant_object(col) Beágyazott bemeneteket (tömböt/térképet/szerkezetet) tartalmazó oszlopot olyan változatokká alakít át, amelyekben a térképek és a szerkezetek az SQL-szerkezetekkel ellentétben rendezetlen változatobjektumokká alakulnak.

XML-függvények

Funkció Description
from_xml(col, schema[, options]) Egy XML-sztringet tartalmazó oszlopot elemez a megadott sémával rendelkező sorba.
schema_of_xml(xml[, options]) Elemez egy XML-sztringet, és DDL formátumban következtet a sémájára.
to_xml(col[, options]) A StructType-et tartalmazó oszlopot XML-sztringgé alakítja át.
xpath(xml, path) Az XPath-kifejezésnek megfelelő értékeket tartalmazó sztringtömböt ad vissza az XML csomópontjaiban.
xpath_boolean(xml, path) Igaz értéket ad vissza, ha az XPath-kifejezés értéke igaz, vagy egyező csomópont található.
xpath_double(xml, path) Dupla értéket ad vissza, a nullát, ha nem talál egyezést, vagy naN értéket, ha egyezést talál, de az érték nem numerikus.
xpath_float(xml, path) Lebegőpontos értéket, nulla értéket ad vissza, ha nem található egyezés, naN értéket, ha egyezést talál, de az érték nem numerikus.
xpath_int(xml, path) Egész számot vagy nullát ad vissza, ha nem talál egyezést, vagy egyezést talál, de az érték nem numerikus.
xpath_long(xml, path) Hosszú egész számot, vagy nullát ad vissza, ha nem talál egyezést, vagy egyezést talál, de az érték nem numerikus.
xpath_number(xml, path) Dupla értéket ad vissza, a nullát, ha nem talál egyezést, vagy naN értéket, ha egyezést talál, de az érték nem numerikus.
xpath_short(xml, path) Rövid egész számot ad vissza, vagy a nullát, ha nem talál egyezést, vagy egyezést talál, de az érték nem numerikus.
xpath_string(xml, path) Az XPath-kifejezésnek megfelelő első XML-csomópont szöveges tartalmát adja vissza.

URL-függvények

Funkció Description
parse_url(url, partToExtract[, key]) Kinyer egy meghatározott részt URL-címből.
try_parse_url(url, partToExtract[, key]) Próbálja meg végrehajtani a parse_url műveletet, de null értéket ad vissza ahelyett, hogy hibát jelezne, ha az elemzés nem hajtható végre.
url_decode(str) Egy application/x-www-form-urlencoded formátumban URL-kódolt karakterláncot az eredeti formátumára visszaalakítja.
url_encode(str) Egy karakterláncot egy URL-kódolású karakterláncba kódol az "application/x-www-form-urlencoded" formátumban.
try_url_decode(str) Próbálja meg végrehajtani a url_decode műveletet, de null értéket ad vissza ahelyett, hogy hibát jelezne, ha a dekódolás nem hajtható végre.

Egyéb függvények

Funkció Description
aes_decrypt(input, key[, mode, padding, aad]) A bemeneti adatok visszafejtett értékét adja vissza az AES-sel párnázásos módban.
aes_encrypt(input, key[, mode, padding, iv, aad]) AES használatával adott módban és megadott kitöltéssel visszaad egy titkosított értéket a bemenetről.
assert_true(col[, errMsg]) Null értéket ad vissza, ha a bemeneti oszlop igaz; kivételt jelenít meg a megadott hibaüzenettel ellenkező esetben.
bitmap_and_agg(col) Egy bitképet ad vissza, amely a bemeneti oszlop bitenkénti ÉS összes bitképét tartalmazza.
bitmap_bit_position(col) A megadott bemeneti oszlop bitpozíciójának visszaadása.
bitmap_bucket_number(col) A megadott bemeneti oszlop gyűjtőszámát adja vissza.
bitmap_count(col) A bemeneti bitképben beállított bitek számát adja vissza.
current_catalog() Az aktuális katalógust adja vissza.
current_database() Az aktuális adatbázist adja vissza.
current_schema() Az aktuális sémát adja vissza.
current_user() Az aktuális felhasználót adja vissza.
hll_sketch_estimate(col) Az egyedi értékek becsült számát adja eredményül a Datasketches HllSketch bináris ábrázolása alapján.
hll_union(col1, col2[, allowDifferentLgConfigK]) A Datasketches HllSketch objektumok két bináris ábrázolását egyesít egy Datasketches Union objektummal.
input_file_block_length() Az olvasandó blokk hosszát adja vissza, vagy ha nem érhető el -1.
input_file_block_start() Az olvasandó blokk kezdő eltolását adja vissza, vagy -1, ha nem érhető el.
input_file_name() Sztringoszlopot hoz létre az aktuális Spark-feladat fájlnevére.
java_method(*cols) Reflektálással meghív egy metódust.
kll_merge_agg_bigint(col[, k]) Aggregátumfüggvény: egyesíti a bináris KllLongsSketch-ábrázolásokat, és visszaadja az egyesített vázlatot.
kll_merge_agg_double(col[, k]) Összesítő függvény: egyesíti a bináris KllDoublesSketch-reprezentációkat, és visszaadja az egyesített vázlatot.
kll_merge_agg_float(col[, k]) Összesítő függvény: egyesíti a bináris KllFloatsSketch-reprezentációkat, és visszaadja az egyesített vázlatot.
kll_sketch_agg_bigint(col[, k]) Aggregátumfüggvény: a bemeneti oszlop értékeivel létrehozott Datasketches KllLongsSketch kompakt bináris reprezentációját adja vissza.
kll_sketch_agg_double(col[, k]) Aggregátumfüggvény: a bemeneti oszlop értékeivel létrehozott Datasketches KllDoublesSketch kompakt bináris reprezentációját adja vissza.
kll_sketch_agg_float(col[, k]) Aggregátumfüggvény: a bemeneti oszlop értékeivel létrehozott Datasketches KllFloatsSketch kompakt bináris reprezentációját adja vissza.
kll_sketch_get_n_bigint(col) A KLL bigint vázlatban összegyűjtött elemek számát adja vissza.
kll_sketch_get_n_double(col) A KLL kettős vázlatban összegyűjtött elemek számát adja vissza.
kll_sketch_get_n_float(col) A KLL lebegőpontos vázlatában összegyűjtött elemek számát adja vissza.
kll_sketch_get_quantile_bigint(sketch, rank) Kvantilis értéket nyer ki egy KLL bigint vázlatból egy bemeneti rangérték alapján.
kll_sketch_get_quantile_double(sketch, rank) Kvantilis értéket nyer ki egy KLL kettős vázlatból egy bemeneti rangérték alapján.
kll_sketch_get_quantile_float(sketch, rank) Kvantilis értéket nyer ki egy KLL lebegőpontos vázlatból egy bemeneti rangérték alapján.
kll_sketch_get_rank_bigint(sketch, quantile) Rangértéket nyer ki egy KLL bigint vázlatból egy bemeneti kvantilis értékkel.
kll_sketch_get_rank_double(sketch, quantile) Egy rangsorértéket nyer ki egy KLL kettős vázlatból egy bemeneti kvantilis értékkel.
kll_sketch_get_rank_float(sketch, quantile) Rangértéket nyer ki egy KLL lebegőpontos vázlatból egy bemeneti kvantilis értékkel.
kll_sketch_merge_bigint(left, right) Két KLL bigint vázlatpuffert egyesít egymással.
kll_sketch_merge_double(left, right) Két KLL dupla vázlatpuffert egyesít egymással.
kll_sketch_merge_float(left, right) Két KLL lebegőpontos vázlatpuffert egyesít egymással.
kll_sketch_to_string_bigint(col) Egy sztringet ad vissza, amely a KLL bigint vázlatról tartalmaz olvasható összefoglaló információkat.
kll_sketch_to_string_double(col) Egy sztringet ad vissza, amely a KLL kettős vázlatával kapcsolatos, olvasható összefoglaló információkat tartalmaz.
kll_sketch_to_string_float(col) Egy sztringet ad vissza, amely a KLL lebegőpontos vázlatával kapcsolatos, olvasható összefoglaló információkat tartalmaz.
monotonically_increasing_id() Monoton módon növekvő 64 bites egész számokat hoz létre.
raise_error(errMsg) Kivételt jelez a megadott hibaüzenettel.
reflect(*cols) Reflektálással meghív egy metódust.
session_user() Az aktuális végrehajtási környezet felhasználónevét adja vissza.
spark_partition_id() A partícióazonosító oszlopa.
theta_difference(col1, col2) A Datasketches ThetaSketch objektumok két bináris reprezentációjának (az első vázlat elemeinek, de a másodikban nem) halmazkülönbségét adja vissza datasketches ANotB objektummal.
theta_intersection(col1, col2) A Datasketches ThetaSketch objektumok két bináris ábrázolásának metszetét adja vissza datasketches metszetobjektum használatával.
theta_intersection_agg(col) Aggregátumfüggvény: a Datasketches ThetaSketch kompakt bináris reprezentációját adja vissza, amely a bemeneti oszlopban lévő Theta-vázlatok metszete.
theta_sketch_agg(col[, lgNomEntries]) Aggregátumfüggvény: a Datasketches ThetaSketch kompakt bináris ábrázolását adja vissza az lgNomEntries névleges bejegyzésekkel konfigurált bemeneti oszlop értékeivel.
theta_sketch_estimate(col) Az egyedi értékek becsült számát adja eredményül a Datasketches ThetaSketch bináris ábrázolása alapján.
theta_union(col1, col2[, lgNomEntries]) A Datasketches ThetaSketch objektumok két bináris ábrázolását egyesít egy Datasketches Union objektummal.
theta_union_agg(col[, lgNomEntries]) Aggregátumfüggvény: a Datasketches ThetaSketch kompakt bináris ábrázolását adja vissza, amely a bemeneti oszlopban lévő Theta-vázlatok egyesítését adja vissza.
try_aes_decrypt(input, key[, mode, padding, aad]) Próbálja meg végrehajtani a aes_decrypt műveletet, de null értéket ad vissza ahelyett, hogy hibát jelezne, ha a visszafejtés nem hajtható végre.
try_reflect(*cols) Próbáljon meg végrehajtani egy reflect műveletet, de null értéket adjon vissza ahelyett, hogy hibát jelezne, ha a meghívási módszer kivételt eredményez.
typeof(col) A bemenet adattípusához DDL formátumú karakterláncot ad vissza.
user() Az aktuális felhasználót adja vissza.
uuid() Univerzálisan egyedi azonosító (UUID) sztringet ad vissza.
version() A Spark-verziót adja vissza.

UDF, UDTF, UDT függvények

Funkció Description
call_udf(udfName, *cols) Felhasználó által definiált függvény meghívása.
pandas_udf([f, returnType, functionType]) Létrehoz egy pandas felhasználó által definiált függvényt (más néven:
udf([f, returnType, useArrow]) Létrehoz egy felhasználó által definiált függvényt (UDF).
udtf([cls, returnType, useArrow]) Létrehoz egy felhasználó által definiált táblafüggvényt (UDTF).
unwrap_udt(col) Bontsa ki az UDT-adattípus oszlopát az alapjául szolgáló típusra.

Táblaértékelt függvények

Funkció Description
TableValuedFunction.collations() Szerezze be az összes Spark SQL karakterlánc-sorrendet.
TableValuedFunction.explode(collection) Egy dataFrame-et ad vissza, amely egy új sort tartalmaz az adott tömb vagy térkép minden eleméhez.
TableValuedFunction.explode_outer(collection) Egy dataFrame-et ad vissza, amely egy új sort tartalmaz minden olyan elemhez, amely az adott tömbben vagy térképen található pozícióval rendelkezik.
TableValuedFunction.inline(input) Tömbstruktúrát bont szét egy táblázatba.
TableValuedFunction.inline_outer(input) Tömbstruktúrát bont szét egy táblázatba.
TableValuedFunction.json_tuple(input, *fields) Új sort hoz létre egy json-oszlophoz a megadott mezőnevek alapján.
TableValuedFunction.posexplode(collection) Egy dataFrame-et ad vissza, amely egy új sort tartalmaz minden olyan elemhez, amely az adott tömbben vagy térképen található pozícióval rendelkezik.
TableValuedFunction.posexplode_outer(collection) Egy dataFrame-et ad vissza, amely egy új sort tartalmaz minden olyan elemhez, amely az adott tömbben vagy térképen található pozícióval rendelkezik.
TableValuedFunction.python_worker_logs() A Python-feldolgozóktól gyűjtött naplók adatkeretét adja vissza.
TableValuedFunction.range(start[, end, ...]) Hozzon létre egy dataFrame-et egyetlen pyspark.sql.types.LongType nevű oszlop azonosítójával, amely egy tartomány elemeit tartalmazza az elejétől a végéig (kizárólagos) a lépésérték lépésével.
TableValuedFunction.sql_keywords() Spark SQL-kulcsszavak lekérése.
TableValuedFunction.stack(n, *fields) Felbontja a col1-tól colk-ig az oszlopokat n sorra.
TableValuedFunction.variant_explode(input) Egy variánsobjektumot/tömböt több sorra választ el, amelyek a mezőit/elemeit tartalmazzák.
TableValuedFunction.variant_explode_outer(input) Egy variánsobjektumot/tömböt több sorra választ el, amelyek a mezőit/elemeit tartalmazzák.