PySpark-funktioner

Den här sidan innehåller en lista över PySpark SQL-funktioner som är tillgängliga på Databricks med länkar till motsvarande referensdokumentation.

Normala funktioner

Funktion Description
broadcast(df) Markerar en DataFrame som tillräckligt liten för användning i sändningskopplingar.
call_function(funcName, *cols) Anropa en SQL-funktion.
col(col) Returnerar en kolumn baserat på det angivna kolumnnamnet.
column(col) Returnerar en kolumn baserat på det angivna kolumnnamnet.
lit(col) Skapar en kolumn med bokstavligt värde.
expr(str) Parsar uttryckssträngen till den kolumn som den representerar

Villkorsstyrda funktioner

Funktion Description
coalesce(*cols) Returnerar den första kolumnen som inte är null.
ifnull(col1, col2) Returnerar col2 om col1 är null eller col1 på annat sätt.
nanvl(col1, col2) Returnerar col1 om det inte är NaN eller col2 om col1 är NaN.
nullif(col1, col2) Returnerar null om col1 är lika med col2 eller col1 på annat sätt.
nullifzero(col) Returnerar null om kol är lika med noll eller kol på annat sätt.
nvl(col1, col2) Returnerar col2 om col1 är null eller col1 på annat sätt.
nvl2(col1, col2, col3) Returnerar col2 om col1 inte är null eller col3 på annat sätt.
when(condition, value) Utvärderar en lista över villkor och returnerar ett av flera möjliga resultatuttryck.
zeroifnull(col) Returnerar noll om kol är null eller kol på annat sätt.

Mönstermatchningsfunktioner

Funktion Description
equal_null(col1, col2) Returnerar samma resultat som EQUAL(=)-operatorn för operander som inte är null, men returnerar sant om båda är null, false om en av dem är null.
ilike(str, pattern[, escapeChar]) Returnerar sant om str matchar mönstret med escape case-insensitively, null om några argument är null, annars falskt.
isnan(col) Ett uttryck som returnerar sant om kolumnen är NaN.
isnotnull(col) Returnerar sant om kol inte är null eller falskt på annat sätt.
isnull(col) Ett uttryck som returnerar sant om kolumnen är null.
like(str, pattern[, escapeChar]) Returnerar sant om str matchar mönster med escape, null om något argument är null, annars falskt.
regexp(str, regexp) Returnerar sant om str matchar Java regex regexp eller falskt på annat sätt.
regexp_like(str, regexp) Returnerar sant om str matchar Java regex regexp eller falskt på annat sätt.
rlike(str, regexp) Returnerar sant om str matchar Java regex regexp eller falskt på annat sätt.

Sorteringsfunktioner

Funktion Description
asc(col) Returnerar ett sorteringsuttryck för målkolumnen i stigande ordning.
asc_nulls_first(col) Returnerar ett sorteringsuttryck baserat på den stigande ordningen för det angivna kolumnnamnet och nullvärdena returneras före värden som inte är null.
asc_nulls_last(col) Returnerar ett sorteringsuttryck baserat på den stigande ordningen för det angivna kolumnnamnet och null-värden visas efter värden som inte är null.
desc(col) Returnerar ett sorteringsuttryck för målkolumnen i fallande ordning.
desc_nulls_first(col) Returnerar ett sorteringsuttryck baserat på den fallande ordningen för det angivna kolumnnamnet, och null-värden visas före värden som inte är null.
desc_nulls_last(col) Returnerar ett sorteringsuttryck baserat på den fallande ordningen för det angivna kolumnnamnet, och null-värden visas efter värden som inte är null.

Matematiska funktioner

Funktion Description
abs(col) Beräknar det absoluta värdet för den angivna kolumnen eller uttrycket.
acos(col) Beräknar invertera cosinus (kallas även arccosinus) för den angivna kolumnen eller uttrycket.
acosh(col) Beräknar den inversa hyperboliska cosinus, (kallas även arcosh) för den angivna kolumnen eller uttrycket.
asin(col) Beräknar arcsinus för indatakolumnen.
asinh(col) Beräknar invers hyperbolisk sinus för indatakolumnen.
atan(col) Beräkna inverterings tangens för indatakolumnen.
atan2(col1, col2) Beräkna vinkeln i radianer mellan den positiva x-axeln för ett plan och den punkt som anges av koordinaterna
atanh(col) Beräknar invers hyperbolisk tangens av indatakolumnen.
bin(col) Returnerar strängrepresentationen av det binära värdet för den angivna kolumnen.
bround(col[, scale]) Avrunda det angivna värdet för att skala decimaler med hjälp av HALF_EVEN avrundningsläge om skala >= 0 eller vid integrerad del när skala < 0.
cbrt(col) Beräknar kubroten för det angivna värdet.
ceil(col[, scale]) Beräknar taket för det angivna värdet.
ceiling(col[, scale]) Beräknar taket för det angivna värdet.
conv(col, fromBase, toBase) Konvertera ett tal i en strängkolumn från en bas till en annan.
cos(col) Beräknar cosiné för indatakolumnen.
cosh(col) Beräknar hyperbolisk cosinus för indatakolumnen.
cot(col) Beräknar cotangens för indatakolumnen.
csc(col) Beräknar cosecant för indatakolumnen.
degrees(col) Konverterar en vinkel som mäts i radianer till en ungefär likvärdig vinkel som mäts i grader.
e() Returnerar Eulers tal.
exp(col) Beräknar exponentiellt för det angivna värdet.
expm1(col) Beräknar exponentiellt för det angivna värdet minus ett.
factorial(col) Beräknar factorialen för det angivna värdet.
floor(col[, scale]) Beräknar golvet för det angivna värdet.
greatest(*cols) Returnerar det största värdet i listan med kolumnnamn och hoppar över null-värden.
hex(col) Beräknar hexvärdet för den angivna kolumnen, som kan vara StringType, BinaryType, IntegerType eller LongType.
hypot(col1, col2) Beräknar sqrt(a^2 + b^2) utan mellanliggande spill eller underflöde.
least(*cols) Returnerar det lägsta värdet i listan med kolumnnamn och hoppar över null-värden.
ln(col) Returnerar argumentets naturliga logaritm.
log(arg1[, arg2]) Returnerar den första argumentbaserade logaritmen för det andra argumentet.
log10(col) Beräknar logaritmen för det angivna värdet i bas 10.
log1p(col) Beräknar den naturliga logaritmen för det angivna värdet plus ett.
log2(col) Returnerar base-2-logaritmen för argumentet.
negate(col) Returnerar det negativa värdet.
negative(col) Returnerar det negativa värdet.
pi() Returnerar Pi.
pmod(dividend, divisor) Returnerar det positiva värdet för utdelning mod divisor.
positive(col) Returnerar värdet.
pow(col1, col2) Returnerar värdet av det första argumentet upphöjt till potensen av det andra argumentet.
power(col1, col2) Returnerar värdet av det första argumentet upphöjt till potensen av det andra argumentet.
radians(col) Konverterar en vinkel som mäts i grader till en ungefär likvärdig vinkel som mäts i radianer.
rand([seed]) Genererar en slumpmässig kolumn med oberoende och identiskt distribuerade (i.i.d.)-exempel jämnt fördelade i [0.0, 1.0).
randn([seed]) Genererar en slumpmässig kolumn med oberoende och identiskt distribuerade (i.i.d.)-exempel från standardnormalfördelningen.
rint(col) Returnerar det dubbla värde som ligger närmast argumentet och är lika med ett matematiskt heltal.
round(col[, scale]) Avrunda det angivna värdet till ett visst antal decimalplatser med hjälp av avrundningsläget HALF_UP om skalan >= 0 eller vid heltalsdelen när skalan < 0.
sec(col) Beräknar sekanten för indatakolumnen.
sign(col) Beräknar signum för det angivna värdet.
signum(col) Beräknar signum för det angivna värdet.
sin(col) Beräknar sinus för indatakolumnen.
sinh(col) Beräknar hyperbolisk sinus för indatakolumnen.
sqrt(col) Beräknar kvadratroten för det angivna flyttalsvärdet.
tan(col) Beräknar tangenten för indatakolumnen.
tanh(col) Beräknar hyperbolisk tangens för indatakolumnen.
try_add(left, right) Returnerar summan av vänster och höger och resultatet är null vid överflöd.
try_divide(left, right) Returnerar utdelning/divisor.
try_mod(left, right) Returnerar resten efter utdelning/divisor.
try_multiply(left, right) Returnerar vänstra faktorn multiplicerat med den högra och resultatet blir null om det blir överflöd.
try_subtract(left, right) Returnerar vänster minus höger och resultatet är null (nollvärde) vid spill.
unhex(col) Invertering av hex.
uniform(min, max[, seed]) Returnerar ett slumpmässigt värde med oberoende och identiskt distribuerade (i.i.d.)-värden med det angivna talintervallet.
width_bucket(v, min, max, numBucket) Returnerar det bucketnummer som värdet för det här uttrycket skulle falla i efter att ha utvärderats.

Strängfunktioner

Funktion Description
ascii(col) Beräknar det numeriska värdet för det första tecknet i strängkolumnen.
base64(col) Beräknar BASE64-kodningen för en binär kolumn och returnerar den som en strängkolumn.
bit_length(col) Beräknar bitlängden för den angivna strängkolumnen.
btrim(str[, trim]) Ta bort inledande och avslutande mellanslag och andra onödiga tecken från "str".
char(col) Returnerar ASCII-tecknet med den binära motsvarigheten till kol.
char_length(str) Returnerar teckenlängden för strängdata eller antalet byte med binära data.
character_length(str) Returnerar teckenlängden för strängdata eller antalet byte med binära data.
collate(col, collation) Markerar en viss kolumn med angiven sortering.
collation(col) Returnerar sorteringsnamnet för en viss kolumn.
concat_ws(sep, *cols) Sammanfogar flera indatasträngskolumner till en enda strängkolumn med hjälp av den angivna avgränsaren.
contains(left, right) Returnerar ett booleskt värde.
decode(col, charset) Beräknar det första argumentet till en sträng från en binär fil med hjälp av den angivna teckenuppsättningen (en av US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32).
elt(*inputs) Returnerar n-th-indata, t.ex. returnerar input2 när n är 2.
encode(col, charset) Beräknar det första argumentet till en binär från en sträng med hjälp av den angivna teckenuppsättningen (en av US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32).
endswith(str, suffix) Returnerar ett booleskt värde.
find_in_set(str, str_array) Returnerar indexet (1-baserad) för den angivna strängen (str) i kommaavgränsad lista (strArray).
format_number(col, d) Formaterar talet X till ett format som #,--#,--#.--, avrundat till d decimaler med HALF_EVEN avrundat läge och returnerar resultatet som en sträng.
format_string(format, *cols) Formaterar argumenten i printf-format och returnerar resultatet som en strängkolumn.
initcap(col) Ändra den första bokstaven i varje ord till stor bokstav i meningen.
instr(str, substr) Leta upp positionen för den första förekomsten av delsträngskolumnen i den angivna strängen.
is_valid_utf8(str) Returnerar sant om indata är en giltig UTF-8-sträng, annars returneras false.
lcase(str) Returnerar str med alla tecken ändrade till gemener.
left(str, len) Returnerar de vänstra len-tecknen (len kan vara strängtyp) från strängsträngen, om len är mindre eller lika med 0 är resultatet en tom sträng.
length(col) Beräknar teckenlängden för strängdata eller antalet byte med binära data.
levenshtein(left, right[, threshold]) Beräknar Levenshtein-avståndet för de två angivna strängarna.
locate(substr, str[, pos]) Leta upp positionen för den första förekomsten av delsträngen i en strängkolumn, efter position pos.
lower(col) Konverterar ett stränguttryck till gemener.
lpad(col, len, pad) Fyll strängkolumnen från vänster till längd med fyllnadstecken.
ltrim(col[, trim]) Trimma blankstegen från vänster sida för det angivna strängvärdet.
make_valid_utf8(str) Returnerar en ny sträng där alla ogiltiga UTF-8 byte-sekvenser, om några, ersätts med Unicode-ersättningstecknet (U+FFFD).
mask(col[, upperChar, lowerChar, digitChar, ...]) Maskerar det angivna strängvärdet.
octet_length(col) Beräknar bytelängden för den angivna strängkolumnen.
overlay(src, replace, pos[, len]) Ersätt den angivna delen av src med replace, med början från byteposition pos i src och fortsätter i len bytes.
position(substr, str[, start]) Returnerar positionen för den första förekomsten av substr i str efter positionstart.
printf(format, *cols) Formaterar argumenten i printf-format och returnerar resultatet som en strängkolumn.
randstr(length[, seed]) Returnerar en sträng med den angivna längden vars tecken väljs slumpmässigt från följande teckenpool: 0-9, a-z, A-Z.
regexp_count(str, regexp) Returnerar antalet gånger som Java regex-mönstret regexp matchas i strängen str.
regexp_extract(str, pattern, idx) Extrahera en specifik grupp som matchas av Java regex regexp från den angivna strängkolumnen.
regexp_extract_all(str, regexp[, idx]) Extrahera alla strängar i str som matchar Java regex regexp och som motsvarar regex-gruppindexet.
regexp_instr(str, regexp[, idx]) Returnerar positionen för den första delsträngen i str som matchar Java regex regexp och motsvarar regex-gruppindexet.
regexp_replace(string, pattern, replacement) Ersätt alla delsträngar av det angivna strängvärdet som matchar regexp med ersättning.
regexp_substr(str, regexp) Returnerar den första delsträngen som matchar Java regex regexp i strängen str.
repeat(col, n) Upprepar en strängkolumn n gånger och returnerar den som en ny strängkolumn.
replace(src, search[, replace]) Ersätter alla förekomster av sökning med ersätt.
right(str, len) Returnerar de längst till höger len (len kan vara strängtyp) tecken från strängen str, om len är mindre eller lika med 0 resultatet är en tom sträng.
rpad(col, len, pad) Höger-pad strängen kolumnen till bredd len med pad.
rtrim(col[, trim]) Trimma blankstegen från höger ände för det angivna strängvärdet.
sentences(string[, language, country]) Delar upp en sträng i matriser med meningar, där varje mening är en matris med ord.
soundex(col) Returnerar SoundEx-kodningen för en sträng
split(str, pattern[, limit]) Delar str runt matchningar av det angivna mönstret.
split_part(src, delimiter, partNum) Delar upp str efter avgränsare och returnerar begärd del av delningen (1-baserad).
startswith(str, prefix) Returnerar ett booleskt värde.
substr(str, pos[, len]) Returnerar delsträngen av str som börjar på pos och är av längd len, eller den sektor av bytematris som börjar på pos och är av längd len.
substring(str, pos, len) Delsträngen börjar på pos och är av längd len när str är Strängtyp eller returnerar den sektor av bytematris som börjar på pos i byte och är av längd len när str är binär typ.
substring_index(str, delim, count) Returnerar delsträngen från strängen str fram till det specificerade antalet förekomster av avgränsaren delim.
to_binary(col[, format]) Konverterar indata col till ett binärt värde baserat på det angivna formatet.
to_char(col, format) Konvertera kolumn till en sträng baserat på formatet.
to_number(col, format) Konvertera strängen "col" till ett tal baserat på strängformatet "format".
to_varchar(col, format) Konvertera kolumn till en sträng baserat på formatet.
translate(srcCol, matching, replace) Översätt alla tecken i srcCol med motsvarande tecken i matchning.
trim(col[, trim]) Trimma blankstegen från båda ändar för den angivna strängkolumnen.
try_to_binary(col[, format]) Försök att utföra åtgärden to_binary , men returnera ett NULL-värde i stället för att skapa ett fel om konverteringen inte kan utföras.
try_to_number(col, format) Konvertera strängen col till ett tal baserat på strängformatet format.
try_validate_utf8(str) Returnerar indatavärdet om det motsvarar en giltig UTF-8-sträng eller NULL på annat sätt.
ucase(str) Returnerar str med alla tecken ändrade till versaler.
unbase64(col) Avkodar en BASE64-kodad strängkolumn och returnerar den som en binär kolumn.
upper(col) Konverterar ett stränguttryck till versaler.
validate_utf8(str) Returnerar indatavärdet om det motsvarar en giltig UTF-8-sträng, eller genererar ett fel annars.

Bitvis-funktioner

Funktion Description
bit_count(col) Returnerar antalet bitar som anges i argumentets expr som ett osignerat 64-bitars heltal eller NULL om argumentet är NULL.
bit_get(col, pos) Returnerar värdet för biten (0 eller 1) vid den angivna positionen.
bitwise_not(col) Beräknar bitvis inte.
getbit(col, pos) Returnerar värdet för biten (0 eller 1) vid den angivna positionen.
shiftleft(col, numBits) Flytta det angivna värdet numBits åt vänster.
shiftright(col, numBits) (Signerad) flytta det angivna värdet numBits till höger.
shiftrightunsigned(col, numBits) Osignerade skiftar det angivna värdet numBits till höger.

Datum-/tidsfunktioner

Funktion Description
add_months(start, months) Returnerar datumet som är månader efter start.
convert_timezone(sourceTz, targetTz, sourceTs) Konverterar tidsstämpeln utan tidszon sourceTs från sourceTz tidszon till targetTz.
curdate() Returnerar det aktuella datumet i början av frågeutvärderingen som en DateType-kolumn.
current_date() Returnerar det aktuella datumet i början av frågeutvärderingen som en DateType-kolumn.
current_timestamp() Returnerar den aktuella tidsstämpeln i början av frågeutvärderingen som en TimestampType-kolumn.
current_timezone() Returnerar den aktuella lokala tidszonen.
date_add(start, days) Returnerar datumet som är 'dagar' efter startdatumet.
date_diff(end, start) Returnerar antalet dagar från början till slut.
date_format(date, format) Konverterar ett datum/tidsstämpel/sträng till ett strängvärde i det format som specificeras av datumformatet i det andra argumentet.
date_from_unix_date(days) Skapa datum från antalet dagar sedan 1970-01-01.
date_part(field, source) Extraherar en del av datum-/tidsstämpeln eller intervallkällan.
date_sub(start, days) Returnerar datumet som är dagar innan start.
date_trunc(format, timestamp) Returnerar tidsstämpeln trunkerad till den enhet som anges av formatet.
dateadd(start, days) Returnerar datumet som är 'dagar' efter startdatumet.
datediff(end, start) Returnerar antalet dagar från början till slut.
datepart(field, source) Extraherar en del av datum-/tidsstämpeln eller intervallkällan.
day(col) Extrahera dagen i månaden för ett visst datum/tidsstämpel som heltal.
dayname(col) Returnerar det förkortade dagnamnet med tre bokstäver från det angivna datumet.
dayofmonth(col) Extrahera dagen i månaden för ett visst datum/tidsstämpel som heltal.
dayofweek(col) Extrahera veckodagen för ett visst datum eller tidsstämpel som heltal.
dayofyear(col) Extrahera dagen av året för ett visst datum eller tidsstämpel som heltal.
extract(field, source) Extraherar en del av datum-/tidsstämpeln eller intervallkällan.
from_unixtime(timestamp[, format]) Konverterar antalet sekunder från unix-epoken (1970-01-01 00:00:00 UTC) till en sträng som representerar tidsstämpeln för det ögonblicket i den aktuella systemtidszonen i det angivna formatet.
from_utc_timestamp(timestamp, tz) Det här är en vanlig funktion för databaser som stöder TIMESTAMP UTAN TIMEZONE.
hour(col) Extrahera timmarna för en viss tidsstämpel som heltal.
last_day(date) Returnerar den sista dagen i månaden som det angivna datumet tillhör.
localtimestamp() Returnerar den aktuella tidsstämpeln utan tidszon i början av frågeutvärderingen som en tidsstämpel utan tidszonskolumn.
make_date(year, month, day) Returnerar en kolumn med ett datum som skapats från kolumnerna år, månad och dag.
make_dt_interval([days, hours, mins, secs]) Skapa en DayTimeIntervalType-varaktighet från dagar, timmar, minuter och sekunder.
make_interval([years, months, weeks, days, ...]) Gör intervall från år, månader, veckor, dagar, timmar, minuter och sek.
make_timestamp(years, months, days, hours, ...) Skapa tidsstämpel från fälten år, månader, dagar, timmar, minuter, sek och tidszon.
make_timestamp_ltz(years, months, days, ...) Skapa den aktuella tidsstämpeln med lokal tidszon från år, månader, dagar, timmar, minuter, sek och tidszonsfält.
make_timestamp_ntz(years, months, days, ...) Skapa lokal datumtid från fälten år, månader, dagar, timmar, minuter och sekunder.
make_ym_interval([years, months]) Gör årsmånadsintervall från år, månader.
minute(col) Extrahera antalet minuter från en given tidsstämpel som ett heltal.
month(col) Extrahera månaden från ett givet datum eller tidsstämpel som ett heltal.
monthname(col) Returnerar det förkortade månadsnamnet med tre bokstäver från det angivna datumet.
months_between(date1, date2[, roundOff]) Returnerar antalet månader mellan datum 1 och datum 2.
next_day(date, dayOfWeek) Returnerar det första datumet som är senare än värdet för datumkolumnen baserat på argumentet andra veckans dag.
now() Returnerar den aktuella tidsstämpeln i början av frågeutvärderingen.
quarter(col) Extrahera kvartalet för ett givet datum eller tidsstämpel som heltal.
second(col) Extrahera sekunderna från ett angivet datum som ett heltal.
session_window(timeColumn, gapDuration) Genererar sessionsfönster baserat på en tidsstämpel som specificerar kolumner.
timestamp_add(unit, quantity, ts) Hämtar skillnaden mellan tidsstämplarna i de angivna enheterna genom att trunkera bråkdelen.
timestamp_diff(unit, start, end) Hämtar skillnaden mellan tidsstämplarna i de angivna enheterna genom att trunkera bråkdelen.
timestamp_micros(col) Skapar tidsstämpel från antalet mikrosekunder sedan UTC-epoken.
timestamp_millis(col) Skapar tidsstämpel från antalet millisekunder sedan UTC-epoken.
timestamp_seconds(col) Konverterar antalet sekunder från Unix-epoken (1970-01-01T00:00:00Z) till en tidsstämpel.
to_date(col[, format]) Konverterar en kolumn till pyspark.sql.types.DateType med det valfria angivna formatet.
to_timestamp(col[, format]) Konverterar en kolumn till pyspark.sql.types.TimestampType med det valfria angivna formatet.
to_timestamp_ltz(timestamp[, format]) Parsar tidsstämpeln med formatet till en tidsstämpel med tidszon.
to_timestamp_ntz(timestamp[, format]) Analyserar tidsstämpeln enligt formatet till en tidsstämpel utan tidszon.
to_unix_timestamp(timestamp[, format]) Returnerar UNIX-tidsstämpeln för den angivna tiden.
to_utc_timestamp(timestamp, tz) Det här är en vanlig funktion för databaser som stöder TIMESTAMP UTAN TIMEZONE.
trunc(date, format) Returnerar datum trunkerat till den enhet som anges i formatet.
try_make_interval([years, months, weeks, ...]) Försök att utföra en make_interval åtgärd, men returnera ett NULL-värde i stället för att skapa ett fel om intervallet inte kan skapas.
try_make_timestamp(years, months, days, ...) Försök att skapa tidsstämpel från år, månader, dagar, timmar, minuter, sek och tidszonsfält.
try_make_timestamp_ltz(years, months, days, ...) Försök att skapa den aktuella tidsstämpeln med lokal tidszon från år, månader, dagar, timmar, minuter, sek och tidszonsfält.
try_make_timestamp_ntz(years, months, days, ...) Försök att skapa lokala datum och tid från år, månader, dagar, timmar, minuter, sekunder fält.
try_to_timestamp(col[, format]) Parsar kolumnen med formatet till en tidsstämpel.
unix_date(col) Returnerar antalet dagar sedan 1970-01-01.
unix_micros(col) Returnerar antalet mikrosekunder sedan 1970-01-01 00:00:00 UTC.
unix_millis(col) Returnerar antalet millisekunder sedan 1970-01-01 00:00:00 UTC.
unix_seconds(col) Returnerar antalet sekunder sedan 1970-01-01 00:00:00 UTC.
unix_timestamp([timestamp, format]) Konvertera en tidssträng med det angivna mönstret ('åååå-MM-dd HH:mm:ss', som standard) till en Unix-tidsstämpel (i sekunder) med standardtidszon och standardlocale. Returnerar null om det misslyckas.
weekday(col) Returnerar veckodagen för datum/tidsstämpel (0 = måndag, 1 = tisdag, ..., 6 = söndag).
weekofyear(col) Extrahera veckonumret för ett angivet datum som heltal.
window(timeColumn, windowDuration[, ...]) Indela rader i en eller flera tidsfönster givet en tidsstämpel som specificerar kolumn.
window_time(windowColumn) Beräknar händelsetiden från en fönsterkolumn.
year(col) Extrahera året från ett angivet datum eller tidsstämpel som heltal.

Hash-funktioner

Funktion Description
crc32(col) Beräknar cykliskt redundanskontrollvärde (CRC32) för en binär kolumn och returnerar värdet som en bigint.
hash(*cols) Beräknar hash-koden för angivna kolumner och returnerar resultatet som en int-kolumn.
md5(col) Beräknar MD5-sammandraget och returnerar värdet som en hexsträng med 32 tecken.
sha(col) Returnerar ett SHA1-hashvärde som en hex-sträng av kolumnen.
sha1(col) Returnerar hexsträngsresultatet för SHA-1.
sha2(col, numBits) Returnerar hexsträngsresultatet för SHA-2-serien med hashfunktioner (SHA-224, SHA-256, SHA-384 och SHA-512).
xxhash64(*cols) Beräknar hash-koden för angivna kolumner med 64-bitarsvarianten av xxHash-algoritmen och returnerar resultatet som en lång kolumn.

Samlingsfunktioner

Funktion Description
aggregate(col, initialValue, merge[, finish]) Tillämpar en binär operator på ett initialt tillstånd och alla element i matrisen och reducerar detta till ett enda tillstånd.
array_sort(col[, comparator]) Sorterar indatamatrisen i stigande ordning.
cardinality(col) Returnerar längden på matrisen eller kartan som lagras i kolumnen.
concat(*cols) Sammanfogar flera indatakolumner till en enda kolumn.
element_at(col, extraction) Returnerar matriselementet vid det angivna (1-baserade) indexet.
exists(col, f) Returnerar om ett predikat innehåller ett eller flera element i matrisen.
filter(col, f) Returnerar en matris med element som ett predikat innehåller i en viss matris.
forall(col, f) Återger om ett predikat gäller för varje element i arrayen.
map_filter(col, f) Returnerar en ny kartkolumn vars nyckel/värde-par uppfyller en viss predikatfunktion.
map_zip_with(col1, col2, f) Sammanfogar två givna kartor till en enda karta genom att tillämpa en funktion på nyckel/värde-paren.
reduce(col, initialValue, merge[, finish]) Tillämpar en binär operator på ett initialt tillstånd och alla element i matrisen och reducerar detta till ett enda tillstånd.
reverse(col) Returnerar en omvänd sträng eller en matris med element i omvänd ordning.
size(col) Returnerar längden på matrisen eller kartan som lagras i kolumnen.
transform(col, f) Returnerar en matris med element efter att en transformering har tillämpats på varje element i indatamatrisen.
transform_keys(col, f) Tillämpar en funktion på varje nyckel/värde-par i en karta och returnerar en karta med resultatet av dessa program som de nya nycklarna för paren.
transform_values(col, f) Tillämpar en funktion på varje nyckel/värde-par i en karta och returnerar en karta med resultatet av dessa program som nya värden för paren.
try_element_at(col, extraction) Returnerar element i matrisen vid angivet (1-baserat) index.
zip_with(left, right, f) Sammanfoga två angivna matriser, elementmässigt, till en enda matris med hjälp av en funktion.

Array-funktioner

Funktion Description
array(*cols) Skapar en ny matriskolumn från indatakolumnerna eller kolumnnamnen.
array_append(col, value) Returnerar en ny matriskolumn genom att lägga till värdet i den befintliga matriskolumnen.
array_compact(col) Tar bort null-värden från matrisen.
array_contains(col, value) Returnerar ett booleskt värde som anger om matrisen innehåller det angivna värdet: null om matrisen är null, sant om matrisen innehåller det angivna värdet och annars falskt.
array_distinct(col) Tar bort dubblettvärden från matrisen.
array_except(col1, col2) Returnerar en ny matris som innehåller elementen som finns i col1 men inte i col2, utan dubbletter.
array_insert(arr, pos, value) Infogar ett objekt i en viss matris vid ett angivet matrisindex.
array_intersect(col1, col2) Returnerar en ny matris som innehåller skärningspunkten mellan elementen i col1 och col2, utan dubbletter.
array_join(col, delimiter[, null_replacement]) Returnerar en strängkolumn genom att sammanfoga elementen i indatamatriskolumnen med avgränsaren.
array_max(col) Returnerar matrisens maximala värde.
array_min(col) Returnerar matrisens minsta värde.
array_position(col, value) Letar upp positionen för den första förekomsten av det angivna värdet i den angivna matrisen.
array_prepend(col, value) Returnerar en matris som innehåller det angivna elementet som det första elementet och resten av elementen från den ursprungliga matrisen.
array_remove(col, element) Ta bort alla element som är lika med element från den angivna matrisen.
array_repeat(col, count) Skapar en matris som innehåller en kolumn som upprepas ett visst antal gånger.
array_size(col) Returnerar det totala antalet element i matrisen.
array_union(col1, col2) Returnerar en ny matris som innehåller en union av element i col1 och col2, utan dubbletter.
arrays_overlap(a1, a2) Returnerar en boolesk kolumn som anger om indatamatriserna har vanliga icke-null-element, vilket returnerar sant om de gör det, null om matriserna inte innehåller några vanliga element men inte är tomma och minst ett av dem innehåller ett null-element och annars falskt.
arrays_zip(*cols) Returnerar en sammanslagen matris med structs där N-th-structen innehåller alla N-th-värden för indatamatriser.
flatten(col) Skapar en enskild matris från en matris med matriser.
get(col, index) Returnerar elementet i en matris vid det angivna (0-baserade) indexet.
sequence(start, stop[, step]) Generera en sekvens med heltal från början till slut, vilket ökar steg för steg.
shuffle(col[, seed]) Genererar en slumpmässig permutation av den angivna matrisen.
slice(x, start, length) Returnerar en ny matriskolumn genom att segmentera indatamatriskolumnen från ett startindex till en viss längd.
sort_array(col[, asc]) Sorterar indatamatrisen i stigande eller fallande ordning enligt matriselementens naturliga ordning.

Struct-funktioner

Funktion Description
named_struct(*cols) Skapar en struct med de angivna fältnamnen och värdena.
struct(*cols) Skapar en ny structkolumn.

Kartfunktioner

Funktion Description
create_map(*cols) Skapar en ny kartkolumn från ett jämnt antal indatakolumner eller kolumnreferenser.
map_concat(*cols) Returnerar unionen av alla givna mappningar.
map_contains_key(col, value) Returnerar sant om kartan innehåller nyckeln.
map_entries(col) Returnerar en osorterad matris med alla poster i den angivna kartan.
map_from_arrays(col1, col2) Skapar en ny karta från två matriser.
map_from_entries(col) Omvandlar en matris med nyckel/värde-parposter (structs med två fält) till en karta.
map_keys(col) Returnerar en osorterad matris som innehåller kartans nycklar.
map_values(col) Returnerar en osorterad matris som innehåller värdena för kartan.
str_to_map(text[, pairDelim, keyValueDelim]) Konverterar en sträng till en karta efter att texten har delats upp i nyckel/värde-par med hjälp av avgränsare.

Aggregatfunktioner

Funktion Description
any_value(col[, ignoreNulls]) Returnerar ett visst värde för en kolumn i en grupp rader.
approx_count_distinct(col[, rsd]) Returnerar en ny kolumn som uppskattar det ungefärliga distinkta antalet element i en angiven kolumn eller en grupp med kolumner.
approx_percentile(col, percentage[, accuracy]) Returnerar den ungefärliga percentilen för den numeriska kolumnkolumnen som är det minsta värdet i de sorterade kolvärdena (sorterade från minst till störst) så att inte mer än procentandelen kolvärden är mindre än värdet eller lika med det värdet.
array_agg(col) Returnerar en lista över objekt med dubbletter.
avg(col) Returnerar medelvärdet av värdena i en grupp.
bit_and(col) Returnerar den bitvisa OCH-operationen för alla indata som inte är null, eller null om inga finns.
bit_or(col) Returnerar bitvis eller-operationen för alla indatavärden som inte är null, eller null om inga finns.
bit_xor(col) Returnerar bitvis XOR för alla indatavärden som inte är null eller null om det inte finns något.
bitmap_construct_agg(col) Returnerar en bitmapp med positionerna för de bitar som angetts från alla värden från indatakolumnen.
bitmap_or_agg(col) Returnerar en bitkarta som är en bitvis OR av alla bitkartor i indatakolumnen.
bool_and(col) Returnerar sant om alla värden i kolumnen är sanna.
bool_or(col) Returnerar true om minst ett värde av kolumnen är true.
collect_list(col) Samlar in värdena från en kolumn i en lista, underhåller dubbletter och returnerar den här listan med objekt.
collect_set(col) Samlar in värdena från en kolumn i en uppsättning, eliminerar dubbletter och returnerar den här uppsättningen objekt.
corr(col1, col2) Returnerar en ny kolumn för Pearson Correlation Coefficient för col1 och col2.
count(col) Returnerar antalet objekt i en grupp.
count_distinct(col, *cols) Returnerar en ny kolumn för distinkt antal kolumn eller kolumner.
count_if(col) Returnerar antalet TRUE-värden för kolumnen.
count_min_sketch(col, eps, confidence[, seed]) Returnerar en count-min sketch av en kolumn med angiven epsilon, konfidensnivå och frö.
covar_pop(col1, col2) Returnerar en ny kolumn för populationens kovarians för col1 och col2.
covar_samp(col1, col2) Returnerar en ny kolumn för samvariansexemplet col1 och col2.
every(col) Returnerar sant om alla värden i kolumnen är sanna.
first(col[, ignorenulls]) Returnerar det första värdet i en grupp.
first_value(col[, ignoreNulls]) Returnerar det första värdet i en kolumn för en grupp rader.
grouping(col) Anger om en angiven kolumn i en GROUP BY lista aggregeras eller inte, returnerar 1 för aggregerad eller 0 för inte aggregerad i resultatuppsättningen.
grouping_id(*cols) Returnerar grupperingsnivån, lika med
histogram_numeric(col, nBins) Beräknar ett histogram på numeriska "col" med nb-lagerplatser.
hll_sketch_agg(col[, lgConfigK]) Returnerar den uppdateringsbara binära representationen av Datasketches HllSketch som har konfigurerats tillsammans med lgConfigK-argumentet.
hll_union_agg(col[, allowDifferentLgConfigK]) Returnerar den updatable binära representationen av Datasketches HllSketch, som genereras genom sammanslagning av tidigare skapade Datasketches HllSketch-instanser via en Datasketches Union-instans.
kurtosis(col) Returnerar värdenas kurtos i en grupp.
last(col[, ignorenulls]) Returnerar det sista värdet i en grupp.
last_value(col[, ignoreNulls]) Returnerar det sista värdet av kolumnen för en grupp rader.
listagg(col[, delimiter]) Returnerar sammanlänkningen av indatavärden som inte är null, avgränsade med avgränsare.
listagg_distinct(col[, delimiter]) Returnerar sammanlänkningen av distinkta indatavärden som inte är null, avgränsade med avgränsare.
max(col) Returnerar det maximala värdet för uttrycket i en grupp.
max_by(col, ord) Returnerar värdet från den kolparameter som är associerad med det maximala värdet från ordparametern.
mean(col) Returnerar medelvärdet av värdena i en grupp.
median(col) Returnerar medianvärdet för värdena i en grupp.
min(col) Returnerar det lägsta värdet för uttrycket i en grupp.
min_by(col, ord) Returnerar värdet från den kolparameter som är associerad med minimivärdet från ordparametern.
mode(col[, deterministic]) Returnerar det vanligaste värdet i en grupp.
percentile(col, percentage[, frequency]) Returnerar den exakta percentilen för numeriska kolumnexpr vid angivna procentsatser med värdeintervallet i [0,0, 1,0].
percentile_approx(col, percentage[, accuracy]) Returnerar den ungefärliga percentilen för den numeriska kolumnkolumnen som är det minsta värdet i de sorterade kolvärdena (sorterade från minst till störst) så att inte mer än procentandelen kolvärden är mindre än värdet eller lika med det värdet.
product(col) Returnerar produkten av värdena i en grupp.
regr_avgx(y, x) Returnerar medelvärdet för den oberoende variabeln för icke-null-par i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
regr_avgy(y, x) Returnerar medelvärdet för den beroende variabeln för icke-null-par i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
regr_count(y, x) Returnerar antalet icke-null-talpar i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
regr_intercept(y, x) Returnerar skärningspunkten för den univariata linjära regressionslinjen för icke-null-par i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
regr_r2(y, x) Returnerar bestämningskoefficienten för icke-null-par i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
regr_slope(y, x) Returnerar lutningen för den linjära regressionslinjen för icke-null-par i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
regr_sxx(y, x) Returnerar REGR_COUNT(y, x) * VAR_POP(x) för icke-null-par i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
regr_sxy(y, x) Returnerar REGR_COUNT(y, x) * COVAR_POP(y, x) för icke-null-par i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
regr_syy(y, x) Returnerar REGR_COUNT(y, x) * VAR_POP(y) för icke-null-par i en grupp, där y är den beroende variabeln och x är den oberoende variabeln.
skewness(col) Returnerar snedheten för värdena i en grupp.
some(col) Returnerar true om minst ett värde av kolumnen är true.
std(col) Alias för stddev_samp.
stddev(col) Alias för stddev_samp.
stddev_pop(col) Returnerar populationens standardavvikelse för uttrycket i en grupp.
stddev_samp(col) Returnerar den opartiska stickprovsstandardavvikelsen av uttrycket i en grupp.
string_agg(col[, delimiter]) Returnerar sammanlänkningen av indatavärden som inte är null, avgränsade med avgränsare.
string_agg_distinct(col[, delimiter]) Returnerar sammanlänkningen av distinkta indatavärden som inte är null, avgränsade med avgränsare.
sum(col) Returnerar summan av alla värden i uttrycket.
sum_distinct(col) Returnerar summan av distinkta värden i uttrycket.
try_avg(col) Returnerar medelvärdet beräknat från värden i en grupp och resultatet är null vid spill.
try_sum(col) Returnerar summan som beräknas från värden i en grupp och resultatet är null vid spill.
var_pop(col) Returnerar populationsavvikelsen för värdena i en grupp.
var_samp(col) Returnerar den opartiska exempelvariansen för värdena i en grupp.
variance(col) Alias för var_samp

Fönsterfunktioner

Funktion Description
cume_dist() Returnerar den kumulativa fördelningen av värden i en fönsterpartition, d.v.s. bråket rader som ligger under den aktuella raden.
dense_rank() Returnerar rangordningen för rader i en fönsterpartition, utan några luckor.
lag(col[, offset, default]) Returnerar värdet som är det angivna antalet rader före den aktuella raden, och standardvärdet om det finns färre än det angivna antalet rader före den aktuella raden.
lead(col[, offset, default]) Returnerar värdet som är ett visst antal rader efter den aktuella raden, och standardvärdet om det finns färre än detta antal rader efter den aktuella raden.
nth_value(col, offset[, ignoreNulls]) Returnerar värdet som är den förskjutna raden i fönsterramen (räknat från 1) och null om storleken på fönsterramen är mindre än de föregående raderna.
ntile(n) Returnerar ntile-grupp-ID :t (från 1 till n inklusive) i en ordnad fönsterpartition.
percent_rank() Returnerar den relativa rangordningen (dvs.
rank() Returnerar rangordningen för rader i en fönsterpartition.
row_number() Returnerar ett sekventiellt tal som börjar vid 1 i en fönsterpartition.

Generatorfunktioner

Funktion Description
explode(col) Returnerar en ny rad för varje element i den angivna matrisen eller kartan.
explode_outer(col) Returnerar en ny rad för varje element i den angivna matrisen eller kartan.
inline(col) Exploderar en matris med structs i en tabell.
inline_outer(col) Exploderar en matris med structs i en tabell.
posexplode(col) Returnerar en ny rad för varje element med position i den angivna matrisen eller kartan.
posexplode_outer(col) Returnerar en ny rad för varje element med position i den angivna matrisen eller kartan.
stack(*cols) Dela upp col1, ..., colk till n rader.

Funktioner för partitionstransformering

Funktion Description
partitioning.years(col) En transformering för tidsstämplar och datum för att dela in data i årliga segment.
partitioning.months(col) En transformering för tidsstämplar och datum för att partitionera data i månader.
partitioning.days(col) En transformering för tidsstämplar och datum för att partitionera data i dagar.
partitioning.hours(col) En transformering för tidsstämplar för att partitionera data i timmar.
partitioning.bucket(numBuckets, col) En transformering för alla typer som partitioneras efter en hash av indatakolumnen.

Geospatiala funktioner i H3 (Databricks)

Funktion Description
h3_boundaryasgeojson(col) Returnerar gränsen för en H3-cell i GeoJSON-format
h3_boundaryaswkb(col) Returnerar gränsen för en H3-cell i WKB-format
h3_boundaryaswkt(col) Returnerar gränsen för en H3-cell i WKT-format
h3_centerasgeojson(col) Returnerar mitten av en H3-cell i GeoJSON-format
h3_centeraswkb(col) Returnerar mitten av en H3-cell i WKB-format
h3_centeraswkt(col) Returnerar mitten av en H3-cell i WKT-format
h3_compact(col) Komprimerar indatauppsättningen av H3-cell-ID:n så effektivt som möjligt
h3_coverash3(col1,col2) Returnerar en matris med cell-ID:n representerade som långa heltal, motsvarande sexhörningar eller femhörningar i den angivna upplösningen som minimalt täcker linjära eller areala geografiska områden.
h3_coverash3string(col1,col2) Returnerar en matris med cell-ID:t som representeras som strängar, motsvarande sexhörningar eller femhörningar i den angivna upplösningen som minimalt täcker indataradiska eller areala geografiska områden
h3_distance(col1,col2) Returnerar rutnätsavståndet mellan två H3-cell-ID:t
h3_h3tostring(col) Konverterar ett H3-cell-ID till en sträng som representerar cell-ID:t som en hexadecimal sträng
h3_hexring(col1,col2) Returnerar en matris med H3-cell-ID:n som bildar en ihålig sexhörningsring centrerad vid ursprungscellen H3 och som är på rutnätsavstånd k från ursprungscellen H3
h3_ischildof(col1,col2) Returnerar True om det första H3-cell-ID:t är underordnat det andra H3-cell-ID:t
h3_ispentagon(col) Returnerar True om H3-cell-ID för indata representerar en pentagon
h3_isvalid(col) Returnerar True om indata representerar ett giltigt H3-cell-ID
h3_kring(col1,col2) Returnerar de H3-cell-ID:n som ligger inom rutnätets avstånd k från ursprungscellens ID.
h3_kringdistances(col1,col2) Returnerar alla H3-cell-ID:n (representeras som långa heltal eller strängar) inom rutnätsavstånd k från ursprungscells-ID:t H3, tillsammans med avståndet från ursprungscells-ID:t H3
h3_longlatash3(col1,col2,col3) Returnerar det H3-cell-ID (som en BIGINT) som motsvarar den angivna longitud och latitud vid den angivna upplösningen
h3_longlatash3string(col1,col2,col3) Returnerar det H3-cell-ID (som en sträng) som motsvarar den angivna longitud och latitud vid den angivna upplösningen
h3_maxchild(col1,col2) Returnerar barnet med det maximala värdet av inmatnings-H3-cellen vid den angivna upplösningen
h3_minchild(col1,col2) Returnerar det barn med minimivärde för den inmatade H3-cellen med den angivna upplösningen
h3_pointash3(col1,col2) Returnerar det H3-cell-ID (som en BIGINT) som motsvarar den angivna punkten vid den angivna upplösningen
h3_pointash3string(col1,col2) Returnerar det H3-cell-ID (som en sträng) som motsvarar den angivna punkten vid den angivna upplösningen
h3_polyfillash3(col1,col2) Returnerar en matris med cell-ID:n som representeras som långa heltal (long integers), motsvarande hexagoner eller pentagoner i den specificerade upplösningen som ingår i den angivna arealgeografin.
h3_polyfillash3string(col1,col2) Returnerar en array av cell-ID:n som representeras som strängar, motsvarande sexhörningar eller pentagoner för den angivna upplösningen som ingår i den inmatade arealgeografin
h3_resolution(col) Returnerar upplösningen för H3-cell-ID:t
h3_stringtoh3(col) Konverterar strängrepresentationens H3-cell-ID till dess stora heltalsrepresentation
h3_tessellateaswkb(col1,col2) Returnerar en vektor med strukturer som representerar de marker som täcker geografin vid den angivna upplösningen
h3_tochildren(col1,col2) Returnerar H3-cell-ID:erna för underordnade celler till det angivna indata-H3-cell-ID:t vid den specificerade upplösningen
h3_toparent(col1,col2) Returnerar det överordnade H3-cell-ID:t för indata-H3-cell-ID:t vid den angivna upplösningen
h3_try_coverash3(col1,col2) Returnerar en matris med cell-ID:n representerade som långa heltal, motsvarande sexhörningar eller femhörningar i den angivna upplösningen som minimalt täcker linjära eller areala geografiska områden.
h3_try_coverash3string(col1,col2) Returnerar en matris med cell-ID:t som representeras som strängar, motsvarande sexhörningar eller femhörningar i den angivna upplösningen som minimalt täcker indataradiska eller areala geografiska områden
h3_try_distance(col1,col2) Returnerar rutnätsavståndet mellan två H3-cell-ID:er med samma upplösning, eller None om avståndet om det är odefinierat
h3_try_polyfillash3(col1,col2) Returnerar en matris med cell-ID:n som representeras som långa heltal (long integers), motsvarande hexagoner eller pentagoner i den specificerade upplösningen som ingår i den angivna arealgeografin.
h3_try_polyfillash3string(col1,col2) Returnerar en array av cell-ID:n som representeras som strängar, motsvarande sexhörningar eller pentagoner för den angivna upplösningen som ingår i den inmatade arealgeografin
h3_try_tessellateaswkb(col1,col2) Returnerar en matris med strukturer som representerar de chips som täcker det geografiska området vid den angivna upplösningen, eller null om geometrin är ogiltig.
h3_try_validate(col) Returnerar indatavärdet om det är en giltig H3-cell eller Ingen på annat sätt
h3_uncompact(col1,col2) Avkomprimerar indatauppsättningen med H3-cell-ID:n till den angivna upplösningen.
h3_validate(col) Returnerar indatavärdet om det är en giltig H3-cell eller genererar ett fel på annat sätt

ST:s geospatiala funktioner (Databricks)

Funktion Description
st_addpoint(col1,col2,col3) Lägger till en ny punkt till den n:e positionen i indatalinjerna geografi eller geometri
st_area(col) Returnerar ytan för indatageografin eller geometrin
st_asbinary(col1,col2) Returnerar indatavärdet geografi eller geometri i WKB-format
st_asewkb(col1,col2) Returnerar geometrivärdet från indata i EWKB-format
st_asewkt(col) Returnerar indatavärdet geografi eller geometri i EWKT-format
st_asgeojson(col) Returnerar indatavärdet geografi eller geometri i GeoJSON-format
st_astext(col) Returnerar indatavärdet geografi eller geometri i WKT-format
st_aswkb(col1,col2) Returnerar indatavärdet geografi eller geometri i WKB-format
st_aswkt(col) Returnerar indatavärdet geografi eller geometri i WKT-format
st_buffer(col1,col2) Returnerar bufferten för indatageometrin med den angivna radien
st_centroid(col) Returnerar centroiden för indatageometrin som en 2D-punktsgeometri
st_concavehull(col1,col2,col3) Returnerar indatageometrins konkava skrov som geometri med angivet längdförhållande
st_contains(col1,col2) Returnerar True om den första geometrin innehåller den andra geometrin
st_convexhull(col) Returnerar indatageometrins konvexa skrov som geometri
st_covers(col1,col2) Returnerar True om den första geometrin täcker den andra geometrin
st_difference(col1,col2) Returnerar punktuppsättningen som skiljer sig från de två indatageometrierna som en 2D-geometri
st_dimension(col) Returnerar den topologiska dimensionen för 2D-projektionen av indatageometrin
st_disjoint(col1,col2) Returnerar True om de två geometrierna är åtskilda
st_distance(col1,col2) Returnerar det 2D-kartesiska avståndet mellan de två indatageometrierna
st_distancesphere(col1,col2) Returnerar det sfäriska avståndet (i meter) mellan två punktgeometrier, mätt på en sfär vars radie är medelvärdesradien för WGS84-ellipsoiden
st_distancespheroid(col1,col2) Returnerar det geodesiska avståndet (i meter) mellan två punktgeometrier på WGS84-ellipsoiden
st_dwithin(col1,col2,col3) Returnerar True om det 2D-kartesiska avståndet mellan de två indatageometrierna är mindre än eller lika med indataavståndet
st_endpoint(col) Returnerar den sista punkten i indatalinjerna, eller None om den inte finns
st_envelope(col) Returnerar den 2D-kartesiska axelriktade minsta begränsande rutan (omslagsrutan) för den inmatade icke-tomma geometrin som en geometri.
st_envelope_agg(col) Returnerar kuvertet för alla geometrier i kolumnen, eller None om kolumnen har noll rader eller endast None innehåller värden
st_equals(col1,col2) Returnerar True om de två geometrierna är geometriskt lika med
st_exteriorring(col) Returnerar den yttre ringen (skalet), som en linjesträng, av ett Geografi- eller Geometrivärde som representerar en polygon.
st_flipcoordinates(col) Växlar X- och Y-koordinaterna för indatageometrin
st_geogfromgeojson(col) Parsar GeoJSON-beskrivningen och returnerar motsvarande geografivärde
st_geogfromtext(col) Parsar WKT-beskrivningen och returnerar motsvarande geografivärde
st_geogfromwkb(col) Parsar WKB-indatabeskrivningen och returnerar motsvarande geografivärde
st_geogfromwkt(col) Parsar WKT-beskrivningen och returnerar motsvarande geografivärde
st_geohash(col1,col2) Returnerar geohash för den angivna indatageometrin
st_geometryn(col1,col2) Returnerar det 1-baserade n:te elementet i den inmatade multigeometrin, eller None om det inte finns
st_geometrytype(col) Returnerar typen av Geografi eller Geometri som en sträng
st_geomfromewkb(col) Parsar inmatningsbeskrivningen i EWKB och returnerar det motsvarande geometrivärdet
st_geomfromgeohash(col) Returnerar geohash-rutnätsrutan som motsvarar det inmatade geohashvärdet som en 2D-polygongeometri
st_geomfromgeojson(col) Parsar GeoJSON-beskrivningen och returnerar motsvarande geometrivärde
st_geomfromtext(col1,col2) Parsar WKT-beskrivningen och returnerar motsvarande geometrivärde
st_geomfromwkb(col1,col2) Parsar WKB-indatabeskrivningen och returnerar motsvarande geometrivärde
st_geomfromwkt(col1,col2) Parsar WKT-beskrivningen och returnerar motsvarande geometrivärde
st_intersection(col1,col2) Returnerar skärningen av punktuppsättningarna mellan de två indatageometrierna som en 2D-geometri
st_intersects(col1,col2) Returnerar True om de två geometrierna korsar varandra
st_isempty(col) Returnerar True om indatans geografi - eller geometrivärde inte innehåller några icke-tomma punkter
st_isvalid(col) Returnerar True om indatageometrin är en giltig geometri i OGC-bemärkelse
st_length(col) Returnerar längden på indatageometrin eller geografivärdet
st_m(col) Returnerar M-koordinaten för indatapunktens geometri, eller None om indatapunktens geometri är tom eller om den inte har en M-koordinat
st_makeline(col) Returnerar en linjegeometri vars punkter är geometriernas icke-tomma punkter i indatamatrisen med geometrier, som förväntas vara punkter, linjer eller flera punkter
st_makepolygon(col1,col2) Konstruerar en polygon från den yttre indatagränsen och valfri matris med inre gränser, som representeras som stängda linjer
st_multi(col) Returnerar indatans geografi - eller geometrivärde som ett motsvarande multigeospatialt värde och behåller det ursprungliga SRID-värdet
st_ndims(col) Returnerar koordinatdimensionen för indatageografi eller geometrivärde
st_npoints(col) Returnerar antalet icke-tomma punkter i indatans geografi- eller geometrivärde
st_numgeometries(col) Returnerar antalet geometrier i indatageometrin
st_perimeter(col) Returnerar perimetern för indataområdet eller geometrin
st_point(col1,col2,col3) Returnerar en 2D-punktsgeometri med angivna x- och y-koordinater och SRID-värde
st_pointfromgeohash(col) Returnerar mitten av geohash-rutnätsrutan som motsvarar geohash-indatavärdet som en 2D-punktsgeometri
st_pointn(col1,col2) Returnerar den 1-baserade n:e punkten i indatalinjerna, eller None om den inte finns
st_removepoint(col1,col2) Tar bort den n:e punkten från indatalinjerna för geografi eller geometri
st_reverse(col) Vänder om ordningen på hörnen i indatageografi eller geometrivärdet
st_rotate(col1,col2) Roterar indatageometrin runt Z-axeln med den angivna rotationsvinkeln (i radianer)
st_scale(col1,col2,col3,col4) Skalar indatageometrin i riktningarna X, Y och Z (valfritt) med hjälp av de angivna faktorerna
st_setpoint(col1,col2,col3) Anger den n:e punkten i indatalinjerna geografi eller geometri
st_setsrid(col1,col2) Returnerar ett nytt geometrivärde vars SRID är det angivna SRID-värdet
st_simplify(col1,col2) Förenklar indatageometrin med hjälp av Douglas-Peucker-algoritmen
st_srid(col) Returnerar SRID för det geospatiala indatavärdet
st_startpoint(col) Returnerar den första punkten i indatalinjerna, eller None om den inte finns
st_touches(col1,col2) Returnerar True om de två geometrierna rör vid varandra
st_transform(col1,col2) Transformerar X- och Y-koordinaterna för indatageometrin till koordinatreferenssystemet (CRS) som beskrivs av det angivna SRID-värdet
st_translate(col1,col2,col3,col4) Översätter indatageometrin i riktningarna X, Y och Z (valfritt) med hjälp av de angivna förskjutningarna
st_union(col1,col2) Returnerar punktuppsättningsunionen för de två indatageometrierna som en 2D-geometri
st_union_agg(col) Returnerar punktvis union av alla geometrier i kolumnen, eller None om kolumnen har noll rader eller endast None innehåller värden
st_within(col1,col2) Returnerar True om den första geometrin ligger inom den andra geometrin
st_x(col) Returnerar X-koordinaten för indatapunktens geometri, eller None om indatapunktens geometri är tom
st_xmax(col) Returnerar den maximala X-koordinaten för indatageometrin, eller None om indatageometrin är tom
st_xmin(col) Returnerar den minsta X-koordinaten för indatageometrin, eller None om indatageometrin är tom
st_y(col) Returnerar Y-koordinaten för indatapunktens geometri, eller None om indatapunktens geometri är tom
st_ymax(col) Returnerar den maximala Y-koordinaten för indatageometrin, eller None om indatageometrin är tom
st_ymin(col) Returnerar den minsta Y-koordinaten för indatageometrin, eller None om indatageometrin är tom
st_z(col) Returnerar Z-koordinaten för indatapunktens geometri, eller None om indatapunktens geometri är tom eller om den inte har en Z-koordinat
st_zmax(col) Returnerar den maximala Z-koordinaten för indatageometrin, eller None om indatageometrin är tom eller inte innehåller Z-koordinater
st_zmin(col) Returnerar den minsta Z-koordinaten för indatageometrin, eller None om indatageometrin är tom eller inte innehåller Z-koordinater
to_geography(col) Parsar indatabinärt värde eller strängvärde och returnerar motsvarande geografivärde
to_geometry(col) Parsar binärdata eller strängvärdet och returnerar det motsvarande geometrivärdet.
try_to_geography(col) Parsar binärt indatavärde eller sträng och returnerar motsvarande geografivärde, eller None om indata är ogiltiga
try_to_geometry(col) Parsar indata som binärt värde eller strängvärde och returnerar motsvarande geometrivärde, eller None om indata är ogiltig

CSV-funktioner

Funktion Description
from_csv(col, schema[, options]) Parsar en kolumn som innehåller en CSV-sträng till en rad med det angivna schemat.
schema_of_csv(csv[, options]) Parsar en CSV-sträng och härleder schemat i DDL-format.
to_csv(col[, options]) Konverterar en kolumn som innehåller en StructType till en CSV-sträng.

JSON-funktioner

Funktion Description
from_json(col, schema[, options]) Parsar en kolumn som innehåller en JSON-sträng till en MapType med StringType som nyckeltyp, StructType eller ArrayType med det angivna schemat.
get_json_object(col, path) Extraherar json-objekt från en json-sträng baserat på den angivna json-sökvägen och returnerar json-strängen för det extraherade json-objektet.
json_array_length(col) Returnerar antalet element i den yttersta JSON-matrisen.
json_object_keys(col) Returnerar alla nycklar för det yttersta JSON-objektet som en matris.
json_tuple(col, *fields) Skapar en ny rad för en json-kolumn enligt de angivna fältnamnen.
schema_of_json(json[, options]) Parsar en JSON-sträng och härleder dess schema i DDL-format.
to_json(col[, options]) Konverterar en kolumn som innehåller en StructType, ArrayType eller en MapType till en JSON-sträng.

Variantfunktioner

Funktion Description
is_variant_null(v) Kontrollera om ett variantvärde är en variant null.
parse_json(col) Parsar en kolumn som innehåller en JSON-sträng till en VariantType.
schema_of_variant(v) Returnerar schemat i SQL-format för en variant.
schema_of_variant_agg(v) Returnerar det sammanfogade schemat i SQL-formatet för en variantkolumn.
try_variant_get(v, path, targetType) Extraherar en undervariant från v enligt sökväg och omvandlar sedan undervarianten till targetType.
variant_get(v, path, targetType) Extraherar en undervariant från v enligt sökväg och omvandlar sedan undervarianten till targetType.
try_parse_json(col) Parsar en kolumn som innehåller en JSON-sträng till en VariantType.
to_variant_object(col) Konverterar en kolumn som innehåller kapslade indata (matris/karta/struct) till en variant där kartor och strukturer konverteras till variantobjekt som är osorterade till skillnad från SQL-structs.

XML-funktioner

Funktion Description
from_xml(col, schema[, options]) Parsar en kolumn som innehåller en XML-sträng till en rad med det angivna schemat.
schema_of_xml(xml[, options]) Parsar en XML-sträng och härleder schemat i DDL-format.
to_xml(col[, options]) Konverterar en kolumn som innehåller en StructType till en XML-sträng.
xpath(xml, path) Returnerar en strängmatris med värden inom noderna i xml som matchar XPath-uttrycket.
xpath_boolean(xml, path) Returnerar sant om XPath-uttrycket utvärderas till sant eller om en matchande nod hittas.
xpath_double(xml, path) Returnerar ett dubbelt värde, värdet noll om ingen matchning hittas eller NaN om en matchning hittas men värdet är icke-numeriskt.
xpath_float(xml, path) Returnerar ett flyttalvärde, värdet noll om ingen matchning hittas eller NaN om en matchning hittas men värdet är icke-numeriskt.
xpath_int(xml, path) Returnerar ett heltalsvärde, eller värdet noll om ingen matchning hittas, eller om en matchning hittas men värdet är icke-numeriskt.
xpath_long(xml, path) Returnerar ett långt heltalsvärde, eller värdet noll om ingen matchning hittas, eller om en matchning hittas men värdet inte är numeriskt.
xpath_number(xml, path) Returnerar ett dubbelt värde, värdet noll om ingen matchning hittas eller NaN om en matchning hittas men värdet är icke-numeriskt.
xpath_short(xml, path) Returnerar ett kort heltalsvärde, eller värdet noll om ingen matchning hittas, eller om en matchning hittas men värdet är icke-numeriskt.
xpath_string(xml, path) Returnerar textinnehållet i den första XML-noden som matchar XPath-uttrycket.

URL-funktioner

Funktion Description
parse_url(url, partToExtract[, key]) Extraherar en angiven del från en URL.
try_parse_url(url, partToExtract[, key]) Försök att utföra åtgärden parse_url , men returnera ett NULL-värde i stället för att skapa ett fel om parsningen inte kan utföras.
url_decode(str) Avkodar en URL-kodad sträng i application/x-www-form-urlencoded format till dess ursprungliga format.
url_encode(str) Kodar en sträng till en URL-kodad sträng i formatet "application/x-www-form-urlencoded".
try_url_decode(str) Försök att utföra åtgärden url_decode , men returnera ett NULL-värde i stället för att skapa ett fel om avkodningen inte kan utföras.

Diverse funktioner

Funktion Description
aes_decrypt(input, key[, mode, padding, aad]) Returnerar ett dekrypterat värde för indata med hjälp av AES i läge med utfyllnad.
aes_encrypt(input, key[, mode, padding, iv, aad]) Returnerar ett krypterat värde för indata med hjälp av AES i angivet läge med angiven utfyllnad.
assert_true(col[, errMsg]) Returnerar null om indatakolumnen är sann. genererar ett undantag med det angivna felmeddelandet annars.
bitmap_bit_position(col) Returnerar bitpositionen för den angivna indatakolumnen.
bitmap_bucket_number(col) Returnerar bucketnumret för den angivna indatakolumnen.
bitmap_count(col) Returnerar antalet angivna bitar i indatabitmappen.
current_catalog() Returnerar den aktuella katalogen.
current_database() Returnerar den aktuella databasen.
current_schema() Returnerar det aktuella schemat.
current_user() Returnerar den aktuella användaren.
hll_sketch_estimate(col) Returnerar det uppskattade antalet unika värden med tanke på den binära representationen av en Datasketches HllSketch.
hll_union(col1, col2[, allowDifferentLgConfigK]) Sammanfogar två binära representationer av Datasketches HllSketch-objekt med hjälp av ett Datasketches Union-objekt.
input_file_block_length() Returnerar längden på blocket som läses, eller -1 om det inte är tillgängligt.
input_file_block_start() Returnerar startförskjutningen för blocket som läses, eller -1 om det inte är tillgängligt.
input_file_name() Skapar en strängkolumn för filnamnet för den aktuella Spark-aktiviteten.
java_method(*cols) Anropar en metod med reflektion.
monotonically_increasing_id() En kolumn som genererar monotont ökande 64-bitars heltal.
raise_error(errMsg) Utlöser ett undantag med det angivna felmeddelandet.
reflect(*cols) Anropar en metod med reflektion.
session_user() Returnerar användarnamnet för den aktuella körningskontexten.
spark_partition_id() En kolumn för partitions-ID.
try_aes_decrypt(input, key[, mode, padding, aad]) Försök att utföra åtgärden aes_decrypt , men returnera ett NULL-värde i stället för att skapa ett fel om dekrypteringen inte kan utföras.
try_reflect(*cols) Försök att utföra en reflect åtgärd, men returnera ett NULL-värde i stället för att skapa ett fel om anropsmetoden utlöste ett undantag.
typeof(col) Returnera DDL-formaterad typsträng för datatypen för indata.
user() Returnerar den aktuella användaren.
version() Returnerar Spark-versionen.

UDF, UDTF, UDT-funktioner

Funktion Description
call_udf(udfName, *cols) Anropa en användardefinierad funktion.
pandas_udf([f, returnType, functionType]) Skapar en pandas-funktion som är användardefinierad (även känd som.
udf([f, returnType, useArrow]) Skapar en användardefinierad funktion (UDF).
udtf([cls, returnType, useArrow]) Skapar en användardefinierad tabellfunktion (UDTF).
unwrap_udt(col) Packa upp UDT-datatypkolumnen till dess underliggande typ.

Tabellvärdesfunktioner

Funktion Description
TableValuedFunction.collations() Hämta alla Spark SQL-strängsorteringar.
TableValuedFunction.explode(collection) Returnerar en DataFrame som innehåller en ny rad för varje element i den angivna matrisen eller kartan.
TableValuedFunction.explode_outer(collection) Returnerar en DataFrame som innehåller en ny rad för varje element med position i den angivna matrisen eller kartan.
TableValuedFunction.inline(input) Exploderar en matris med structs i en tabell.
TableValuedFunction.inline_outer(input) Exploderar en matris med structs i en tabell.
TableValuedFunction.json_tuple(input, *fields) Skapar en ny rad för en json-kolumn enligt de angivna fältnamnen.
TableValuedFunction.posexplode(collection) Returnerar en DataFrame som innehåller en ny rad för varje element med position i den angivna matrisen eller kartan.
TableValuedFunction.posexplode_outer(collection) Returnerar en DataFrame som innehåller en ny rad för varje element med position i den angivna matrisen eller kartan.
TableValuedFunction.range(start[, end, ...]) Skapa en DataFrame med en enda kolumn av typen pyspark.sql.types.LongType med namnet id, som innehåller element i ett intervall från start till slut (exklusivt) med stegvärde.
TableValuedFunction.sql_keywords() Hämta Spark SQL-nyckelord.
TableValuedFunction.stack(n, *fields) Dela upp col1, ..., colk till n rader.
TableValuedFunction.variant_explode(input) Separerar ett variantobjekt/matris till flera rader som innehåller dess fält/element.
TableValuedFunction.variant_explode_outer(input) Separerar ett variantobjekt/matris till flera rader som innehåller dess fält/element.