다음을 통해 공유


PySpark 함수

이 페이지에서는 해당 참조 설명서에 대한 링크와 함께 Databricks에서 사용할 수 있는 PySpark SQL 함수 목록을 제공합니다.

일반 함수

기능 Description
broadcast(df) DataFrame을 브로드캐스트 조인에 사용할 수 있을 만큼 작게 표시합니다.
call_function(funcName, *cols) SQL 함수를 호출합니다.
col(col) 지정된 열 이름을 기반으로 열을 반환합니다.
column(col) 지정된 열 이름을 기반으로 열을 반환합니다.
lit(col) 리터럴 값을 갖는 열을 생성합니다.
expr(str) 식 문자열을 해당 열로 구문 분석합니다.

조건부 함수

기능 Description
coalesce(*cols) null이 아닌 첫 번째 열을 반환합니다.
ifnull(col1, col2) col1이 null이면 col2를 반환하고, 그렇지 않으면 col1을 반환합니다.
nanvl(col1, col2) NaN이 아니면 col1을 반환하고, col1이 NaN이면 col2를 반환합니다.
nullif(col1, col2) col1이 col2와 같으면 null을 반환하고, 그렇지 않으면 col1을 반환합니다.
nullifzero(col) col이 0과 같으면 null을 반환하고, 그렇지 않으면 col을 반환합니다.
nvl(col1, col2) col1이 null이면 col2를 반환하고, 그렇지 않으면 col1을 반환합니다.
nvl2(col1, col2, col3) col1이 null이 아니면 col2를 반환하고, 그렇지 않으면 col3을 반환합니다.
when(condition, value) 조건 목록을 평가하고 가능한 여러 결과 식 중 하나를 반환합니다.
zeroifnull(col) col이 null이면 0을 반환하고, 그렇지 않으면 col을 반환합니다.

패턴 일치 함수

기능 Description
equal_null(col1, col2) null이 아닌 피연산자에 대해 EQUAL(=) 연산자와 동일한 결과를 반환하지만 둘 다 null이면 true를 반환하고, 둘 중 하나가 null이면 false를 반환합니다.
ilike(str, pattern[, escapeChar]) str이 이스케이프 대/소문자를 구분하지 않는 패턴과 일치하면 true를 반환하고, 인수가 null이면 null을 반환하고, 그렇지 않으면 false를 반환합니다.
isnan(col) 열이 NaN 값인지 확인하여 true를 반환하는 표현식입니다.
isnotnull(col) col이 null이 아니면 true를 반환하고, 그렇지 않으면 false를 반환합니다.
isnull(col) 열의 값이 null인지 확인하는 식으로, true를 반환합니다.
like(str, pattern[, escapeChar]) str이 이스케이프와 패턴과 일치하면 true를 반환하고, 인수가 null이면 null을 반환하고, 그렇지 않으면 false를 반환합니다.
regexp(str, regexp) str이 Java regex regexp와 일치하면 true를 반환하고, 그렇지 않으면 false를 반환합니다.
regexp_like(str, regexp) str이 Java regex regexp와 일치하면 true를 반환하고, 그렇지 않으면 false를 반환합니다.
rlike(str, regexp) str이 Java regex regexp와 일치하면 true를 반환하고, 그렇지 않으면 false를 반환합니다.

정렬 함수

기능 Description
asc(col) 대상 열의 정렬 식을 오름차순으로 반환합니다.
asc_nulls_first(col) 지정된 열 이름의 오름차순에 따라 정렬 식을 반환하고 null 값은 null이 아닌 값 앞에 반환됩니다.
asc_nulls_last(col) 지정된 열 이름의 오름차순에 따라 정렬 식을 반환하고 null 값이 null이 아닌 값 후에 나타납니다.
desc(col) 대상 열의 정렬 식을 내림차순으로 반환합니다.
desc_nulls_first(col) 지정된 열 이름의 내림차순에 따라 정렬 식을 반환하고 null 값이 null이 아닌 값 앞에 나타납니다.
desc_nulls_last(col) 지정된 열 이름의 내림차순에 따라 정렬 식을 반환하고 null 값은 null이 아닌 값 후에 나타납니다.

수학 함수

기능 Description
abs(col) 지정된 열 또는 식의 절대값을 계산합니다.
acos(col) 지정된 열 또는 식의 역 코사인(아크코사인이라고도 함)을 계산합니다.
acosh(col) 지정된 열 또는 식의 역 하이퍼볼릭 코사인(arcosh라고도 함)을 계산합니다.
asin(col) 입력 열의 역 사인을 계산합니다.
asinh(col) 입력 열의 역 하이퍼볼릭 사인을 계산합니다.
atan(col) 입력 열의 역 탄젠트를 계산합니다.
atan2(col1, col2) 평면의 양수 x축과 좌표로 지정된 점 사이의 각도를 라디안으로 계산합니다.
atanh(col) 입력 열의 역 하이퍼볼릭 탄젠트를 계산합니다.
bin(col) 지정된 열의 이진 값에 대한 문자열 표현을 반환합니다.
bround(col[, scale]) 배율이 >= 0인 경우 HALF_EVEN 반올림 모드를 사용하여 지정된 소수 자릿수로 반올림하고, 배율이 < 0인 경우 정수 부분에서 반올림합니다.
cbrt(col) 지정된 값의 큐브 루트를 계산합니다.
ceil(col[, scale]) 지정된 값의 최대값을 계산합니다.
ceiling(col[, scale]) 지정된 값의 최대값을 계산합니다.
conv(col, fromBase, toBase) 문자열 열에 있는 숫자를 한 진수에서 다른 진수로 변환합니다.
cos(col) 입력 열의 코사인을 계산합니다.
cosh(col) 입력 열의 하이퍼볼릭 코사인을 계산합니다.
cot(col) 입력 열의 코탄젠트를 계산합니다.
csc(col) 입력 열의 코시컨트를 계산합니다.
degrees(col) 라디안으로 측정된 각도를 도 단위로 측정된 거의 동등한 각도로 변환합니다.
e() Euler의 번호를 반환합니다.
exp(col) 지정된 값의 지수를 계산합니다.
expm1(col) 지정된 값의 지수에서 1을 뺀 값을 계산합니다.
factorial(col) 지정된 값의 팩터리 요소를 계산합니다.
floor(col[, scale]) 지정된 값의 바닥을 계산합니다.
greatest(*cols) null 값을 건너뛰고 열 이름 목록의 가장 큰 값을 반환합니다.
hex(col) StringType, BinaryType, IntegerType 또는 LongType일 수 있는 지정된 열의 16진수 값을 계산합니다.
hypot(col1, col2) sqrt(a^2 + b^2) 중간 오버플로 또는 언더플로 없이 계산합니다.
least(*cols) null 값을 건너뛰고 열 이름 목록의 최소 값을 반환합니다.
ln(col) 인수의 자연 로그를 반환합니다.
log(arg1[, arg2]) 두 번째 인수의 첫 번째 인수 기반 로그를 반환합니다.
log10(col) Base 10에서 지정된 값의 로그를 계산합니다.
log1p(col) 주어진 값에 1을 더한 값의 자연 로그를 계산합니다.
log2(col) 인수의 base-2 로그를 반환합니다.
negate(col) 음수 값을 반환합니다.
negative(col) 음수 값을 반환합니다.
pi() Pi를 반환합니다.
pmod(dividend, divisor) 배당 모드 수수의 양수 값을 반환합니다.
positive(col) 값을 반환합니다.
pow(col1, col2) 첫 번째 인수를 두 번째 인수로 거듭 제곱한 값을 반환합니다.
power(col1, col2) 첫 번째 인수를 두 번째 인수로 거듭 제곱한 값을 반환합니다.
radians(col) 도 단위로 측정된 각도를 라디안으로 측정된 거의 동등한 각도로 변환합니다.
rand([seed]) 독립적이고 동일하게 분산된(즉, [0.0, 1.0)에 균일하게 분산된 샘플이 있는 임의 열을 생성합니다.
randn([seed]) 표준 정규 분포에서 독립적이고 동일한 분포를 가진 샘플을 사용하여 임의의 열을 생성합니다.
rint(col) 인수에 가장 가까운 수학적 정수와 동일한 double 값을 반환합니다.
round(col[, scale]) 배율 = 0인 경우 HALF_UP 반올림 모드를 사용하여 소수 자릿수를 조정하거나 배율 >< 0인 경우 정수 부분의 소수 자릿수를 조정하도록 지정된 값을 반올림합니다.
sec(col) 입력 열의 시컨트를 계산합니다.
sign(col) 지정된 값의 기호를 계산합니다.
signum(col) 지정된 값의 기호를 계산합니다.
sin(col) 입력 열의 사인을 계산합니다.
sinh(col) 입력 열의 하이퍼볼릭 사인을 계산합니다.
sqrt(col) 지정된 float 값의 제곱근을 계산합니다.
tan(col) 입력 열의 탄젠트를 계산합니다.
tanh(col) 입력 열의 하이퍼볼릭 탄젠트를 계산합니다.
try_add(left, right) 왼쪽과 오른쪽의 합계를 반환하고 오버플로에서 결과는 null입니다.
try_divide(left, right) 배당을 나누기하여 반환합니다.
try_mod(left, right) 배당/수수 뒤의 나머지를 반환합니다.
try_multiply(left, right) 왼쪽에 오른쪽을 곱한 값을 반환하며, 오버플로우 시 결과는 null입니다.
try_subtract(left, right) 좌변에서 우변을 뺀 결과는 오버플로 시 null입니다.
unhex(col) 16진수의 역연산.
uniform(min, max[, seed]) 지정된 숫자 범위에서 독립적 동일 분포(i.i.d.)로부터 추출한 임의 값을 반환합니다.
width_bucket(v, min, max, numBucket) 계산 후 이 식의 값이 떨어질 버킷 번호를 반환합니다.

문자열 함수

기능 Description
ascii(col) 문자열 열의 첫 번째 문자에 대한 숫자 값을 계산합니다.
base64(col) 이진 열의 BASE64 인코딩을 계산하고 문자열 열로 반환합니다.
bit_length(col) 지정된 문자열 열의 비트 길이를 계산합니다.
btrim(str[, trim]) str에서 선행 및 후행 트리밍 문자를 제거합니다.
char(col) col에 해당하는 이진 문자가 있는 ASCII 문자를 반환합니다.
char_length(str) 문자열 데이터의 문자 길이 또는 이진 파일 데이터의 바이트 수를 반환합니다.
character_length(str) 문자열 데이터의 문자 길이 또는 이진 파일 데이터의 바이트 수를 반환합니다.
collate(col, collation) 지정된 열을 지정된 데이터 정렬로 표시합니다.
collation(col) 지정된 열의 데이터 정렬 이름을 반환합니다.
concat_ws(sep, *cols) 지정된 구분 기호를 사용하여 여러 입력 문자열 열을 단일 문자열 열에 연결합니다.
contains(left, right) 부울을 반환합니다.
decode(col, charset) 제공된 문자 집합(US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32 중 하나)을 사용하여 이진 파일을 문자열로 첫 번째 인수를 변환합니다.
elt(*inputs) n번째 입력(예: n이 2이면 input2)을 반환합니다.
encode(col, charset) 제공된 문자 집합(, 중 하나US-ASCIIISO-8859-1UTF-8UTF-16BEUTF-16LEUTF-16UTF-32)을 사용하여 문자열에서 이진으로 첫 번째 인수를 계산합니다.
endswith(str, suffix) 부울을 반환합니다.
find_in_set(str, str_array) 쉼표로 구분된 목록(strArray)에서 지정된 문자열(str)의 인덱스(1부터)를 반환합니다.
format_number(col, d) 숫자 X를 #,--#,--#.-- 과 유사한 형식으로 소수 자릿수 d번째 자리까지 HALF_EVEN 반올림 모드를 사용하여 반올림하여 서식 지정 후, 결과를 문자열로 반환합니다.
format_string(format, *cols) 인수의 서식을 printf 스타일로 지정하고 결과를 문자열 열로 반환합니다.
initcap(col) 각 단어의 첫 글자를 문장의 대문자로 번역합니다.
instr(str, substr) 주어진 문자열에서 substr 열의 처음 발생 위치를 찾습니다.
is_valid_utf8(str) 입력이 유효한 UTF-8 문자열이면 true를 반환하고, 그렇지 않으면 false를 반환합니다.
lcase(str) 모든 문자가 소문자로 변경된 str을 반환합니다.
left(str, len) 문자열 str에서 가장 왼쪽 len(len은 문자열 형식일 수 있음) 문자를 반환합니다. len이 0보다 작거나 같으면 결과는 빈 문자열입니다.
length(col) 문자열 데이터의 문자 길이 또는 이진 데이터의 바이트 수를 계산합니다.
levenshtein(left, right[, threshold]) 지정된 두 문자열의 Levenshtein 거리를 계산합니다.
locate(substr, str[, pos]) pos 위치 이후 문자열 열에서 부분 문자열이 처음으로 나타나는 위치를 찾습니다.
lower(col) 문자열 식을 소문자로 변환합니다.
lpad(col, len, pad) 문자열 열을 패드가 있는 너비 렌으로 왼쪽 패드로 묶습니다.
ltrim(col[, trim]) 지정된 문자열 값의 왼쪽 끝에서 공백을 제거합니다.
make_valid_utf8(str) 잘못된 모든 UTF-8 바이트 시퀀스(있는 경우)가 유니코드 대체 문자(U+FFFD)로 대체되는 새 문자열을 반환합니다.
mask(col[, upperChar, lowerChar, digitChar, ...]) 지정된 문자열 값을 마스킹합니다.
octet_length(col) 지정된 문자열 열의 바이트 길이를 계산합니다.
overlay(src, replace, pos[, len]) src의 지정된 부분을 src의 바이트 위치 pos부터 시작하여 len 바이트에 대해 진행하여 바꾸기로 오버레이합니다.
position(substr, str[, start]) "start 위치 이후의 str에서 substr이 처음 나타나는 위치를 반환합니다."
printf(format, *cols) 인수의 서식을 printf 스타일로 지정하고 결과를 문자열 열로 반환합니다.
randstr(length[, seed]) 문자 풀 0-9, a-z, A-Z에서 문자가 임의로 균일하게 선택되는 지정된 길이의 문자열을 반환합니다.
regexp_count(str, regexp) 문자열 str에서 Java regex 패턴 regexp가 일치하는 횟수를 반환합니다.
regexp_extract(str, pattern, idx) 지정된 문자열 열에서 Java regex regexp와 일치하는 특정 그룹을 추출합니다.
regexp_extract_all(str, regexp[, idx]) Java regex regexp와 일치하고 regex 그룹 인덱스에 해당하는 str의 모든 문자열을 추출합니다.
regexp_instr(str, regexp[, idx]) Java regex regexp와 일치하고 regex 그룹 인덱스에 해당하는 str에서 첫 번째 부분 문자열의 위치를 반환합니다.
regexp_replace(string, pattern, replacement) regexp와 일치하는 지정된 문자열 값의 모든 부분 문자열을 대체로 바꿉니다.
regexp_substr(str, regexp) 문자열 str 내에서 Java regex regexp와 일치하는 첫 번째 부분 문자열을 반환합니다.
repeat(col, n) 문자열 열을 n번 반복하고 새 문자열 열로 반환합니다.
replace(src, search[, replace]) 검색의 모든 항목을 바꾸기로 대체합니다.
right(str, len) 문자열 str에서 가장 오른쪽 len(len은 문자열 형식일 수 있음) 문자를 반환합니다. len이 0보다 작거나 같으면 결과는 빈 문자열입니다.
rpad(col, len, pad) 문자열 열을 오른쪽으로 패딩하여 길이 len에 맞춥니다.
rtrim(col[, trim]) 지정한 문자열 값의 오른쪽 끝에서 공백을 제거합니다.
sentences(string[, language, country]) 문자열을 문장 배열로 분할합니다. 여기서 각 문장은 단어 배열입니다.
soundex(col) 문자열에 대한 SoundEx 인코딩을 반환합니다.
split(str, pattern[, limit]) 주어진 패턴에 맞춰 문자열을 분할합니다.
split_part(src, delimiter, partNum) 구분 기호로 str를 분할하고 분할의 요청된 부분(1부터)을 반환합니다.
startswith(str, prefix) 부울을 반환합니다.
substr(str, pos[, len]) pos에서 시작하여 길이가 len인 str의 부분 문자열 또는 pos에서 시작하고 길이가 len인 바이트 배열 조각을 반환합니다.
substring(str, pos, len) substring은 str이 String 타입일 경우 pos에서 시작하고 길이가 len인 문자열이며, str이 Binary 타입일 경우 pos에서 시작하고 길이가 len인 바이트 배열의 조각을 반환합니다.
substring_index(str, delim, count) 문자열 str에서 구분 기호 delim의 지정 개수만큼 발생하기 전까지의 부분 문자열을 반환합니다.
to_binary(col[, format]) 입력 콜을 제공된 형식에 따라 이진 값으로 변환합니다.
to_char(col, format) 형식에 따라 문자열로 col을 변환합니다.
to_number(col, format) 문자열 'col'을 문자열 형식 'format'에 따라 숫자로 변환합니다.
to_varchar(col, format) 형식에 따라 문자열로 col을 변환합니다.
translate(srcCol, matching, replace) 일치하는 문자로 srcCol의 모든 문자를 변환합니다.
trim(col[, trim]) 지정된 문자열 열의 양쪽 끝에서 공백을 잘라냅니다.
try_to_binary(col[, format]) 작업을 수행하려고 하지만 변환을 to_binary 수행할 수 없는 경우 오류를 발생시키는 대신 NULL 값을 반환합니다.
try_to_number(col, format) 문자열 col 형식 format에 따라 문자열을 숫자로 변환합니다.
try_validate_utf8(str) 유효한 UTF-8 문자열에 해당하는 경우 입력 값을 반환하고, 그렇지 않으면 NULL을 반환합니다.
ucase(str) 모든 문자가 대문자로 변경된 str을 반환합니다.
unbase64(col) BASE64로 인코딩된 문자열 열을 디코딩하고 이진 열로 반환합니다.
upper(col) 문자열 식을 대문자로 변환합니다.
validate_utf8(str) 유효한 UTF-8 문자열에 해당하는 경우 입력 값을 반환하거나 그렇지 않으면 오류를 내보낸다.

비트 연산 함수

기능 Description
bit_count(col) 인수 expr에서 부호 없는 64비트 정수로 설정된 비트 수를 반환하고, 인수가 NULL인 경우 NULL을 반환합니다.
bit_get(col, pos) 지정된 위치에 있는 비트(0 또는 1)의 값을 반환합니다.
bitwise_not(col) 비트 단위 NOT을 계산합니다.
getbit(col, pos) 지정된 위치에 있는 비트(0 또는 1)의 값을 반환합니다.
shiftleft(col, numBits) 지정된 값 numBits를 왼쪽으로 이동합니다.
shiftright(col, numBits) (서명됨) 지정된 값 numBits를 오른쪽으로 이동합니다.
shiftrightunsigned(col, numBits) 부호 없는 경우 지정된 값 numBits를 오른쪽으로 이동합니다.

날짜/시간 함수

기능 Description
add_months(start, months) 시작 날짜로부터 지정된 개월 수 후의 날짜를 반환합니다.
convert_timezone(sourceTz, targetTz, sourceTs) 표준 시간대가 없는 타임스탬프를 sourceTz 표준 시간대에서 targetTz로 변환합니다.
curdate() 쿼리 평가 시작 시 현재 날짜를 DateType 열로 반환합니다.
current_date() 쿼리 평가 시작 시 현재 날짜를 DateType 열로 반환합니다.
current_timestamp() 쿼리 평가 시작 시 현재 타임스탬프를 TimestampType 열로 반환합니다.
current_timezone() 현재 세션 현지 표준 시간대를 반환합니다.
date_add(start, days) 시작 후 일 수인 날짜를 반환합니다.
date_diff(end, start) 처음부터 끝까지의 일 수를 반환합니다.
date_format(date, format) 날짜/타임스탬프/문자열을 두 번째 인수에 지정된 날짜 형식으로 지정된 형식의 문자열 값으로 변환합니다.
date_from_unix_date(days) 1970-01-01 이후의 일 수에서 날짜를 만듭니다.
date_part(field, source) 날짜/타임스탬프 또는 간격 원본의 일부를 추출합니다.
date_sub(start, days) 시작하기 며칠 전의 날짜를 반환합니다.
date_trunc(format, timestamp) 형식으로 지정된 단위로 잘린 타임스탬프를 반환합니다.
dateadd(start, days) 시작 후 일 수인 날짜를 반환합니다.
datediff(end, start) 처음부터 끝까지의 일 수를 반환합니다.
datepart(field, source) 날짜/타임스탬프 또는 간격 원본의 일부를 추출합니다.
day(col) 지정된 날짜/타임스탬프의 월을 정수로 추출합니다.
dayname(col) 지정된 날짜에서 세 글자로 된 축약된 일 이름을 반환합니다.
dayofmonth(col) 지정된 날짜/타임스탬프의 월을 정수로 추출합니다.
dayofweek(col) 지정된 날짜/타임스탬프의 요일을 정수로 추출합니다.
dayofyear(col) 지정된 날짜/타임스탬프의 연도를 정수로 추출합니다.
extract(field, source) 날짜/타임스탬프 또는 간격 원본의 일부를 추출합니다.
from_unixtime(timestamp[, format]) unix epoch(1970-01-01 00:00 UTC)의 초 수를 지정된 형식의 현재 시스템 표준 시간대에서 해당 순간의 타임스탬프를 나타내는 문자열로 변환합니다.
from_utc_timestamp(timestamp, tz) 이 함수는 TIMESTAMP WITHOUT TIMEZONE를 지원하는 데이터베이스에 대한 일반적인 함수입니다.
hour(col) 지정된 타임스탬프의 시간을 정수로 추출합니다.
last_day(date) 지정된 날짜가 속한 월의 마지막 날짜를 반환합니다.
localtimestamp() 쿼리 평가 시작 시 표준 시간대가 없는 현재 타임스탬프를 표준 시간대 열이 없는 타임스탬프로 반환합니다.
make_date(year, month, day) 연도, 월 및 일 열에서 작성된 날짜가 있는 열을 반환합니다.
make_dt_interval([days, hours, mins, secs]) DayTimeIntervalType 기간을 일, 시간, 분 및 초에서 만듭니다.
make_interval([years, months, weeks, days, ...]) 년, 월, 주, 일, 시간, 분 및 초에서 간격을 만듭니다.
make_timestamp(years, months, days, hours, ...) 연도, 월, 일, 시간, 분, 초 및 표준 시간대 필드에서 타임스탬프를 만듭니다.
make_timestamp_ltz(years, months, days, ...) 연도, 월, 일, 시간, 분, 초 및 시간대 필드에서 현지 시간대를 사용하여 현재 타임스탬프를 생성합니다.
make_timestamp_ntz(years, months, days, ...) 연도, 월, 일, 시간, 분, 초 필드의 현지 날짜-시간을 만듭니다.
make_ym_interval([years, months]) 주어진 연도와 월을 사용하여 연월 간격을 만듭니다.
minute(col) 지정된 타임스탬프에서 "분"을 정수로 추출합니다.
month(col) 지정된 날짜/타임스탬프의 월을 정수로 추출합니다.
monthname(col) 지정된 날짜에서 세 글자로 된 약어 월 이름을 반환합니다.
months_between(date1, date2[, roundOff]) 날짜1과 날짜2 사이의 월 수를 반환합니다.
next_day(date, dayOfWeek) 두 번째 주일 인수를 기준으로 날짜 열 값보다 오래된 첫 번째 날짜를 반환합니다.
now() 쿼리 평가 시작 시의 현재 타임스탬프를 반환합니다.
quarter(col) 지정된 날짜/타임스탬프의 분기를 정수로 추출합니다.
second(col) 지정된 날짜의 초를 정수로 추출합니다.
session_window(timeColumn, gapDuration) 열을 지정하는 타임스탬프가 지정된 세션 창을 생성합니다.
timestamp_add(unit, quantity, ts) 분수 부분을 잘라내어 지정된 단위의 타임스탬프 간 차이를 가져옵니다.
timestamp_diff(unit, start, end) 분수 부분을 잘라내어 지정된 단위의 타임스탬프 간 차이를 가져옵니다.
timestamp_micros(col) UTC epoch 이후의 마이크로초 수에서 타임스탬프를 만듭니다.
timestamp_millis(col) UTC epoch 이후 경과한 밀리초 수로부터 타임스탬프를 만듭니다.
timestamp_seconds(col) Unix epoch(1970-01-01T00:00:00Z)에서 경과한 초 수를 타임스탬프로 변환합니다.
to_date(col[, format]) 필요에 따라 지정된 형식을 사용하여 열을 pyspark.sql.types.DateType으로 변환합니다.
to_timestamp(col[, format]) 필요에 따라 지정된 형식을 사용하여 열을 pyspark.sql.types.TimestampType으로 변환합니다.
to_timestamp_ltz(timestamp[, format]) 주어진 형식으로 타임스탬프를 표준 시간대가 포함된 타임스탬프로 변환합니다.
to_timestamp_ntz(timestamp[, format]) 표준 시간대가 없는 타임스탬프로 형식에 맞춰 타임스탬프를 구문 분석합니다.
to_unix_timestamp(timestamp[, format]) 지정된 시간의 UNIX 타임스탬프를 반환합니다.
to_utc_timestamp(timestamp, tz) 이 함수는 TIMESTAMP WITHOUT TIMEZONE를 지원하는 데이터베이스에 대한 일반적인 함수입니다.
trunc(date, format) 형식으로 지정된 단위로 잘린 날짜를 반환합니다.
try_make_interval([years, months, weeks, ...]) 작업을 수행하려고 하지만 간격을 make_interval 만들 수 없는 경우 오류를 발생시키는 대신 NULL 값을 반환합니다.
try_make_timestamp(years, months, days, ...) 연도, 월, 일, 시간, 분, 초, 및 표준 시간대 필드에서 타임스탬프를 생성해 보세요.
try_make_timestamp_ltz(years, months, days, ...) 연도, 월, 일, 시간, 분, 초 및 시간대 필드에서 현지 시간대를 사용하여 현재 타임스탬프를 만드십시오.
try_make_timestamp_ntz(years, months, days, ...) 연도, 월, 일, 시간, 분, 초 필드에서 로컬 날짜-시간을 생성하도록 시도합니다.
try_to_timestamp(col[, format]) 지정된 형식을 사용하여 열을 타임스탬프로 변환합니다.
unix_date(col) 1970-01-01 이후의 일 수를 반환합니다.
unix_micros(col) 1970-01-01 00:00:00 UTC 이후의 마이크로초 수를 반환합니다.
unix_millis(col) 1970-01-01 00:00:00 UTC 이후의 밀리초 수를 반환합니다.
unix_seconds(col) 1970-01-01 00:00:00 UTC 이후의 초 수를 반환합니다.
unix_timestamp([timestamp, format]) 기본 표준 시간대 및 기본 로캘을 사용하여 지정된 패턴('yyyy-MM-dd HH:mm:ss')을 Unix 타임스탬프(초)로 변환하고 실패하면 null을 반환합니다.
weekday(col) 날짜/타임스탬프에 대한 요일을 반환합니다(0 = 월요일, 1 = 화요일, ..., 6 = 일요일).
weekofyear(col) 지정된 날짜의 주 번호를 정수로 추출합니다.
window(timeColumn, windowDuration[, ...]) 열을 지정하는 타임스탬프가 지정된 경우 행을 하나 이상의 시간 창으로 버킷팅합니다.
window_time(windowColumn) 창 열에서 이벤트 시간을 계산합니다.
year(col) 지정된 날짜/타임스탬프의 연도를 정수로 추출합니다.

해시 함수

기능 Description
crc32(col) 이진 열의 CRC32(순환 중복 검사 값)를 계산하고 값을 bigint로 반환합니다.
hash(*cols) 지정된 열의 해시 코드를 계산하고 결과를 int 열로 반환합니다.
md5(col) MD5 다이제스트를 계산하고 값을 32자 16진수 문자열로 반환합니다.
sha(col) sha1 해시 값을 col의 16진수 문자열로 반환합니다.
sha1(col) SHA-1의 16진수 문자열 결과를 반환합니다.
sha2(col, numBits) SHA-2 해시 함수 제품군(SHA-224, SHA-256, SHA-384 및 SHA-512)의 16진수 문자열 결과를 반환합니다.
xxhash64(*cols) xxHash 알고리즘의 64비트 변형을 사용하여 지정된 열의 해시 코드를 계산하고 결과를 긴 열로 반환합니다.

컬렉션 기능

기능 Description
aggregate(col, initialValue, merge[, finish]) 이진 연산자를 배열의 초기 상태 및 모든 요소에 적용하고 이를 단일 상태로 줄입니다.
array_sort(col[, comparator]) 입력 배열을 오름차순으로 정렬합니다.
cardinality(col) 열에 저장된 배열 또는 맵의 길이를 반환합니다.
concat(*cols) 여러 입력 열을 단일 열로 연결합니다.
element_at(col, extraction) 지정된(1부터 시작하는) 인덱스에서 배열의 요소를 반환합니다.
exists(col, f) 배열의 하나 이상의 요소가 조건을 충족하는지 여부를 반환합니다.
filter(col, f) 조건자가 지정된 배열에 보유하는 요소의 배열을 반환합니다.
forall(col, f) 배열의 모든 요소에 대해 술어가 유효한지를 반환합니다.
map_filter(col, f) 키-값 쌍이 지정된 조건자 함수를 충족하는 새 맵 열을 반환합니다.
map_zip_with(col1, col2, f) 키-값 쌍에 함수를 적용하여 지정된 두 맵을 단일 맵에 병합합니다.
reduce(col, initialValue, merge[, finish]) 이진 연산자를 배열의 초기 상태 및 모든 요소에 적용하고 이를 단일 상태로 줄입니다.
reverse(col) 역순으로 요소가 있는 역방향 문자열 또는 배열을 반환합니다.
size(col) 열에 저장된 배열 또는 맵의 길이를 반환합니다.
transform(col, f) 입력 배열의 각 요소에 변환을 적용한 후 요소의 배열을 반환합니다.
transform_keys(col, f) 맵의 모든 키-값 쌍에 함수를 적용하고 해당 애플리케이션의 결과가 포함된 맵을 쌍의 새 키로 반환합니다.
transform_values(col, f) 맵의 모든 키-값 쌍에 함수를 적용하고 해당 애플리케이션의 결과가 있는 맵을 쌍의 새 값으로 반환합니다.
try_element_at(col, extraction) 지정된(1부터 시작하는) 인덱스에서 배열의 요소를 반환합니다.
zip_with(left, right, f) 함수를 사용하여 지정된 두 배열을 요소 단위로 단일 배열에 병합합니다.

배열 함수

기능 Description
array(*cols) 입력 열 또는 열 이름에서 새 배열 열을 만듭니다.
array_append(col, value) 기존 배열 콜에 값을 추가하여 새 배열 열을 반환합니다.
array_compact(col) 배열에서 null 값을 제거합니다.
array_contains(col, value) 배열에 지정된 값이 포함되어 있는지 여부를 나타내는 부울을 반환합니다. 배열이 null이면 null이고, 배열에 지정된 값이 있으면 true이고, 그렇지 않으면 false를 반환합니다.
array_distinct(col) 배열에서 중복 값을 제거합니다.
array_except(col1, col2) col1에 있지만 col2에는 없는 요소를 중복하지 않고 포함하는 새 배열을 반환합니다.
array_insert(arr, pos, value) 지정된 배열 인덱스의 지정된 배열에 항목을 삽입합니다.
array_intersect(col1, col2) col1과 col2의 요소 교집합을 중복 없이 포함하는 새 배열을 반환합니다.
array_join(col, delimiter[, null_replacement]) 구분 기호를 사용하여 입력 배열 열의 요소를 연결하여 문자열 열을 반환합니다.
array_max(col) 배열의 최대값을 반환합니다.
array_min(col) 배열의 최소값을 반환합니다.
array_position(col, value) 지정된 배열에서 지정된 값이 처음 나타나는 위치를 찾습니다.
array_prepend(col, value) 지정된 요소가 포함된 배열을 첫 번째 요소로 반환하고 원래 배열의 나머지 요소를 반환합니다.
array_remove(col, element) 지정된 배열에서 요소와 동일한 모든 요소를 제거합니다.
array_repeat(col, count) 열을 count번 반복하여 포함하는 배열을 만듭니다.
array_size(col) 배열의 총 요소 수를 반환합니다.
array_union(col1, col2) 중복 없이 col1 및 col2의 요소 합합을 포함하는 새 배열을 반환합니다.
arrays_overlap(a1, a2) 입력 배열에 null이 아닌 공통 요소가 있는지 여부를 나타내는 부울 열을 반환하고, null이면 true를 반환하고, 배열에 공통 요소가 없지만 비어 있지 않은 경우 null을 반환하고, 그 중 하나 이상이 null 요소를 포함하고, 그렇지 않으면 false를 반환합니다.
arrays_zip(*cols) N번째 구조체에 입력 배열의 모든 N번째 값이 포함된 구조체의 병합된 배열을 반환합니다.
flatten(col) 배열의 배열에서 단일 배열을 생성합니다.
get(col, index) 지정된(0부터 시작하는) 인덱스에서 배열의 요소를 반환합니다.
sequence(start, stop[, step]) 시작부터 중지까지 정수 시퀀스를 생성하여 단계별로 증분합니다.
shuffle(col[, seed]) 지정된 배열의 임의 순열을 생성합니다.
slice(x, start, length) 입력 배열 열을 시작 인덱스에서 특정 길이로 조각화하여 새 배열 열을 반환합니다.
sort_array(col[, asc]) 배열 요소의 자연 순서에 따라 입력 배열을 오름차순 또는 내림차순으로 정렬합니다.

구조체 함수

기능 Description
named_struct(*cols) 지정된 필드 이름 및 값을 사용하여 구조체를 만듭니다.
struct(*cols) 새 구조체 열을 만듭니다.

맵 함수

기능 Description
create_map(*cols) 짝수의 입력 열 또는 열 참조에서 새 맵 열을 만듭니다.
map_concat(*cols) 지정된 모든 맵의 합을 반환합니다.
map_contains_key(col, value) 맵에 키가 포함되어 있으면 true를 반환합니다.
map_entries(col) 지정된 맵에 있는 모든 항목의 순서가 지정되지 않은 배열을 반환합니다.
map_from_arrays(col1, col2) 두 배열에서 새 맵을 만듭니다.
map_from_entries(col) 키-값 쌍 항목(두 필드가 있는 구조체)의 배열을 맵으로 변환합니다.
map_keys(col) 맵의 키를 포함하는 순서가 지정되지 않은 배열을 반환합니다.
map_values(col) 맵의 값을 포함하는 순서가 지정되지 않은 배열을 반환합니다.
str_to_map(text[, pairDelim, keyValueDelim]) 구분 기호를 사용하여 텍스트를 키/값 쌍으로 분할한 후 문자열을 맵으로 변환합니다.

집계 함수

기능 Description
any_value(col[, ignoreNulls]) 행 그룹에 대한 col의 일부 값을 반환합니다.
approx_count_distinct(col[, rsd]) 지정된 열 또는 열 그룹에 있는 요소의 대략적인 고유 개수를 예측하는 새 열을 반환합니다.
approx_percentile(col, percentage[, accuracy]) 열 값의 백분율보다 작거나 해당 값과 같지 않도록 정렬된 콜 값에서 가장 작은 값(최소에서 가장 큰 값으로 정렬됨)인 숫자 열 콜의 대략적인 백분위수를 반환합니다.
array_agg(col) 중복된 개체 목록을 반환합니다.
avg(col) 그룹의 값 평균을 반환합니다.
bit_and(col) null이 아닌 모든 입력 값의 비트 AND를 반환하고, null이 없으면 null을 반환합니다.
bit_or(col) null이 아닌 모든 입력 값의 비트 OR을 반환하고, null이 없으면 null을 반환합니다.
bit_xor(col) null이 아닌 모든 입력 값의 비트 XOR를 반환하고, null이 없으면 null을 반환합니다.
bitmap_construct_agg(col) 입력 열의 모든 값에서 설정된 비트의 위치가 있는 비트맵을 반환합니다.
bitmap_or_agg(col) 입력 열에서 모든 비트맵의 비트 연산 OR인 비트맵을 반환합니다.
bool_and(col) col의 모든 값이 true이면 true를 반환합니다.
bool_or(col) 하나 이상의 col 값이 true이면 true를 반환합니다.
collect_list(col) 열의 값을 목록으로 수집하여 중복 항목을 유지 관리하고 이 개체 목록을 반환합니다.
collect_set(col) 열에서 집합으로 값을 수집하여 중복 항목을 제거하고 이 개체 집합을 반환합니다.
corr(col1, col2) col1 및 col2의 Pearson 상관 관계 계수에 대한 새 열을 반환합니다.
count(col) 그룹의 항목 개수를 반환합니다.
count_distinct(col, *cols) 열 또는 열들의 고유 개수에 대한 새 컬럼을 반환합니다.
count_if(col) col에 대한 TRUE 값의 수를 반환합니다.
count_min_sketch(col, eps, confidence[, seed]) 지정된 esp, 신뢰도, 시드를 사용하여 열의 count-min 스케치를 반환합니다.
covar_pop(col1, col2) col1과 col2의 모집단 공분산에 대한 새 열을 반환합니다.
covar_samp(col1, col2) col1 및 col2의 샘플 공변도에 대한 새 열을 반환합니다.
every(col) col의 모든 값이 true이면 true를 반환합니다.
first(col[, ignorenulls]) 그룹의 첫 번째 값을 반환합니다.
first_value(col[, ignoreNulls]) 행 그룹에 대한 col의 첫 번째 값을 반환합니다.
grouping(col) 목록의 지정된 열이 집계되는지 여부를 나타내고, 집계된 열 GROUP BY 에 대해 1을 반환하고, 결과 집합에 집계되지 않은 경우 0을 반환합니다.
grouping_id(*cols) 그룹화 수준을 반환하며, ~와 같습니다.
histogram_numeric(col, nBins) nb bin을 사용하여 숫자 'col'에서 히스토그램을 계산합니다.
hll_sketch_agg(col[, lgConfigK]) lgConfigK arg로 구성된 Datasketches HllSketch의 업데이터블 이진 표현을 반환합니다.
hll_union_agg(col[, allowDifferentLgConfigK]) 이전에 만든 Datasketches HllSketch 인스턴스를 Datasketches Union 인스턴스를 통해 병합하여 생성된 Datasketches HllSketch의 업데이트 가능한 이진 표현을 반환합니다.
kurtosis(col) 그룹에 있는 값의 첨도를 반환합니다.
last(col[, ignorenulls]) 그룹의 마지막 값을 반환합니다.
last_value(col[, ignoreNulls]) 행 그룹에 대한 col의 마지막 값을 반환합니다.
listagg(col[, delimiter]) 구분 기호로 구분된 null이 아닌 입력 값의 연결을 반환합니다.
listagg_distinct(col[, delimiter]) 구분 기호로 구분된 null이 아닌 고유 입력 값의 연결을 반환합니다.
max(col) 그룹에서 식의 최대값을 반환합니다.
max_by(col, ord) ord 매개 변수의 최대값과 연결된 col 매개 변수의 값을 반환합니다.
mean(col) 그룹의 값 평균을 반환합니다.
median(col) 그룹의 값 중앙값을 반환합니다.
min(col) 그룹에서 식의 최소값을 반환합니다.
min_by(col, ord) ord 매개 변수의 최소값과 연결된 col 매개 변수의 값을 반환합니다.
mode(col[, deterministic]) 그룹에서 가장 빈번한 값을 반환합니다.
percentile(col, percentage[, frequency]) 값 범위가 [0.0, 1.0]인 지정된 백분율에서 숫자 열 expr의 정확한 백분위수 값을 반환합니다.
percentile_approx(col, percentage[, accuracy]) 열 값의 백분율보다 작거나 해당 값과 같지 않도록 정렬된 콜 값에서 가장 작은 값(최소에서 가장 큰 값으로 정렬됨)인 숫자 열 콜의 대략적인 백분위수를 반환합니다.
product(col) 그룹에 있는 값의 곱을 반환합니다.
regr_avgx(y, x) 그룹의 null이 아닌 쌍에 대한 독립 변수의 평균을 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
regr_avgy(y, x) 그룹의 null이 아닌 쌍에 대한 종속 변수의 평균을 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
regr_count(y, x) 그룹에서 null이 아닌 숫자 쌍의 수를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
regr_intercept(y, x) 그룹의 null이 아닌 쌍에 대한 단변량 선형 회귀선의 절편을 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
regr_r2(y, x) 그룹의 null이 아닌 쌍에 대한 결정 계수를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
regr_slope(y, x) 그룹의 null이 아닌 쌍에 대한 선형 회귀선의 기울기를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
regr_sxx(y, x) 그룹의 null이 아닌 쌍에 대해 REGR_COUNT(y, x) * VAR_POP(x)를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
regr_sxy(y, x) 그룹의 null이 아닌 쌍에 대해 REGR_COUNT(y, x) * COVAR_POP(y, x)를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
regr_syy(y, x) 그룹의 null이 아닌 쌍에 대해 REGR_COUNT(y, x) * VAR_POP(y)를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다.
skewness(col) 그룹에 있는 값의 기울이기를 반환합니다.
some(col) 하나 이상의 col 값이 true이면 true를 반환합니다.
std(col) stddev_samp의 별칭입니다.
stddev(col) stddev_samp의 별칭입니다.
stddev_pop(col) 그룹 내 표현식의 모집단 표준 편차를 반환합니다.
stddev_samp(col) 그룹의 식에 대한 편견 없는 샘플 표준 편차를 반환합니다.
string_agg(col[, delimiter]) 구분 기호로 구분된 null이 아닌 입력 값의 연결을 반환합니다.
string_agg_distinct(col[, delimiter]) 구분 기호로 구분된 null이 아닌 고유 입력 값의 연결을 반환합니다.
sum(col) 식에 있는 모든 값의 합계를 반환합니다.
sum_distinct(col) 식에서 고유 값의 합계를 반환합니다.
try_avg(col) 그룹의 값에서 계산된 평균을 반환하고 결과는 오버플로에서 null입니다.
try_sum(col) 그룹 값에서 계산된 합계를 반환하고 결과는 오버플로에서 null입니다.
var_pop(col) 그룹에 있는 값의 모집단 분산을 반환합니다.
var_samp(col) 그룹의 값에 대한 편견 없는 샘플 분산을 반환합니다.
variance(col) var_samp의 별칭

창 함수

기능 Description
cume_dist() 창 파티션 내의 값의 누적 분포(예: 현재 행 아래에 있는 행의 소수)를 반환합니다.
dense_rank() 간격 없이 창 파티션 내의 행 순위를 반환합니다.
lag(col[, offset, default]) 현재 행 앞에 오프셋 행인 값을 반환하고, 현재 행 앞에 오프셋 행보다 작은 경우 기본값을 반환합니다.
lead(col[, offset, default]) 현재 행 뒤의 오프셋 행 값을 반환하고 현재 행 다음에 오프셋 행보다 작은 경우 기본값을 반환합니다.
nth_value(col, offset[, ignoreNulls]) 창 프레임의 오프셋 행(1에서 계산)인 값을 반환하고, 창 프레임의 크기가 오프셋 행보다 작으면 null을 반환합니다.
ntile(n) 순서가 지정된 창 파티션에서 ntile 그룹 ID(1에서 n 포함)를 반환합니다.
percent_rank() 상대적인 순위 (즉,
rank() 창 파티션 내의 행 순위를 반환합니다.
row_number() 창 파티션 내에서 1부터 시작하는 순차 번호를 반환합니다.

생성기 함수

기능 Description
explode(col) 지정된 배열 또는 맵의 각 요소에 대한 새 행을 반환합니다.
explode_outer(col) 지정된 배열 또는 맵의 각 요소에 대한 새 행을 반환합니다.
inline(col) 구조체 배열을 테이블로 분해합니다.
inline_outer(col) 구조체 배열을 테이블로 분해합니다.
posexplode(col) 지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행을 반환합니다.
posexplode_outer(col) 지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행을 반환합니다.
stack(*cols) col1, ..., colk를 n행으로 구분합니다.

파티션 변환 함수

기능 Description
partitioning.years(col) 타임스탬프 및 날짜를 연도로 분할하는 변환입니다.
partitioning.months(col) 타임스탬프 및 날짜를 월로 분할하는 변환입니다.
partitioning.days(col) 데이터를 일로 분할하는 타임스탬프 및 날짜 변환입니다.
partitioning.hours(col) 타임스탬프를 사용하여 데이터를 시간 단위로 분할하는 변환입니다.
partitioning.bucket(numBuckets, col) 입력 열의 해시로 분할하는 모든 형식에 대한 변환입니다.

H3 지리 공간적 함수(Databricks)

기능 Description
h3_boundaryasgeojson(col) GeoJSON 형식으로 H3 셀의 경계를 반환합니다.
h3_boundaryaswkb(col) WKB 형식으로 H3 셀의 경계를 반환합니다.
h3_boundaryaswkt(col) H3 셀의 경계를 WKT 형식으로 반환합니다.
h3_centerasgeojson(col) GeoJSON 형식으로 H3 셀의 가운데를 반환합니다.
h3_centeraswkb(col) H3 셀의 중심을 WKB 형식으로 반환합니다.
h3_centeraswkt(col) H3 셀의 중심을 WKT 형식으로 반환합니다.
h3_compact(col) H3 셀 ID의 입력 집합을 최대한 압축합니다.
h3_coverash3(col1,col2) 지정된 해상도의 육각형 또는 펜타곤에 해당하며 입력된 선형 또는 면적 지리를 최소한으로 커버하는 각각의 셀 ID를 긴 정수로 표현하여 배열 형태로 반환합니다.
h3_coverash3string(col1,col2) 입력 선형 또는 면적 지리를 최소로 덮는 지정된 해상도의 육각형 또는 펜타곤에 해당하는 문자열로 표현된 셀 ID의 배열을 반환합니다.
h3_distance(col1,col2) 두 H3 셀 ID 사이의 그리드 거리를 반환합니다.
h3_h3tostring(col) H3 셀 ID를 16진수 문자열로 셀 ID를 나타내는 문자열로 변환합니다.
h3_hexring(col1,col2) 원본 H3 셀을 중심으로 하고 원점 H3 셀에서 그리드 거리 k에 있는 중공 육각형 링을 형성하는 H3 셀 ID 배열을 반환합니다.
h3_ischildof(col1,col2) 첫 번째 H3 셀 ID가 두 번째 H3 셀 ID의 자식인지를 반환 True 합니다.
h3_ispentagon(col) True 입력 H3 셀 ID가 펜타곤을 나타내는지 반환합니다.
h3_isvalid(col) True 입력이 유효한 H3 셀 ID를 나타내는지 반환합니다.
h3_kring(col1,col2) 원본 셀 ID의 (그리드) 거리 k 내에 있는 H3 셀 ID를 반환합니다.
h3_kringdistances(col1,col2) 시작 H3 셀 ID에서 그리드 거리 k 내의 모든 H3 셀 ID(정수 또는 문자열로 표시됨)와 시작 H3 셀 ID로부터의 거리를 반환합니다.
h3_longlatash3(col1,col2,col3) 지정된 해상도에서 제공된 경도 및 위도에 해당하는 H3 셀 ID(BIGINT)를 반환합니다.
h3_longlatash3string(col1,col2,col3) 지정된 해상도에서 제공된 경도 및 위도에 해당하는 H3 셀 ID(문자열)를 반환합니다.
h3_maxchild(col1,col2) 지정된 해상도에서 입력 H3 셀의 최대값의 자식을 반환합니다.
h3_minchild(col1,col2) 지정된 해상도에서 입력된 H3 셀의 최소값을 가지는 자식 셀을 반환합니다.
h3_pointash3(col1,col2) 지정된 해상도에서 제공된 지점에 해당하는 H3 셀 ID(BIGINT)를 반환합니다.
h3_pointash3string(col1,col2) 지정된 해상도에서 제공된 지점에 해당하는 H3 셀 ID(문자열)를 반환합니다.
h3_polyfillash3(col1,col2) 입력 areal geography에 포함된 지정된 해상도의 육각형 또는 펜타곤에 해당하는 긴 정수로 표현되는 셀 ID의 배열을 반환합니다.
h3_polyfillash3string(col1,col2) 입력 areal geography에 포함된 지정된 해상도의 육각형 또는 펜타곤에 해당하는 문자열로 표현되는 셀 ID의 배열을 반환합니다.
h3_resolution(col) H3 셀 ID의 해상도를 반환합니다.
h3_stringtoh3(col) 문자열 표현 H3 셀 ID를 큰 정수 표현으로 변환합니다.
h3_tessellateaswkb(col1,col2) 지정된 해상도에서 지리를 포함하는 칩을 나타내는 구조체 배열을 반환합니다.
h3_tochildren(col1,col2) 지정된 해상도에서 입력 H3 셀 ID의 자식 H3 셀 ID를 반환합니다.
h3_toparent(col1,col2) 지정된 해상도에서 입력 H3 셀 ID의 부모 H3 셀 ID를 반환합니다.
h3_try_coverash3(col1,col2) 지정된 해상도의 육각형 또는 펜타곤에 해당하며 입력된 선형 또는 면적 지리를 최소한으로 커버하는 각각의 셀 ID를 긴 정수로 표현하여 배열 형태로 반환합니다.
h3_try_coverash3string(col1,col2) 입력 선형 또는 면적 지리를 최소로 덮는 지정된 해상도의 육각형 또는 펜타곤에 해당하는 문자열로 표현된 셀 ID의 배열을 반환합니다.
h3_try_distance(col1,col2) 동일한 해상도의 두 H3 셀 ID 사이의 그리드 거리를 반환하거나 None , 정의되지 않은 경우의 거리를 반환합니다.
h3_try_polyfillash3(col1,col2) 입력 areal geography에 포함된 지정된 해상도의 육각형 또는 펜타곤에 해당하는 긴 정수로 표현되는 셀 ID의 배열을 반환합니다.
h3_try_polyfillash3string(col1,col2) 입력 areal geography에 포함된 지정된 해상도의 육각형 또는 펜타곤에 해당하는 문자열로 표현되는 셀 ID의 배열을 반환합니다.
h3_try_tessellateaswkb(col1,col2) 지정된 해상도에서 지리를 포함하는 칩을 나타내는 구조체 배열을 반환하거나 기하 도형이 잘못된 경우 null을 반환합니다.
h3_try_validate(col) 유효한 H3 셀이거나 None인 경우 입력 값을 반환합니다.
h3_uncompact(col1,col2) H3 셀 ID의 입력 집합을 지정된 해상도로 컴파일 해제
h3_validate(col) 유효한 H3 셀이거나 그렇지 않으면 오류를 내보내는 경우 입력 값을 반환합니다.

ST 지리 공간적 함수(Databricks)

기능 Description
st_addpoint(col1,col2,col3) 입력 줄 바꿈 지리 또는 기하 도형의 n번째 위치에 새 점을 추가합니다.
st_area(col) 입력 지리 또는 기하 도형의 영역을 반환합니다.
st_asbinary(col1,col2) 입력 지리 또는 기하 도형 값을 WKB 형식으로 반환합니다.
st_asewkb(col1,col2) 입력 기하 도형 값을 EWKB 형식으로 반환합니다.
st_asewkt(col) 입력 지리 또는 기하 도형 값을 EWKT 형식으로 반환합니다.
st_asgeojson(col) GeoJSON 형식의 입력 지리 또는 기하 도형 값을 반환합니다.
st_astext(col) 입력 지리 또는 기하 도형 값을 WKT 형식으로 반환합니다.
st_aswkb(col1,col2) 입력 지리 또는 기하 도형 값을 WKB 형식으로 반환합니다.
st_aswkt(col) 입력 지리 또는 기하 도형 값을 WKT 형식으로 반환합니다.
st_buffer(col1,col2) 지정된 반지름을 사용하여 입력 기하 도형의 버퍼를 반환합니다.
st_centroid(col) 입력 기하 도형의 중심을 2D 점 기하 도형으로 반환합니다.
st_concavehull(col1,col2,col3) 지정된 길이 비율을 사용하여 입력 기하 도형의 오목한 헐을 기하 도형으로 반환합니다.
st_contains(col1,col2) 첫 번째 기하 도형에 두 번째 기하 도형이 포함되어 있는지를 반환 True 합니다.
st_convexhull(col) 입력 기하 도형의 컨벡스 헐을 기하 도형으로 반환합니다.
st_covers(col1,col2) True 첫 번째 기하 도형이 두 번째 기하 도형을 포함하는지 반환합니다.
st_difference(col1,col2) 두 입력 기하 도형의 점 집합 차를 2D 기하 도형으로 반환합니다.
st_dimension(col) 입력 기하 도형의 2D 프로젝션의 토폴로지 차원을 반환합니다.
st_disjoint(col1,col2) 두 기하 도형이 서로 분리되어 있는지를 반환합니다 True.
st_distance(col1,col2) 두 입력 기하 도형 사이의 2D 카티시안 거리를 반환합니다.
st_distancesphere(col1,col2) 반지름이 WGS84 타원의 평균 반지름인 구에서 측정된 두 점 기하 도형 사이의 구 거리(미터)를 반환합니다.
st_distancespheroid(col1,col2) WGS84 타원의 두 점 기하 도형 사이의 측지 거리(미터)를 반환합니다.
st_dwithin(col1,col2,col3) 두 입력 기하 도형 사이의 2D 카티시안 거리가 입력 거리보다 작거나 같은지 여부를 반환 True 합니다.
st_endpoint(col) 입력 줄 문자열의 마지막 지점을 반환하거나 None 존재하지 않는 경우
st_envelope(col) 입력된 비어있지 않은 기하 도형의 2D 카테시안 축을 기준으로 정렬된 최소 경계 상자(엔벨롭)를 기하 도형으로 반환합니다.
st_envelope_agg(col) 열에 있는 모든 기하 도형의 외곽을 반환하거나, 열에 행이 0인 경우 또는 None 값만 포함된 경우 None을 반환합니다.
st_equals(col1,col2) True 두 기하 도형이 기하학적으로 같은지 반환합니다.
st_exteriorring(col) 다각형을 나타내는 입력 지리 또는 기하 도형 값의 외부 링(셸)을 줄 바꿈으로 반환합니다.
st_flipcoordinates(col) 입력 기하 도형의 X 및 Y 좌표를 교환합니다.
st_geogfromgeojson(col) GeoJSON 설명을 구문 분석하고 해당 Geography 값을 반환합니다.
st_geogfromtext(col) WKT 설명을 구문 분석하고 해당 Geography 값을 반환합니다.
st_geogfromwkb(col) 입력 WKB 설명을 구문 분석하고 해당 Geography 값을 반환합니다.
st_geogfromwkt(col) WKT 설명을 구문 분석하고 해당 Geography 값을 반환합니다.
st_geohash(col1,col2) 입력 기하 도형의 지오하쉬를 반환합니다.
st_geometryn(col1,col2) 입력 다중 기하 도형의 1부터 시작하는 n번째 요소를 반환하거나 None 존재하지 않는 경우
st_geometrytype(col) 입력 Geography 또는 Geometry 값의 형식 문자열로 반환합니다.
st_geomfromewkb(col) 입력 EWKB 설명을 구문 분석하고 해당 Geometry 값을 반환합니다.
st_geomfromgeohash(col) 입력 지오하시 값에 해당하는 지오하시 그리드 상자를 2D 다각형 기하 도형으로 반환합니다.
st_geomfromgeojson(col) GeoJSON 설명을 구문 분석하고 해당 기하 도형 값을 반환합니다.
st_geomfromtext(col1,col2) WKT 설명을 구문 분석하고 해당 기하 도형 값을 반환합니다.
st_geomfromwkb(col1,col2) 입력 WKB 설명을 구문 분석하고 해당 Geometry 값을 반환합니다.
st_geomfromwkt(col1,col2) WKT 설명을 구문 분석하고 해당 기하 도형 값을 반환합니다.
st_intersection(col1,col2) 두 입력 기하 도형의 점 집합 교집합을 2D 기하 도형으로 반환합니다.
st_intersects(col1,col2) 두 기하 도형이 교차하는 경우 반환 True
st_isempty(col) 입력 True 또는 기하 도형 값에 비어 있지 않은 점이 없는지 여부를 반환 합니다.
st_isvalid(col) 입력 기하 도형이 OGC 의미에서 유효한 기하 도형인지를 반환 True 합니다.
st_length(col) 입력 기하 도형 또는 지리 값의 길이를 반환합니다.
st_m(col) 입력 지점 기하 도형의 M 좌표를 반환하거나 None 입력 지점 기하 도형이 비어 있거나 M 좌표가 없는 경우
st_makeline(col) 점, 줄 바꿈 또는 다중점이 될 것으로 예상되는 기하 도형의 입력 배열에 있는 기하 도형의 비어있지 않은 점인 점이 있는 줄 바꿈 기하 도형을 반환합니다.
st_makepolygon(col1,col2) 입력 외부 경계에서 다각형을 생성하고 내부 경계의 선택적 배열(닫힌 줄 바꿈으로 표시됨)을 생성합니다.
st_multi(col) 입력 지리 또는 기하 도형 값을 동일한 다중 지리 공간 값으로 반환하고 원래 SRID를 유지합니다.
st_ndims(col) 입력 지리 또는 기하 도형 값의 좌표 차원을 반환합니다.
st_npoints(col) 입력 지리 또는 기하 도형 값에서 비어있지 않은 점의 수를 반환합니다.
st_numgeometries(col) 입력 기하 도형의 기하 도형 수를 반환합니다.
st_perimeter(col) 입력 지리 또는 기하 도형의 경계를 반환합니다.
st_point(col1,col2,col3) 지정된 x 및 y 좌표와 SRID 값이 있는 2D 점 기하 도형 을 반환합니다.
st_pointfromgeohash(col) 입력 지오하시 값에 해당하는 지오하시 그리드 상자의 중심을 2D 점 기하 도형으로 반환합니다.
st_pointn(col1,col2) 입력 줄 바꿈의 1부터 시작하는 n번째 지점을 반환하거나 None 존재하지 않는 경우
st_removepoint(col1,col2) 입력 라인스트링 지리 또는 기하 도형에서 n번째 점을 제거합니다.
st_reverse(col) 입력 지리 또는 기하 도형 값의 꼭짓점 순서를 반대로 바뀝니다.
st_rotate(col1,col2) 지정된 회전 각도(라디안)로 Z축을 중심으로 입력 기하 도형을 회전합니다.
st_scale(col1,col2,col3,col4) 지정된 요소를 사용하여 X, Y 및 Z(선택 사항) 방향에서 입력 기하 도형의 크기를 조정합니다.
st_setpoint(col1,col2,col3) 입력 라인스트링 지리 또는 기하 도형의 n번째 점을 설정합니다.
st_setsrid(col1,col2) 지정된 SRID 값을 갖는 새 Geometry 값을 반환합니다.
st_simplify(col1,col2) Douglas-Peucker 알고리즘을 사용하여 입력 기하 도형 간소화
st_srid(col) 입력 지리 공간적 값의 SRID를 반환합니다.
st_startpoint(col) 입력 줄 문자열의 첫 번째 지점을 반환하거나 None 존재하지 않는 경우
st_touches(col1,col2) 두 기하학적 도형이 서로 닿는 경우 True를 반환합니다.
st_transform(col1,col2) 입력 기하 도형의 X 및 Y 좌표를 제공된 SRID 값으로 설명된 CRS(좌표 참조 시스템)로 변환합니다.
st_translate(col1,col2,col3,col4) 제공된 오프셋을 사용하여 X, Y 및 Z(선택 사항) 방향의 입력 기하 도형을 변환합니다.
st_union(col1,col2) 두 입력 기하 도형의 점 집합 결합을 2D 기하 도형으로 반환합니다.
st_union_agg(col) 열에 있는 모든 기하 도형의 포인트별 합집합을 반환합니다. 열에 행이 0이거나 오직 None 값을 포함하는 경우에는 None을 반환합니다.
st_within(col1,col2) 첫 번째 기하 도형이 두 번째 기하 도형 내에 있는지를 반환 True 합니다.
st_x(col) 입력 지점 기하 도형의 X 좌표를 반환하거나 None 입력 지점 기하 도형이 비어 있는 경우
st_xmax(col) 입력 기하 도형의 최대 X 좌표를 반환하거나 None 입력 기하 도형이 비어 있는 경우
st_xmin(col) 입력 기하 도형의 최소 X 좌표를 반환하거나 None 입력 기하 도형이 비어 있는 경우
st_y(col) 입력 지점 기하 도형의 Y 좌표를 반환하거나 None 입력 지점 기하 도형이 비어 있는 경우
st_ymax(col) 입력 기하 도형의 최대 Y 좌표를 반환하거나 None 입력 기하 도형이 비어 있는 경우
st_ymin(col) 입력 기하 도형의 최소 Y 좌표를 반환하거나 None 입력 기하 도형이 비어 있는 경우
st_z(col) 입력 지점 기하 도형의 Z 좌표를 반환하거나 None 입력 지점 기하 도형이 비어 있거나 Z 좌표가 없는 경우
st_zmax(col) 입력 기하 도형의 최대 Z 좌표를 반환하거나 None 입력 기하 도형이 비어 있거나 Z 좌표를 포함하지 않는 경우
st_zmin(col) 입력 기하 도형의 최소 Z 좌표를 반환하거나 None 입력 기하 도형이 비어 있거나 Z 좌표를 포함하지 않는 경우
to_geography(col) 입력 BINARY 또는 문자열 값을 구문 분석하고 해당 Geography 값을 반환합니다.
to_geometry(col) 입력 BINARY 또는 문자열 값을 구문 분석하고 해당 Geometry 값을 반환합니다.
try_to_geography(col) 입력 BINARY 또는 문자열 값을 구문 분석하고 해당 Geography 값을 반환하거나 None 입력이 잘못된 경우
try_to_geometry(col) 입력 BINARY 또는 문자열 값을 구문 분석하여 해당 Geometry 값을 반환하고, 입력이 잘못된 경우 None 값을 반환합니다.

CSV 함수

기능 Description
from_csv(col, schema[, options]) CSV 문자열이 포함된 열을 지정된 스키마에 따라 행으로 변환합니다.
schema_of_csv(csv[, options]) CSV 문자열을 구문 분석하고 해당 스키마를 DDL 형식으로 유추합니다.
to_csv(col[, options]) StructType이 포함된 열을 CSV 문자열로 변환합니다.

JSON 함수

기능 Description
from_json(col, schema[, options]) JSON 문자열이 포함된 열을 StringType을 키 유형으로 사용하여 지정한 스키마를 갖춘 MapType, StructType 또는 ArrayType으로 구문 분석합니다.
get_json_object(col, path) 지정된 json 경로에 따라 json 문자열에서 json 개체를 추출하고 추출된 json 개체의 json 문자열을 반환합니다.
json_array_length(col) 가장 바깥쪽 JSON 배열의 요소 수를 반환합니다.
json_object_keys(col) 가장 바깥쪽 JSON 개체의 모든 키를 배열로 반환합니다.
json_tuple(col, *fields) 지정된 필드 이름에 따라 json 열에 대한 새 행을 만듭니다.
schema_of_json(json[, options]) JSON 문자열을 구문 분석하고 해당 스키마를 DDL 형식으로 유추합니다.
to_json(col[, options]) StructType, ArrayType 또는 MapType이 포함된 열을 JSON 문자열로 변환합니다.

Variant 함수

기능 Description
is_variant_null(v) 변형 값이 variant null인지 확인합니다.
parse_json(col) JSON 문자열이 포함된 열을 VariantType으로 구문 분석합니다.
schema_of_variant(v) 변형의 SQL 형식으로 스키마를 반환합니다.
schema_of_variant_agg(v) 변형 열의 SQL 형식으로 병합된 스키마를 반환합니다.
try_variant_get(v, path, targetType) 경로에 따라 v에서 하위 변형을 추출한 다음 하위 변형을 targetType으로 캐스팅합니다.
variant_get(v, path, targetType) 경로에 따라 v에서 하위 변형을 추출한 다음 하위 변형을 targetType으로 캐스팅합니다.
try_parse_json(col) JSON 문자열이 포함된 열을 VariantType으로 구문 분석합니다.
to_variant_object(col) 중첩된 입력(배열/맵/구조체)이 포함된 열을 맵 및 구조체가 SQL 구조체와 달리 순서가 지정되지 않은 variant 개체로 변환되는 변형으로 변환합니다.

XML 함수

기능 Description
from_xml(col, schema[, options]) XML 문자열이 포함된 열을 지정된 스키마에 따라 행으로 변환합니다.
schema_of_xml(xml[, options]) XML 문자열을 구문 분석하고 해당 스키마를 DDL 형식으로 유추합니다.
to_xml(col[, options]) StructType이 포함된 열을 XML 문자열로 변환합니다.
xpath(xml, path) XPath 식과 일치하는 xml 노드 내에 있는 값의 문자열 배열을 반환합니다.
xpath_boolean(xml, path) XPath 식이 true로 평가되거나 일치하는 노드가 발견되면 true를 반환합니다.
xpath_double(xml, path) double 값을 반환하고, 일치하는 항목이 없으면 값 0을 반환하고, 일치 항목이 있지만 값이 숫자가 아닌 경우 NaN을 반환합니다.
xpath_float(xml, path) 부동 소수점 값을 반환하고, 일치하는 항목이 없으면 값 0을 반환하고, 일치 항목이 있지만 값이 숫자가 아닌 경우 NaN을 반환합니다.
xpath_int(xml, path) 정수 값을 반환하거나 일치하는 항목이 없거나 일치 항목이 있지만 값이 숫자가 아닌 경우 값 0을 반환합니다.
xpath_long(xml, path) 긴 정수 값을 반환하거나 일치하는 항목이 없거나 일치 항목이 있지만 값이 숫자가 아닌 경우 값 0을 반환합니다.
xpath_number(xml, path) double 값을 반환하고, 일치하는 항목이 없으면 값 0을 반환하고, 일치 항목이 있지만 값이 숫자가 아닌 경우 NaN을 반환합니다.
xpath_short(xml, path) 짧은 정수 값을 반환하거나 일치하는 항목이 없거나 일치 항목이 있지만 값이 숫자가 아닌 경우 값 0을 반환합니다.
xpath_string(xml, path) XPath 식과 일치하는 첫 번째 xml 노드의 텍스트 내용을 반환합니다.

URL 함수

기능 Description
parse_url(url, partToExtract[, key]) URL에서 지정된 부분을 추출합니다.
try_parse_url(url, partToExtract[, key]) parse_url 작업을 시도하지만, 구문 분석을 수행할 수 없는 경우 오류를 발생시키기보다는 NULL 값을 반환합니다.
url_decode(str) URL로 인코딩된 문자열 application/x-www-form-urlencoded 을 원래 형식으로 디코딩합니다.
url_encode(str) 문자열을 'application/x-www-form-urlencoded' 형식으로 URL로 인코딩된 문자열로 인코딩합니다.
try_url_decode(str) 작업을 수행하려고 하지만 디코딩을 수행할 url_decode 수 없는 경우 오류를 발생시키는 대신 NULL 값을 반환합니다.

기타 함수

기능 Description
aes_decrypt(input, key[, mode, padding, aad]) 패딩이 있는 모드에서 AES를 사용하여 암호 해독된 입력 값을 반환합니다.
aes_encrypt(input, key[, mode, padding, iv, aad]) 지정된 안쪽 여백과 함께 지정된 모드에서 AES를 사용하여 암호화된 입력 값을 반환합니다.
assert_true(col[, errMsg]) 입력 열이 true이면 null을 반환합니다; 그렇지 않으면 제공된 오류 메시지와 함께 예외를 던집니다.
bitmap_bit_position(col) 지정된 입력 열의 비트 위치를 반환합니다.
bitmap_bucket_number(col) 지정된 입력 열의 버킷 번호를 반환합니다.
bitmap_count(col) 입력 비트맵의 집합 비트 수를 반환합니다.
current_catalog() 현재 카탈로그를 반환합니다.
current_database() 현재 데이터베이스를 반환합니다.
current_schema() 현재 스키마를 반환합니다.
current_user() 현재 사용자를 반환합니다.
hll_sketch_estimate(col) Datasketches HllSketch의 이진 표현이 지정된 경우 예상 고유 값 수를 반환합니다.
hll_union(col1, col2[, allowDifferentLgConfigK]) Datasketches Union 개체를 사용하여 Datasketches HllSketch 개체의 두 이진 표현을 병합합니다.
input_file_block_length() 읽는 블록의 길이를 반환하거나 사용할 수 없는 경우 -1.
input_file_block_start() 읽는 블록의 시작 오프셋을 반환하거나 사용할 수 없는 경우 -1.
input_file_name() 현재 Spark 작업의 파일 이름에 대한 문자열 열을 만듭니다.
java_method(*cols) 리플렉션을 사용하여 메서드를 호출합니다.
monotonically_increasing_id() 단조로 증가하는 64비트 정수를 생성하는 열입니다.
raise_error(errMsg) 제공된 오류 메시지와 함께 예외를 발생시킵니다.
reflect(*cols) 리플렉션을 사용하여 메서드를 호출합니다.
session_user() 현재 실행 컨텍스트의 사용자 이름을 반환합니다.
spark_partition_id() 파티션 ID에 대한 열입니다.
try_aes_decrypt(input, key[, mode, padding, aad]) 작업을 수행하려고 하지만 암호 해독을 aes_decrypt 수행할 수 없는 경우 오류를 발생시키는 대신 NULL 값을 반환합니다.
try_reflect(*cols) 호출 메서드가 예외를 throw할 경우 오류를 발생시키는 대신 NULL 값을 반환하도록 reflect 작업을 수행합니다.
typeof(col) 입력의 데이터 형식에 대한 DDL 형식 형식 문자열을 반환합니다.
user() 현재 사용자를 반환합니다.
version() Spark 버전을 반환합니다.

UDF, UDTF, UDT 함수

기능 Description
call_udf(udfName, *cols) 사용자 정의 함수를 호출합니다.
pandas_udf([f, returnType, functionType]) pandas 사용자 정의 함수(즉, )를 만듭니다.
udf([f, returnType, useArrow]) UDF(사용자 정의 함수)를 만듭니다.
udtf([cls, returnType, useArrow]) UDTF(사용자 정의 테이블 함수)를 만듭니다.
unwrap_udt(col) UDT 데이터 형식 열을 기본 형식으로 변환합니다.

테이블 반환 함수

기능 Description
TableValuedFunction.collations() 모든 Spark SQL 문자열 데이터 정렬을 가져옵니다.
TableValuedFunction.explode(collection) 지정된 배열 또는 맵의 각 요소에 대한 새 행이 포함된 DataFrame을 반환합니다.
TableValuedFunction.explode_outer(collection) 지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행이 포함된 DataFrame을 반환합니다.
TableValuedFunction.inline(input) 구조체 배열을 테이블로 분해합니다.
TableValuedFunction.inline_outer(input) 구조체 배열을 테이블로 분해합니다.
TableValuedFunction.json_tuple(input, *fields) 지정된 필드 이름에 따라 json 열에 대한 새 행을 만듭니다.
TableValuedFunction.posexplode(collection) 지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행이 포함된 DataFrame을 반환합니다.
TableValuedFunction.posexplode_outer(collection) 지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행이 포함된 DataFrame을 반환합니다.
TableValuedFunction.range(start[, end, ...]) 단계 값을 가진 start부터 end까지(끝 값은 배타적) 범위의 요소를 포함하는 id라는 단일 pyspark.sql.types.LongType 열로 DataFrame을 만듭니다.
TableValuedFunction.sql_keywords() Spark SQL 키워드를 가져옵니다.
TableValuedFunction.stack(n, *fields) col1, ..., colk를 n행으로 구분합니다.
TableValuedFunction.variant_explode(input) variant 개체/배열을 해당 필드/요소가 포함된 여러 행으로 구분합니다.
TableValuedFunction.variant_explode_outer(input) variant 개체/배열을 해당 필드/요소가 포함된 여러 행으로 구분합니다.