이 페이지에서는 해당 참조 설명서에 대한 링크와 함께 Databricks에서 사용할 수 있는 PySpark SQL 함수 목록을 제공합니다.
일반 함수
| 기능 | Description |
|---|---|
broadcast(df) |
DataFrame을 브로드캐스트 조인에 사용할 수 있을 만큼 작게 표시합니다. |
call_function(funcName, *cols) |
SQL 함수를 호출합니다. |
col(col) |
지정된 열 이름을 기반으로 열을 반환합니다. |
column(col) |
지정된 열 이름을 기반으로 열을 반환합니다. |
lit(col) |
리터럴 값을 갖는 열을 생성합니다. |
expr(str) |
식 문자열을 해당 열로 구문 분석합니다. |
조건부 함수
| 기능 | Description |
|---|---|
coalesce(*cols) |
null이 아닌 첫 번째 열을 반환합니다. |
ifnull(col1, col2) |
col1이 null이면 col2를 반환하고, 그렇지 않으면 col1을 반환합니다. |
nanvl(col1, col2) |
NaN이 아니면 col1을 반환하고, col1이 NaN이면 col2를 반환합니다. |
nullif(col1, col2) |
col1이 col2와 같으면 null을 반환하고, 그렇지 않으면 col1을 반환합니다. |
nullifzero(col) |
col이 0과 같으면 null을 반환하고, 그렇지 않으면 col을 반환합니다. |
nvl(col1, col2) |
col1이 null이면 col2를 반환하고, 그렇지 않으면 col1을 반환합니다. |
nvl2(col1, col2, col3) |
col1이 null이 아니면 col2를 반환하고, 그렇지 않으면 col3을 반환합니다. |
when(condition, value) |
조건 목록을 평가하고 가능한 여러 결과 식 중 하나를 반환합니다. |
zeroifnull(col) |
col이 null이면 0을 반환하고, 그렇지 않으면 col을 반환합니다. |
패턴 일치 함수
| 기능 | Description |
|---|---|
equal_null(col1, col2) |
null이 아닌 피연산자에 대해 EQUAL(=) 연산자와 동일한 결과를 반환하지만 둘 다 null이면 true를 반환하고, 둘 중 하나가 null이면 false를 반환합니다. |
ilike(str, pattern[, escapeChar]) |
str이 이스케이프 대/소문자를 구분하지 않는 패턴과 일치하면 true를 반환하고, 인수가 null이면 null을 반환하고, 그렇지 않으면 false를 반환합니다. |
isnan(col) |
열이 NaN 값인지 확인하여 true를 반환하는 표현식입니다. |
isnotnull(col) |
col이 null이 아니면 true를 반환하고, 그렇지 않으면 false를 반환합니다. |
isnull(col) |
열의 값이 null인지 확인하는 식으로, true를 반환합니다. |
like(str, pattern[, escapeChar]) |
str이 이스케이프와 패턴과 일치하면 true를 반환하고, 인수가 null이면 null을 반환하고, 그렇지 않으면 false를 반환합니다. |
regexp(str, regexp) |
str이 Java regex regexp와 일치하면 true를 반환하고, 그렇지 않으면 false를 반환합니다. |
regexp_like(str, regexp) |
str이 Java regex regexp와 일치하면 true를 반환하고, 그렇지 않으면 false를 반환합니다. |
rlike(str, regexp) |
str이 Java regex regexp와 일치하면 true를 반환하고, 그렇지 않으면 false를 반환합니다. |
정렬 함수
| 기능 | Description |
|---|---|
asc(col) |
대상 열의 정렬 식을 오름차순으로 반환합니다. |
asc_nulls_first(col) |
지정된 열 이름의 오름차순에 따라 정렬 식을 반환하고 null 값은 null이 아닌 값 앞에 반환됩니다. |
asc_nulls_last(col) |
지정된 열 이름의 오름차순에 따라 정렬 식을 반환하고 null 값이 null이 아닌 값 후에 나타납니다. |
desc(col) |
대상 열의 정렬 식을 내림차순으로 반환합니다. |
desc_nulls_first(col) |
지정된 열 이름의 내림차순에 따라 정렬 식을 반환하고 null 값이 null이 아닌 값 앞에 나타납니다. |
desc_nulls_last(col) |
지정된 열 이름의 내림차순에 따라 정렬 식을 반환하고 null 값은 null이 아닌 값 후에 나타납니다. |
수학 함수
| 기능 | Description |
|---|---|
abs(col) |
지정된 열 또는 식의 절대값을 계산합니다. |
acos(col) |
지정된 열 또는 식의 역 코사인(아크코사인이라고도 함)을 계산합니다. |
acosh(col) |
지정된 열 또는 식의 역 하이퍼볼릭 코사인(arcosh라고도 함)을 계산합니다. |
asin(col) |
입력 열의 역 사인을 계산합니다. |
asinh(col) |
입력 열의 역 하이퍼볼릭 사인을 계산합니다. |
atan(col) |
입력 열의 역 탄젠트를 계산합니다. |
atan2(col1, col2) |
평면의 양수 x축과 좌표로 지정된 점 사이의 각도를 라디안으로 계산합니다. |
atanh(col) |
입력 열의 역 하이퍼볼릭 탄젠트를 계산합니다. |
bin(col) |
지정된 열의 이진 값에 대한 문자열 표현을 반환합니다. |
bround(col[, scale]) |
배율이 >= 0인 경우 HALF_EVEN 반올림 모드를 사용하여 지정된 소수 자릿수로 반올림하고, 배율이 < 0인 경우 정수 부분에서 반올림합니다. |
cbrt(col) |
지정된 값의 큐브 루트를 계산합니다. |
ceil(col[, scale]) |
지정된 값의 최대값을 계산합니다. |
ceiling(col[, scale]) |
지정된 값의 최대값을 계산합니다. |
conv(col, fromBase, toBase) |
문자열 열에 있는 숫자를 한 진수에서 다른 진수로 변환합니다. |
cos(col) |
입력 열의 코사인을 계산합니다. |
cosh(col) |
입력 열의 하이퍼볼릭 코사인을 계산합니다. |
cot(col) |
입력 열의 코탄젠트를 계산합니다. |
csc(col) |
입력 열의 코시컨트를 계산합니다. |
degrees(col) |
라디안으로 측정된 각도를 도 단위로 측정된 거의 동등한 각도로 변환합니다. |
e() |
Euler의 번호를 반환합니다. |
exp(col) |
지정된 값의 지수를 계산합니다. |
expm1(col) |
지정된 값의 지수에서 1을 뺀 값을 계산합니다. |
factorial(col) |
지정된 값의 팩터리 요소를 계산합니다. |
floor(col[, scale]) |
지정된 값의 바닥을 계산합니다. |
greatest(*cols) |
null 값을 건너뛰고 열 이름 목록의 가장 큰 값을 반환합니다. |
hex(col) |
StringType, BinaryType, IntegerType 또는 LongType일 수 있는 지정된 열의 16진수 값을 계산합니다. |
hypot(col1, col2) |
sqrt(a^2 + b^2) 중간 오버플로 또는 언더플로 없이 계산합니다. |
least(*cols) |
null 값을 건너뛰고 열 이름 목록의 최소 값을 반환합니다. |
ln(col) |
인수의 자연 로그를 반환합니다. |
log(arg1[, arg2]) |
두 번째 인수의 첫 번째 인수 기반 로그를 반환합니다. |
log10(col) |
Base 10에서 지정된 값의 로그를 계산합니다. |
log1p(col) |
주어진 값에 1을 더한 값의 자연 로그를 계산합니다. |
log2(col) |
인수의 base-2 로그를 반환합니다. |
negate(col) |
음수 값을 반환합니다. |
negative(col) |
음수 값을 반환합니다. |
pi() |
Pi를 반환합니다. |
pmod(dividend, divisor) |
배당 모드 수수의 양수 값을 반환합니다. |
positive(col) |
값을 반환합니다. |
pow(col1, col2) |
첫 번째 인수를 두 번째 인수로 거듭 제곱한 값을 반환합니다. |
power(col1, col2) |
첫 번째 인수를 두 번째 인수로 거듭 제곱한 값을 반환합니다. |
radians(col) |
도 단위로 측정된 각도를 라디안으로 측정된 거의 동등한 각도로 변환합니다. |
rand([seed]) |
독립적이고 동일하게 분산된(즉, [0.0, 1.0)에 균일하게 분산된 샘플이 있는 임의 열을 생성합니다. |
randn([seed]) |
표준 정규 분포에서 독립적이고 동일한 분포를 가진 샘플을 사용하여 임의의 열을 생성합니다. |
rint(col) |
인수에 가장 가까운 수학적 정수와 동일한 double 값을 반환합니다. |
round(col[, scale]) |
배율 = 0인 경우 HALF_UP 반올림 모드를 사용하여 소수 자릿수를 조정하거나 배율 >< 0인 경우 정수 부분의 소수 자릿수를 조정하도록 지정된 값을 반올림합니다. |
sec(col) |
입력 열의 시컨트를 계산합니다. |
sign(col) |
지정된 값의 기호를 계산합니다. |
signum(col) |
지정된 값의 기호를 계산합니다. |
sin(col) |
입력 열의 사인을 계산합니다. |
sinh(col) |
입력 열의 하이퍼볼릭 사인을 계산합니다. |
sqrt(col) |
지정된 float 값의 제곱근을 계산합니다. |
tan(col) |
입력 열의 탄젠트를 계산합니다. |
tanh(col) |
입력 열의 하이퍼볼릭 탄젠트를 계산합니다. |
try_add(left, right) |
왼쪽과 오른쪽의 합계를 반환하고 오버플로에서 결과는 null입니다. |
try_divide(left, right) |
배당을 나누기하여 반환합니다. |
try_mod(left, right) |
배당/수수 뒤의 나머지를 반환합니다. |
try_multiply(left, right) |
왼쪽에 오른쪽을 곱한 값을 반환하며, 오버플로우 시 결과는 null입니다. |
try_subtract(left, right) |
좌변에서 우변을 뺀 결과는 오버플로 시 null입니다. |
unhex(col) |
16진수의 역연산. |
uniform(min, max[, seed]) |
지정된 숫자 범위에서 독립적 동일 분포(i.i.d.)로부터 추출한 임의 값을 반환합니다. |
width_bucket(v, min, max, numBucket) |
계산 후 이 식의 값이 떨어질 버킷 번호를 반환합니다. |
문자열 함수
| 기능 | Description |
|---|---|
ascii(col) |
문자열 열의 첫 번째 문자에 대한 숫자 값을 계산합니다. |
base64(col) |
이진 열의 BASE64 인코딩을 계산하고 문자열 열로 반환합니다. |
bit_length(col) |
지정된 문자열 열의 비트 길이를 계산합니다. |
btrim(str[, trim]) |
str에서 선행 및 후행 트리밍 문자를 제거합니다. |
char(col) |
col에 해당하는 이진 문자가 있는 ASCII 문자를 반환합니다. |
char_length(str) |
문자열 데이터의 문자 길이 또는 이진 파일 데이터의 바이트 수를 반환합니다. |
character_length(str) |
문자열 데이터의 문자 길이 또는 이진 파일 데이터의 바이트 수를 반환합니다. |
collate(col, collation) |
지정된 열을 지정된 데이터 정렬로 표시합니다. |
collation(col) |
지정된 열의 데이터 정렬 이름을 반환합니다. |
concat_ws(sep, *cols) |
지정된 구분 기호를 사용하여 여러 입력 문자열 열을 단일 문자열 열에 연결합니다. |
contains(left, right) |
부울을 반환합니다. |
decode(col, charset) |
제공된 문자 집합(US-ASCII, ISO-8859-1, UTF-8, UTF-16BE, UTF-16LE, UTF-16, UTF-32 중 하나)을 사용하여 이진 파일을 문자열로 첫 번째 인수를 변환합니다. |
elt(*inputs) |
n번째 입력(예: n이 2이면 input2)을 반환합니다. |
encode(col, charset) |
제공된 문자 집합(, 중 하나US-ASCIIISO-8859-1UTF-8UTF-16BEUTF-16LEUTF-16UTF-32)을 사용하여 문자열에서 이진으로 첫 번째 인수를 계산합니다. |
endswith(str, suffix) |
부울을 반환합니다. |
find_in_set(str, str_array) |
쉼표로 구분된 목록(strArray)에서 지정된 문자열(str)의 인덱스(1부터)를 반환합니다. |
format_number(col, d) |
숫자 X를 #,--#,--#.-- 과 유사한 형식으로 소수 자릿수 d번째 자리까지 HALF_EVEN 반올림 모드를 사용하여 반올림하여 서식 지정 후, 결과를 문자열로 반환합니다. |
format_string(format, *cols) |
인수의 서식을 printf 스타일로 지정하고 결과를 문자열 열로 반환합니다. |
initcap(col) |
각 단어의 첫 글자를 문장의 대문자로 번역합니다. |
instr(str, substr) |
주어진 문자열에서 substr 열의 처음 발생 위치를 찾습니다. |
is_valid_utf8(str) |
입력이 유효한 UTF-8 문자열이면 true를 반환하고, 그렇지 않으면 false를 반환합니다. |
lcase(str) |
모든 문자가 소문자로 변경된 str을 반환합니다. |
left(str, len) |
문자열 str에서 가장 왼쪽 len(len은 문자열 형식일 수 있음) 문자를 반환합니다. len이 0보다 작거나 같으면 결과는 빈 문자열입니다. |
length(col) |
문자열 데이터의 문자 길이 또는 이진 데이터의 바이트 수를 계산합니다. |
levenshtein(left, right[, threshold]) |
지정된 두 문자열의 Levenshtein 거리를 계산합니다. |
locate(substr, str[, pos]) |
pos 위치 이후 문자열 열에서 부분 문자열이 처음으로 나타나는 위치를 찾습니다. |
lower(col) |
문자열 식을 소문자로 변환합니다. |
lpad(col, len, pad) |
문자열 열을 패드가 있는 너비 렌으로 왼쪽 패드로 묶습니다. |
ltrim(col[, trim]) |
지정된 문자열 값의 왼쪽 끝에서 공백을 제거합니다. |
make_valid_utf8(str) |
잘못된 모든 UTF-8 바이트 시퀀스(있는 경우)가 유니코드 대체 문자(U+FFFD)로 대체되는 새 문자열을 반환합니다. |
mask(col[, upperChar, lowerChar, digitChar, ...]) |
지정된 문자열 값을 마스킹합니다. |
octet_length(col) |
지정된 문자열 열의 바이트 길이를 계산합니다. |
overlay(src, replace, pos[, len]) |
src의 지정된 부분을 src의 바이트 위치 pos부터 시작하여 len 바이트에 대해 진행하여 바꾸기로 오버레이합니다. |
position(substr, str[, start]) |
"start 위치 이후의 str에서 substr이 처음 나타나는 위치를 반환합니다." |
printf(format, *cols) |
인수의 서식을 printf 스타일로 지정하고 결과를 문자열 열로 반환합니다. |
randstr(length[, seed]) |
문자 풀 0-9, a-z, A-Z에서 문자가 임의로 균일하게 선택되는 지정된 길이의 문자열을 반환합니다. |
regexp_count(str, regexp) |
문자열 str에서 Java regex 패턴 regexp가 일치하는 횟수를 반환합니다. |
regexp_extract(str, pattern, idx) |
지정된 문자열 열에서 Java regex regexp와 일치하는 특정 그룹을 추출합니다. |
regexp_extract_all(str, regexp[, idx]) |
Java regex regexp와 일치하고 regex 그룹 인덱스에 해당하는 str의 모든 문자열을 추출합니다. |
regexp_instr(str, regexp[, idx]) |
Java regex regexp와 일치하고 regex 그룹 인덱스에 해당하는 str에서 첫 번째 부분 문자열의 위치를 반환합니다. |
regexp_replace(string, pattern, replacement) |
regexp와 일치하는 지정된 문자열 값의 모든 부분 문자열을 대체로 바꿉니다. |
regexp_substr(str, regexp) |
문자열 str 내에서 Java regex regexp와 일치하는 첫 번째 부분 문자열을 반환합니다. |
repeat(col, n) |
문자열 열을 n번 반복하고 새 문자열 열로 반환합니다. |
replace(src, search[, replace]) |
검색의 모든 항목을 바꾸기로 대체합니다. |
right(str, len) |
문자열 str에서 가장 오른쪽 len(len은 문자열 형식일 수 있음) 문자를 반환합니다. len이 0보다 작거나 같으면 결과는 빈 문자열입니다. |
rpad(col, len, pad) |
문자열 열을 오른쪽으로 패딩하여 길이 len에 맞춥니다. |
rtrim(col[, trim]) |
지정한 문자열 값의 오른쪽 끝에서 공백을 제거합니다. |
sentences(string[, language, country]) |
문자열을 문장 배열로 분할합니다. 여기서 각 문장은 단어 배열입니다. |
soundex(col) |
문자열에 대한 SoundEx 인코딩을 반환합니다. |
split(str, pattern[, limit]) |
주어진 패턴에 맞춰 문자열을 분할합니다. |
split_part(src, delimiter, partNum) |
구분 기호로 str를 분할하고 분할의 요청된 부분(1부터)을 반환합니다. |
startswith(str, prefix) |
부울을 반환합니다. |
substr(str, pos[, len]) |
pos에서 시작하여 길이가 len인 str의 부분 문자열 또는 pos에서 시작하고 길이가 len인 바이트 배열 조각을 반환합니다. |
substring(str, pos, len) |
substring은 str이 String 타입일 경우 pos에서 시작하고 길이가 len인 문자열이며, str이 Binary 타입일 경우 pos에서 시작하고 길이가 len인 바이트 배열의 조각을 반환합니다. |
substring_index(str, delim, count) |
문자열 str에서 구분 기호 delim의 지정 개수만큼 발생하기 전까지의 부분 문자열을 반환합니다. |
to_binary(col[, format]) |
입력 콜을 제공된 형식에 따라 이진 값으로 변환합니다. |
to_char(col, format) |
형식에 따라 문자열로 col을 변환합니다. |
to_number(col, format) |
문자열 'col'을 문자열 형식 'format'에 따라 숫자로 변환합니다. |
to_varchar(col, format) |
형식에 따라 문자열로 col을 변환합니다. |
translate(srcCol, matching, replace) |
일치하는 문자로 srcCol의 모든 문자를 변환합니다. |
trim(col[, trim]) |
지정된 문자열 열의 양쪽 끝에서 공백을 잘라냅니다. |
try_to_binary(col[, format]) |
작업을 수행하려고 하지만 변환을 to_binary 수행할 수 없는 경우 오류를 발생시키는 대신 NULL 값을 반환합니다. |
try_to_number(col, format) |
문자열 col 형식 format에 따라 문자열을 숫자로 변환합니다. |
try_validate_utf8(str) |
유효한 UTF-8 문자열에 해당하는 경우 입력 값을 반환하고, 그렇지 않으면 NULL을 반환합니다. |
ucase(str) |
모든 문자가 대문자로 변경된 str을 반환합니다. |
unbase64(col) |
BASE64로 인코딩된 문자열 열을 디코딩하고 이진 열로 반환합니다. |
upper(col) |
문자열 식을 대문자로 변환합니다. |
validate_utf8(str) |
유효한 UTF-8 문자열에 해당하는 경우 입력 값을 반환하거나 그렇지 않으면 오류를 내보낸다. |
비트 연산 함수
| 기능 | Description |
|---|---|
bit_count(col) |
인수 expr에서 부호 없는 64비트 정수로 설정된 비트 수를 반환하고, 인수가 NULL인 경우 NULL을 반환합니다. |
bit_get(col, pos) |
지정된 위치에 있는 비트(0 또는 1)의 값을 반환합니다. |
bitwise_not(col) |
비트 단위 NOT을 계산합니다. |
getbit(col, pos) |
지정된 위치에 있는 비트(0 또는 1)의 값을 반환합니다. |
shiftleft(col, numBits) |
지정된 값 numBits를 왼쪽으로 이동합니다. |
shiftright(col, numBits) |
(서명됨) 지정된 값 numBits를 오른쪽으로 이동합니다. |
shiftrightunsigned(col, numBits) |
부호 없는 경우 지정된 값 numBits를 오른쪽으로 이동합니다. |
날짜/시간 함수
| 기능 | Description |
|---|---|
add_months(start, months) |
시작 날짜로부터 지정된 개월 수 후의 날짜를 반환합니다. |
convert_timezone(sourceTz, targetTz, sourceTs) |
표준 시간대가 없는 타임스탬프를 sourceTz 표준 시간대에서 targetTz로 변환합니다. |
curdate() |
쿼리 평가 시작 시 현재 날짜를 DateType 열로 반환합니다. |
current_date() |
쿼리 평가 시작 시 현재 날짜를 DateType 열로 반환합니다. |
current_timestamp() |
쿼리 평가 시작 시 현재 타임스탬프를 TimestampType 열로 반환합니다. |
current_timezone() |
현재 세션 현지 표준 시간대를 반환합니다. |
date_add(start, days) |
시작 후 일 수인 날짜를 반환합니다. |
date_diff(end, start) |
처음부터 끝까지의 일 수를 반환합니다. |
date_format(date, format) |
날짜/타임스탬프/문자열을 두 번째 인수에 지정된 날짜 형식으로 지정된 형식의 문자열 값으로 변환합니다. |
date_from_unix_date(days) |
1970-01-01 이후의 일 수에서 날짜를 만듭니다. |
date_part(field, source) |
날짜/타임스탬프 또는 간격 원본의 일부를 추출합니다. |
date_sub(start, days) |
시작하기 며칠 전의 날짜를 반환합니다. |
date_trunc(format, timestamp) |
형식으로 지정된 단위로 잘린 타임스탬프를 반환합니다. |
dateadd(start, days) |
시작 후 일 수인 날짜를 반환합니다. |
datediff(end, start) |
처음부터 끝까지의 일 수를 반환합니다. |
datepart(field, source) |
날짜/타임스탬프 또는 간격 원본의 일부를 추출합니다. |
day(col) |
지정된 날짜/타임스탬프의 월을 정수로 추출합니다. |
dayname(col) |
지정된 날짜에서 세 글자로 된 축약된 일 이름을 반환합니다. |
dayofmonth(col) |
지정된 날짜/타임스탬프의 월을 정수로 추출합니다. |
dayofweek(col) |
지정된 날짜/타임스탬프의 요일을 정수로 추출합니다. |
dayofyear(col) |
지정된 날짜/타임스탬프의 연도를 정수로 추출합니다. |
extract(field, source) |
날짜/타임스탬프 또는 간격 원본의 일부를 추출합니다. |
from_unixtime(timestamp[, format]) |
unix epoch(1970-01-01 00:00 UTC)의 초 수를 지정된 형식의 현재 시스템 표준 시간대에서 해당 순간의 타임스탬프를 나타내는 문자열로 변환합니다. |
from_utc_timestamp(timestamp, tz) |
이 함수는 TIMESTAMP WITHOUT TIMEZONE를 지원하는 데이터베이스에 대한 일반적인 함수입니다. |
hour(col) |
지정된 타임스탬프의 시간을 정수로 추출합니다. |
last_day(date) |
지정된 날짜가 속한 월의 마지막 날짜를 반환합니다. |
localtimestamp() |
쿼리 평가 시작 시 표준 시간대가 없는 현재 타임스탬프를 표준 시간대 열이 없는 타임스탬프로 반환합니다. |
make_date(year, month, day) |
연도, 월 및 일 열에서 작성된 날짜가 있는 열을 반환합니다. |
make_dt_interval([days, hours, mins, secs]) |
DayTimeIntervalType 기간을 일, 시간, 분 및 초에서 만듭니다. |
make_interval([years, months, weeks, days, ...]) |
년, 월, 주, 일, 시간, 분 및 초에서 간격을 만듭니다. |
make_timestamp(years, months, days, hours, ...) |
연도, 월, 일, 시간, 분, 초 및 표준 시간대 필드에서 타임스탬프를 만듭니다. |
make_timestamp_ltz(years, months, days, ...) |
연도, 월, 일, 시간, 분, 초 및 시간대 필드에서 현지 시간대를 사용하여 현재 타임스탬프를 생성합니다. |
make_timestamp_ntz(years, months, days, ...) |
연도, 월, 일, 시간, 분, 초 필드의 현지 날짜-시간을 만듭니다. |
make_ym_interval([years, months]) |
주어진 연도와 월을 사용하여 연월 간격을 만듭니다. |
minute(col) |
지정된 타임스탬프에서 "분"을 정수로 추출합니다. |
month(col) |
지정된 날짜/타임스탬프의 월을 정수로 추출합니다. |
monthname(col) |
지정된 날짜에서 세 글자로 된 약어 월 이름을 반환합니다. |
months_between(date1, date2[, roundOff]) |
날짜1과 날짜2 사이의 월 수를 반환합니다. |
next_day(date, dayOfWeek) |
두 번째 주일 인수를 기준으로 날짜 열 값보다 오래된 첫 번째 날짜를 반환합니다. |
now() |
쿼리 평가 시작 시의 현재 타임스탬프를 반환합니다. |
quarter(col) |
지정된 날짜/타임스탬프의 분기를 정수로 추출합니다. |
second(col) |
지정된 날짜의 초를 정수로 추출합니다. |
session_window(timeColumn, gapDuration) |
열을 지정하는 타임스탬프가 지정된 세션 창을 생성합니다. |
timestamp_add(unit, quantity, ts) |
분수 부분을 잘라내어 지정된 단위의 타임스탬프 간 차이를 가져옵니다. |
timestamp_diff(unit, start, end) |
분수 부분을 잘라내어 지정된 단위의 타임스탬프 간 차이를 가져옵니다. |
timestamp_micros(col) |
UTC epoch 이후의 마이크로초 수에서 타임스탬프를 만듭니다. |
timestamp_millis(col) |
UTC epoch 이후 경과한 밀리초 수로부터 타임스탬프를 만듭니다. |
timestamp_seconds(col) |
Unix epoch(1970-01-01T00:00:00Z)에서 경과한 초 수를 타임스탬프로 변환합니다. |
to_date(col[, format]) |
필요에 따라 지정된 형식을 사용하여 열을 pyspark.sql.types.DateType으로 변환합니다. |
to_timestamp(col[, format]) |
필요에 따라 지정된 형식을 사용하여 열을 pyspark.sql.types.TimestampType으로 변환합니다. |
to_timestamp_ltz(timestamp[, format]) |
주어진 형식으로 타임스탬프를 표준 시간대가 포함된 타임스탬프로 변환합니다. |
to_timestamp_ntz(timestamp[, format]) |
표준 시간대가 없는 타임스탬프로 형식에 맞춰 타임스탬프를 구문 분석합니다. |
to_unix_timestamp(timestamp[, format]) |
지정된 시간의 UNIX 타임스탬프를 반환합니다. |
to_utc_timestamp(timestamp, tz) |
이 함수는 TIMESTAMP WITHOUT TIMEZONE를 지원하는 데이터베이스에 대한 일반적인 함수입니다. |
trunc(date, format) |
형식으로 지정된 단위로 잘린 날짜를 반환합니다. |
try_make_interval([years, months, weeks, ...]) |
작업을 수행하려고 하지만 간격을 make_interval 만들 수 없는 경우 오류를 발생시키는 대신 NULL 값을 반환합니다. |
try_make_timestamp(years, months, days, ...) |
연도, 월, 일, 시간, 분, 초, 및 표준 시간대 필드에서 타임스탬프를 생성해 보세요. |
try_make_timestamp_ltz(years, months, days, ...) |
연도, 월, 일, 시간, 분, 초 및 시간대 필드에서 현지 시간대를 사용하여 현재 타임스탬프를 만드십시오. |
try_make_timestamp_ntz(years, months, days, ...) |
연도, 월, 일, 시간, 분, 초 필드에서 로컬 날짜-시간을 생성하도록 시도합니다. |
try_to_timestamp(col[, format]) |
지정된 형식을 사용하여 열을 타임스탬프로 변환합니다. |
unix_date(col) |
1970-01-01 이후의 일 수를 반환합니다. |
unix_micros(col) |
1970-01-01 00:00:00 UTC 이후의 마이크로초 수를 반환합니다. |
unix_millis(col) |
1970-01-01 00:00:00 UTC 이후의 밀리초 수를 반환합니다. |
unix_seconds(col) |
1970-01-01 00:00:00 UTC 이후의 초 수를 반환합니다. |
unix_timestamp([timestamp, format]) |
기본 표준 시간대 및 기본 로캘을 사용하여 지정된 패턴('yyyy-MM-dd HH:mm:ss')을 Unix 타임스탬프(초)로 변환하고 실패하면 null을 반환합니다. |
weekday(col) |
날짜/타임스탬프에 대한 요일을 반환합니다(0 = 월요일, 1 = 화요일, ..., 6 = 일요일). |
weekofyear(col) |
지정된 날짜의 주 번호를 정수로 추출합니다. |
window(timeColumn, windowDuration[, ...]) |
열을 지정하는 타임스탬프가 지정된 경우 행을 하나 이상의 시간 창으로 버킷팅합니다. |
window_time(windowColumn) |
창 열에서 이벤트 시간을 계산합니다. |
year(col) |
지정된 날짜/타임스탬프의 연도를 정수로 추출합니다. |
해시 함수
| 기능 | Description |
|---|---|
crc32(col) |
이진 열의 CRC32(순환 중복 검사 값)를 계산하고 값을 bigint로 반환합니다. |
hash(*cols) |
지정된 열의 해시 코드를 계산하고 결과를 int 열로 반환합니다. |
md5(col) |
MD5 다이제스트를 계산하고 값을 32자 16진수 문자열로 반환합니다. |
sha(col) |
sha1 해시 값을 col의 16진수 문자열로 반환합니다. |
sha1(col) |
SHA-1의 16진수 문자열 결과를 반환합니다. |
sha2(col, numBits) |
SHA-2 해시 함수 제품군(SHA-224, SHA-256, SHA-384 및 SHA-512)의 16진수 문자열 결과를 반환합니다. |
xxhash64(*cols) |
xxHash 알고리즘의 64비트 변형을 사용하여 지정된 열의 해시 코드를 계산하고 결과를 긴 열로 반환합니다. |
컬렉션 기능
| 기능 | Description |
|---|---|
aggregate(col, initialValue, merge[, finish]) |
이진 연산자를 배열의 초기 상태 및 모든 요소에 적용하고 이를 단일 상태로 줄입니다. |
array_sort(col[, comparator]) |
입력 배열을 오름차순으로 정렬합니다. |
cardinality(col) |
열에 저장된 배열 또는 맵의 길이를 반환합니다. |
concat(*cols) |
여러 입력 열을 단일 열로 연결합니다. |
element_at(col, extraction) |
지정된(1부터 시작하는) 인덱스에서 배열의 요소를 반환합니다. |
exists(col, f) |
배열의 하나 이상의 요소가 조건을 충족하는지 여부를 반환합니다. |
filter(col, f) |
조건자가 지정된 배열에 보유하는 요소의 배열을 반환합니다. |
forall(col, f) |
배열의 모든 요소에 대해 술어가 유효한지를 반환합니다. |
map_filter(col, f) |
키-값 쌍이 지정된 조건자 함수를 충족하는 새 맵 열을 반환합니다. |
map_zip_with(col1, col2, f) |
키-값 쌍에 함수를 적용하여 지정된 두 맵을 단일 맵에 병합합니다. |
reduce(col, initialValue, merge[, finish]) |
이진 연산자를 배열의 초기 상태 및 모든 요소에 적용하고 이를 단일 상태로 줄입니다. |
reverse(col) |
역순으로 요소가 있는 역방향 문자열 또는 배열을 반환합니다. |
size(col) |
열에 저장된 배열 또는 맵의 길이를 반환합니다. |
transform(col, f) |
입력 배열의 각 요소에 변환을 적용한 후 요소의 배열을 반환합니다. |
transform_keys(col, f) |
맵의 모든 키-값 쌍에 함수를 적용하고 해당 애플리케이션의 결과가 포함된 맵을 쌍의 새 키로 반환합니다. |
transform_values(col, f) |
맵의 모든 키-값 쌍에 함수를 적용하고 해당 애플리케이션의 결과가 있는 맵을 쌍의 새 값으로 반환합니다. |
try_element_at(col, extraction) |
지정된(1부터 시작하는) 인덱스에서 배열의 요소를 반환합니다. |
zip_with(left, right, f) |
함수를 사용하여 지정된 두 배열을 요소 단위로 단일 배열에 병합합니다. |
배열 함수
| 기능 | Description |
|---|---|
array(*cols) |
입력 열 또는 열 이름에서 새 배열 열을 만듭니다. |
array_append(col, value) |
기존 배열 콜에 값을 추가하여 새 배열 열을 반환합니다. |
array_compact(col) |
배열에서 null 값을 제거합니다. |
array_contains(col, value) |
배열에 지정된 값이 포함되어 있는지 여부를 나타내는 부울을 반환합니다. 배열이 null이면 null이고, 배열에 지정된 값이 있으면 true이고, 그렇지 않으면 false를 반환합니다. |
array_distinct(col) |
배열에서 중복 값을 제거합니다. |
array_except(col1, col2) |
col1에 있지만 col2에는 없는 요소를 중복하지 않고 포함하는 새 배열을 반환합니다. |
array_insert(arr, pos, value) |
지정된 배열 인덱스의 지정된 배열에 항목을 삽입합니다. |
array_intersect(col1, col2) |
col1과 col2의 요소 교집합을 중복 없이 포함하는 새 배열을 반환합니다. |
array_join(col, delimiter[, null_replacement]) |
구분 기호를 사용하여 입력 배열 열의 요소를 연결하여 문자열 열을 반환합니다. |
array_max(col) |
배열의 최대값을 반환합니다. |
array_min(col) |
배열의 최소값을 반환합니다. |
array_position(col, value) |
지정된 배열에서 지정된 값이 처음 나타나는 위치를 찾습니다. |
array_prepend(col, value) |
지정된 요소가 포함된 배열을 첫 번째 요소로 반환하고 원래 배열의 나머지 요소를 반환합니다. |
array_remove(col, element) |
지정된 배열에서 요소와 동일한 모든 요소를 제거합니다. |
array_repeat(col, count) |
열을 count번 반복하여 포함하는 배열을 만듭니다. |
array_size(col) |
배열의 총 요소 수를 반환합니다. |
array_union(col1, col2) |
중복 없이 col1 및 col2의 요소 합합을 포함하는 새 배열을 반환합니다. |
arrays_overlap(a1, a2) |
입력 배열에 null이 아닌 공통 요소가 있는지 여부를 나타내는 부울 열을 반환하고, null이면 true를 반환하고, 배열에 공통 요소가 없지만 비어 있지 않은 경우 null을 반환하고, 그 중 하나 이상이 null 요소를 포함하고, 그렇지 않으면 false를 반환합니다. |
arrays_zip(*cols) |
N번째 구조체에 입력 배열의 모든 N번째 값이 포함된 구조체의 병합된 배열을 반환합니다. |
flatten(col) |
배열의 배열에서 단일 배열을 생성합니다. |
get(col, index) |
지정된(0부터 시작하는) 인덱스에서 배열의 요소를 반환합니다. |
sequence(start, stop[, step]) |
시작부터 중지까지 정수 시퀀스를 생성하여 단계별로 증분합니다. |
shuffle(col[, seed]) |
지정된 배열의 임의 순열을 생성합니다. |
slice(x, start, length) |
입력 배열 열을 시작 인덱스에서 특정 길이로 조각화하여 새 배열 열을 반환합니다. |
sort_array(col[, asc]) |
배열 요소의 자연 순서에 따라 입력 배열을 오름차순 또는 내림차순으로 정렬합니다. |
구조체 함수
| 기능 | Description |
|---|---|
named_struct(*cols) |
지정된 필드 이름 및 값을 사용하여 구조체를 만듭니다. |
struct(*cols) |
새 구조체 열을 만듭니다. |
맵 함수
| 기능 | Description |
|---|---|
create_map(*cols) |
짝수의 입력 열 또는 열 참조에서 새 맵 열을 만듭니다. |
map_concat(*cols) |
지정된 모든 맵의 합을 반환합니다. |
map_contains_key(col, value) |
맵에 키가 포함되어 있으면 true를 반환합니다. |
map_entries(col) |
지정된 맵에 있는 모든 항목의 순서가 지정되지 않은 배열을 반환합니다. |
map_from_arrays(col1, col2) |
두 배열에서 새 맵을 만듭니다. |
map_from_entries(col) |
키-값 쌍 항목(두 필드가 있는 구조체)의 배열을 맵으로 변환합니다. |
map_keys(col) |
맵의 키를 포함하는 순서가 지정되지 않은 배열을 반환합니다. |
map_values(col) |
맵의 값을 포함하는 순서가 지정되지 않은 배열을 반환합니다. |
str_to_map(text[, pairDelim, keyValueDelim]) |
구분 기호를 사용하여 텍스트를 키/값 쌍으로 분할한 후 문자열을 맵으로 변환합니다. |
집계 함수
| 기능 | Description |
|---|---|
any_value(col[, ignoreNulls]) |
행 그룹에 대한 col의 일부 값을 반환합니다. |
approx_count_distinct(col[, rsd]) |
지정된 열 또는 열 그룹에 있는 요소의 대략적인 고유 개수를 예측하는 새 열을 반환합니다. |
approx_percentile(col, percentage[, accuracy]) |
열 값의 백분율보다 작거나 해당 값과 같지 않도록 정렬된 콜 값에서 가장 작은 값(최소에서 가장 큰 값으로 정렬됨)인 숫자 열 콜의 대략적인 백분위수를 반환합니다. |
array_agg(col) |
중복된 개체 목록을 반환합니다. |
avg(col) |
그룹의 값 평균을 반환합니다. |
bit_and(col) |
null이 아닌 모든 입력 값의 비트 AND를 반환하고, null이 없으면 null을 반환합니다. |
bit_or(col) |
null이 아닌 모든 입력 값의 비트 OR을 반환하고, null이 없으면 null을 반환합니다. |
bit_xor(col) |
null이 아닌 모든 입력 값의 비트 XOR를 반환하고, null이 없으면 null을 반환합니다. |
bitmap_construct_agg(col) |
입력 열의 모든 값에서 설정된 비트의 위치가 있는 비트맵을 반환합니다. |
bitmap_or_agg(col) |
입력 열에서 모든 비트맵의 비트 연산 OR인 비트맵을 반환합니다. |
bool_and(col) |
col의 모든 값이 true이면 true를 반환합니다. |
bool_or(col) |
하나 이상의 col 값이 true이면 true를 반환합니다. |
collect_list(col) |
열의 값을 목록으로 수집하여 중복 항목을 유지 관리하고 이 개체 목록을 반환합니다. |
collect_set(col) |
열에서 집합으로 값을 수집하여 중복 항목을 제거하고 이 개체 집합을 반환합니다. |
corr(col1, col2) |
col1 및 col2의 Pearson 상관 관계 계수에 대한 새 열을 반환합니다. |
count(col) |
그룹의 항목 개수를 반환합니다. |
count_distinct(col, *cols) |
열 또는 열들의 고유 개수에 대한 새 컬럼을 반환합니다. |
count_if(col) |
col에 대한 TRUE 값의 수를 반환합니다. |
count_min_sketch(col, eps, confidence[, seed]) |
지정된 esp, 신뢰도, 시드를 사용하여 열의 count-min 스케치를 반환합니다. |
covar_pop(col1, col2) |
col1과 col2의 모집단 공분산에 대한 새 열을 반환합니다. |
covar_samp(col1, col2) |
col1 및 col2의 샘플 공변도에 대한 새 열을 반환합니다. |
every(col) |
col의 모든 값이 true이면 true를 반환합니다. |
first(col[, ignorenulls]) |
그룹의 첫 번째 값을 반환합니다. |
first_value(col[, ignoreNulls]) |
행 그룹에 대한 col의 첫 번째 값을 반환합니다. |
grouping(col) |
목록의 지정된 열이 집계되는지 여부를 나타내고, 집계된 열 GROUP BY 에 대해 1을 반환하고, 결과 집합에 집계되지 않은 경우 0을 반환합니다. |
grouping_id(*cols) |
그룹화 수준을 반환하며, ~와 같습니다. |
histogram_numeric(col, nBins) |
nb bin을 사용하여 숫자 'col'에서 히스토그램을 계산합니다. |
hll_sketch_agg(col[, lgConfigK]) |
lgConfigK arg로 구성된 Datasketches HllSketch의 업데이터블 이진 표현을 반환합니다. |
hll_union_agg(col[, allowDifferentLgConfigK]) |
이전에 만든 Datasketches HllSketch 인스턴스를 Datasketches Union 인스턴스를 통해 병합하여 생성된 Datasketches HllSketch의 업데이트 가능한 이진 표현을 반환합니다. |
kurtosis(col) |
그룹에 있는 값의 첨도를 반환합니다. |
last(col[, ignorenulls]) |
그룹의 마지막 값을 반환합니다. |
last_value(col[, ignoreNulls]) |
행 그룹에 대한 col의 마지막 값을 반환합니다. |
listagg(col[, delimiter]) |
구분 기호로 구분된 null이 아닌 입력 값의 연결을 반환합니다. |
listagg_distinct(col[, delimiter]) |
구분 기호로 구분된 null이 아닌 고유 입력 값의 연결을 반환합니다. |
max(col) |
그룹에서 식의 최대값을 반환합니다. |
max_by(col, ord) |
ord 매개 변수의 최대값과 연결된 col 매개 변수의 값을 반환합니다. |
mean(col) |
그룹의 값 평균을 반환합니다. |
median(col) |
그룹의 값 중앙값을 반환합니다. |
min(col) |
그룹에서 식의 최소값을 반환합니다. |
min_by(col, ord) |
ord 매개 변수의 최소값과 연결된 col 매개 변수의 값을 반환합니다. |
mode(col[, deterministic]) |
그룹에서 가장 빈번한 값을 반환합니다. |
percentile(col, percentage[, frequency]) |
값 범위가 [0.0, 1.0]인 지정된 백분율에서 숫자 열 expr의 정확한 백분위수 값을 반환합니다. |
percentile_approx(col, percentage[, accuracy]) |
열 값의 백분율보다 작거나 해당 값과 같지 않도록 정렬된 콜 값에서 가장 작은 값(최소에서 가장 큰 값으로 정렬됨)인 숫자 열 콜의 대략적인 백분위수를 반환합니다. |
product(col) |
그룹에 있는 값의 곱을 반환합니다. |
regr_avgx(y, x) |
그룹의 null이 아닌 쌍에 대한 독립 변수의 평균을 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
regr_avgy(y, x) |
그룹의 null이 아닌 쌍에 대한 종속 변수의 평균을 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
regr_count(y, x) |
그룹에서 null이 아닌 숫자 쌍의 수를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
regr_intercept(y, x) |
그룹의 null이 아닌 쌍에 대한 단변량 선형 회귀선의 절편을 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
regr_r2(y, x) |
그룹의 null이 아닌 쌍에 대한 결정 계수를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
regr_slope(y, x) |
그룹의 null이 아닌 쌍에 대한 선형 회귀선의 기울기를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
regr_sxx(y, x) |
그룹의 null이 아닌 쌍에 대해 REGR_COUNT(y, x) * VAR_POP(x)를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
regr_sxy(y, x) |
그룹의 null이 아닌 쌍에 대해 REGR_COUNT(y, x) * COVAR_POP(y, x)를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
regr_syy(y, x) |
그룹의 null이 아닌 쌍에 대해 REGR_COUNT(y, x) * VAR_POP(y)를 반환합니다. 여기서 y는 종속 변수이고 x는 독립 변수입니다. |
skewness(col) |
그룹에 있는 값의 기울이기를 반환합니다. |
some(col) |
하나 이상의 col 값이 true이면 true를 반환합니다. |
std(col) |
stddev_samp의 별칭입니다. |
stddev(col) |
stddev_samp의 별칭입니다. |
stddev_pop(col) |
그룹 내 표현식의 모집단 표준 편차를 반환합니다. |
stddev_samp(col) |
그룹의 식에 대한 편견 없는 샘플 표준 편차를 반환합니다. |
string_agg(col[, delimiter]) |
구분 기호로 구분된 null이 아닌 입력 값의 연결을 반환합니다. |
string_agg_distinct(col[, delimiter]) |
구분 기호로 구분된 null이 아닌 고유 입력 값의 연결을 반환합니다. |
sum(col) |
식에 있는 모든 값의 합계를 반환합니다. |
sum_distinct(col) |
식에서 고유 값의 합계를 반환합니다. |
try_avg(col) |
그룹의 값에서 계산된 평균을 반환하고 결과는 오버플로에서 null입니다. |
try_sum(col) |
그룹 값에서 계산된 합계를 반환하고 결과는 오버플로에서 null입니다. |
var_pop(col) |
그룹에 있는 값의 모집단 분산을 반환합니다. |
var_samp(col) |
그룹의 값에 대한 편견 없는 샘플 분산을 반환합니다. |
variance(col) |
var_samp의 별칭 |
창 함수
| 기능 | Description |
|---|---|
cume_dist() |
창 파티션 내의 값의 누적 분포(예: 현재 행 아래에 있는 행의 소수)를 반환합니다. |
dense_rank() |
간격 없이 창 파티션 내의 행 순위를 반환합니다. |
lag(col[, offset, default]) |
현재 행 앞에 오프셋 행인 값을 반환하고, 현재 행 앞에 오프셋 행보다 작은 경우 기본값을 반환합니다. |
lead(col[, offset, default]) |
현재 행 뒤의 오프셋 행 값을 반환하고 현재 행 다음에 오프셋 행보다 작은 경우 기본값을 반환합니다. |
nth_value(col, offset[, ignoreNulls]) |
창 프레임의 오프셋 행(1에서 계산)인 값을 반환하고, 창 프레임의 크기가 오프셋 행보다 작으면 null을 반환합니다. |
ntile(n) |
순서가 지정된 창 파티션에서 ntile 그룹 ID(1에서 n 포함)를 반환합니다. |
percent_rank() |
상대적인 순위 (즉, |
rank() |
창 파티션 내의 행 순위를 반환합니다. |
row_number() |
창 파티션 내에서 1부터 시작하는 순차 번호를 반환합니다. |
생성기 함수
| 기능 | Description |
|---|---|
explode(col) |
지정된 배열 또는 맵의 각 요소에 대한 새 행을 반환합니다. |
explode_outer(col) |
지정된 배열 또는 맵의 각 요소에 대한 새 행을 반환합니다. |
inline(col) |
구조체 배열을 테이블로 분해합니다. |
inline_outer(col) |
구조체 배열을 테이블로 분해합니다. |
posexplode(col) |
지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행을 반환합니다. |
posexplode_outer(col) |
지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행을 반환합니다. |
stack(*cols) |
col1, ..., colk를 n행으로 구분합니다. |
파티션 변환 함수
| 기능 | Description |
|---|---|
partitioning.years(col) |
타임스탬프 및 날짜를 연도로 분할하는 변환입니다. |
partitioning.months(col) |
타임스탬프 및 날짜를 월로 분할하는 변환입니다. |
partitioning.days(col) |
데이터를 일로 분할하는 타임스탬프 및 날짜 변환입니다. |
partitioning.hours(col) |
타임스탬프를 사용하여 데이터를 시간 단위로 분할하는 변환입니다. |
partitioning.bucket(numBuckets, col) |
입력 열의 해시로 분할하는 모든 형식에 대한 변환입니다. |
H3 지리 공간적 함수(Databricks)
| 기능 | Description |
|---|---|
h3_boundaryasgeojson(col) |
GeoJSON 형식으로 H3 셀의 경계를 반환합니다. |
h3_boundaryaswkb(col) |
WKB 형식으로 H3 셀의 경계를 반환합니다. |
h3_boundaryaswkt(col) |
H3 셀의 경계를 WKT 형식으로 반환합니다. |
h3_centerasgeojson(col) |
GeoJSON 형식으로 H3 셀의 가운데를 반환합니다. |
h3_centeraswkb(col) |
H3 셀의 중심을 WKB 형식으로 반환합니다. |
h3_centeraswkt(col) |
H3 셀의 중심을 WKT 형식으로 반환합니다. |
h3_compact(col) |
H3 셀 ID의 입력 집합을 최대한 압축합니다. |
h3_coverash3(col1,col2) |
지정된 해상도의 육각형 또는 펜타곤에 해당하며 입력된 선형 또는 면적 지리를 최소한으로 커버하는 각각의 셀 ID를 긴 정수로 표현하여 배열 형태로 반환합니다. |
h3_coverash3string(col1,col2) |
입력 선형 또는 면적 지리를 최소로 덮는 지정된 해상도의 육각형 또는 펜타곤에 해당하는 문자열로 표현된 셀 ID의 배열을 반환합니다. |
h3_distance(col1,col2) |
두 H3 셀 ID 사이의 그리드 거리를 반환합니다. |
h3_h3tostring(col) |
H3 셀 ID를 16진수 문자열로 셀 ID를 나타내는 문자열로 변환합니다. |
h3_hexring(col1,col2) |
원본 H3 셀을 중심으로 하고 원점 H3 셀에서 그리드 거리 k에 있는 중공 육각형 링을 형성하는 H3 셀 ID 배열을 반환합니다. |
h3_ischildof(col1,col2) |
첫 번째 H3 셀 ID가 두 번째 H3 셀 ID의 자식인지를 반환 True 합니다. |
h3_ispentagon(col) |
True 입력 H3 셀 ID가 펜타곤을 나타내는지 반환합니다. |
h3_isvalid(col) |
True 입력이 유효한 H3 셀 ID를 나타내는지 반환합니다. |
h3_kring(col1,col2) |
원본 셀 ID의 (그리드) 거리 k 내에 있는 H3 셀 ID를 반환합니다. |
h3_kringdistances(col1,col2) |
시작 H3 셀 ID에서 그리드 거리 k 내의 모든 H3 셀 ID(정수 또는 문자열로 표시됨)와 시작 H3 셀 ID로부터의 거리를 반환합니다. |
h3_longlatash3(col1,col2,col3) |
지정된 해상도에서 제공된 경도 및 위도에 해당하는 H3 셀 ID(BIGINT)를 반환합니다. |
h3_longlatash3string(col1,col2,col3) |
지정된 해상도에서 제공된 경도 및 위도에 해당하는 H3 셀 ID(문자열)를 반환합니다. |
h3_maxchild(col1,col2) |
지정된 해상도에서 입력 H3 셀의 최대값의 자식을 반환합니다. |
h3_minchild(col1,col2) |
지정된 해상도에서 입력된 H3 셀의 최소값을 가지는 자식 셀을 반환합니다. |
h3_pointash3(col1,col2) |
지정된 해상도에서 제공된 지점에 해당하는 H3 셀 ID(BIGINT)를 반환합니다. |
h3_pointash3string(col1,col2) |
지정된 해상도에서 제공된 지점에 해당하는 H3 셀 ID(문자열)를 반환합니다. |
h3_polyfillash3(col1,col2) |
입력 areal geography에 포함된 지정된 해상도의 육각형 또는 펜타곤에 해당하는 긴 정수로 표현되는 셀 ID의 배열을 반환합니다. |
h3_polyfillash3string(col1,col2) |
입력 areal geography에 포함된 지정된 해상도의 육각형 또는 펜타곤에 해당하는 문자열로 표현되는 셀 ID의 배열을 반환합니다. |
h3_resolution(col) |
H3 셀 ID의 해상도를 반환합니다. |
h3_stringtoh3(col) |
문자열 표현 H3 셀 ID를 큰 정수 표현으로 변환합니다. |
h3_tessellateaswkb(col1,col2) |
지정된 해상도에서 지리를 포함하는 칩을 나타내는 구조체 배열을 반환합니다. |
h3_tochildren(col1,col2) |
지정된 해상도에서 입력 H3 셀 ID의 자식 H3 셀 ID를 반환합니다. |
h3_toparent(col1,col2) |
지정된 해상도에서 입력 H3 셀 ID의 부모 H3 셀 ID를 반환합니다. |
h3_try_coverash3(col1,col2) |
지정된 해상도의 육각형 또는 펜타곤에 해당하며 입력된 선형 또는 면적 지리를 최소한으로 커버하는 각각의 셀 ID를 긴 정수로 표현하여 배열 형태로 반환합니다. |
h3_try_coverash3string(col1,col2) |
입력 선형 또는 면적 지리를 최소로 덮는 지정된 해상도의 육각형 또는 펜타곤에 해당하는 문자열로 표현된 셀 ID의 배열을 반환합니다. |
h3_try_distance(col1,col2) |
동일한 해상도의 두 H3 셀 ID 사이의 그리드 거리를 반환하거나 None , 정의되지 않은 경우의 거리를 반환합니다. |
h3_try_polyfillash3(col1,col2) |
입력 areal geography에 포함된 지정된 해상도의 육각형 또는 펜타곤에 해당하는 긴 정수로 표현되는 셀 ID의 배열을 반환합니다. |
h3_try_polyfillash3string(col1,col2) |
입력 areal geography에 포함된 지정된 해상도의 육각형 또는 펜타곤에 해당하는 문자열로 표현되는 셀 ID의 배열을 반환합니다. |
h3_try_tessellateaswkb(col1,col2) |
지정된 해상도에서 지리를 포함하는 칩을 나타내는 구조체 배열을 반환하거나 기하 도형이 잘못된 경우 null을 반환합니다. |
h3_try_validate(col) |
유효한 H3 셀이거나 None인 경우 입력 값을 반환합니다. |
h3_uncompact(col1,col2) |
H3 셀 ID의 입력 집합을 지정된 해상도로 컴파일 해제 |
h3_validate(col) |
유효한 H3 셀이거나 그렇지 않으면 오류를 내보내는 경우 입력 값을 반환합니다. |
ST 지리 공간적 함수(Databricks)
| 기능 | Description |
|---|---|
st_addpoint(col1,col2,col3) |
입력 줄 바꿈 지리 또는 기하 도형의 n번째 위치에 새 점을 추가합니다. |
st_area(col) |
입력 지리 또는 기하 도형의 영역을 반환합니다. |
st_asbinary(col1,col2) |
입력 지리 또는 기하 도형 값을 WKB 형식으로 반환합니다. |
st_asewkb(col1,col2) |
입력 기하 도형 값을 EWKB 형식으로 반환합니다. |
st_asewkt(col) |
입력 지리 또는 기하 도형 값을 EWKT 형식으로 반환합니다. |
st_asgeojson(col) |
GeoJSON 형식의 입력 지리 또는 기하 도형 값을 반환합니다. |
st_astext(col) |
입력 지리 또는 기하 도형 값을 WKT 형식으로 반환합니다. |
st_aswkb(col1,col2) |
입력 지리 또는 기하 도형 값을 WKB 형식으로 반환합니다. |
st_aswkt(col) |
입력 지리 또는 기하 도형 값을 WKT 형식으로 반환합니다. |
st_buffer(col1,col2) |
지정된 반지름을 사용하여 입력 기하 도형의 버퍼를 반환합니다. |
st_centroid(col) |
입력 기하 도형의 중심을 2D 점 기하 도형으로 반환합니다. |
st_concavehull(col1,col2,col3) |
지정된 길이 비율을 사용하여 입력 기하 도형의 오목한 헐을 기하 도형으로 반환합니다. |
st_contains(col1,col2) |
첫 번째 기하 도형에 두 번째 기하 도형이 포함되어 있는지를 반환 True 합니다. |
st_convexhull(col) |
입력 기하 도형의 컨벡스 헐을 기하 도형으로 반환합니다. |
st_covers(col1,col2) |
True 첫 번째 기하 도형이 두 번째 기하 도형을 포함하는지 반환합니다. |
st_difference(col1,col2) |
두 입력 기하 도형의 점 집합 차를 2D 기하 도형으로 반환합니다. |
st_dimension(col) |
입력 기하 도형의 2D 프로젝션의 토폴로지 차원을 반환합니다. |
st_disjoint(col1,col2) |
두 기하 도형이 서로 분리되어 있는지를 반환합니다 True. |
st_distance(col1,col2) |
두 입력 기하 도형 사이의 2D 카티시안 거리를 반환합니다. |
st_distancesphere(col1,col2) |
반지름이 WGS84 타원의 평균 반지름인 구에서 측정된 두 점 기하 도형 사이의 구 거리(미터)를 반환합니다. |
st_distancespheroid(col1,col2) |
WGS84 타원의 두 점 기하 도형 사이의 측지 거리(미터)를 반환합니다. |
st_dwithin(col1,col2,col3) |
두 입력 기하 도형 사이의 2D 카티시안 거리가 입력 거리보다 작거나 같은지 여부를 반환 True 합니다. |
st_endpoint(col) |
입력 줄 문자열의 마지막 지점을 반환하거나 None 존재하지 않는 경우 |
st_envelope(col) |
입력된 비어있지 않은 기하 도형의 2D 카테시안 축을 기준으로 정렬된 최소 경계 상자(엔벨롭)를 기하 도형으로 반환합니다. |
st_envelope_agg(col) |
열에 있는 모든 기하 도형의 외곽을 반환하거나, 열에 행이 0인 경우 또는 None 값만 포함된 경우 None을 반환합니다. |
st_equals(col1,col2) |
True 두 기하 도형이 기하학적으로 같은지 반환합니다. |
st_exteriorring(col) |
다각형을 나타내는 입력 지리 또는 기하 도형 값의 외부 링(셸)을 줄 바꿈으로 반환합니다. |
st_flipcoordinates(col) |
입력 기하 도형의 X 및 Y 좌표를 교환합니다. |
st_geogfromgeojson(col) |
GeoJSON 설명을 구문 분석하고 해당 Geography 값을 반환합니다. |
st_geogfromtext(col) |
WKT 설명을 구문 분석하고 해당 Geography 값을 반환합니다. |
st_geogfromwkb(col) |
입력 WKB 설명을 구문 분석하고 해당 Geography 값을 반환합니다. |
st_geogfromwkt(col) |
WKT 설명을 구문 분석하고 해당 Geography 값을 반환합니다. |
st_geohash(col1,col2) |
입력 기하 도형의 지오하쉬를 반환합니다. |
st_geometryn(col1,col2) |
입력 다중 기하 도형의 1부터 시작하는 n번째 요소를 반환하거나 None 존재하지 않는 경우 |
st_geometrytype(col) |
입력 Geography 또는 Geometry 값의 형식 을 문자열로 반환합니다. |
st_geomfromewkb(col) |
입력 EWKB 설명을 구문 분석하고 해당 Geometry 값을 반환합니다. |
st_geomfromgeohash(col) |
입력 지오하시 값에 해당하는 지오하시 그리드 상자를 2D 다각형 기하 도형으로 반환합니다. |
st_geomfromgeojson(col) |
GeoJSON 설명을 구문 분석하고 해당 기하 도형 값을 반환합니다. |
st_geomfromtext(col1,col2) |
WKT 설명을 구문 분석하고 해당 기하 도형 값을 반환합니다. |
st_geomfromwkb(col1,col2) |
입력 WKB 설명을 구문 분석하고 해당 Geometry 값을 반환합니다. |
st_geomfromwkt(col1,col2) |
WKT 설명을 구문 분석하고 해당 기하 도형 값을 반환합니다. |
st_intersection(col1,col2) |
두 입력 기하 도형의 점 집합 교집합을 2D 기하 도형으로 반환합니다. |
st_intersects(col1,col2) |
두 기하 도형이 교차하는 경우 반환 True |
st_isempty(col) |
입력 True 또는 기하 도형 값에 비어 있지 않은 점이 없는지 여부를 반환 합니다. |
st_isvalid(col) |
입력 기하 도형이 OGC 의미에서 유효한 기하 도형인지를 반환 True 합니다. |
st_length(col) |
입력 기하 도형 또는 지리 값의 길이를 반환합니다. |
st_m(col) |
입력 지점 기하 도형의 M 좌표를 반환하거나 None 입력 지점 기하 도형이 비어 있거나 M 좌표가 없는 경우 |
st_makeline(col) |
점, 줄 바꿈 또는 다중점이 될 것으로 예상되는 기하 도형의 입력 배열에 있는 기하 도형의 비어있지 않은 점인 점이 있는 줄 바꿈 기하 도형을 반환합니다. |
st_makepolygon(col1,col2) |
입력 외부 경계에서 다각형을 생성하고 내부 경계의 선택적 배열(닫힌 줄 바꿈으로 표시됨)을 생성합니다. |
st_multi(col) |
입력 지리 또는 기하 도형 값을 동일한 다중 지리 공간 값으로 반환하고 원래 SRID를 유지합니다. |
st_ndims(col) |
입력 지리 또는 기하 도형 값의 좌표 차원을 반환합니다. |
st_npoints(col) |
입력 지리 또는 기하 도형 값에서 비어있지 않은 점의 수를 반환합니다. |
st_numgeometries(col) |
입력 기하 도형의 기하 도형 수를 반환합니다. |
st_perimeter(col) |
입력 지리 또는 기하 도형의 경계를 반환합니다. |
st_point(col1,col2,col3) |
지정된 x 및 y 좌표와 SRID 값이 있는 2D 점 기하 도형 을 반환합니다. |
st_pointfromgeohash(col) |
입력 지오하시 값에 해당하는 지오하시 그리드 상자의 중심을 2D 점 기하 도형으로 반환합니다. |
st_pointn(col1,col2) |
입력 줄 바꿈의 1부터 시작하는 n번째 지점을 반환하거나 None 존재하지 않는 경우 |
st_removepoint(col1,col2) |
입력 라인스트링 지리 또는 기하 도형에서 n번째 점을 제거합니다. |
st_reverse(col) |
입력 지리 또는 기하 도형 값의 꼭짓점 순서를 반대로 바뀝니다. |
st_rotate(col1,col2) |
지정된 회전 각도(라디안)로 Z축을 중심으로 입력 기하 도형을 회전합니다. |
st_scale(col1,col2,col3,col4) |
지정된 요소를 사용하여 X, Y 및 Z(선택 사항) 방향에서 입력 기하 도형의 크기를 조정합니다. |
st_setpoint(col1,col2,col3) |
입력 라인스트링 지리 또는 기하 도형의 n번째 점을 설정합니다. |
st_setsrid(col1,col2) |
지정된 SRID 값을 갖는 새 Geometry 값을 반환합니다. |
st_simplify(col1,col2) |
Douglas-Peucker 알고리즘을 사용하여 입력 기하 도형 간소화 |
st_srid(col) |
입력 지리 공간적 값의 SRID를 반환합니다. |
st_startpoint(col) |
입력 줄 문자열의 첫 번째 지점을 반환하거나 None 존재하지 않는 경우 |
st_touches(col1,col2) |
두 기하학적 도형이 서로 닿는 경우 True를 반환합니다. |
st_transform(col1,col2) |
입력 기하 도형의 X 및 Y 좌표를 제공된 SRID 값으로 설명된 CRS(좌표 참조 시스템)로 변환합니다. |
st_translate(col1,col2,col3,col4) |
제공된 오프셋을 사용하여 X, Y 및 Z(선택 사항) 방향의 입력 기하 도형을 변환합니다. |
st_union(col1,col2) |
두 입력 기하 도형의 점 집합 결합을 2D 기하 도형으로 반환합니다. |
st_union_agg(col) |
열에 있는 모든 기하 도형의 포인트별 합집합을 반환합니다. 열에 행이 0이거나 오직 None 값을 포함하는 경우에는 None을 반환합니다. |
st_within(col1,col2) |
첫 번째 기하 도형이 두 번째 기하 도형 내에 있는지를 반환 True 합니다. |
st_x(col) |
입력 지점 기하 도형의 X 좌표를 반환하거나 None 입력 지점 기하 도형이 비어 있는 경우 |
st_xmax(col) |
입력 기하 도형의 최대 X 좌표를 반환하거나 None 입력 기하 도형이 비어 있는 경우 |
st_xmin(col) |
입력 기하 도형의 최소 X 좌표를 반환하거나 None 입력 기하 도형이 비어 있는 경우 |
st_y(col) |
입력 지점 기하 도형의 Y 좌표를 반환하거나 None 입력 지점 기하 도형이 비어 있는 경우 |
st_ymax(col) |
입력 기하 도형의 최대 Y 좌표를 반환하거나 None 입력 기하 도형이 비어 있는 경우 |
st_ymin(col) |
입력 기하 도형의 최소 Y 좌표를 반환하거나 None 입력 기하 도형이 비어 있는 경우 |
st_z(col) |
입력 지점 기하 도형의 Z 좌표를 반환하거나 None 입력 지점 기하 도형이 비어 있거나 Z 좌표가 없는 경우 |
st_zmax(col) |
입력 기하 도형의 최대 Z 좌표를 반환하거나 None 입력 기하 도형이 비어 있거나 Z 좌표를 포함하지 않는 경우 |
st_zmin(col) |
입력 기하 도형의 최소 Z 좌표를 반환하거나 None 입력 기하 도형이 비어 있거나 Z 좌표를 포함하지 않는 경우 |
to_geography(col) |
입력 BINARY 또는 문자열 값을 구문 분석하고 해당 Geography 값을 반환합니다. |
to_geometry(col) |
입력 BINARY 또는 문자열 값을 구문 분석하고 해당 Geometry 값을 반환합니다. |
try_to_geography(col) |
입력 BINARY 또는 문자열 값을 구문 분석하고 해당 Geography 값을 반환하거나 None 입력이 잘못된 경우 |
try_to_geometry(col) |
입력 BINARY 또는 문자열 값을 구문 분석하여 해당 Geometry 값을 반환하고, 입력이 잘못된 경우 None 값을 반환합니다. |
CSV 함수
| 기능 | Description |
|---|---|
from_csv(col, schema[, options]) |
CSV 문자열이 포함된 열을 지정된 스키마에 따라 행으로 변환합니다. |
schema_of_csv(csv[, options]) |
CSV 문자열을 구문 분석하고 해당 스키마를 DDL 형식으로 유추합니다. |
to_csv(col[, options]) |
StructType이 포함된 열을 CSV 문자열로 변환합니다. |
JSON 함수
| 기능 | Description |
|---|---|
from_json(col, schema[, options]) |
JSON 문자열이 포함된 열을 StringType을 키 유형으로 사용하여 지정한 스키마를 갖춘 MapType, StructType 또는 ArrayType으로 구문 분석합니다. |
get_json_object(col, path) |
지정된 json 경로에 따라 json 문자열에서 json 개체를 추출하고 추출된 json 개체의 json 문자열을 반환합니다. |
json_array_length(col) |
가장 바깥쪽 JSON 배열의 요소 수를 반환합니다. |
json_object_keys(col) |
가장 바깥쪽 JSON 개체의 모든 키를 배열로 반환합니다. |
json_tuple(col, *fields) |
지정된 필드 이름에 따라 json 열에 대한 새 행을 만듭니다. |
schema_of_json(json[, options]) |
JSON 문자열을 구문 분석하고 해당 스키마를 DDL 형식으로 유추합니다. |
to_json(col[, options]) |
StructType, ArrayType 또는 MapType이 포함된 열을 JSON 문자열로 변환합니다. |
Variant 함수
| 기능 | Description |
|---|---|
is_variant_null(v) |
변형 값이 variant null인지 확인합니다. |
parse_json(col) |
JSON 문자열이 포함된 열을 VariantType으로 구문 분석합니다. |
schema_of_variant(v) |
변형의 SQL 형식으로 스키마를 반환합니다. |
schema_of_variant_agg(v) |
변형 열의 SQL 형식으로 병합된 스키마를 반환합니다. |
try_variant_get(v, path, targetType) |
경로에 따라 v에서 하위 변형을 추출한 다음 하위 변형을 targetType으로 캐스팅합니다. |
variant_get(v, path, targetType) |
경로에 따라 v에서 하위 변형을 추출한 다음 하위 변형을 targetType으로 캐스팅합니다. |
try_parse_json(col) |
JSON 문자열이 포함된 열을 VariantType으로 구문 분석합니다. |
to_variant_object(col) |
중첩된 입력(배열/맵/구조체)이 포함된 열을 맵 및 구조체가 SQL 구조체와 달리 순서가 지정되지 않은 variant 개체로 변환되는 변형으로 변환합니다. |
XML 함수
| 기능 | Description |
|---|---|
from_xml(col, schema[, options]) |
XML 문자열이 포함된 열을 지정된 스키마에 따라 행으로 변환합니다. |
schema_of_xml(xml[, options]) |
XML 문자열을 구문 분석하고 해당 스키마를 DDL 형식으로 유추합니다. |
to_xml(col[, options]) |
StructType이 포함된 열을 XML 문자열로 변환합니다. |
xpath(xml, path) |
XPath 식과 일치하는 xml 노드 내에 있는 값의 문자열 배열을 반환합니다. |
xpath_boolean(xml, path) |
XPath 식이 true로 평가되거나 일치하는 노드가 발견되면 true를 반환합니다. |
xpath_double(xml, path) |
double 값을 반환하고, 일치하는 항목이 없으면 값 0을 반환하고, 일치 항목이 있지만 값이 숫자가 아닌 경우 NaN을 반환합니다. |
xpath_float(xml, path) |
부동 소수점 값을 반환하고, 일치하는 항목이 없으면 값 0을 반환하고, 일치 항목이 있지만 값이 숫자가 아닌 경우 NaN을 반환합니다. |
xpath_int(xml, path) |
정수 값을 반환하거나 일치하는 항목이 없거나 일치 항목이 있지만 값이 숫자가 아닌 경우 값 0을 반환합니다. |
xpath_long(xml, path) |
긴 정수 값을 반환하거나 일치하는 항목이 없거나 일치 항목이 있지만 값이 숫자가 아닌 경우 값 0을 반환합니다. |
xpath_number(xml, path) |
double 값을 반환하고, 일치하는 항목이 없으면 값 0을 반환하고, 일치 항목이 있지만 값이 숫자가 아닌 경우 NaN을 반환합니다. |
xpath_short(xml, path) |
짧은 정수 값을 반환하거나 일치하는 항목이 없거나 일치 항목이 있지만 값이 숫자가 아닌 경우 값 0을 반환합니다. |
xpath_string(xml, path) |
XPath 식과 일치하는 첫 번째 xml 노드의 텍스트 내용을 반환합니다. |
URL 함수
| 기능 | Description |
|---|---|
parse_url(url, partToExtract[, key]) |
URL에서 지정된 부분을 추출합니다. |
try_parse_url(url, partToExtract[, key]) |
parse_url 작업을 시도하지만, 구문 분석을 수행할 수 없는 경우 오류를 발생시키기보다는 NULL 값을 반환합니다. |
url_decode(str) |
URL로 인코딩된 문자열 application/x-www-form-urlencoded 을 원래 형식으로 디코딩합니다. |
url_encode(str) |
문자열을 'application/x-www-form-urlencoded' 형식으로 URL로 인코딩된 문자열로 인코딩합니다. |
try_url_decode(str) |
작업을 수행하려고 하지만 디코딩을 수행할 url_decode 수 없는 경우 오류를 발생시키는 대신 NULL 값을 반환합니다. |
기타 함수
| 기능 | Description |
|---|---|
aes_decrypt(input, key[, mode, padding, aad]) |
패딩이 있는 모드에서 AES를 사용하여 암호 해독된 입력 값을 반환합니다. |
aes_encrypt(input, key[, mode, padding, iv, aad]) |
지정된 안쪽 여백과 함께 지정된 모드에서 AES를 사용하여 암호화된 입력 값을 반환합니다. |
assert_true(col[, errMsg]) |
입력 열이 true이면 null을 반환합니다; 그렇지 않으면 제공된 오류 메시지와 함께 예외를 던집니다. |
bitmap_bit_position(col) |
지정된 입력 열의 비트 위치를 반환합니다. |
bitmap_bucket_number(col) |
지정된 입력 열의 버킷 번호를 반환합니다. |
bitmap_count(col) |
입력 비트맵의 집합 비트 수를 반환합니다. |
current_catalog() |
현재 카탈로그를 반환합니다. |
current_database() |
현재 데이터베이스를 반환합니다. |
current_schema() |
현재 스키마를 반환합니다. |
current_user() |
현재 사용자를 반환합니다. |
hll_sketch_estimate(col) |
Datasketches HllSketch의 이진 표현이 지정된 경우 예상 고유 값 수를 반환합니다. |
hll_union(col1, col2[, allowDifferentLgConfigK]) |
Datasketches Union 개체를 사용하여 Datasketches HllSketch 개체의 두 이진 표현을 병합합니다. |
input_file_block_length() |
읽는 블록의 길이를 반환하거나 사용할 수 없는 경우 -1. |
input_file_block_start() |
읽는 블록의 시작 오프셋을 반환하거나 사용할 수 없는 경우 -1. |
input_file_name() |
현재 Spark 작업의 파일 이름에 대한 문자열 열을 만듭니다. |
java_method(*cols) |
리플렉션을 사용하여 메서드를 호출합니다. |
monotonically_increasing_id() |
단조로 증가하는 64비트 정수를 생성하는 열입니다. |
raise_error(errMsg) |
제공된 오류 메시지와 함께 예외를 발생시킵니다. |
reflect(*cols) |
리플렉션을 사용하여 메서드를 호출합니다. |
session_user() |
현재 실행 컨텍스트의 사용자 이름을 반환합니다. |
spark_partition_id() |
파티션 ID에 대한 열입니다. |
try_aes_decrypt(input, key[, mode, padding, aad]) |
작업을 수행하려고 하지만 암호 해독을 aes_decrypt 수행할 수 없는 경우 오류를 발생시키는 대신 NULL 값을 반환합니다. |
try_reflect(*cols) |
호출 메서드가 예외를 throw할 경우 오류를 발생시키는 대신 NULL 값을 반환하도록 reflect 작업을 수행합니다. |
typeof(col) |
입력의 데이터 형식에 대한 DDL 형식 형식 문자열을 반환합니다. |
user() |
현재 사용자를 반환합니다. |
version() |
Spark 버전을 반환합니다. |
UDF, UDTF, UDT 함수
| 기능 | Description |
|---|---|
call_udf(udfName, *cols) |
사용자 정의 함수를 호출합니다. |
pandas_udf([f, returnType, functionType]) |
pandas 사용자 정의 함수(즉, )를 만듭니다. |
udf([f, returnType, useArrow]) |
UDF(사용자 정의 함수)를 만듭니다. |
udtf([cls, returnType, useArrow]) |
UDTF(사용자 정의 테이블 함수)를 만듭니다. |
unwrap_udt(col) |
UDT 데이터 형식 열을 기본 형식으로 변환합니다. |
테이블 반환 함수
| 기능 | Description |
|---|---|
TableValuedFunction.collations() |
모든 Spark SQL 문자열 데이터 정렬을 가져옵니다. |
TableValuedFunction.explode(collection) |
지정된 배열 또는 맵의 각 요소에 대한 새 행이 포함된 DataFrame을 반환합니다. |
TableValuedFunction.explode_outer(collection) |
지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행이 포함된 DataFrame을 반환합니다. |
TableValuedFunction.inline(input) |
구조체 배열을 테이블로 분해합니다. |
TableValuedFunction.inline_outer(input) |
구조체 배열을 테이블로 분해합니다. |
TableValuedFunction.json_tuple(input, *fields) |
지정된 필드 이름에 따라 json 열에 대한 새 행을 만듭니다. |
TableValuedFunction.posexplode(collection) |
지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행이 포함된 DataFrame을 반환합니다. |
TableValuedFunction.posexplode_outer(collection) |
지정된 배열 또는 맵에 위치가 있는 각 요소에 대한 새 행이 포함된 DataFrame을 반환합니다. |
TableValuedFunction.range(start[, end, ...]) |
단계 값을 가진 start부터 end까지(끝 값은 배타적) 범위의 요소를 포함하는 id라는 단일 pyspark.sql.types.LongType 열로 DataFrame을 만듭니다. |
TableValuedFunction.sql_keywords() |
Spark SQL 키워드를 가져옵니다. |
TableValuedFunction.stack(n, *fields) |
col1, ..., colk를 n행으로 구분합니다. |
TableValuedFunction.variant_explode(input) |
variant 개체/배열을 해당 필드/요소가 포함된 여러 행으로 구분합니다. |
TableValuedFunction.variant_explode_outer(input) |
variant 개체/배열을 해당 필드/요소가 포함된 여러 행으로 구분합니다. |