함수
적용 대상: Databricks 런타임
Spark SQL은 기본 제공 함수와 UDF(사용자 정의 함수)라는 두 가지 기능 기능을 제공하여 다양한 요구 사항을 충족합니다.
함수 확인 및 함수 호출에 대한 자세한 내용은 다음을 참조하세요. 함수 호출.
기본 제공 함수
이 문서에서는 집계, 배열 및 맵, 날짜 및 타임스탬프, JSON 데이터에 자주 사용되는 기본 제공 함수 범주의 사용법과 설명을 제공합니다.
SQL 및 Python 사용자 정의 함수
SQL 및 Python UDF(사용자 정의 함수)는 스칼라 값 또는 결과 집합을 반환할 수 있는 자신을 정의할 수 있는 함수입니다.
자세한 내용은 CREATE FUNCTION(SQL, Python)을 참조하세요.
외부 사용자 정의 함수
UDF를 사용하면 시스템의 기본 제공 함수가 원하는 태스크를 수행하기에 충분하지 않을 때 고유한 함수를 정의할 수 있습니다. UDF를 사용하려면 먼저 함수를 정의한 다음 Spark에 함수를 등록하고 마지막으로 등록된 함수를 호출합니다. UDF는 단일 행에서 작동하거나 한 번에 여러 행에서 작동할 수 있습니다. Spark SQL은 UDF의 기존 Hive 구현, UDAF(사용자 정의 집계 함수) 및 UDTF(사용자 정의 테이블 함수)의 통합도 지원합니다.