시각화 형식

아티클
03/01/2024

이 문서에서는 Azure Databricks Notebook 및 Databricks SQL에서 사용할 수 있는 시각화 유형을 간략하게 설명하고 각 시각화 형식의 예제를 만드는 방법을 보여 줍니다.

가로 막대형 차트

가로 막대형 차트는 시간에 따른 메트릭의 변화를 나타내거나 원형 차트와 유사하게 비례성을 표시합니다.

참고 항목

가로 막대형 차트는 백 엔드 집계를 지원하며 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Bar chart example

구성 값: 이 가로 막대형 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열:
- 데이터 세트 열: o_orderdate
- 날짜 수준: Months
Y 열:
- 데이터 세트 열: o_totalprice
- 집계 유형: Sum
그룹화 기준(데이터 세트 열): o_orderpriority
스태킹: Stack
X 축 이름(기본값 재정의): Order month
Y축 이름(기본값 재정의): Total price

구성 옵션: 가로 막대형 차트 구성 옵션은 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 가로 막대형 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.orders

꺾은선형 차트

꺾은선형 차트는 시간이 지남에 따라 하나 이상의 메트릭에서 변경 내용을 표시합니다.

참고 항목

꺾은선형 차트는 백 엔드 집계를 지원하며 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Line chart example

구성 값: 이 꺾은선형 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열:
- 데이터 세트 열: o_orderdate
- 날짜 수준: Years
Y 열:
- 데이터 세트 열: o_totalprice
- 집계 유형: Average
그룹화 기준(데이터 세트 열): o_orderpriority
X 축 이름(기본값 재정의): Order year
Y축 이름(기본값 재정의): Average price

구성 옵션: 꺾은선형 차트 구성 옵션은 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 꺾은선형 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.orders

영역형 차트

영역형 차트는 꺾은선형 차트와 가로 막대형 차트를 결합하여 두 번째 변수의 진행에 대해 하나 이상의 그룹의 숫자 값이 변경되는 방식을 보여 하며, 일반적으로 해당 시간입니다. 구매 과정의 시간별 변화를 표시하는 데 자주 사용됩니다.

참고 항목

영역형 차트는 백 엔드 집계를 지원하며 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Area chart example

구성 값: 이 영역형 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열:
- 데이터 세트 열: o_orderdate
- 날짜 수준: Years
Y 열:
- 데이터 세트 열: o_totalprice
- 집계 유형: Sum
그룹화 기준(데이터 세트 열): o_orderpriority
스태킹: Stack
X 축 이름(기본값 재정의): Order year
Y축 이름(기본값 재정의): Total price

구성 옵션: 영역형 차트 구성 옵션은 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 영역 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.orders

원형 차트

원형 차트는 메트릭 간의 비례성을 표시합니다. 시계열 데이터를 전달하기 위한 것이 아닙니다.

참고 항목

원형 차트는 백 엔드 집계를 지원하여 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Pie chart example

구성 값: 이 원형 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열(데이터 세트 열): o_orderpriority
Y 열:
- 데이터 세트 열: o_totalprice
- 집계 유형: Sum
레이블(기본값 재정의): Total price

구성 옵션: 원형 차트 구성 옵션은 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 원형 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.orders

히스토그램 차트

히스토그램은 지정된 값이 데이터 세트에서 발생하는 빈도를 그립니다. 히스토그램을 사용하면 데이터 세트에 적은 범위 주위에 값이 클러스터되어 있는지, 아니면 더 많이 분산되어 있는지 파악할 수 있습니다. 히스토그램은 고유한 막대(bin이라고도 함)의 수를 제어하는 가로 막대형 차트로 표시됩니다.

참고 항목

히스토그램 차트는 백 엔드 집계를 지원하여 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Histogram chart example

구성 값: 이 히스토그램 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열(데이터 세트 열): o_totalprice
bin 수: 20
X 축 이름(기본값 재정의): Total price

구성 옵션: 히스토그램 차트 구성 옵션은 히스토그램 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 히스토그램 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.orders

열 지도 차트

열 지도 차트는 가로 막대형 차트, 누적형 차트 및 거품형 차트의 기능을 혼합하여 색을 사용하여 숫자 데이터를 시각화할 수 있습니다. 열 지도의 일반 색상표에서는 주황색 또는 빨간색과 같은 따뜻한 색을 사용하여 가장 높은 값을 표시하고 파란색 또는 자주색과 같은 차가운 색을 사용하는 가장 낮은 값을 표시합니다.

예를 들어 다음 열 지도에서는 매일 가장 자주 발생하는 택시 승차 거리를 시각화하고 요일, 거리, 총 요금별로 결과를 그룹화합니다.

참고 항목

히트맵 차트는 백 엔드 집계를 지원하여 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Heatmap example

구성 값: 이 열 지도 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열(데이터 세트 열): o_orderpriority
Y 열(데이터 세트 열): o_orderstatus
색 열:
- 데이터 세트 열: o_totalprice
- 집계 유형: Average
X 축 이름(기본값 재정의): Order priority
Y축 이름(기본값 재정의): Order status
색 구성표(기본값 재정의): YIGnBu

구성 옵션: 열 지도 구성 옵션은 열 지도 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 열 지도 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.orders

분산형 차트

분산 시각화는 일반적으로 두 숫자 변수 간의 관계를 표시하는 데 사용됩니다. 또한 세 번째 차원을 색으로 인코딩하여 그룹 간에 숫자 변수가 어떻게 다른지 보여 줄 수 있습니다.

참고 항목

분산형 차트는 백 엔드 집계를 지원하여 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Scatter example

구성 값: 이 분산형 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열(데이터 세트 열): l_quantity
Y 열(데이터 세트 열): l_extendedprice
그룹화 기준(데이터 세트 열): l_returnflag
X 축 이름(기본값 재정의): Quantity
Y축 이름(기본값 재정의): Extended price

구성 옵션: 분산형 차트 구성 옵션은 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 분산형 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.lineitem

거품형 차트

거품형 차트는 각 점 표식의 크기가 관련 메트릭을 반영하는 분산형 차트입니다.

참고 항목

거품형 차트는 백 엔드 집계를 지원하여 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Bubble example

구성 값: 이 거품형 차트 시각화의 경우 다음 값이 설정되었습니다.

X(데이터 세트 열): l_quantity
Y 열(데이터 세트 열): l_extendedprice
그룹화 기준(데이터 세트 열): l-returnflag
거품형 크기 열(데이터 세트 열): l_tax
거품 크기 계수: 20
X 축 이름(기본값 재정의): Quantity
Y축 이름(기본값 재정의): Extended price

구성 옵션: 거품형 차트 구성 옵션은 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 거품형 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.lineitem

상자 차트

상자 차트 시각화는 선택적으로 범주별로 그룹화된 숫자 데이터의 분포 요약을 보여줍니다. 상자 차트 시각화를 사용하면 범주 간 값 범위를 빠르게 비교하고 해당 사분위수로 값의 지역성, 분산 및 기울이기 그룹을 시각화할 수 있습니다. 각 상자에서 어두운 선은 사분위수 범위를 표시합니다. 상자 그림 시각화 해석에 대한 자세한 내용은 Wikipedia의 Box 차트 문서를 참조하세요.

참고 항목

상자 차트는 최대 64,000개의 행에 대한 집계만 지원합니다. 데이터 세트가 64,000개 행보다 크면 데이터가 잘립니다.

Box chart example

구성 값: 이 상자 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열(데이터 세트 열): l-returnflag
Y 열(데이터 세트 열): l_extendedprice
그룹화 기준(데이터 세트 열): l_shipmode
X 축 이름(기본값 재정의): Return flag1
Y축 이름(기본값 재정의): Extended price

구성 옵션: 상자 차트 구성 옵션의 경우 상자 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 상자 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.lineitem

콤보 차트

콤보 차트는 선 차트와 가로 막대형 차트를 결합하여 시간에 따른 변경 내용을 비례적으로 표시합니다.

참고 항목

콤보 차트는 백 엔드 집계를 지원하여 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다.

Combo example

구성 값: 이 콤보 차트 시각화의 경우 다음 값이 설정되었습니다.

X 열(데이터 세트 열): l_shipdate
Y 열:
- 첫 번째 데이터 세트 열: l_extendedprice
- 집계 유형: 평균
- 두 번째 데이터 세트 열: l_quantity
- 집계 유형: 평균
X 축 이름(기본값 재정의): Ship date
왼쪽 Y축 이름(기본값 재정의): Quantity
오른쪽 Y축 이름(기본값 재정의): Average price
시리즈:
- Order1(데이터 세트 열): AVG(l_extendedprice)
- Y축: 오른쪽
- 형식: 선
- Order2(데이터 세트 열): AVG(l_quantity)
- Y축: 왼쪽
- 형식: 막대

구성 옵션: 콤보 차트 구성 옵션은 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 콤보 차트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.lineitem

코호트 분석

코호트 분석은 일련의 단계를 진행하면서 코호트라고 하는 미리 결정된 그룹의 결과를 검사합니다. 코호트 시각화는 날짜에 대해서만 집계됩니다(월별 집계를 허용). 결과 집합 내의 다른 데이터 집계는 수행하지 않습니다. 다른 모든 집계는 쿼리 자체 내에서 수행됩니다.

Cohort example

구성 값: 이 코호트 시각화의 경우 다음 값이 설정되었습니다.

날짜(버킷)(데이터베이스 열): cohort_month
스테이지(데이터베이스 열): months
버킷 채우기 크기(데이터베이스 열): size
스테이지 값(데이터베이스 열): active
시간 간격: monthly

구성 옵션: 코호트 구성 옵션은 코호트 차트 구성 옵션을 참조 하세요.

SQL 쿼리: 이 코호트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

-- match each customer with its cohort by month
with cohort_dates as (
  SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
  FROM samples.tpch.orders
  GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
  SELECT cohort_month, count(distinct o_custkey) as size
  FROM cohort_dates
  GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
  cohort_dates.cohort_month,
  ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
  count(distinct samples.tpch.orders.o_custkey) as active,
  first(size) as size
FROM samples.tpch.orders
  left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
  left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2

카운터 표시

카운터는 단일 값을 눈에 띄게 표시하고 대상 값과 비교하는 옵션을 제공합니다. 카운터를 사용하려면 값 열 및 대상 열의 카운터 시각화에 표시할 데이터 행을 지정합니다.

참고 항목

카운터는 최대 64,000개의 행에 대한 집계만 지원합니다. 데이터 세트가 64,000개 행보다 크면 데이터가 잘립니다.

Counter example

구성 값: 이 카운터 시각화의 경우 다음 값이 설정되었습니다.

값 열
- 데이터 세트 열: avg(o_totalprice)
- 행: 1
대상 열:
- 데이터 세트 열: avg(o_totalprice)
- 행: 2
형식 대상 값: 사용

SQL 쿼리: 이 카운터 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC

깔때기형 시각화

깔때기형 시각화는 다양한 단계에서 메트릭의 변경 사항을 분석하는 데 도움이 됩니다. 깔때기를 사용하려면 열과 value 열을 step 지정합니다.

참고 항목

깔때기는 최대 64,000개의 행에 대한 집계만 지원합니다. 데이터 세트가 64,000개 행보다 크면 데이터가 잘립니다.

Funnel example

구성 값: 이 깔때기 시각화의 경우 다음 값이 설정되었습니다.

단계 열(데이터 세트 열): o_orderstatus
값 열(데이터 세트 열): Revenue

SQL 쿼리: 이 깔때기형 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1

Choropleth 지도 시각화

초로프 시각화에서 국가 또는 주와 같은 지리적 지역은 각 키 열의 집계 값에 따라 색이 지정됩니다. 쿼리는 지리적 위치를 이름으로 반환해야 합니다.

참고 항목

Choropleth 시각화는 결과 집합 내의 데이터를 집계하지 않습니다. 모든 집계는 쿼리 자체 내에서 계산되어야 합니다.

Map choropleth example

구성 값: 이 초로프 시각화의 경우 다음 값이 설정되었습니다.

맵(데이터 세트 열): Countries
지리적 열(데이터 세트 열): Nation
지리적 유형: 짧은 이름
값 열(데이터 세트 열): revenue
클러스터링 모드: 등가

구성 옵션: choropleth 구성 옵션의 경우 choropleth 구성 옵션을 참조 하세요.

SQL 쿼리: 이 초로플스 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1

표식 지도 시각화

표식 시각화에서 표식은 지도의 좌표 집합에 배치됩니다. 쿼리 결과는 위도 및 경도 쌍을 반환해야 합니다.

참고 항목

표식은 결과 집합 내의 데이터를 집계하지 않습니다. 모든 집계는 쿼리 자체 내에서 계산되어야 합니다.

Map marker example

이 표식 예제는 Databricks 샘플 데이터 세트에서 사용할 수 없는 위도 및 경도 값을 모두 포함하는 데이터 세트에서 생성됩니다. 초로프 구성 옵션은 표식 구성 옵션을 참조 하세요.

피벗 테이블 시각화

피벗 테이블 시각화는 쿼리 결과의 레코드를 새 테이블 형식 디스플레이로 집계합니다. SQL의 PIVOT 또는 GROUP BY 문과 유사합니다. 끌어서 놓기 필드를 사용하여 피벗 테이블 시각화를 구성합니다.

참고 항목

피벗 테이블은 백 엔드 집계를 지원하여 결과 집합을 잘림하지 않고 64K가 넘는 데이터 행을 반환하는 쿼리를 지원합니다. 그러나 피벗 테이블(레거시)은 최대 64,000개의 행에 대한 집계만 지원합니다. 데이터 세트가 64,000개 행보다 크면 데이터가 잘립니다.

피벗 테이블 예제

구성 값: 이 피벗 테이블 시각화의 경우 다음 값이 설정되었습니다.

행 선택(데이터 세트 열): l_retkurnflag
열 선택(데이터 세트 열): l_shipmode
셀
- 데이터 세트 열: l_quantity
- 집계 유형: 합계

SQL 쿼리: 이 피벗 테이블 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.lineitem

Sankey

sankey 다이어그램은 값 집합에서 다른 값 집합으로의 흐름을 시각화합니다.

참고 항목

Sankey 시각화는 결과 집합 내의 데이터를 집계하지 않습니다. 모든 집계는 쿼리 자체 내에서 계산되어야 합니다.

Sankey example

SQL 쿼리: 이 Sankey 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

선버스트 시퀀스

선버스트 다이어그램은 동심원을 사용하여 계층적 데이터를 시각화하는 데 도움이 됩니다.

참고 항목

선버스트 시퀀스는 결과 집합 내의 데이터를 집계하지 않습니다. 모든 집계는 쿼리 자체 내에서 계산되어야 합니다.

Sunburst example

SQL 쿼리: 이 선버스트 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10

테이블

테이블 시각화는 데이터를 표준 테이블에 표시하지만 데이터를 수동으로 다시 정렬, 숨기기 및 서식을 지정할 수 있습니다. 테이블 옵션을 참조하세요.

참고 항목

테이블 시각화는 결과 집합 내의 데이터를 집계하지 않습니다. 모든 집계는 쿼리 자체 내에서 계산되어야 합니다.

테이블 구성 옵션은 테이블 구성 옵션을 참조 하세요.

Word Cloud(워드 클라우드)

단어 클라우드는 데이터에서 단어가 발생하는 빈도를 시각적으로 나타냅니다.

참고 항목

Word Cloud는 최대 64,000개의 행에 대한 집계만 지원합니다. 데이터 세트가 64,000개 행보다 크면 데이터가 잘립니다.

Word cloud example

구성 값: 클라우드 시각화라는 단어의 경우 다음 값이 설정되었습니다. 테스트

단어 열(데이터 세트 열): o_comment
단어 길이 제한: 5
빈도 제한: 2

SQL 쿼리: 이 단어 클라우드 시각화의 경우 다음 SQL 쿼리를 사용하여 데이터 집합을 생성했습니다.

select * from samples.tpch.orders

다음을 통해 공유

시각화 형식

가로 막대형 차트

꺾은선형 차트

영역형 차트

원형 차트

히스토그램 차트

열 지도 차트

분산형 차트

거품형 차트

상자 차트

콤보 차트

코호트 분석

카운터 표시

깔때기형 시각화

Choropleth 지도 시각화

표식 지도 시각화

피벗 테이블 시각화

Sankey

선버스트 시퀀스

테이블

Word Cloud(워드 클라우드)

추가 리소스