Tipe visualisasi
Artikel ini menguraikan jenis visualisasi yang tersedia untuk digunakan di buku catatan Azure Databricks dan di Databricks SQL, dan memperlihatkan kepada Anda cara membuat contoh setiap jenis visualisasi.
Bagan batang
Bagan batang mewakili perubahan metrik dari waktu ke waktu atau untuk memperlihatkan proporsionalitas, mirip dengan bagan pai .
Catatan
Bagan batang mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan batang ini, nilai berikut diatur:
- Kolom X:
- Kolom himpunan data:
o_orderdate
- Tingkat tanggal:
Months
- Kolom himpunan data:
- Kolom Y:
- Kolom himpunan data:
o_totalprice
- Jenis agregasi:
Sum
- Kolom himpunan data:
- Kelompokkan menurut (kolom himpunan data):
o_orderpriority
- Susun:
Stack
- Nama sumbu X (ambil alih nilai default):
Order month
- Nama sumbu Y (ambil alih nilai default):
Total price
Opsi konfigurasi: Untuk opsi konfigurasi bagan batang, lihat opsi konfigurasi bagan.
Kueri SQL: Untuk visualisasi bagan batang ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.orders
Bagan garis
Bagan garis menyajikan perubahan dalam satu atau beberapa metrik dari waktu ke waktu.
Catatan
Bagan garis mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan garis ini, nilai berikut diatur:
- Kolom X:
- Kolom himpunan data:
o_orderdate
- Tingkat tanggal:
Years
- Kolom himpunan data:
- Kolom Y:
- Kolom himpunan data:
o_totalprice
- Jenis agregasi:
Average
- Kolom himpunan data:
- Kelompokkan menurut (kolom himpunan data):
o_orderpriority
- Nama sumbu X (ambil alih nilai default):
Order year
- Nama sumbu Y (ambil alih nilai default):
Average price
Opsi konfigurasi: Untuk opsi konfigurasi bagan garis, lihat opsi konfigurasi bagan.
Kueri SQL: Untuk visualisasi bagan garis ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.orders
Bagan area
Bagan area menggabungkan bagan garis dan batang untuk memperlihatkan bagaimana nilai numerik satu atau beberapa grup berubah selama perkembangan variabel kedua, biasanya pada waktu tersebut. Mereka sering digunakan untuk menunjukkan perubahan corong penjualan dari waktu ke waktu.
Catatan
Bagan area mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan area ini, nilai berikut diatur:
- Kolom X:
- Kolom himpunan data:
o_orderdate
- Tingkat tanggal:
Years
- Kolom himpunan data:
- Kolom Y:
- Kolom himpunan data:
o_totalprice
- Jenis agregasi:
Sum
- Kolom himpunan data:
- Kelompokkan menurut (kolom himpunan data):
o_orderpriority
- Susun:
Stack
- Nama sumbu X (ambil alih nilai default):
Order year
- Nama sumbu Y (ambil alih nilai default):
Total price
Opsi konfigurasi: Untuk opsi konfigurasi bagan area, lihat opsi konfigurasi bagan.
Kueri SQL: Untuk visualisasi bagan area ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.orders
Bagan pai
Bagan pai memperlihatkan proporsionalitas antar metrik. Mereka tidak dimaksudkan untuk menyampaikan data deret waktu.
Catatan
Bagan pai mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan pai ini, nilai berikut diatur:
- Kolom X (kolom himpunan data):
o_orderpriority
- Kolom Y:
- Kolom himpunan data:
o_totalprice
- Jenis agregasi:
Sum
- Kolom himpunan data:
- Label (ambil alih nilai default):
Total price
Opsi konfigurasi: Untuk opsi konfigurasi bagan pai, lihat opsi konfigurasi bagan.
Kueri SQL: Untuk visualisasi bagan pai ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.orders
Bagan histogram
Histogram memplot frekuensi terjadinya nilai tertentu dalam himpunan data. Histogram membantu Anda memahami apakah himpunan data memiliki nilai yang diklusterkan di sekitar sejumlah kecil rentang atau lebih tersebar. Histogram ditampilkan sebagai bagan batang tempat Anda mengontrol jumlah batang yang berbeda (juga disebut bin).
Catatan
Bagan histogram mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan histogram ini, nilai berikut diatur:
- Kolom X (kolom himpunan data):
o_totalprice
- Jumlah bin: 20
- Nama sumbu X (ambil alih nilai default):
Total price
Opsi konfigurasi: Untuk opsi konfigurasi bagan histogram, lihat opsi konfigurasi bagan histogram.
Kueri SQL: Untuk visualisasi bagan histogram ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.orders
Bagan peta panas
Bagan peta panas memadukan fitur bagan batang, tumpukan, dan bagan gelembung yang memungkinkan Anda memvisualisasikan data numerik menggunakan warna. Palet warna umum untuk peta panas menunjukkan nilai tertinggi menggunakan warna yang lebih hangat, seperti oranye atau merah, dan nilai terendah menggunakan warna yang lebih dingin, seperti biru atau ungu.
Misalnya, pertimbangkan peta panas berikut yang memvisualisasikan jarak naik taksi yang paling sering terjadi pada setiap hari dan mengelompokkan hasilnya berdasarkan hari dalam seminggu, jarak, dan total tarif.
Catatan
Bagan peta panas mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan peta panas ini, nilai berikut diatur:
- Kolom X (kolom himpunan data):
o_orderpriority
- Kolom Y (kolom himpunan data):
o_orderstatus
- Kolom warna:
- Kolom himpunan data:
o_totalprice
- Jenis agregasi:
Average
- Kolom himpunan data:
- Nama sumbu X (ambil alih nilai default):
Order priority
- Nama sumbu Y(mengambil alih nilai default):
Order status
- Skema warna (ambil alih nilai default):
YIGnBu
Opsi konfigurasi: Untuk opsi konfigurasi peta panas, lihat opsi konfigurasi bagan peta panas.
Kueri SQL: Untuk visualisasi bagan peta panas ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.orders
Bagan sebar
Visualisasi sebar umumnya digunakan untuk menunjukkan hubungan antara dua variabel numerik. Selain itu, dimensi ketiga dapat dikodekan dengan warna untuk menunjukkan bagaimana variabel numerik berbeda di seluruh grup.
Catatan
Bagan sebar mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan sebar ini, nilai berikut diatur:
- Kolom X (kolom himpunan data):
l_quantity
- Kolom Y (kolom himpunan data):
l_extendedprice
- Kelompokkan menurut (kolom himpunan data):
l_returnflag
- Nama sumbu X (ambil alih nilai default):
Quantity
- Nama sumbu Y (ambil alih nilai default):
Extended price
Opsi konfigurasi: Untuk opsi konfigurasi bagan sebar, lihat opsi konfigurasi bagan.
Kueri SQL: Untuk visualisasi bagan sebar ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.lineitem
Bagan gelembung
Bagan gelembung adalah bagan sebar di mana ukuran setiap penanda titik mencerminkan metrik yang relevan.
Catatan
Bagan gelembung mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan gelembung ini, nilai berikut diatur:
- X (kolom himpunan data):
l_quantity
- Kolom Y (kolom himpunan data):
l_extendedprice
- Kelompokkan menurut (kolom himpunan data):
l-returnflag
- Kolom ukuran gelembung (kolom himpunan data):
l_tax
- Koefisien ukuran gelembung: 20
- Nama sumbu X (ambil alih nilai default):
Quantity
- Nama sumbu Y (ambil alih nilai default):
Extended price
Opsi konfigurasi: Untuk opsi konfigurasi bagan gelembung, lihat opsi konfigurasi bagan.
Kueri SQL: Untuk visualisasi bagan gelembung ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.lineitem
Bagan kotak
Visualisasi bagan kotak memperlihatkan ringkasan distribusi data numerik, secara opsional dikelompokkan menurut kategori. Dengan menggunakan visualisasi bagan kotak, Anda dapat dengan cepat membandingkan rentang nilai di seluruh kategori dan memvisualisasikan grup lokalitas, sebaran, dan ke condong nilai melalui kuartilnya. Di setiap kotak, garis yang lebih gelap memperlihatkan rentang interquartile. Untuk informasi selengkapnya tentang menafsirkan visualisasi plot kotak, lihat artikel Bagan kotak di Wikipedia.
Catatan
Bagan kotak hanya mendukung agregasi hingga 64.000 baris. Jika himpunan data lebih besar dari 64.000 baris, data akan dipotong.
Nilai konfigurasi: Untuk visualisasi bagan kotak ini, nilai berikut diatur:
- Kolom X (kolom himpunan data):
l-returnflag
- Kolom Y (kolom himpunan data):
l_extendedprice
- Kelompokkan menurut (kolom himpunan data):
l_shipmode
- Nama sumbu X (ambil alih nilai default):
Return flag1
- Nama sumbu Y (ambil alih nilai default):
Extended price
Opsi konfigurasi: Untuk opsi konfigurasi bagan kotak, lihat opsi konfigurasi bagan kotak.
Kueri SQL: Untuk visualisasi bagan kotak ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.lineitem
Bagan kombo
Bagan kombo menggabungkan bagan garis dan batang untuk menyajikan perubahan dari waktu ke waktu dengan proporsionalitas.
Catatan
Bagan kombo mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil.
Nilai konfigurasi: Untuk visualisasi bagan kombo ini, nilai berikut diatur:
- Kolom X (kolom himpunan data):
l_shipdate
- Kolom Y:
- Kolom himpunan data pertama:
l_extendedprice
- Jenis agregasi: rata-rata
- Kolom himpunan data kedua:
l_quantity
- Jenis agregasi: rata-rata
- Kolom himpunan data pertama:
- Nama sumbu X (ambil alih nilai default):
Ship date
- Nama sumbu Y kiri (ambil alih nilai default):
Quantity
- Nama sumbu Y kanan (ambil alih nilai default):
Average price
- Seri:
- Order1 (kolom himpunan data):
AVG(l_extendedprice)
- Sumbu Y: kanan
- Jenis: Garis
- Order2 (kolom himpunan data):
AVG(l_quantity)
- Sumbu Y: kiri
- Jenis: Bilah
- Order1 (kolom himpunan data):
Opsi konfigurasi: Untuk opsi konfigurasi bagan kombo, lihat opsi konfigurasi bagan.
Kueri SQL: Untuk visualisasi bagan kombo ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.lineitem
Analisis kohor
Analisis kohort meneliti hasil dari grup yang telah ditentukan, yang disebut kohort, saat mereka maju melalui serangkaian tahapan. Visualisasi kohor hanya mengagregasi selama tanggal (memungkinkan agregasi bulanan). Ini tidak melakukan agregasi data lain dalam kumpulan hasil. Semua agregasi lainnya dilakukan dalam kueri itu sendiri.
Nilai konfigurasi: Untuk visualisasi kohor ini, nilai berikut diatur:
- Tanggal (wadah) (kolom database):
cohort_month
- Tahap (kolom database):
months
- Ukuran populasi wadah (kolom database):
size
- Nilai tahap (kolom database):
active
- Interval waktu:
monthly
Opsi konfigurasi: Untuk opsi konfigurasi kohor, lihat opsi konfigurasi bagan kohor.
Kueri SQL: Untuk visualisasi kohor ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
Tampilan penghitung
Penghitung menampilkan satu nilai secara menonjol, dengan opsi untuk membandingkannya dengan nilai target. Untuk menggunakan penghitung, tentukan baris data mana yang akan ditampilkan pada visualisasi penghitung untuk Kolom Nilai dan Kolom Target.
Catatan
Penghitung hanya mendukung agregasi hingga 64.000 baris. Jika himpunan data lebih besar dari 64.000 baris, data akan dipotong.
Nilai konfigurasi: Untuk visualisasi penghitung ini, nilai berikut diatur:
- Kolom nilai
- Kolom himpunan data:
avg(o_totalprice)
- Baris: 1
- Kolom himpunan data:
- Kolom target:
- Kolom himpunan data:
avg(o_totalprice)
- Baris: 2
- Kolom himpunan data:
- Format nilai target: Aktifkan
Kueri SQL: Untuk visualisasi penghitung ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
Visualisasi corong
Visualisasi corong membantu menganalisis perubahan metrik pada tahap yang berbeda. Untuk menggunakan corong, tentukan step
kolom dan value
.
Catatan
Corong hanya mendukung agregasi hingga 64.000 baris. Jika himpunan data lebih besar dari 64.000 baris, data akan dipotong.
Nilai konfigurasi: Untuk visualisasi corong ini, nilai berikut diatur:
- Kolom langkah (kolom himpunan data):
o_orderstatus
- Kolom nilai (kolom himpunan data):
Revenue
Kueri SQL: Untuk visualisasi corong ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
Visualisasi peta choropleth
Dalam visualisasi choropleth, lokalitas geografis, seperti negara atau negara bagian, diwarnai sesuai dengan nilai agregat setiap kolom kunci. Kueri harus mengembalikan lokasi geografis berdasarkan nama.
Catatan
Visualisasi choropleth tidak melakukan agregasi data dalam kumpulan hasil. Semua agregasi harus dihitung dalam kueri itu sendiri.
Nilai konfigurasi: Untuk visualisasi choropleth ini, nilai berikut diatur:
- Peta (kolom himpunan data):
Countries
- Kolom geografis (kolom himpunan data):
Nation
- Jenis geografis: Nama pendek
- Kolom nilai (kolom himpunan data):
revenue
- Mode pengklusteran: equidistant
Opsi konfigurasi: Untuk opsi konfigurasi choropleth, lihat opsi konfigurasi choropleth.
Kueri SQL: Untuk visualisasi choropleth ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
Visualisasi peta penanda
Dalam visualisasi penanda, penanda ditempatkan pada sekumpulan koordinat di peta. Hasil kueri harus mengembalikan pasangan lintang dan bujur.
Catatan
Penanda tidak melakukan agregasi data dalam kumpulan hasil. Semua agregasi harus dihitung dalam kueri itu sendiri.
Contoh penanda ini dihasilkan dari himpunan data yang mencakup nilai lintang dan bujur - yang tidak tersedia dalam himpunan data sampel Databricks. Untuk opsi konfigurasi choropleth, lihat opsi konfigurasi penanda.
Visualisasi tabel pivot
Visualisasi tabel pivot menggabungkan rekaman dari hasil kueri ke tampilan tabel baru. Ini mirip dengan PIVOT
atau pernyataan GROUP BY
dalam SQL. Anda mengonfigurasi visualisasi tabel pivot dengan bidang seret dan letakkan.
Catatan
Tabel pivot mendukung agregasi backend, memberikan dukungan untuk kueri yang mengembalikan lebih dari 64K baris data tanpa pemotongan tataan hasil. Namun, tabel Pivot (warisan) hanya mendukung agregasi hingga 64.000 baris. Jika himpunan data lebih besar dari 64.000 baris, data akan dipotong.
Nilai konfigurasi: Untuk visualisasi tabel pivot ini, nilai berikut diatur:
- Pilih baris (kolom himpunan data):
l_retkurnflag
- Pilih kolom (kolom himpunan data):
l_shipmode
- Sel
- Kolom himpunan data:
l_quantity
- Tipe agregasi: Sum
- Kolom himpunan data:
Kueri SQL: Untuk visualisasi tabel pivot ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.lineitem
Sankey
Diagram sankey memvisualisasikan alur dari satu set nilai ke set nilai lainnya.
Catatan
Visualisasi sankey tidak melakukan agregasi data dalam kumpulan hasil. Semua agregasi harus dihitung dalam kueri itu sendiri.
Kueri SQL: Untuk visualisasi Sankey ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Urutan sinar matahari
Diagram sinar matahari membantu memvisualisasikan data hierarkis menggunakan lingkaran konsentris.
Catatan
Urutan sinar matahari tidak melakukan agregasi data dalam kumpulan hasil. Semua agregasi harus dihitung dalam kueri itu sendiri.
Kueri SQL: Untuk visualisasi sinar matahari ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Table
Visualisasi tabel menampilkan data dalam tabel standar, tetapi dengan kemampuan untuk menyusun ulang, menyembunyikan, dan memformat data secara manual. Lihat Opsi tabel.
Catatan
Visualisasi tabel tidak melakukan agregasi data dalam kumpulan hasil. Semua agregasi harus dihitung dalam kueri itu sendiri.
Untuk opsi konfigurasi tabel, lihat opsi konfigurasi tabel.
Word cloud
Cloud kata secara visual mewakili frekuensi kata terjadi dalam data.
Catatan
Cloud Word hanya mendukung agregasi hingga 64.000 baris. Jika himpunan data lebih besar dari 64.000 baris, data akan dipotong.
Nilai konfigurasi: Untuk visualisasi cloud kata ini, nilai berikut diatur: uji
- Kolom kata (kolom himpunan data):
o_comment
- Batas Panjang Kata: 5
- Batas frekuensi: 2
Kueri SQL: Untuk visualisasi cloud kata ini, kueri SQL berikut digunakan untuk menghasilkan himpunan data.
select * from samples.tpch.orders