Vizualizációtípusok
Ez a cikk az Azure Databricks-jegyzetfüzetekben és a Databricks SQL-ben használható vizualizációk típusait ismerteti, és bemutatja, hogyan hozhat létre példát az egyes vizualizációtípusokra.
Sávdiagram
A sávdiagramok a metrikák időbeli változását vagy az arányosság megjelenítését jelölik, hasonlóan a kördiagramhoz .
Feljegyzés
A sávdiagramok támogatják a háttérbeli aggregációkat, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaküldött lekérdezésekhez.
Konfigurációs értékek: Ehhez a sávdiagram-vizualizációhoz a következő értékek lettek beállítva:
- X oszlop:
- Adathalmaz oszlop:
o_orderdate
- Dátumszint:
Months
- Adathalmaz oszlop:
- Y oszlopok:
- Adathalmaz oszlop:
o_totalprice
- Összesítés típusa:
Sum
- Adathalmaz oszlop:
- Csoportosítás (adathalmaz oszlop):
o_orderpriority
- Halmozási:
Stack
- X tengely neve (felülbírálás alapértelmezett értéke):
Order month
- Y tengely neve (felülbírálás alapértelmezett értéke):
Total price
Konfigurációs beállítások: A sávdiagram konfigurációs beállításaiért tekintse meg a diagramkonfigurációs beállításokat.
SQL-lekérdezés: Ehhez a sávdiagram-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.orders
Vonaldiagram
A vonaldiagramok egy vagy több metrika időbeli változását mutatják be.
Feljegyzés
A vonaldiagramok támogatják a háttérbeli aggregációkat, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaküldött lekérdezésekhez.
Konfigurációs értékek: Ehhez a vonaldiagram-vizualizációhoz a következő értékek lettek beállítva:
- X oszlop:
- Adathalmaz oszlop:
o_orderdate
- Dátumszint:
Years
- Adathalmaz oszlop:
- Y oszlopok:
- Adathalmaz oszlop:
o_totalprice
- Összesítés típusa:
Average
- Adathalmaz oszlop:
- Csoportosítás (adathalmaz oszlop):
o_orderpriority
- X tengely neve (felülbírálás alapértelmezett értéke):
Order year
- Y tengely neve (felülbírálás alapértelmezett értéke):
Average price
Konfigurációs beállítások: A vonaldiagram konfigurációs beállításaiért tekintse meg a diagramkonfigurációs beállításokat.
SQL-lekérdezés: Ehhez a vonaldiagram-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.orders
Területdiagram
A területdiagramok egyesítik a vonal- és sávdiagramot, hogy bemutassa, hogyan változnak egy vagy több csoport numerikus értékei egy második változó előrehaladása során, általában az idő függvényében. Ezeket gyakran használják az értékesítési tölcsér időbeli változásainak megjelenítésére.
Feljegyzés
A területdiagramok támogatják a háttérbeli aggregációkat, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaadó lekérdezésekhez.
Konfigurációs értékek: Ehhez a területdiagram-vizualizációhoz a következő értékek lettek beállítva:
- X oszlop:
- Adathalmaz oszlop:
o_orderdate
- Dátumszint:
Years
- Adathalmaz oszlop:
- Y oszlopok:
- Adathalmaz oszlop:
o_totalprice
- Összesítés típusa:
Sum
- Adathalmaz oszlop:
- Csoportosítás (adathalmaz oszlop):
o_orderpriority
- Halmozási:
Stack
- X tengely neve (felülbírálás alapértelmezett értéke):
Order year
- Y tengely neve (felülbírálás alapértelmezett értéke):
Total price
Konfigurációs beállítások: A területdiagram konfigurációs beállításaiért lásd a diagramkonfigurációs beállításokat.
SQL-lekérdezés: Ehhez a területdiagram-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.orders
Kördiagramok
A kördiagramok a metrikák közötti arányosságot mutatják. Ezek nem idősoradatok továbbítására szolgálnak.
Feljegyzés
A kördiagramok támogatják a háttérbeli aggregációkat, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaküldött lekérdezésekhez.
Konfigurációs értékek: Ehhez a kördiagram-vizualizációhoz a következő értékek lettek beállítva:
- X oszlop (adathalmazoszlop):
o_orderpriority
- Y oszlopok:
- Adathalmaz oszlop:
o_totalprice
- Összesítés típusa:
Sum
- Adathalmaz oszlop:
- Címke (alapértelmezett felülbírálási érték):
Total price
Konfigurációs beállítások: A tortadiagram konfigurációs beállításaiért tekintse meg a diagramkonfigurációs beállításokat.
SQL-lekérdezés: Ehhez a kördiagram-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.orders
Hisztogramdiagramok
A hisztogram azt a gyakoriságot ábrázolja, hogy egy adott érték milyen gyakorisággal fordul elő egy adathalmazban. A hisztogram segít megérteni, hogy egy adathalmaz olyan értékekkel rendelkezik-e, amelyek kis számú tartomány köré vannak csoportosítva, vagy inkább szétterítve vannak. A hisztogram sávdiagramként jelenik meg, amelyben szabályozhatja a különböző sávok (más néven tárolók) számát.
Feljegyzés
A hisztogramdiagramok támogatják a háttérbeli aggregációkat, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaküldött lekérdezésekhez.
Konfigurációs értékek: Ehhez a hisztogramdiagram-vizualizációhoz a következő értékek lettek beállítva:
- X oszlop (adathalmazoszlop):
o_totalprice
- Tárolók száma: 20
- X tengely neve (felülbírálás alapértelmezett értéke):
Total price
Konfigurációs beállítások: A hisztogramdiagram konfigurációs beállításaiért tekintse meg a hisztogramdiagram konfigurációs beállításait.
SQL-lekérdezés: Ehhez a hisztogramdiagram-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.orders
Hőtérkép-diagram
A hőtérkép-diagramok sávdiagramok, halmozás és buborékdiagramok funkcióit ötvözik, így színekkel jelenítheti meg a numerikus adatokat. A hőtérképek gyakori színpalettája a legmagasabb értékeket jeleníti meg melegebb színekkel, például narancssárga vagy piros színekkel, a legalacsonyabb értékeket pedig hűvösebb színekkel, például kék vagy lila színekkel.
Vegyük például a következő hőtérképet, amely megjeleníti a taxizások leggyakrabban előforduló távolságait minden nap, és csoportosítja az eredményeket a hét napja, a távolság és a teljes viteldíj szerint.
Feljegyzés
A hőtérképdiagramok támogatják a háttérbeli aggregációkat, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaküldött lekérdezésekhez.
Konfigurációs értékek: Ehhez a hőtérkép-diagram vizualizációhoz a következő értékek lettek beállítva:
- X oszlop (adathalmazoszlop):
o_orderpriority
- Y oszlopok (adathalmazoszlop):
o_orderstatus
- Színoszlop:
- Adathalmaz oszlop:
o_totalprice
- Összesítés típusa:
Average
- Adathalmaz oszlop:
- X tengely neve (felülbírálás alapértelmezett értéke):
Order priority
- Y tengely neve (felülbírálás alapértelmezett értéke):
Order status
- Színséma (alapértelmezett érték felülbírálása):
YIGnBu
Konfigurációs beállítások: A hőtérkép konfigurációs beállításaiért tekintse meg a hőtérkép-diagram konfigurációs beállításait.
SQL-lekérdezés: Ehhez a hőtérképes diagramvizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.orders
Pontdiagram
A pontvizualizációkat gyakran használják két numerikus változó közötti kapcsolat megjelenítésére. Emellett egy harmadik dimenzió is kódolható színnel, hogy a numerikus változók különbözőek legyenek a csoportokban.
Feljegyzés
A pontdiagramok támogatják a háttérbeli aggregációkat, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaküldött lekérdezésekhez.
Konfigurációs értékek: Ebben a pontdiagram-vizualizációban a következő értékek lettek beállítva:
- X oszlop (adathalmazoszlop):
l_quantity
- Y oszlop (adathalmaz oszlop):
l_extendedprice
- Csoportosítás (adathalmaz oszlop):
l_returnflag
- X tengely neve (felülbírálás alapértelmezett értéke):
Quantity
- Y tengely neve (felülbírálás alapértelmezett értéke):
Extended price
Konfigurációs beállítások: A pontdiagram konfigurációs beállításaiért tekintse meg a diagramkonfigurációs beállításokat.
SQL-lekérdezés: Ehhez a pontdiagram-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.lineitem
Buborékdiagram
A buborékdiagramok pontdiagramok, ahol az egyes pontjelölők mérete egy releváns metrikát tükröz.
Feljegyzés
A buborékdiagramok támogatják a háttérbeli összesítéseket, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaküldött lekérdezésekhez.
Konfigurációs értékek: Ehhez a buborékdiagram-vizualizációhoz a következő értékek lettek beállítva:
- X (adathalmaz oszlopa):
l_quantity
- Y oszlopok (adathalmazoszlop):
l_extendedprice
- Csoportosítás (adathalmaz oszlop):
l-returnflag
- Buborékméret oszlop (adathalmaz oszlop):
l_tax
- Buborékméret együtthatója: 20
- X tengely neve (felülbírálás alapértelmezett értéke):
Quantity
- Y tengely neve (felülbírálás alapértelmezett értéke):
Extended price
Konfigurációs beállítások: A buborékdiagram konfigurációs beállításaiért tekintse meg a diagramkonfigurációs beállításokat.
SQL-lekérdezés: Ehhez a buborékdiagram-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.lineitem
Dobozdiagram
A meződiagram vizualizációja a numerikus adatok eloszlási összegzését jeleníti meg, opcionálisan kategória szerint csoportosítva. A dobozdiagramok vizualizációjával gyorsan összehasonlíthatja a kategóriák értéktartományait, és a kvartiliseken keresztül vizualizálhatja az értékek területi, eloszlási és ferdeségi csoportjait. Minden dobozban a sötétebb vonal az interquartile tartományt jeleníti meg. A dobozdiagramok vizualizációinak értelmezésével kapcsolatos további információkért lásd a Dobozdiagram cikket a Wikipédián.
Feljegyzés
A dobozdiagramok legfeljebb 64 000 sor összesítését támogatják. Ha egy adatkészlet nagyobb, mint 64 000 sor, az adatok csonkulnak.
Konfigurációs értékek: Ebben a meződiagram-vizualizációban a következő értékek lettek beállítva:
- X oszlop (adathalmazoszlop):
l-returnflag
- Y oszlopok (adathalmazoszlop):
l_extendedprice
- Csoportosítás (adathalmaz oszlop):
l_shipmode
- X tengely neve (felülbírálás alapértelmezett értéke):
Return flag1
- Y tengely neve (felülbírálás alapértelmezett értéke):
Extended price
Konfigurációs beállítások: A dobozdiagram konfigurációs beállításaiért lásd a dobozdiagram konfigurációs beállításait.
SQL-lekérdezés: Ebben a meződiagram-vizualizációban az alábbi SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.lineitem
Kombinált diagram
A kombinált diagramok vonal- és sávdiagramokat kombinálnak, hogy az időbeli változásokat arányossággal jelenítsék meg.
Feljegyzés
A kombinált diagramok támogatják a háttérbeli aggregációkat, és támogatást nyújtanak a több mint 64 ezer adatsort az eredményhalmaz csonkolása nélkül visszaküldött lekérdezésekhez.
Konfigurációs értékek: Ehhez a kombinált diagram vizualizációhoz a következő értékek lettek beállítva:
- X oszlop (adathalmazoszlop):
l_shipdate
- Y oszlopok:
- Első adathalmazoszlop:
l_extendedprice
- Összesítés típusa: átlag
- Második adathalmazoszlop:
l_quantity
- Összesítés típusa: átlag
- Első adathalmazoszlop:
- X tengely neve (felülbírálás alapértelmezett értéke):
Ship date
- Bal oldali Y tengely neve (felülbírálás alapértelmezett értéke):
Quantity
- Jobb oldali Y tengely neve (felülbírálás alapértelmezett értéke):
Average price
- Sorozat:
- Order1 (adathalmaz oszlop):
AVG(l_extendedprice)
- Y tengely: jobbra
- Típus: Sor
- Order2 (adathalmaz oszlop):
AVG(l_quantity)
- Y tengely: balra
- Típus: Sáv
- Order1 (adathalmaz oszlop):
Konfigurációs beállítások: A kombinált diagram konfigurációs beállításaiért tekintse meg a diagramkonfigurációs beállításokat.
SQL-lekérdezés: Ehhez a kombinált diagram vizualizációhoz az alábbi SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.lineitem
Kohorszelemzés
A kohorszelemzés az előre meghatározott csoportok, vagyis a kohorszok eredményeit vizsgálja, miközben egy szakaszon haladnak végig. A kohorszvizualizáció csak dátumok alapján összesíthető (lehetővé teszi a havi összesítéseket). Az eredményhalmazon belül semmilyen más adatösszesítést nem végez. Minden más összesítés a lekérdezésen belül történik.
Konfigurációs értékek: Ehhez a kohorszvizualizációhoz a következő értékek lettek beállítva:
- Dátum (gyűjtő) (adatbázisoszlop):
cohort_month
- Szakasz (adatbázisoszlop):
months
- Gyűjtőpopuláció mérete (adatbázisoszlop):
size
- Szakasz értéke (adatbázisoszlop):
active
- Időintervallum:
monthly
Konfigurációs beállítások: A kohorszkonfigurációs beállításokért lásd a kohorszdiagram konfigurációs beállításait.
SQL-lekérdezés: Ehhez a kohorszvizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
Számláló megjelenítése
A számlálók egyetlen értéket jelenítenek meg jól láthatóan, a célértékekkel való összehasonlításuk lehetőségével. Számlálók használatához adja meg, hogy az értékoszlop és a céloszlop számlálóvizualizációján mely adatsor jelenjen meg.
Feljegyzés
A Számláló legfeljebb 64 000 sor összesítését támogatja. Ha egy adatkészlet nagyobb, mint 64 000 sor, az adatok csonkulnak.
Konfigurációs értékek: Ehhez a számlálóvizualizációhoz a következő értékek lettek beállítva:
- Érték oszlop
- Adathalmaz oszlop:
avg(o_totalprice)
- 1. sor:
- Adathalmaz oszlop:
- Céloszlop:
- Adathalmaz oszlop:
avg(o_totalprice)
- 2. sor:
- Adathalmaz oszlop:
- Célérték formázása: Engedélyezés
SQL-lekérdezés: Ehhez a számlálóvizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
Tölcsérvizualizáció
A tölcsérvizualizáció segít elemezni a metrika változásait különböző szakaszokban. A tölcsér használatához adjon meg egy step
és egy oszlopot value
.
Feljegyzés
A tölcsér legfeljebb 64 000 sor összesítését támogatja. Ha egy adatkészlet nagyobb, mint 64 000 sor, az adatok csonkulnak.
Konfigurációs értékek: Ehhez a tölcsérvizualizációhoz a következő értékek lettek beállítva:
- Lépésoszlop (adathalmazoszlop):
o_orderstatus
- Érték oszlop (adathalmaz oszlop):
Revenue
SQL-lekérdezés: Ehhez a tölcsérvizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
Choropleth térképvizualizáció
A koropletikus vizualizációkban a földrajzi helyeket, például az országokat vagy az államokat az egyes kulcsoszlopok összesített értékei alapján színezik. A lekérdezésnek név alapján kell visszaadnia a földrajzi helyeket.
Feljegyzés
A koropletikus vizualizációk nem aggregálnak adatokat az eredményhalmazon belül. Az összes összesítést magában a lekérdezésben kell kiszámítani.
Konfigurációs értékek: A koropletikus vizualizációhoz a következő értékek lettek beállítva:
- Térkép (adathalmaz oszlop):
Countries
- Földrajzi oszlop (adathalmaz oszlop):
Nation
- Földrajzi típus: Rövid név
- Érték oszlop (adathalmaz oszlop):
revenue
- Fürtözési mód: egyenlő távolság
Konfigurációs beállítások: A koropletikus konfigurációs beállításokért lásd a koreográfiák konfigurációs beállításait.
SQL-lekérdezés: Ehhez a koreográfus-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
Jelölőtérkép vizualizációja
A jelölővizualizációkban egy jelölő a térképen található koordináták halmazára kerül. A lekérdezés eredményének szélességi és hosszúsági párokat kell visszaadnia.
Feljegyzés
A jelölő nem végez adatösszesítéseket az eredményhalmazon belül. Az összes összesítést magában a lekérdezésben kell kiszámítani.
Ez a jelölőminta egy olyan adatkészletből jön létre, amely szélességi és hosszúsági értékeket is tartalmaz – amelyek nem érhetők el a Databricks-mintaadatkészletekben. A koropletikus konfigurációs beállításokat a jelölőkonfigurációs beállítások között talál.
Kimutatástábla vizualizációja
A kimutatástáblázatok vizualizációi a lekérdezés eredményéből származó rekordokat új táblázatos megjelenítésre összesítik. Hasonló az SQL-hez PIVOT
vagy GROUP BY
utasításokhoz. A kimutatástábla-vizualizációt húzási mezőkkel konfigurálhatja.
Feljegyzés
A kimutatástáblák támogatják a háttérbeli aggregációkat, és támogatják a több mint 64 ezer adatsort az eredményhalmaz csonkítása nélkül visszaadó lekérdezéseket. A kimutatástábla (örökölt) azonban csak legfeljebb 64 000 sor összesítését támogatja. Ha egy adatkészlet nagyobb, mint 64 000 sor, az adatok csonkulnak.
Konfigurációs értékek: A kimutatástábla vizualizációja esetében a következő értékek lettek beállítva:
- Sorok kijelölése (adathalmazoszlop):
l_retkurnflag
- Oszlopok kijelölése (adathalmazoszlop):
l_shipmode
- Sejt
- Adathalmaz oszlop:
l_quantity
- Összesítés típusa: Összeg
- Adathalmaz oszlop:
SQL-lekérdezés: Ebben a kimutatástáblázat-vizualizációban az alábbi SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.lineitem
Sankey
A sankey diagram az egyik értékkészletből a másikba menő folyamatot jeleníti meg.
Feljegyzés
A sankey-vizualizációk nem aggregálnak adatokat az eredményhalmazon belül. Az összes összesítést magában a lekérdezésben kell kiszámítani.
SQL-lekérdezés: Ehhez a Sankey-vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Napburkok sorozata
A napkitöréses diagramok koncentrikus körök használatával segítik a hierarchikus adatok vizualizációját.
Feljegyzés
A Sunburst-sorozat nem végez adatösszesítéseket az eredményhalmazon belül. Az összes összesítést magában a lekérdezésben kell kiszámítani.
SQL-lekérdezés: Ehhez a napburkos vizualizációhoz a következő SQL-lekérdezést használták az adatkészlet létrehozásához.
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
Tábla
A táblavizualizáció egy szabványos táblában jeleníti meg az adatokat, de manuálisan átrendezheti, elrejtheti és formázhatja az adatokat. Lásd a Táblázat beállításai című témakört.
Feljegyzés
A táblavizualizációk nem aggregálnak adatokat az eredményhalmazon belül. Az összes összesítést magában a lekérdezésben kell kiszámítani.
A táblázatkonfigurációs beállításokat a táblázatkonfigurációs beállítások között talál.
Word-felhő
A szófelhő vizuálisan azt jelzi, hogy egy szó milyen gyakorisággal fordul elő az adatokban.
Feljegyzés
A Word-felhő legfeljebb 64 000 sor összesítését támogatja. Ha egy adatkészlet nagyobb, mint 64 000 sor, az adatok csonkulnak.
Konfigurációs értékek: Ebben a szófelhővizualizációban a következő értékek lettek beállítva: teszt
- Szavak oszlop (adathalmaz oszlop):
o_comment
- Szavak hosszkorlátja: 5
- Frekvenciakorlát: 2
SQL-lekérdezés: Ebben a szófelhővizualizációban az alábbi SQL-lekérdezést használták az adatkészlet létrehozásához.
select * from samples.tpch.orders