視覚化の種類
この記事では、Azure Databricks ノートブックと Databricks SQL で使用できる視覚化の種類について説明し、各視覚化の種類の例を作成する方法について説明します。
横棒グラフ
横棒グラフは、円グラフと同様に、時間の経過に伴うメトリクスの変化を表したり、比例性を示したりします。
Note
横棒グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: この横棒グラフの視覚化では、次の値が設定されました。
- X 列:
- データセット列:
o_orderdate
- 日付レベル:
Months
- データセット列:
- Y 列:
- データセット列:
o_totalprice
- 集計の種類:
Sum
- データセット列:
- グループ化 (データセット列):
o_orderpriority
- 積み重ね:
Stack
- X 軸名 (既定値をオーバーライド):
Order month
- Y 軸名 (既定値をオーバーライド):
Total price
構成オプション: 横棒グラフの構成オプションについては、「グラフ構成オプション」を参照してください。
SQL クエリ: この横棒グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.orders
折れ線グラフ
折れ線グラフは、時間の経過に伴う 1 つ以上のメトリックの変化を示します。
Note
折れ線グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: この折れ線グラフの視覚化では、次の値が設定されました。
- X 列:
- データセット列:
o_orderdate
- 日付レベル:
Years
- データセット列:
- Y 列:
- データセット列:
o_totalprice
- 集計の種類:
Average
- データセット列:
- グループ化 (データセット列):
o_orderpriority
- X 軸名 (既定値をオーバーライド):
Order year
- Y 軸名 (既定値をオーバーライド):
Average price
構成オプション: 折れ線グラフの構成オプションについては、「グラフ構成オプション」を参照してください。
SQL クエリ: この折れ線グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.orders
面グラフ
面グラフは、折れ線と横棒のグラフを組み合わせて、1 つ以上のグループの数値が 2 番目の変数 (通常は時間) の推移中にどのように変化するかを示します。 これらは、時間の経過に伴うセールスじょうごの変化を示すためによく使用されます。
Note
面グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: この面グラフの視覚化では、次の値が設定されました。
- X 列:
- データセット列:
o_orderdate
- 日付レベル:
Years
- データセット列:
- Y 列:
- データセット列:
o_totalprice
- 集計の種類:
Sum
- データセット列:
- グループ化 (データセット列):
o_orderpriority
- 積み重ね:
Stack
- X 軸名 (既定値をオーバーライド):
Order year
- Y 軸名 (既定値をオーバーライド):
Total price
構成オプション: 面グラフの構成オプションについては、「グラフ構成オプション」を参照してください。
SQL クエリ: この面グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.orders
円グラフ
円グラフは、メトリック間の比例性を示します。 これは、時系列データを伝えるためのものでは "ありません"。
Note
円グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: この円グラフの視覚化では、次の値が設定されました。
- X 列 (データセット列):
o_orderpriority
- Y 列:
- データセット列:
o_totalprice
- 集計の種類:
Sum
- データセット列:
- ラベル (既定値をオーバーライド):
Total price
構成オプション: 円グラフの構成オプションについては、「グラフ構成オプション」を参照してください。
SQL クエリ: この円グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.orders
ヒストグラム グラフ
ヒストグラムは、データセット内で特定の値が発生する頻度をプロットします。 ヒストグラムは、データセットに少数の範囲の周りにクラスター化された値があるのか、それともより分散している値があるのかを理解するのに役立ちます。ヒストグラムは、個別の棒の数 (ビンとも呼ばれます) を制御する棒グラフとして表示されます。
Note
ヒストグラム グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: このヒストグラム グラフの視覚化では、次の値が設定されました。
- X 列 (データセット列):
o_totalprice
- ビン数: 20
- X 軸名 (既定値をオーバーライド):
Total price
構成オプション: ヒストグラム グラフの構成オプションについては、「ヒストグラム グラフ構成オプション」を参照してください。
SQL クエリ: このヒストグラム グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.orders
ヒートマップ グラフ
ヒートマップ グラフでは、横棒グラフ、積み重ねグラフ、バブル グラフの特徴を組み合わせて、色を使用して数値データを視覚化できます。 ヒートマップの一般的なカラー パレットには、オレンジや赤などの暖色を使用して最高値が示され、青や紫などの寒色を使用して最低値が示されます。
たとえば、次のヒートマップについて考えてみます。この例では、曜日ごとにタクシー乗車で最も多く利用される距離を視覚化し、曜日、距離、合計料金に基づいて、結果をグループ化します。
Note
ヒートマップ グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: このヒートマップ グラフの視覚化では、次の値が設定されました。
- X 列 (データセット列):
o_orderpriority
- Y 列 (データセット列):
o_orderstatus
- カラー列:
- データセット列:
o_totalprice
- 集計の種類:
Average
- データセット列:
- X 軸名 (既定値をオーバーライド):
Order priority
- Y 軸名 (既定値をオーバーライド):
Order status
- 配色 (既定値をオーバーライド):
YIGnBu
構成オプション: ヒートマップの構成オプションについては、「ヒートマップ グラフ構成オプション」を参照してください。
SQL クエリ: このヒートマップ グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.orders
散布図
散布図は、2 つの数値変数間の関係を示すために一般的に使用されます。 さらに、3 番目の次元を色でエンコードして、数値変数がグループ間でどのように異なるかを示すことができます。
Note
散布図はバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: この散布図の視覚化では、次の値が設定されました。
- X 列 (データセット列):
l_quantity
- Y 列 (データセット列):
l_extendedprice
- グループ化 (データセット列):
l_returnflag
- X 軸名 (既定値をオーバーライド):
Quantity
- Y 軸名 (既定値をオーバーライド):
Extended price
構成オプション: 散布図の構成オプションについては、「グラフ構成オプション」を参照してください。
SQL クエリ: この散布図の視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
バブル チャート
バブル チャートは散布図であり、各ポイント マーカーのサイズに関連するメトリックが反映されます。
Note
バブル チャートはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: このバブル チャートの視覚化では、次の値が設定されました。
- X (データセット列):
l_quantity
- Y 列 (データセット列):
l_extendedprice
- グループ化 (データセット列):
l-returnflag
- バブル サイズ列 (データセット列):
l_tax
- バブル サイズ係数: 20
- X 軸名 (既定値をオーバーライド):
Quantity
- Y 軸名 (既定値をオーバーライド):
Extended price
構成オプション: バブル チャートの構成オプションについては、「グラフ構成オプション」を参照してください。
SQL クエリ: このバブル チャートの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
ボックス グラフ
ボックス グラフの視覚化では、必要に応じてカテゴリ別にグループ化された数値データの分布の概要が示されます。 ボックス グラフの視覚化を使用すると、カテゴリ間で値の範囲をすばやく比較し、四分位数を通じて値の局所性、分散、傾斜のグループを視覚化できます。 各ボックス内の濃い線は四分位範囲を示しています。 ボックス グラフの視覚化の解釈の詳細については、Wikipedia の「ボックス グラフに関する記事」を参照してください。
Note
ボックス グラフでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このボックス グラフの視覚化では、次の値が設定されました。
- X 列 (データセット列):
l-returnflag
- Y 列 (データセット列):
l_extendedprice
- グループ化 (データセット列):
l_shipmode
- X 軸名 (既定値をオーバーライド):
Return flag1
- Y 軸名 (既定値をオーバーライド):
Extended price
構成オプション: ボックス グラフの構成オプションについては、「ボックス グラフ構成オプション」を参照してください。
SQL クエリ: このボックス グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
複合グラフ
複合グラフは、折れ線グラフと横棒グラフを組み合わせて、時間の経過に伴う変化を比例的に示します。
Note
複合グラフはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。
構成値: この複合グラフの視覚化では、次の値が設定されました。
- X 列 (データセット列):
l_shipdate
- Y 列:
- 最初のデータセット列:
l_extendedprice
- 集計の種類: 平均
- 2 番目のデータセット列:
l_quantity
- 集計の種類: 平均
- 最初のデータセット列:
- X 軸名 (既定値をオーバーライド):
Ship date
- 左 Y 軸名 (既定値をオーバーライド):
Quantity
- 右 Y 軸名 (既定値をオーバーライド):
Average price
- 系列:
- Order1 (データセット列):
AVG(l_extendedprice)
- Y 軸: 右
- 種類: 折れ線
- Order2 (データセット列):
AVG(l_quantity)
- Y 軸: 左
- 種類: 横棒
- Order1 (データセット列):
構成オプション: 複合グラフの構成オプションについては、「グラフ構成オプション」を参照してください。
SQL クエリ: この複合グラフの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
コーホート分析
コーホート分析は、前もって定義されたグループ (コーホート) の経過を一連のステージに沿って観察するものです。 コーホートの視覚化は、日付に対してのみ集計されます (月単位の集計が可能です)。 結果セット内のデータの他の集計は行われません。 他のすべての集計は、クエリ自体内で実行されます。
構成値: このコーホートの視覚化では、次の値が設定されました。
- 日付 (バケット) (データベース列):
cohort_month
- ステージ (データベース列):
months
- バケットの母集団サイズ (データベース列):
size
- ステージ値 (データベース列):
active
- 期間:
monthly
構成オプション:コーホート構成オプションについては、「コーホート グラフ構成オプション」を参照してください。
SQL クエリ: このコーホートの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
-- match each customer with its cohort by month
with cohort_dates as (
SELECT o_custkey, min(date_trunc('month', o_orderdate)) as cohort_month
FROM samples.tpch.orders
GROUP BY 1
),
-- find the size of each cohort
cohort_size as (
SELECT cohort_month, count(distinct o_custkey) as size
FROM cohort_dates
GROUP BY 1
)
-- for each cohort and month thereafter, find the number of active customers
SELECT
cohort_dates.cohort_month,
ceil(months_between(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month)) as months,
count(distinct samples.tpch.orders.o_custkey) as active,
first(size) as size
FROM samples.tpch.orders
left join cohort_dates on samples.tpch.orders.o_custkey = cohort_dates.o_custkey
left join cohort_size on cohort_dates.cohort_month = cohort_size.cohort_month
WHERE datediff(date_trunc('month', samples.tpch.orders.o_orderdate), cohort_dates.cohort_month) != 0
GROUP BY 1, 2
ORDER BY 1, 2
カウンター ディスプレイ
カウンターでは、1 つの値が目立つように表示され、ターゲット値と比較するオプションが表示されます。 カウンターを使用するには、[値列] と [ターゲット列] のカウンター視覚エフェクトに表示するデータ行を指定します。
Note
カウンターでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このカウンターの視覚化では、次の値が設定されました。
- 値列
- データセット列:
avg(o_totalprice)
- 行 1:
- データセット列:
- ターゲット列:
- データセット列:
avg(o_totalprice)
- 行 2:
- データセット列:
- ターゲット値の書式設定: 有効
SQL クエリ: このカウンターの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select o_orderdate, avg(o_totalprice)
from samples.tpch.orders
GROUP BY 1
ORDER BY 1 DESC
じょうごの視覚化
じょうごの視覚化は、さまざまな段階でメトリックの変化を分析するのに役立ちます。 じょうごを使用するには、step
と value
列を指定します。
Note
じょうごでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このじょうごの視覚化では、次の値が設定されました。
- ステップ列 (データセット列):
o_orderstatus
- 値列 (データセット列):
Revenue
SQL クエリ: このじょうごの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
SELECT o_orderstatus, sum(o_totalprice) as Revenue
FROM samples.tpch.orders
GROUP BY 1
階級区分図マップの視覚化
階級区分図の視覚化では、国や州などの地理的な地域は、各キー列の集計値に従って色付けされます。 クエリでは、地理的な場所を名前で返す必要があります。
Note
階級区分図の視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリ自体内で計算する必要があります。
構成値: この階級区分図の視覚化では、次の値が設定されました。
- マップ (データセット列):
Countries
- 地理列 (データセット列):
Nation
- 地理的な種類: 短い名前
- 値列 (データセット列):
revenue
- クラスタリング モード: 等間隔
構成オプション:階級区分図の構成オプションについては、「階級区分図の構成オプション」を参照してください。
SQL クエリ: この:階級区分図の視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
SELECT
initcap(n_name) as Country,
sum(c_acctbal)
FROM samples.tpch.customer
join samples.tpch.nation where n_nationkey = c_nationkey
GROUP BY 1
マーカー マップの視覚化
マーカーの視覚かでは、マーカーは、マップ上の一連の座標に配置されます。 クエリ結果は、緯度と経度のペアを返す必要があります。
Note
マーカーは、結果セット内のデータの集計を行いません。 すべての集計は、クエリ自体内で計算する必要があります。
このマーカーの例は、緯度と経度の両方の値を含むデータセットから生成されます。これは Databricks サンプル データセットでは使用できません。 階級区分図の構成オプションについては、「マーカー構成オプション」を参照してください。
ピボット テーブルの視覚化
ピボット テーブルの視覚化では、クエリ結果のレコードが、新しい表形式の表示に集計されます。 これは、SQL の PIVOT
または GROUP BY
ステートメントに似ています。 ピボット テーブルの視覚化は、ドラッグ アンド ドロップ フィールドで設定します。
Note
ピボット テーブルはバックエンド集計をサポートし、結果セットを切り捨てずに 64,000 行を超えるデータを返すクエリをサポートします。 ただし、ピボット テーブル (レガシ) では、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このピボット テーブルの視覚化では、次の値が設定されました。
- 行 (データセット列) の選択:
l_retkurnflag
- 列 (データセット列) の選択:
l_shipmode
- Cell (セル)
- データセット列:
l_quantity
- 集計の種類: Sum
- データセット列:
SQL クエリ: このピボット テーブルの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.lineitem
サンキー
サンキー ダイアグラムは、ある値のセットから別の値のセットへのフローを視覚化します。
Note
サンキーの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリ自体内で計算する必要があります。
SQL クエリ: このサンキーの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
サンバースト シーケンス
サンバースト図は、同心円を使用して階層データを視覚化するのに役立ちます。
Note
サンバースト シーケンスは、結果セット内のデータの集計を行いません。 すべての集計は、クエリ自体内で計算する必要があります。
SQL クエリ: このサンバーストの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
SELECT pickup_zip as stage1, dropoff_zip as stage2, sum(fare_amount) as value
FROM samples.nyctaxi.trips
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 10
テーブル
テーブルの視覚化では、標準テーブルのデータが表示されますが、データの並べ替え、非表示、書式設定を手動で行う機能があります。 「テーブル オプション」を参照してください。
Note
テーブルの視覚化では、結果セット内のデータの集計は行われません。 すべての集計は、クエリ自体内で計算する必要があります。
テーブルの構成オプションについては、「テーブルの構成オプション」を参照してください。
ワード クラウド
ワード クラウドは、データ内で単語が出現する頻度を視覚的に表します。
Note
ワード クラウドでは、最大 64,000 行の集計のみがサポートされます。 データセットが 64,000 行を超える場合、データは切り捨てられます。
構成値: このワード クラウドの視覚化では、次の値が設定されました。
- ワード列 (データセット列):
o_comment
- ワードの長さの制限: 5
- 頻度の制限: 2
SQL クエリ: このワード クラウドの視覚化では、次の SQL クエリを使用してデータ セットを生成しました。
select * from samples.tpch.orders