概要: ノートブックからデータに対してクエリを実行して視覚化する

この概要記事では、Azure Databricks ノートブックを使用して、SQL、Python、Scala、R を使って Unity Catalog に格納されているサンプル データのクエリを実行し、ノートブックでクエリの結果を視覚化する手順について説明します。

要件

この記事のタスクを完了するには、次の要件を満たす必要があります。

手順 1: 新しいノートブックを作成する

ワークスペースでノートブックを作成するには:

  1. サイドバーで、新規アイコン[新規] をクリックし、[Notebook] をクリックします。
  2. [ノートブックの作成] ページで、次の手順を実行します。
    • ノートブックの一意の名前を指定します。
    • ノートブックの既定の言語を設定し、メッセージが表示されたら、[確認] をクリックします。
    • [接続] ドロップダウン メニューを使用して、コンピューティング リソースを選択します。 新しいコンピューティング リソースを作成するには、「コンピューティングを使用する」を参照してください。

ノートブックの作成と管理について詳しくは、「Notebooks を管理する」を参照してください。

手順 2: テーブルを照会する

任意の言語を使用して、Unity Catalog の samples.nyctaxi.trips テーブルに対してクエリを実行します。

SQL

  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の samples.nyctaxi.trips テーブルに対してクエリを実行した結果を表示します。
SELECT * FROM samples.nyctaxi.trips

Python

  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の samples.nyctaxi.trips テーブルに対してクエリを実行した結果を表示します。
display(spark.read.table("samples.nyctaxi.trips"))

Scala

  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の samples.nyctaxi.trips テーブルに対してクエリを実行した結果を表示します。
display(spark.read.table("samples.nyctaxi.trips"))

R

  1. 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の samples.nyctaxi.trips テーブルに対してクエリを実行した結果を表示します。
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
  1. Shift+Enter キーを押してセルを実行してから、次のセルに移動します。

    クエリの結果がノートブックに表示されます。

手順 3: データを表示する

乗車距離別の平均運賃金額を、乗車場所郵便番号でグループ化して表示します。

  1. [テーブル] タブの横にある + をクリックして、[視覚化] をクリックします。

    視覚化エディターが表示されます。

  2. [視覚化の種類] ドロップダウンで、[バー] が選ばれていることを確認します。

  3. [X 列]fare_amount を選択します。

  4. [Y 列]trip_distance を選択します。

  5. 集計の種類として Average を選択します。

  6. [グループ化] 列として pickup_zip を選択します。

    横棒グラフ

  7. [保存] をクリックします。

次のステップ