概要: ノートブックからデータに対してクエリを実行して視覚化する
この概要記事では、Azure Databricks ノートブックを使用して、SQL、Python、Scala、R を使って Unity Catalog に格納されているサンプル データのクエリを実行し、ノートブックでクエリの結果を視覚化する手順について説明します。
要件
この記事のタスクを完了するには、次の要件を満たす必要があります。
- ワークスペースで Unity Catalog が有効になっている必要があります。 Unity Catalog の概要については、「Unity Catalog の設定と管理」を参照してください。
- 既存のコンピューティング リソースを使用するか、新しいコンピューティング リソースを作成するためのアクセス許可が必要です。 「はじめに: アカウントとワークスペースのセットアップ」を参照するか、Databricks 管理者に問い合わせてください。
手順 1: 新しいノートブックを作成する
ワークスペースでノートブックを作成するには:
- サイドバーで、[新規] をクリックし、[Notebook] をクリックします。
- [ノートブックの作成] ページで、次の手順を実行します。
- ノートブックの一意の名前を指定します。
- ノートブックの既定の言語を設定し、メッセージが表示されたら、[確認] をクリックします。
- [接続] ドロップダウン メニューを使用して、コンピューティング リソースを選択します。 新しいコンピューティング リソースを作成するには、「コンピューティングを使用する」を参照してください。
ノートブックの作成と管理について詳しくは、「Notebooks を管理する」を参照してください。
手順 2: テーブルを照会する
任意の言語を使用して、Unity Catalog の samples.nyctaxi.trips
テーブルに対してクエリを実行します。
SQL
- 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の
samples.nyctaxi.trips
テーブルに対してクエリを実行した結果を表示します。
SELECT * FROM samples.nyctaxi.trips
Python
- 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の
samples.nyctaxi.trips
テーブルに対してクエリを実行した結果を表示します。
display(spark.read.table("samples.nyctaxi.trips"))
Scala
- 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の
samples.nyctaxi.trips
テーブルに対してクエリを実行した結果を表示します。
display(spark.read.table("samples.nyctaxi.trips"))
R
- 次のコードをコピーして、新しい空のノートブック セルに貼り付けます。 このコードは、Unity Catalog の
samples.nyctaxi.trips
テーブルに対してクエリを実行した結果を表示します。
library(SparkR)
display(sql("SELECT * FROM samples.nyctaxi.trips"))
Shift+Enter
キーを押してセルを実行してから、次のセルに移動します。クエリの結果がノートブックに表示されます。
手順 3: データを表示する
乗車距離別の平均運賃金額を、乗車場所郵便番号でグループ化して表示します。
[テーブル] タブの横にある + をクリックして、[視覚化] をクリックします。
視覚化エディターが表示されます。
[視覚化の種類] ドロップダウンで、[バー] が選ばれていることを確認します。
[X 列] の
fare_amount
を選択します。[Y 列] の
trip_distance
を選択します。集計の種類として
Average
を選択します。[グループ化] 列として
pickup_zip
を選択します。[保存] をクリックします。
次のステップ
- Apache Spark を使用して Databricks にデータを読み込む方法については、「チュートリアル: Apache Spark DataFrames を使用してデータを読み込んで変換する」を参照してください。
- Databricks へのデータの取り込みについては、「Databricks レイクハウスにデータを取り込む」を参照してください。
- Databricks を使用したデータへのクエリの実行の詳細については、データのクエリに関する記事を参照してください。
- 視覚化について詳しくは、「Databricks ノートブックでの視覚化」を参照してください。
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示