Azure Databricks を使ってみる

完了

Azure Databricks を使用するには、ご利用の Azure サブスクリプションに Azure Databricks ワークスペースを作成する必要があります。 ワークスペースは、クラウド サービス アカウントでの Azure Databricks のデプロイです。 指定した一連のユーザーに対して Azure Databricks 資産を操作するための統合環境が提供されます。

Azure Databricks ワークスペースは、次の方法で作成できます。

  • Azure portal ユーザー インターフェイスの使用。
  • Azure Resource Manager (ARM)、Bicep、または Terraform テンプレートの使用。
  • New-AzDatabricksWorkspace Azure PowerShell コマンドレットの使用。
  • az databricks ワークスペースを使用して、Azure コマンド ライン インターフェイス (CLI) コマンドを作成します。

ワークスペースを作成するときは、次を指定する必要があります。

  • ワークスペース名
  • 使用可能なリージョンを選択 します。 利用可能なリージョンについては、 リージョン別に利用可能な Azure サービスに関するページを参照してください。
  • 価格レベル:
    • Standard - Microsoft Entra ID 統合を使用したコア Apache Spark 機能。
    • Premium - ロールベースのアクセス制御とその他のエンタープライズ レベルの機能。
    • 試用版 - Premium レベルのワークスペースの 14 日間の無料試用版
  • マネージド リソース グループ名 (省略可能): Azure が Databricks ワークスペースに必要なインフラストラクチャ リソースをプロビジョニングおよび管理する、自動的に作成されたリソース グループ。

Azure Portal の Azure Databricks のスクリーンショット。

Azure CLI を使用して Azure Databricks デプロイを作成する場合は、次の点に注意する az databricks workspace コマンドになります。

az databricks workspace create
    --resource-group myresourcegroup \
    --name mydatabricksws  \
    --location westus2  \
    --sku standard

同等 の New-AzDatabricksWorkspace PowerShell コマンドレット:

New-AzDatabricksWorkspace -Name mydatabricksws -ResourceGroupName myresourcegroup -Location westus2 -ManagedResourceGroupName databricks-group -Sku standard

Azure Databricks ワークスペースをプロビジョニングしたら、ワークスペース UI を使用してデータとコンピューティング リソースを操作できます。 ワークスペース UI は、Spark クラスターなどのワークスペース リソースを作成および管理したり、ノートブックやクエリを使用してファイルやテーブルのデータを操作したりできる Web ベースのユーザー インターフェイスです。

Azure Databricks ワークスペースのユーザー インターフェイスのスクリーンショット。

ホーム ページには、作業の開始に役立つ一般的なタスクとワークスペース オブジェクトへのショートカットが用意されています。 データのインポート、ノートブックの作成、クエリの作成、AutoML 実験の構成を行うことができます。

サイドバーには、一般的な Databricks カテゴリ (ワークスペース、最近使ったアイテム、カタログ、ジョブとパイプライン、コンピューティング、Marketplace) が表示されます。 その後、製品領域によって分割されます。

  • SQL: SQL エディター、クエリ、ダッシュボード、Genie、アラート、クエリ履歴、SQL Warehouse
  • データ エンジニアリング: ジョブの実行、データ インジェスト
  • 機械学習: プレイグラウンド, 実験, 機能, モデル, サービス

[+ 新規] を選択して次の操作を行います。

  • ノートブック、クエリ、リポジトリ、ダッシュボード、アラート、ジョブ、パイプライン、実験、モデル、サービス エンドポイントなどのワークスペース オブジェクトを作成します。
  • クラスター、SQL ウェアハウス、ML エンドポイントなどのコンピューティング リソースを作成します。

上部のバーを使用して、ノートブック、クエリ、ダッシュボード、アラート、ファイル、フォルダー、ライブラリ、Unity カタログに登録されているテーブル、ジョブ、リポジトリなどのワークスペース オブジェクトを 1 か所で 検索 します。 検索バーで最近表示したオブジェクトにアクセスすることもできます。

ワークスペースは 複数の言語 で使用できます。ワークスペースの言語を変更するには、上部のナビゲーション バーでユーザー名を選択し、[ 設定] を選択して [ 基本設定] タブに移動します。

Databricks Assistant からヘルプを取得する

Databricks Assistant は、ノートブック、ダッシュボード、ファイルで直接コードまたはクエリを生成、説明、修正することで、Databricks でより効率的に作業できるようにする、AI を利用したペア プログラマおよびサポート ツールです。

Azure Databricks Assistant のスクリーンショット。

エラーの特定と修正、データの視覚化の作成、ジョブの問題の診断、自然言語プロンプトを使用したデータのフィルター処理または分析など、さまざまなタスクを支援できます。 アシスタントは、Azure Databricks のドキュメントから関連するガイダンスを表示できます。

Unity カタログ メタデータを使用すると、組織のデータ資産 (テーブル、列、説明) に基づいて応答がカスタマイズされるため、データの探索と操作が容易になります。