Azure Databricks の概念

[アーティクル]
2025/01/28

この記事では、Azure Databricks ワークスペースを効果的に使用するために理解する必要がある基本的な概念について紹介します。

アカウントとワークスペース

Azure Databricks では、"ワークスペース" はクラウド内の Azure Databricks デプロイであり、チームが Databricks 資産にアクセスするための環境として機能します。組織は、ニーズに応じて、保持するワークスペースを複数にするか 1 つのみにするか選べます。

Azure Databricks "アカウント" は、複数のワークスペースを含めることができる 1 つのエンティティを表します。 Unity Catalog に対して有効になっているアカウントを使用すると、アカウント内のすべてのワークスペースでユーザーと各自のデータへのアクセス権を一元的に管理できます。

課金: Databricks のユニット (DBU)

Azure Databricks の課金は、VM インスタンスの種類に基づく 1 時間あたりの処理能力の単位である Databricks ユニット (DBU) に基づいています。

Azure Databricks の価格に関するページを参照してください。

認証と権限承認

このセクションでは、Azure Databricks の ID およびその Azure Databricks アセットへのアクセスを管理するために知っておく必要がある概念について説明します。

ユーザー

システムにアクセスできる一意の個人。ユーザー ID は電子メールアドレスで表されます。「ユーザーの管理」を参照してください。

サービスプリンシパル

ジョブ、自動化ツール、システム (スクリプト、アプリ、CI/CD プラットフォームなど) での使用を目的に作成されたサービス ID です。サービスプリンシパルは、アプリケーション ID で表されます。「サービスプリンシパルを管理する」を参照してください。

グループ

アイデンティティのコレクション。グループを使用すると、ID 管理が簡素化され、ワークスペース、データ、およびその他のセキュリティ保護可能なオブジェクトへのアクセスを簡単に割り当てることができます。すべての Databricks ID は、グループのメンバーとして割り当てることができます。「グループの管理」を参照してください。

アクセス制御リスト (ACL)

ワークスペース、クラスター、ジョブ、テーブル、または実験に関連付けられたアクセス許可の一覧。 ACL は、オブジェクトへのアクセスを許可されたユーザーまたはシステムプロセスと、アセットに対して許可される操作を指定します。一般的な ACL の各エントリでは、サブジェクトと操作が指定されます。「アクセス制御リスト」を参照してください。

個人用アクセストークン (PAT)

個人用アクセストークンは、REST API 呼び出し、テクノロジパートナー接続、その他のツールの認証に使用される文字列です。「Azure Databricks 個人用アクセストークン認証」をご覧ください。

Microsoft Entra ID トークンを使用して、REST API に対する認証を行うこともできます。

Azure Databricks のインターフェイス

このセクションでは、Azure Databricks 内の資産にアクセスするためのインターフェイスについて説明します。

ユーザーインターフェース

Azure Databricks UI は、ワークスペースフォルダーとそこに格納されているオブジェクト、データオブジェクト、計算リソースなどの機能を操作するためグラフィカルインターフェイスです。

REST API

Databricks REST API では、Azure Databricks アカウントとワークスペースオブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。アカウントリファレンスとワークスペースリファレンスに関する記事を参照してください。

SQL REST API

SQL オブジェクトに対するタスクを自動化できるようにするための SQL REST API。 SQL API に関するページを参照してください。

コマンドラインインターフェース (CLI)

Databricks CLI は、GitHub でホストされています。 CLI は、Databricks REST API 上に構築されています。

データ管理

このセクションでは、Azure Databricks 上のデータを整理および管理するために使用されるツールと論理オブジェクトについて説明します。 Azure Databricks のデータベースオブジェクトのを参照してください。

Unity Catalog

Unity Catalog は Azure Databricks のデータと AI 資産の統合ガバナンスソリューションであり、Databricks ワークスペースにわたって一元的なアクセス制御、監査、系列、データ検出の機能を提供します。「Unity Catalog とは」を参照してください。

カタログ

カタログは、Azure Databricks でデータを整理および分離するための最上位レベルのコンテナーです。同じリージョンとアカウント内のワークスペース間でカタログを共有できます。「Azure Databricks のカタログとは」を参照してください。.

スキーマ

スキーマ (データベースとも呼ばれます) はカタログ内に含まれており、より詳細なレベルの組織を提供します。ボリューム、テーブル、関数、モデルなどのデータベースオブジェクトと AI 資産が含まれています。「Azure Databricks のスキーマとは」を参照してください。.

テーブル

テーブルは、構造化データへのアクセスを整理および管理します。 Apache Spark SQL および Apache Spark API を使用してテーブルに対してクエリを実行します。「テーブルとは」を参照してください。.

表示

ビューは、1 つ以上のテーブルとビューから派生した読み取り専用オブジェクトです。ビューは、テーブルに対して定義されたクエリを保存します。「ビューとは何か」を参照してください。。

ボリューム

ボリュームは、クラウドオブジェクトストレージの場所にあるストレージの論理ボリュームを表し、表形式以外のデータへのアクセスを整理および管理します。 Databricks では、クラウドオブジェクトストレージ上の表形式以外のデータへのすべてのアクセスを管理するためにボリュームを使用することをお勧めします。「Unity カタログのボリュームとは」について参照してください。

Delta テーブル

既定では、Azure Databricks で作成されたテーブルはすべて Delta テーブルです。 Delta テーブルは Delta Lake オープンソースプロジェクトに基づいており、クラウドオブジェクトストア上のハイパフォーマンスな ACID テーブルストレージ用のフレームワークです。 Delta テーブルは、クラウドオブジェクトストレージ上のファイルのディレクトリとしてデータを格納し、カタログとスキーマ内のメタストアにテーブルメタデータを登録します。

Delta としてブランド化されたテクノロジに関する詳細を確認してください。

メタストア

Unity Catalog には、データ、AI、およびカタログ、スキーマ、テーブルに関するアクセス許可に関するメタデータを登録するアカウントレベルのメタストアが用意されています。メタストアを参照してください。

Azure Databricks には、Unity カタログを採用していないお客様向けの従来の Hive メタストアが用意されています。「Hive メタストアテーブルのアクセス制御 (レガシ)」を参照してください。

カタログエクスプローラー

カタログエクスプローラーでは、スキーマ (データベース)、テーブル、モデル、ボリューム (表形式以外のデータ)、関数、登録済み ML モデルなどのデータと AI 資産を探索および管理できます。データオブジェクトや所有者の検索、テーブル間のデータリレーションシップの把握、アクセス許可と共有の管理に使用できます。「カタログエクスプローラーとは」を参照してください。

DBFS ルート

重要

DBFS ルートまたは DBFS マウントを使用したデータの保存とアクセスは非推奨のパターンであり、Databricks では推奨されません。代わりに、Databricks では、Unity Catalog を使用してすべてのデータへのアクセスを管理することをお勧めします。「Unity Catalog とは」を参照してください。

DBFS ルートは、既定ですべてのユーザーが使用できる保存場所です。「DBFS とは」を参照してください。

計算管理

このセクションでは、Azure Databricks で計算を実行するために知る必要がある概念について説明します。

クラスター

ノートブックとジョブを実行する計算リソースと構成のセット。クラスターには、汎用とジョブの 2 種類があります。「コンピューティング」を参照してください。

"汎用クラスター" は UI、CLI、または REST API を使用して作成します。汎用クラスターは手動で終了および再起動できます。複数のユーザーでこのようなクラスターを共有して、共同作業による対話型分析を行うことができます。
Azure Databricks ジョブスケジューラーでは、新しいジョブクラスターでジョブを実行すると、ジョブクラスターが作成され、ジョブが完了するとクラスターが終了します。ジョブクラスターを再起動することは "できません"。

プール

クラスターの開始と自動スケーリングの時間を短縮する、アイドル状態のすぐに使用できるインスタンスのセット。プールに接続されたクラスターは、そのドライバーとワーカーノードをプールから割り当てます。「プール構成リファレンス」を参照してください。

プールに、クラスターの要求に対応するための十分なアイドル状態のリソースがない場合は、インスタンスプロバイダーから新しいインスタンスを割り当てることによってプールが拡張されます。接続されたクラスターが終了すると、使用されたインスタンスがプールに返され、別のクラスターで再利用できるようになります。

Databricks Runtime

Azure Databricks によって管理されるクラスターで実行されるコアコンポーネントのセット。「コンピューティング」を参照してください。 Azure Databricks には次のランタイムがあります。

Databricks Runtime には Apache Spark が含まれていますが、ビッグデータ分析の使いやすさ、パフォーマンス、セキュリティを大幅に向上させる多くのコンポーネントと更新プログラムも追加されています。
Databricks Runtime for Machine Learning は Databricks Runtime 上に構築されており、Azure Databricks ワークスペースのすべての機能と統合された事前構築済みの機械学習インフラストラクチャを提供します。 TensorFlow、Keras、PyTorch、XGBoost など、複数の一般的なライブラリが含まれています。

ワークフロー

ワークフロー ワークスペース UI には、ワークフローを調整およびスケジュールできるツールであるジョブと DLT パイプラインの UI へのエントリが用意されています。

仕事

ノートブック、ライブラリ、その他のタスクを調整およびスケジュールするための非対話型メカニズム。「Databricks ジョブを使用したオーケストレーション」を参照してください

パイプライン

DLT パイプラインは、信頼性の高い保守可能でテスト可能なデータ処理パイプラインを構築するための宣言型フレームワークを提供します。「DLT とは」を参照してください。.

ワークロード

ワークロードは、タスクまたはタスクグループを実行するために必要な処理能力の量です。 Azure Databricks では、2 種類のワークロード (Data Engineering (ジョブ) と Data Analytics (汎用)) が識別されます。

Data Engineering (自動化された) ワークロードは、各ワークロード用に Azure Databricks ジョブスケジューラにより作成される "ジョブクラスター" で実行されます。
Data Analytics (対話型) ワークロードは、"汎用クラスター" で実行されます。対話型ワークロードは、通常、Azure Databricks ノートブック内でコマンドを実行します。ただし、"既存の汎用" クラスターで "ジョブ" を実行する場合も、対話型ワークロードとして扱われます。

実行コンテキスト

サポートされている各プログラミング言語の read–eval–print loop (REPL) 環境の状態。サポートされている言語は、Python、R、Scala、SQL です。

データ工学

Data Engineering ツールは、データサイエンティスト、データエンジニア、データアナリスト、機械学習エンジニア間のコラボレーションを促進します。

ワークスペース

ワークスペースは、すべての Azure Databricks アセットにアクセスするための環境です。ワークスペースでは、オブジェクト (ノートブック、ライブラリ、ダッシュボード、実験) がフォルダーに整理され、データオブジェクトおよび計算リソースへのアクセスが提供されます。

ノートブック

実行可能なコマンド、視覚化、説明テキストを含めることができる、データサイエンスと機械学習のワークフローを作成するための Web ベースのインターフェイス。「Databricks ノートブックの概要」を参照してください。

ライブラリ

クラスターで実行するノートブックまたはジョブで使用できるコードのパッケージ。 Databricks ランタイムには多数のライブラリが含まれており、独自のものもアップロードできます。ライブラリをご参照ください。

Git フォルダー (旧称 Repos)

リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理されるフォルダー。 Databricks Git フォルダーは Git と統合され、プロジェクトのソースとバージョンコントロールを提供します。

AI と機械学習

Databricks は、AI および機械学習アプリケーションの開発とデプロイのためのマネージドサービスを備えた、統合されたエンドツーエンド環境を提供します。

Mosaic AI

Databricks Mosaic AI Research の研究者およびエンジニアのチームによって生成された、各種製品とサービスのブランド名です。このチームは、生成AIにおけるDatabricksの最大の飛躍を成し遂げました。 Mosaic AI 製品には、Databricks の ML および AI 機能が含まれます。「Mosaic Research」を参照してください。

機械学習ランタイム

ML および AI モデルの開発を支援するため、Databricks には、Databricks Runtime for Machine Learning が用意されており、最も一般的な ML および DL ライブラリを含む、事前に構築された機械学習とディープラーニングインフラストラクチャを使用してコンピューティングの作成を自動化します。また、ドライバーやサポートライブラリを含む、組み込みの事前に構成された GPU サポートも提供します。最新のランタイムリリースに関する情報については、「Databricks Runtime リリースノートのバージョンと互換性」を参照してください。

実験

機械学習モデルをトレーニングするための MLflow 実行のコレクション。「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。

特徴量

特徴量は ML モデルの重要なコンポーネントです。特徴量ストアを使用すると、組織全体で特徴の共有と検出が可能になり、またモデルのトレーニングと推論に同じ特徴計算コードが使用されるようになります。「特徴エンジニアリングとサービス提供」を参照してください。

生成的AIモデル

Databricks では、次のような生成 AI モデルの探索、開発、デプロイがサポートされています。

AI プレイグラウンド。ワークスペース内で LLM をテストしたり、プロンプト入力したり、比較したりできるチャットのような環境です。 AI Playground を使用して LLM とチャットし、生成 AI アプリのプロトタイプを作成するを参照してください。
クエリを実行できる、事前構成済みの基盤モデルの組み込みセット:
- 「Foundation Model API のトークン単位の支払い」を参照してください。
- シングルクリックで提供できる基礎モデルについては、「[推奨] Unity カタログから基盤モデルをデプロイする」を参照してください。
外部モデルと呼ばれるサードパーティでホストされる LLM。これらのモデルは、そのまま使用することを前提としています。
基盤モデルをカスタマイズして、特定のアプリケーションのパフォーマンスを最適化する機能 (多くの場合、微調整と呼ばれます)。「 Foundation Model Fine-tuning」を参照してください。

モデルレジストリ

Databricks は、Unity Catalog 内でホステッドバージョンの MLflow モデルレジストリを提供しています。 Unity Catalog に登録されたモデルは、一元化されたアクセスの制御、データ系列、クロスワークスペースの検出とアクセスを継承します。「Unity Catalog 内でモデルライフサイクルを管理する」をご覧ください。

Model Serving

Mosaic AI Model Serving には、AI モデルのデプロイ、管理、クエリを行うための統一インターフェイスが用意されています。提供する各モデルは、Web またはクライアントアプリケーションに統合できる REST API として使用できます。 Mosaic AI Model Serving を使用すると、独自のモデル、基盤モデル、または Databricks の外部でホストされているサードパーティモデルをデプロイできます。モザイク AI モデルサービングを使用してモデルをデプロイするを参照してください。

データウェアハウジング

データウェアハウスとは、複数のソースからデータを収集して格納し、すばやくアクセスしてビジネス上の分析情報やレポートを利用できるようにすることを指します。 Databricks SQL は、既存のデータレイクにデータウェアハウス機能とパフォーマンス向上をもたらすサービスのコレクションです。「Azure Databricks のデータウェアハウスとは」を参照してください。

クエリ

クエリは、ユーザーがデータを操作できるようにする有効な SQL ステートメントです。プラットフォーム内 SQL エディターを使用してクエリを作成するか、SQL コネクタ、ドライバー、または API ツールを使用して接続できます。クエリを操作する方法の詳細については、「保存されたクエリにアクセスして管理する」を参照してください。

SQL ウェアハウス

SQL クエリを実行する計算リソース。 SQL ウェアハウスには、クラシック、プロ、サーバーレスの 3 種類があります。 Azure Databricks では、使用可能な場合はサーバーレスウェアハウスを使用することをお勧めします。ウェアハウスの各種類で使用可能な機能を比較するには、「SQL ウェアハウスの種類」を参照してください。

クエリの履歴

実行されたクエリとそのパフォーマンス特性の一覧。クエリ履歴を使用すると、クエリのパフォーマンスを監視できるため、ボトルネックを特定してクエリのランタイムを最適化することができます。「クエリ履歴」を参照してください。

視覚化

クエリの実行結果のグラフィカルな表示。「Azure Databricks ノートブックでの視覚化」を参照してください。

ダッシュボード

データの可視化と解説の提示。ダッシュボードを使用すると、Azure Databricks アカウント内のすべてのユーザーにレポートを自動的に送信できます。 Databricks Assistant を使用すると、自然言語プロンプトに基づいて視覚化を構築できます。「ダッシュボード」を参照してください。ノートブックからダッシュボードを作成することもできます。「ノートブック内のダッシュボード」を参照してください。

レガシダッシュボードについては、「レガシダッシュボード」を参照してください。

重要

Databricks では、AI/BI ダッシュボード (旧称 Lakeview ダッシュボード) を使用することを推奨しています。以前のバージョンのダッシュボード (以前は Databricks SQL ダッシュボードと呼ばられていた) は、 legacy ダッシュボードと呼ばれるようになりました。 Databricks は、新しいレガシダッシュボードの作成を推奨していません。

サポート終了タイムライン:

2025 年 4 月 7 日: レガシバージョンのダッシュボードの公式サポートが終了します。重大なセキュリティの問題とサービスの停止のみが対処されます。
2025 年 11 月 3 日: Databricks では、過去 6 か月間アクセスされていないレガシダッシュボードのアーカイブを開始します。アーカイブされたダッシュボードにはアクセスできなくなり、アーカイブプロセスはローリングベースで行われます。アクティブに使用されるダッシュボードへのアクセスは変更されません。

Databricks は、2025 年 11 月 3 日以降、お客様と協力して、アクティブなレガシダッシュボードの移行計画を策定する予定です。
移行ツールまたは REST API を使用して、レガシダッシュボードを変換します。組み込み移行ツールの使用方法については、「レガシダッシュボードを AI/BI ダッシュボードに複製する」を参照してください。 REST API を使用したダッシュボードの作成と管理に関するチュートリアルについては、ダッシュボードのチュートリアルを参照してください。

その他のリソース

ドキュメント

Azure Databricks アーキテクチャの概要 - Azure Databricks

クラウドプロバイダーと組み合わせたエンタープライズアーキテクチャなど、Azure Databricks アーキテクチャの概要について説明します。
Azure Databricks の Delta とは何ですか? - Azure Databricks

'“Delta” と呼ばれる、次の Databricks テクノロジについて説明します: Delta 共有、Delta Lake、Delta ログ、Delta テーブル、Delta ライブテーブル'。
データソースに接続する - Azure Databricks

ストレージと外部データシステムを Azure Databricks ワークスペースに接続する方法について説明します。
Azure Databricks lakehouse にデータを取り込む - Azure Databricks

Delta Lake がサポートする Lakehouse にデータを取り込むためのサポートされている方法について、データソースや待機時間などの条件に基づいて使用するツールに関するガイダンスを参照してください。
Azure Databricks のデータベースオブジェクト - Azure Databricks

Azure Databricks のカタログ、スキーマ、テーブル、ボリューム、ビューなどのデータベースオブジェクトについて説明します。

トレーニング

モジュール

Azure Databricks で SQL Warehouse を使用する - Training

Azure Databricks で SQL Warehouse を使用する

認定資格

Microsoft Certified: Azure Data Engineer Associate - Certifications

多数の Azure サービスを使用して、Microsoft Azure で Data Engineering ワークロードを実装および管理するための一般的な Data Engineering タスクに対する理解を示します。

AI Skills Fest

次の方法で共有