トレーニング
認定資格
Microsoft Certified: Azure Data Engineer Associate - Certifications
多数の Azure サービスを使用して、Microsoft Azure で Data Engineering ワークロードを実装および管理するための一般的な Data Engineering タスクに対する理解を示します。
このブラウザーはサポートされなくなりました。
Microsoft Edge にアップグレードすると、最新の機能、セキュリティ更新プログラム、およびテクニカル サポートを利用できます。
この記事では、Azure Databricks ワークスペースを効果的に使用するために理解する必要がある基本的な概念について紹介します。
Azure Databricks では、"ワークスペース" はクラウド内の Azure Databricks デプロイであり、チームが Databricks 資産にアクセスするための環境として機能します。 組織は、ニーズに応じて、保持するワークスペースを複数にするか 1 つのみにするか選べます。
Azure Databricks "アカウント" は、複数のワークスペースを含めることができる 1 つのエンティティを表します。 Unity Catalog に対して有効になっているアカウントを使用すると、アカウント内のすべてのワークスペースでユーザーと各自のデータへのアクセス権を一元的に管理できます。
Azure Databricks の課金は、VM インスタンスの種類に基づく 1 時間あたりの処理能力の単位である Databricks ユニット (DBU) に基づいています。
Azure Databricks の価格に関するページを参照してください。
このセクションでは、Azure Databricks の ID およびその Azure Databricks アセットへのアクセスを管理するために知っておく必要がある概念について説明します。
システムにアクセスできる一意の個人。 ユーザー ID は電子メール アドレスで表されます。 「ユーザーの管理」を参照してください。
ジョブ、自動化ツール、システム (スクリプト、アプリ、CI/CD プラットフォームなど) での使用を目的に作成されたサービス ID です。 サービス プリンシパルは、アプリケーション ID で表されます。 「サービス プリンシパルを管理する」を参照してください。
アイデンティティのコレクション。 グループを使用すると、ID 管理が簡素化され、ワークスペース、データ、およびその他のセキュリティ保護可能なオブジェクトへのアクセスを簡単に割り当てることができます。 すべての Databricks ID は、グループのメンバーとして割り当てることができます。 「グループの管理」を参照してください。
ワークスペース、クラスター、ジョブ、テーブル、または実験に関連付けられたアクセス許可の一覧。 ACL は、オブジェクトへのアクセスを許可されたユーザーまたはシステム プロセスと、アセットに対して許可される操作を指定します。 一般的な ACL の各エントリでは、サブジェクトと操作が指定されます。 「アクセス制御リスト」を参照してください。
個人用アクセス トークンは、REST API 呼び出し、テクノロジ パートナー接続、その他のツールの認証に使用される文字列です。 「Azure Databricks 個人用アクセス トークン認証」をご覧ください。
Microsoft Entra ID トークンを使用して、REST API に対する認証を行うこともできます。
このセクションでは、Azure Databricks 内の資産にアクセスするためのインターフェイスについて説明します。
Azure Databricks UI は、ワークスペース フォルダーとそこに格納されているオブジェクト、データ オブジェクト、計算リソースなどの機能を操作するためグラフィカル インターフェイスです。
Databricks REST API では、Azure Databricks アカウントとワークスペース オブジェクトに関する情報を変更または要求するためのエンドポイントを提供します。 アカウント リファレンスとワークスペース リファレンスに関する記事を参照してください。
SQL オブジェクトに対するタスクを自動化できるようにするための SQL REST API。 SQL API に関するページを参照してください。
Databricks CLI は、GitHub でホストされています。 CLI は、Databricks REST API 上に構築されています。
このセクションでは、Azure Databricks 上のデータを整理および管理するために使用されるツールと論理オブジェクトについて説明します。 Azure Databricks のデータベース オブジェクトのを参照してください。
Unity Catalog は Azure Databricks のデータと AI 資産の統合ガバナンス ソリューションであり、Databricks ワークスペースにわたって一元的なアクセス制御、監査、系列、データ検出の機能を提供します。 「Unity Catalog とは」を参照してください。
カタログは、Azure Databricks でデータを整理および分離するための最上位レベルのコンテナーです。 同じリージョンとアカウント内のワークスペース間でカタログを共有できます。 「Azure Databricks のカタログとは」を参照してください。.
スキーマ (データベースとも呼ばれます) はカタログ内に含まれており、より詳細なレベルの組織を提供します。 ボリューム、テーブル、関数、モデルなどのデータベース オブジェクトと AI 資産が含まれています。 「Azure Databricks のスキーマとは」を参照してください。.
テーブルは、構造化データへのアクセスを整理および管理します。 Apache Spark SQL および Apache Spark API を使用してテーブルに対してクエリを実行します。 「テーブルとは」を参照してください。.
ビューは、1 つ以上のテーブルとビューから派生した読み取り専用オブジェクトです。 ビューは、テーブルに対して定義されたクエリを保存します。 「ビューとは何か」を参照してください。。
ボリュームは、クラウド オブジェクト ストレージの場所にあるストレージの論理ボリュームを表し、表形式以外のデータへのアクセスを整理および管理します。 Databricks では、クラウド オブジェクト ストレージ上の表形式以外のデータへのすべてのアクセスを管理するためにボリュームを使用することをお勧めします。 「Unity カタログのボリュームとは」について参照してください。
既定では、Azure Databricks で作成されたテーブルはすべて Delta テーブルです。 Delta テーブルは Delta Lake オープンソース プロジェクトに基づいており、クラウド オブジェクト ストア上のハイ パフォーマンスな ACID テーブル ストレージ用のフレームワークです。 Delta テーブルは、クラウド オブジェクト ストレージ上のファイルのディレクトリとしてデータを格納し、カタログとスキーマ内のメタストアにテーブル メタデータを登録します。
Delta としてブランド化されたテクノロジに関する詳細を確認してください。
Unity Catalog には、データ、AI、およびカタログ、スキーマ、テーブルに関するアクセス許可に関するメタデータを登録するアカウント レベルのメタストアが用意されています。 メタストアを参照してください。
Azure Databricks には、Unity カタログを採用していないお客様向けの従来の Hive メタストアが用意されています。 「Hive メタストア テーブルのアクセス制御 (レガシ)」を参照してください。
カタログ エクスプローラーでは、スキーマ (データベース)、テーブル、モデル、ボリューム (表形式以外のデータ)、関数、登録済み ML モデルなどのデータと AI 資産を探索および管理できます。 データ オブジェクトや所有者の検索、テーブル間のデータ リレーションシップの把握、アクセス許可と共有の管理に使用できます。 「カタログ エクスプローラーとは」を参照してください。
重要
DBFS ルートまたは DBFS マウントを使用したデータの保存とアクセスは非推奨のパターンであり、Databricks では推奨されません。 代わりに、Databricks では、Unity Catalog を使用してすべてのデータへのアクセスを管理することをお勧めします。 「Unity Catalog とは」を参照してください。
DBFS ルートは、既定ですべてのユーザーが使用できる保存場所です。 「DBFS とは」を参照してください。
このセクションでは、Azure Databricks で計算を実行するために知る必要がある概念について説明します。
ノートブックとジョブを実行する計算リソースと構成のセット。 クラスターには、汎用とジョブの 2 種類があります。 「コンピューティング」を参照してください。
クラスターの開始と自動スケーリングの時間を短縮する、アイドル状態のすぐに使用できるインスタンスのセット。 プールに接続されたクラスターは、そのドライバーとワーカー ノードをプールから割り当てます。 「プール構成リファレンス」を参照してください。
プールに、クラスターの要求に対応するための十分なアイドル状態のリソースがない場合は、インスタンス プロバイダーから新しいインスタンスを割り当てることによってプールが拡張されます。 接続されたクラスターが終了すると、使用されたインスタンスがプールに返され、別のクラスターで再利用できるようになります。
Azure Databricks によって管理されるクラスターで実行されるコア コンポーネントのセット。 「コンピューティング」を参照してください。 Azure Databricks には次のランタイムがあります。
ワークフロー ワークスペース UI には、ワークフローを調整およびスケジュールできるツールであるジョブと DLT パイプラインの UI へのエントリが用意されています。
ノートブック、ライブラリ、その他のタスクを調整およびスケジュールするための非対話型メカニズム。 「Databricks ジョブを使用したオーケストレーション」を参照してください
DLT パイプラインは、信頼性の高い保守可能でテスト可能なデータ処理パイプラインを構築するための宣言型フレームワークを提供します。 「DLT とは」を参照してください。.
ワークロードは、タスクまたはタスク グループを実行するために必要な処理能力の量です。 Azure Databricks では、2 種類のワークロード (Data Engineering (ジョブ) と Data Analytics (汎用)) が識別されます。
サポートされている各プログラミング言語の read–eval–print loop (REPL) 環境の状態。 サポートされている言語は、Python、R、Scala、SQL です。
Data Engineering ツールは、データ サイエンティスト、データ エンジニア、データ アナリスト、機械学習エンジニア間のコラボレーションを促進します。
ワークスペースは、すべての Azure Databricks アセットにアクセスするための環境です。 ワークスペースでは、オブジェクト (ノートブック、ライブラリ、ダッシュボード、実験) がフォルダーに整理され、データ オブジェクトおよび計算リソースへのアクセスが提供されます。
実行可能なコマンド、視覚化、説明テキストを含めることができる、データ サイエンスと機械学習のワークフローを作成するための Web ベースのインターフェイス。 「Databricks ノートブックの概要」を参照してください。
クラスターで実行するノートブックまたはジョブで使用できるコードのパッケージ。 Databricks ランタイムには多数のライブラリが含まれており、独自のものもアップロードできます。 ライブラリをご参照ください。
リモート Git リポジトリに同期することでコンテンツが共同でバージョン管理されるフォルダー。 Databricks Git フォルダーは Git と統合され、プロジェクトのソースとバージョン コントロールを提供します。
Databricks は、AI および 機械学習アプリケーションの開発とデプロイのためのマネージド サービスを備えた、統合されたエンドツーエンド環境を提供します。
Databricks Mosaic AI Research の研究者およびエンジニアのチームによって生成された、各種製品とサービスのブランド名です。このチームは、生成AIにおけるDatabricksの最大の飛躍を成し遂げました。 Mosaic AI 製品には、Databricks の ML および AI 機能が含まれます。 「Mosaic Research」を参照してください。
ML および AI モデルの開発を支援するため、Databricks には、Databricks Runtime for Machine Learning が用意されており、最も一般的な ML および DL ライブラリを含む、事前に構築された機械学習とディープ ラーニング インフラストラクチャを使用してコンピューティングの作成を自動化します。 また、ドライバーやサポート ライブラリを含む、組み込みの事前に構成された GPU サポートも提供します。 最新のランタイム リリースに関する情報については、「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。
機械学習モデルをトレーニングするための MLflow 実行のコレクション。 「MLflow 実験を使用してトレーニング実行を整理する」を参照してください。
特徴量は ML モデルの重要なコンポーネントです。 特徴量ストアを使用すると、組織全体で特徴の共有と検出が可能になり、またモデルのトレーニングと推論に同じ特徴計算コードが使用されるようになります。 「特徴エンジニアリングとサービス提供」を参照してください。
Databricks では、次のような生成 AI モデルの探索、開発、デプロイがサポートされています。
Databricks は、Unity Catalog 内でホステッド バージョンの MLflow モデル レジストリを提供しています。 Unity Catalog に登録されたモデルは、一元化されたアクセスの制御、データ系列、クロスワークスペースの検出とアクセスを継承します。 「Unity Catalog 内でモデル ライフサイクルを管理する」をご覧ください。
Mosaic AI Model Serving には、AI モデルのデプロイ、管理、クエリを行うための統一インターフェイスが用意されています。 提供する各モデルは、Web またはクライアント アプリケーションに統合できる REST API として使用できます。 Mosaic AI Model Serving を使用すると、独自のモデル、基盤モデル、または Databricks の外部でホストされているサードパーティ モデルをデプロイできます。 モザイク AI モデルサービングを使用してモデルをデプロイするを参照してください。
データ ウェアハウスとは、複数のソースからデータを収集して格納し、すばやくアクセスしてビジネス上の分析情報やレポートを利用できるようにすることを指します。 Databricks SQL は、既存のデータ レイクにデータ ウェアハウス機能とパフォーマンス向上をもたらすサービスのコレクションです。 「Azure Databricks のデータ ウェアハウスとは」を参照してください。
クエリは、ユーザーがデータを操作できるようにする有効な SQL ステートメントです。 プラットフォーム内 SQL エディターを使用してクエリを作成するか、SQL コネクタ、ドライバー、または API ツールを使用して接続できます。 クエリを操作する方法の詳細については、「保存されたクエリにアクセスして管理する」を参照してください。
SQL クエリを実行する計算リソース。 SQL ウェアハウスには、クラシック、プロ、サーバーレスの 3 種類があります。 Azure Databricks では、使用可能な場合はサーバーレス ウェアハウスを使用することをお勧めします。 ウェアハウスの各種類で使用可能な機能を比較するには、「SQL ウェアハウスの種類」を参照してください。
実行されたクエリとそのパフォーマンス特性の一覧。 クエリ履歴を使用すると、クエリのパフォーマンスを監視できるため、ボトルネックを特定してクエリのランタイムを最適化することができます。 「クエリ履歴」を参照してください。
クエリの実行結果のグラフィカルな表示。 「Azure Databricks ノートブックでの視覚化」を参照してください。
データの可視化と解説の提示。 ダッシュボードを使用すると、Azure Databricks アカウント内のすべてのユーザーにレポートを自動的に送信できます。 Databricks Assistant を使用すると、自然言語プロンプトに基づいて視覚化を構築できます。 「ダッシュボード」を参照してください。 ノートブックからダッシュボードを作成することもできます。 「ノートブック内のダッシュボード」を参照してください。
レガシ ダッシュボードについては、「レガシ ダッシュボード」を参照してください。
重要
サポート終了タイムライン:
2025 年 4 月 7 日: レガシ バージョンのダッシュボードの公式サポートが終了します。 重大なセキュリティの問題とサービスの停止のみが対処されます。
2025 年 11 月 3 日: Databricks では、過去 6 か月間アクセスされていないレガシ ダッシュボードのアーカイブを開始します。 アーカイブされたダッシュボードにはアクセスできなくなり、アーカイブ プロセスはローリング ベースで行われます。 アクティブに使用されるダッシュボードへのアクセスは変更されません。
Databricks は、2025 年 11 月 3 日以降、お客様と協力して、アクティブなレガシ ダッシュボードの移行計画を策定する予定です。
移行ツールまたは REST API を使用して、レガシ ダッシュボードを変換します。 組み込み移行ツールの使用方法については、「レガシ ダッシュボードを AI/BI ダッシュボードに複製する」を参照してください。 REST API を使用したダッシュボードの作成と管理に関するチュートリアルについては、ダッシュボードのチュートリアルを参照してください。
トレーニング
認定資格
Microsoft Certified: Azure Data Engineer Associate - Certifications
多数の Azure サービスを使用して、Microsoft Azure で Data Engineering ワークロードを実装および管理するための一般的な Data Engineering タスクに対する理解を示します。
ドキュメント
Azure Databricks アーキテクチャの概要 - Azure Databricks
クラウド プロバイダーと組み合わせたエンタープライズ アーキテクチャなど、Azure Databricks アーキテクチャの概要について説明します。
Azure Databricks の Delta とは何ですか? - Azure Databricks
'“Delta” と呼ばれる、次の Databricks テクノロジについて説明します: Delta 共有、Delta Lake、Delta ログ、Delta テーブル、Delta ライブ テーブル'。
データ ソースに接続する - Azure Databricks
ストレージと外部データ システムを Azure Databricks ワークスペースに接続する方法について説明します。