データガイド

Databricks Data Intelligence Platform を使用すると、組織全体のデータ担当者は、安全に管理された共有データ資産やツールを使用して共同作業し、データソリューションを運用できます。

この記事は、ユースケースの正しい開始点を特定するのに役立ちます。

Azure Databricks の多くのタスクには、昇格されたアクセス許可が必要です。多くの組織では、これらの昇格されたアクセス許可を少数のユーザーまたはチームに制限しています。この記事では、大部分のワークスペースユーザーが実行できるアクションと、特権ユーザーに限定されたアクションとを明確に区別します。

ワークスペース管理者は、ユーザーが要求する必要があるのが資産へのアクセス権であるか、昇格されたアクセス許可であるかを判断するのを支援できます。

データの検索とアクセス

このセクションでは、使用可能なデータ資産の検出に役立つタスクの概要について説明します。これらの大部分のタスクでは、管理者がデータ資産に対するアクセス許可を構成していることを前提としています。「データアクセスを構成する」を参照してください。

機能領域	Resources
データ検出	データ検出タスクの詳細な概要については、「データの検出」を参照してください。
Catalogs	カタログは、Unity Catalog データガバナンスモデルの最上位のオブジェクトです。カタログエクスプローラーを使用して、テーブル、ビューなどのデータ資産を見つけます。「データベースオブジェクトを探索する」を参照してください。標準カタログには、Unity Catalog のスキーマ、テーブル、ボリューム、モデル、およびその他のデータベースオブジェクトが含まれています。「カタログの作成」を参照してください。外部カタログには、外部システムからのフェデレーションテーブルが含まれています。「外部カタログの管理と操作」を参照してください。 `hive_metastore` カタログオブジェクトには、データガバナンスのために Unity Catalog ではなく、組み込みのレガシ Hive メタストアを使用するテーブルが含まれています。 Unity カタログと共に従来の Hive メタストアを操作するを参照してください。
接続ストレージ	コンピューティングリソースにアクセスできる場合は、組み込みコマンドを使用して、接続ストレージ内のファイルを探索できます。「ストレージを探索してデータファイルを見つける」を参照してください。
ローカルファイルをアップロードする	既定で、ユーザーには、CSV などの小さなデータファイルをローカルコンピューターからアップロードするためのアクセス許可があります。「ファイルのアップロードを使用してテーブルを作成または変更する」を参照してください。

データの処理

このセクションでは、一般的なデータタスクの概要と、それらのタスクの実行に使用されるツールの概要を示します。

説明されているすべてのタスクについて、ユーザーには、ツール、コンピューティングリソース、データ、その他のワークスペース成果物に対する適切なアクセス許可が必要です。「データアクセスを構成する」および「ワークスペースとインフラストラクチャーを構成する」を参照してください。

機能領域	Resources
データベースオブジェクト	Azure Databricks では、テーブルとビューに加えて、ボリュームなどの他のセキュリティ保護可能なデータベースオブジェクトを使用して、データを安全に管理します。 Azure Databricks のデータベースオブジェクトのを参照してください。
データのアクセス許可	Unity Catalog は、有効なワークスペースにおけるすべての読み取り操作と書き込み操作を制御します。これらの操作を完了するには、適切なアクセス許可が必要です。「Unity Catalog のセキュリティ保護可能なオブジェクト」を参照してください。
ETL	抽出、変換、読み込み (ETL) ワークロードは、Apache Spark と Azure Databricks の最も一般的な用途の 1 つであり、ほとんどのプラットフォームには ETL 用に構築および最適化された機能があります。「チュートリアル: Lakeflow Spark 宣言パイプラインを使用して ETL パイプラインを構築する」を参照してください。
Queries	すべての変換、レポート、分析、またはモデルトレーニングの実行は、テーブル、ビュー、またはデータファイルに対するクエリで始まります。バッチ処理またはストリーム処理のどちらかを使用してデータのクエリを実行できます。「データのクエリ」を参照してください。 SQL クエリエディターまたはノートブックを使用してアドホッククエリを実行して、テーブル、ビューなどのデータ資産にクエリを実行します。新しい SQL エディターと Databricks ノートブックでのクエリの記述とデータの探索に関する説明を参照してください。
ダッシュボードと分析情報	AI/BI ダッシュボードを使用すると、UI で分析情報を簡単に抽出して視覚化できます。「ダッシュボード」を参照してください。 Genie スペースでは、テキストプロンプトを使用して質問に回答し、データから得られる分析情報を提供します。「AI/BI Genie スペースとは」を参照してください。
Ingest	Lakeflow Connect は、一般的な外部システムからデータを取り込みます。「Lakeflow Connect のマネージドコネクタ」を参照してください。自動ローダーは、Lakeflow Spark 宣言パイプラインまたは構造化ストリーミングジョブと共に使用して、クラウドオブジェクトストレージからデータを増分的に取り込むことができます。「自動ローダー」を参照してください。 Lakeflow Spark 宣言パイプラインまたは構造化ストリーミングを使用して、Kafka などのメッセージキューからデータを取り込むことができます。「ストリーミングデータに対してクエリを実行する」を参照してください。
Transformations	Azure Databricks では、SQL CTAS ステートメントから準リアルタイムのストリーミングアプリケーションまで複雑さが異なる変換に共通の構文とツールが使用されます。 DDL と DML の SQL クエリの使用については、「保存されたクエリにアクセスして管理する」を参照してください。 PySpark の概要については、「Azure Databricks の PySpark」を参照してください。構造化ストリーミングの詳細については、「構造化ストリーミングの概念」を参照してください。
AI と機械学習	Databricks Data Intelligence Platform には、データサイエンス、機械学習、AI アプリケーション用の一連のツールが用意されています。「Databricks での AI および機械学習」を参照してください。

データアクセスを構成する

ほとんどの Azure Databricks ワークスペースでは、ワークスペース管理者などのパワーユーザーを利用して、外部データソースへの接続を構成し、チームメンバーシップ、リージョン、ロールに基づいてデータ資産に特権を適用します。このセクションでは、昇格されたアクセス許可を必要とするデータアクセスを構成および制御するための一般的なタスクの概要について説明します。

Note

データソースへの新しい接続を構成するために昇格されたアクセス許可を要求する前に、既存の接続、カタログ、またはテーブルに対する特権が不足しているかどうかを確認してください。データソースが使用できない場合は、ワークスペースに新しいデータを追加するポリシーについて組織に問い合わせてください。

機能領域	Resources
Unity カタログ	Unity Catalog では、Databricks Data Intelligence Platform に組み込まれているデータガバナンス機能が強化されます。「Unity Catalog とは」を参照してください。 Databricks アカウント管理者、ワークスペース管理者、メタストア管理者には、ユーザーの Unity Catalog データ特権を管理するための既定の特権があります。「Unity Catalog の特権の管理」を参照してください。
接続とアクセス	クラウドオブジェクトストレージとのセキュリティで保護された接続を構成することは、重要なアクティビティであり、ほぼすべての管理者とエンドユーザー関連タスクの前提条件です。 Unity カタログを使用したクラウドオブジェクトストレージへの接続を参照してください。 Lakehouse フェデレーションを使用して外部システムとの接続を構成します。クエリフェデレーション設定の概要を参照してください。 Unity Catalog はデータガバナンスを拡張して、オープンソース API を使用して外部システムからのアクセスを提供します。外部システムを使用して Databricks データにアクセスするを参照してください。サービス資格情報を使用すると、管理者は、クラウドプロバイダーで定義されるアクセス許可を Unity Catalog にリンクして、統合システムでワークロードを開発するときにこれらの資格情報をユーザーが利用できるようにすることができます。「サービス資格情報の作成」を参照してください。
Sharing	Delta Sharing は、Databricks Marketplace や Clean Rooms を含む、Azure Databricks のセキュリティで保護されたデータ共有プラットフォーの中核となるものです。「データと AI 資産を他組織のユーザーと安全に共有する」を参照してください。管理者は新しいカタログを作成できます。カタログは、データ分離のための高度な抽象化を提供し、個々のワークスペースに関連付けるか、アカウント内のすべてのワークスペース間で共有することができます。「カタログの作成」を参照してください。AI/BI ダッシュボードでは、公開時に所有者が資格情報を埋め込むように促し、閲覧者が共有された結果から分析情報を得られるようにします。詳しくは、「ダッシュボードを共有する」をご覧ください。

ワークスペースとインフラストラクチャを構成する

このセクションでは、ワークスペース資産とインフラストラクチャの管理に関連する一般的なタスクの概要について説明します。広く定義すると、ワークスペース資産には次のものが含まれます。

コンピューティングリソース: コンピューティングリソースには、汎用対話型クラスター、SQL ウェアハウス、ジョブクラスター、パイプラインコンピューティングが含まれます。ユーザーまたはワークロードには、指定されたロジックを処理するために、実行中のコンピューティングリソースに接続するアクセス許可が必要です。

Note

コンピューティングリソースに接続するアクセス権がないユーザーは、Azure Databricks の機能が非常に制限されています。
プラットフォームツール: Databricks Data Intelligence Platform には、ノートブック、Databricks SQL、Mosaic AI など、さまざまなユースケースとペルソナに合わせて調整された一連のツールが用意されています。管理者は、これらの多くのツールに対する既定の動作、オプション機能、ユーザーアクセスを含む設定をカスタマイズできます。
成果物: 成果物には、ノートブック、クエリ、ダッシュボード、ファイル、ライブラリ、パイプライン、ジョブが含まれます。成果物には、ユーザーがデータに対して必要なアクションを実行するために作成するコードと構成が含まれます。

Important

ワークスペース資産を作成するユーザーには、既定で所有者ロールが割り当てられます。ほとんどの資産では、所有者はワークスペース内の他のユーザーまたはグループにアクセス許可を付与できます。

データとコードを確実にセキュリティで保護するために、Databricks では、運用ワークスペースにデプロイされるすべての成果物とコンピューティングリソースに対して所有者ロールを構成することをお勧めします。

機能領域	Resources
ワークスペースの権利	ワークスペースのエンタイトルメントには、基本的なワークスペースアクセス、Databricks SQL へのアクセス、無制限のクラスター作成が含まれます。「エンタイトルメントを管理する」を参照してください。
コンピューティングリソースのアクセスとポリシー	Azure Databricks のほとんどのコストは、コンピューティングリソースに対するものです。さまざまなリソースを構成、デプロイ、開始、使用できるユーザーを制御することは、コストの制御に不可欠です。クラシックコンピューティングの概要を参照してください。コンピューティングポリシーは、ワークスペースコンピューティングエンタイトルメントと連携して機能し、権利のあるユーザーのみが、指定の構成ルールに従ってコンピューティングリソースをデプロイすることを確実にします。「コンピューティングポリシーの作成と管理」を参照してください。管理者は、既定の動作、データアクセスポリシー、および SQL ウェアハウスへのユーザーアクセスを構成できます。「SQL ウェアハウスの管理者設定」を参照してください。
プラットフォームツール	管理コンソールを使用して、ワークスペースの外観のカスタマイズから、製品や機能の有効化や無効化までにわたる動作を構成します。「ワークスペースを管理する」を参照してください。
ワークスペース ACL	ワークスペースのアクセス制御リスト (ACL) は、ユーザーとグループがコンピューティングリソース、コード成果物、ジョブなどのワークスペース資産と対話する方法を制御します。「アクセス制御リスト」を参照してください。

ワークロードの運用化

すべての Azure Databricks 製品は、開発から運用までのパスを短縮し、スケーリングと安定性を実現するように構築されています。このセクションでは、ワークロードを運用環境に移行するために推奨される一連のツールについて簡単に説明します。

機能領域	Resources
ETL パイプライン	Lakeflow Spark 宣言型パイプラインには、ETL パイプラインを構築および運用するための宣言構文が用意されています。「Lakeflow Spark 宣言型パイプライン」を参照してください。
Orchestration	ジョブを使用すると、依存関係、トリガー、スケジュールを使用して複雑なワークフローを定義できます。「Lakeflow ジョブ」を参照してください。
CI/CD	Databricks アセットバンドルを使用すると、ワークスペース間でデータ、資産、成果物を簡単に管理しデプロイできます。「Databricks アセットバンドルとは」をご覧ください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-10-08

次の方法で共有

データ ガイド