次の方法で共有


データ ガイド

Databricks Data Intelligence Platform を使用すると、組織全体のデータ担当者は、安全に管理された共有データ資産やツールを使用して共同作業し、データ ソリューションを運用できます。

この記事は、ユース ケースの正しい開始点を特定するのに役立ちます。

Azure Databricks の多くのタスクには、昇格されたアクセス許可が必要です。 多くの組織では、これらの昇格されたアクセス許可を少数のユーザーまたはチームに制限しています。 この記事では、大部分のワークスペース ユーザーが実行できるアクションと、特権ユーザーに限定されたアクションとを明確に区別します。

ワークスペース管理者は、ユーザーが要求する必要があるのが資産へのアクセス権であるか、昇格されたアクセス許可であるかを判断するのを支援できます。

データの検索とアクセス

このセクションでは、使用可能なデータ資産の検出に役立つタスクの概要について説明します。 これらの大部分のタスクでは、管理者がデータ資産に対するアクセス許可を構成していることを前提としています。 「データ アクセスを構成する」を参照してください。

機能領域 Resources
データ検出 データ検出タスクの詳細な概要については、「データの検出」を参照してください。
Catalogs カタログは、Unity Catalog データ ガバナンス モデルの最上位のオブジェクトです。 カタログ エクスプローラーを使用して、テーブル、ビューなどのデータ資産を見つけます。 「データベース オブジェクトを探索する」を参照してください。
  • 標準カタログには、Unity Catalog のスキーマ、テーブル、ボリューム、モデル、およびその他のデータベース オブジェクトが含まれています。 「カタログの作成」を参照してください。
  • 外部カタログには、外部システムからのフェデレーション テーブルが含まれています。 「外部カタログの管理と操作」を参照してください。
  • hive_metastore カタログ オブジェクトには、データ ガバナンスのために Unity Catalog ではなく、組み込みのレガシ Hive メタストアを使用するテーブルが含まれています。 Unity カタログと共に従来の Hive メタストアを操作するを参照してください。
接続ストレージ コンピューティング リソースにアクセスできる場合は、組み込みコマンドを使用して、接続ストレージ内のファイルを探索できます。 「ストレージを探索してデータ ファイルを見つける」を参照してください。
ローカル ファイルをアップロードする 既定で、ユーザーには、CSV などの小さなデータ ファイルをローカル コンピューターからアップロードするためのアクセス許可があります。 「ファイルのアップロードを使用してテーブルを作成または変更する」を参照してください。

データの処理

このセクションでは、一般的なデータ タスクの概要と、それらのタスクの実行に使用されるツールの概要を示します。

説明されているすべてのタスクについて、ユーザーには、ツール、コンピューティング リソース、データ、その他のワークスペース成果物に対する適切なアクセス許可が必要です。 「データ アクセスを構成する」および「ワークスペースとインフラストラクチャーを構成する」を参照してください。

機能領域 Resources
データベース オブジェクト Azure Databricks では、テーブルとビューに加えて、ボリュームなどの他のセキュリティ保護可能なデータベース オブジェクトを使用して、データを安全に管理します。 Azure Databricks のデータベース オブジェクトのを参照してください。
データのアクセス許可 Unity Catalog は、有効なワークスペースにおけるすべての読み取り操作と書き込み操作を制御します。 これらの操作を完了するには、適切なアクセス許可が必要です。 「Unity Catalog のセキュリティ保護可能なオブジェクト」を参照してください。
ETL 抽出、変換、読み込み (ETL) ワークロードは、Apache Spark と Azure Databricks の最も一般的な用途の 1 つであり、ほとんどのプラットフォームには ETL 用に構築および最適化された機能があります。 「 チュートリアル: Lakeflow Spark 宣言パイプラインを使用して ETL パイプラインを構築する」を参照してください。
Queries
  • すべての変換、レポート、分析、またはモデル トレーニングの実行は、テーブル、ビュー、またはデータ ファイルに対するクエリで始まります。 バッチ処理またはストリーム処理のどちらかを使用してデータのクエリを実行できます。 「データのクエリ」を参照してください。
  • SQL クエリ エディターまたはノートブックを使用してアドホック クエリを実行して、テーブル、ビューなどのデータ資産にクエリを実行します。 新しい SQL エディターとDatabricks ノートブックでのクエリの記述とデータの探索に関する説明を参照してください。
ダッシュボードと分析情報
  • AI/BI ダッシュボードを使用すると、UI で分析情報を簡単に抽出して視覚化できます。 「ダッシュボード」を参照してください。
  • Genie スペースでは、テキスト プロンプトを使用して質問に回答し、データから得られる分析情報を提供します。 「AI/BI Genie スペースとは」を参照してください。
Ingest
  • Lakeflow Connect は、一般的な外部システムからデータを取り込みます。 「Lakeflow Connect のマネージド コネクタ」を参照してください。
  • 自動ローダーは、Lakeflow Spark 宣言パイプラインまたは構造化ストリーミング ジョブと共に使用して、クラウド オブジェクト ストレージからデータを増分的に取り込むことができます。 「自動ローダー」を参照してください。
  • Lakeflow Spark 宣言パイプラインまたは構造化ストリーミングを使用して、Kafka などのメッセージ キューからデータを取り込むことができます。 「ストリーミング データに対してクエリを実行する」を参照してください。
Transformations Azure Databricks では、SQL CTAS ステートメントから準リアルタイムのストリーミング アプリケーションまで複雑さが異なる変換に共通の構文とツールが使用されます。
AI と機械学習 Databricks Data Intelligence Platform には、データ サイエンス、機械学習、AI アプリケーション用の一連のツールが用意されています。 「Databricks での AI および機械学習」を参照してください。

データ アクセスを構成する

ほとんどの Azure Databricks ワークスペースでは、ワークスペース管理者などのパワー ユーザーを利用して、外部データ ソースへの接続を構成し、チーム メンバーシップ、リージョン、ロールに基づいてデータ資産に特権を適用します。 このセクションでは、昇格されたアクセス許可を必要とするデータ アクセスを構成および制御するための一般的なタスクの概要について説明します。

Note

データ ソースへの新しい接続を構成するために昇格されたアクセス許可を要求する前に、既存の接続、カタログ、またはテーブルに対する特権が不足しているかどうかを確認してください。 データ ソースが使用できない場合は、ワークスペースに新しいデータを追加するポリシーについて組織に問い合わせてください。

機能領域 Resources
Unity カタログ
  • Unity Catalog では、Databricks Data Intelligence Platform に組み込まれているデータ ガバナンス機能が強化されます。 「Unity Catalog とは」を参照してください。
  • Databricks アカウント管理者、ワークスペース管理者、メタストア管理者には、ユーザーの Unity Catalog データ特権を管理するための既定の特権があります。 「Unity Catalog の特権の管理」を参照してください。
接続とアクセス
  • クラウド オブジェクト ストレージとのセキュリティで保護された接続を構成することは、重要なアクティビティであり、ほぼすべての管理者とエンド ユーザー関連タスクの前提条件です。 Unity カタログを使用したクラウド オブジェクト ストレージへの接続を参照してください。
  • Lakehouse フェデレーションを使用して外部システムとの接続を構成します。 クエリフェデレーション設定の概要を参照してください。
  • Unity Catalog はデータ ガバナンスを拡張して、オープンソース API を使用して外部システムからのアクセスを提供します。 外部システム を使用して Databricks データにアクセスするを参照してください。
  • サービス資格情報を使用すると、管理者は、クラウド プロバイダーで定義されるアクセス許可を Unity Catalog にリンクして、統合システムでワークロードを開発するときにこれらの資格情報をユーザーが利用できるようにすることができます。 「サービス資格情報の作成」を参照してください。
Sharing
  • Delta Sharing は、Databricks Marketplace や Clean Rooms を含む、Azure Databricks のセキュリティで保護されたデータ共有プラットフォーの中核となるものです。 「データと AI 資産を他組織のユーザーと安全に共有する」を参照してください。
  • 管理者は新しいカタログを作成できます。 カタログは、データ分離のための高度な抽象化を提供し、個々のワークスペースに関連付けるか、アカウント内のすべてのワークスペース間で共有することができます。 「カタログの作成」を参照してください。AI/BI ダッシュボードでは、公開時に所有者が資格情報を埋め込むように促し、閲覧者が共有された結果から分析情報を得られるようにします。 詳しくは、「ダッシュボードを共有する」をご覧ください。

ワークスペースとインフラストラクチャを構成する

このセクションでは、ワークスペース資産とインフラストラクチャの管理に関連する一般的なタスクの概要について説明します。 広く定義すると、ワークスペース資産には次のものが含まれます。

  • コンピューティング リソース: コンピューティング リソースには、汎用対話型クラスター、SQL ウェアハウス、ジョブ クラスター、パイプライン コンピューティングが含まれます。 ユーザーまたはワークロードには、指定されたロジックを処理するために、実行中のコンピューティング リソースに接続するアクセス許可が必要です。

    Note

    コンピューティング リソースに接続するアクセス権がないユーザーは、Azure Databricks の機能が非常に制限されています。

  • プラットフォーム ツール: Databricks Data Intelligence Platform には、ノートブック、Databricks SQL、Mosaic AI など、さまざまなユース ケースとペルソナに合わせて調整された一連のツールが用意されています。 管理者は、これらの多くのツールに対する既定の動作、オプション機能、ユーザー アクセスを含む設定をカスタマイズできます。

  • 成果物: 成果物には、ノートブック、クエリ、ダッシュボード、ファイル、ライブラリ、パイプライン、ジョブが含まれます。 成果物には、ユーザーがデータに対して必要なアクションを実行するために作成するコードと構成が含まれます。

Important

ワークスペース資産を作成するユーザーには、既定で所有者ロールが割り当てられます。 ほとんどの資産では、所有者はワークスペース内の他のユーザーまたはグループにアクセス許可を付与できます。

データとコードを確実にセキュリティで保護するために、Databricks では、運用ワークスペースにデプロイされるすべての成果物とコンピューティング リソースに対して所有者ロールを構成することをお勧めします。

機能領域 Resources
ワークスペースの権利 ワークスペースのエンタイトルメントには、基本的なワークスペース アクセス、Databricks SQL へのアクセス、無制限のクラスター作成が含まれます。 「エンタイトルメントを管理する」を参照してください。
コンピューティング リソースのアクセスとポリシー
  • Azure Databricks のほとんどのコストは、コンピューティング リソースに対するものです。 さまざまなリソースを構成、デプロイ、開始、使用できるユーザーを制御することは、コストの制御に不可欠です。 クラシック コンピューティングの概要を参照してください。
  • コンピューティング ポリシーは、ワークスペース コンピューティング エンタイトルメントと連携して機能し、権利のあるユーザーのみが、指定の構成ルールに従ってコンピューティング リソースをデプロイすることを確実にします。 「コンピューティング ポリシーの作成と管理」を参照してください。
  • 管理者は、既定の動作、データ アクセス ポリシー、および SQL ウェアハウスへのユーザー アクセスを構成できます。 「SQL ウェアハウスの管理者設定」を参照してください。
プラットフォーム ツール 管理コンソールを使用して、ワークスペースの外観のカスタマイズから、製品や機能の有効化や無効化までにわたる動作を構成します。 「ワークスペースを管理する」を参照してください。
ワークスペース ACL ワークスペースのアクセス制御リスト (ACL) は、ユーザーとグループがコンピューティング リソース、コード成果物、ジョブなどのワークスペース資産と対話する方法を制御します。 「アクセス制御リスト」を参照してください。

ワークロードの運用化

すべての Azure Databricks 製品は、開発から運用までのパスを短縮し、スケーリングと安定性を実現するように構築されています。 このセクションでは、ワークロードを運用環境に移行するために推奨される一連のツールについて簡単に説明します。

機能領域 Resources
ETL パイプライン Lakeflow Spark 宣言型パイプラインには、ETL パイプラインを構築および運用するための宣言構文が用意されています。 「Lakeflow Spark 宣言型パイプライン」を参照してください。
Orchestration ジョブを使用すると、依存関係、トリガー、スケジュールを使用して複雑なワークフローを定義できます。 「Lakeflow ジョブ」を参照してください。
CI/CD Databricks アセット バンドルを使用すると、ワークスペース間でデータ、資産、成果物を簡単に管理しデプロイできます。 「Databricks アセット バンドルとは」をご覧ください。