Databricks Data Intelligence Platform を使用すると、組織全体のデータ担当者は、安全に管理された共有データ資産やツールを使用して共同作業し、データ ソリューションを運用できます。
この記事は、ユース ケースの正しい開始点を特定するのに役立ちます。
Azure Databricks の多くのタスクには、昇格されたアクセス許可が必要です。 多くの組織では、これらの昇格されたアクセス許可を少数のユーザーまたはチームに制限しています。 この記事では、大部分のワークスペース ユーザーが実行できるアクションと、特権ユーザーに限定されたアクションとを明確に区別します。
ワークスペース管理者は、ユーザーが要求する必要があるのが資産へのアクセス権であるか、昇格されたアクセス許可であるかを判断するのを支援できます。
データの検索とアクセス
このセクションでは、使用可能なデータ資産の検出に役立つタスクの概要について説明します。 これらの大部分のタスクでは、管理者がデータ資産に対するアクセス許可を構成していることを前提としています。 「データ アクセスを構成する」を参照してください。
| 機能領域 | Resources |
|---|---|
| データ検出 | データ検出タスクの詳細な概要については、「データの検出」を参照してください。 |
| Catalogs | カタログは、Unity Catalog データ ガバナンス モデルの最上位のオブジェクトです。
カタログ エクスプローラーを使用して、テーブル、ビューなどのデータ資産を見つけます。 「データベース オブジェクトを探索する」を参照してください。
|
| 接続ストレージ | コンピューティング リソースにアクセスできる場合は、組み込みコマンドを使用して、接続ストレージ内のファイルを探索できます。 「ストレージを探索してデータ ファイルを見つける」を参照してください。 |
| ローカル ファイルをアップロードする | 既定で、ユーザーには、CSV などの小さなデータ ファイルをローカル コンピューターからアップロードするためのアクセス許可があります。 「ファイルのアップロードを使用してテーブルを作成または変更する」を参照してください。 |
データの処理
このセクションでは、一般的なデータ タスクの概要と、それらのタスクの実行に使用されるツールの概要を示します。
説明されているすべてのタスクについて、ユーザーには、ツール、コンピューティング リソース、データ、その他のワークスペース成果物に対する適切なアクセス許可が必要です。 「データ アクセスを構成する」および「ワークスペースとインフラストラクチャーを構成する」を参照してください。
| 機能領域 | Resources |
|---|---|
| データベース オブジェクト | Azure Databricks では、テーブルとビューに加えて、ボリュームなどの他のセキュリティ保護可能なデータベース オブジェクトを使用して、データを安全に管理します。 Azure Databricks のデータベース オブジェクトのを参照してください。 |
| データのアクセス許可 | Unity Catalog は、有効なワークスペースにおけるすべての読み取り操作と書き込み操作を制御します。 これらの操作を完了するには、適切なアクセス許可が必要です。 「Unity Catalog のセキュリティ保護可能なオブジェクト」を参照してください。 |
| ETL | 抽出、変換、読み込み (ETL) ワークロードは、Apache Spark と Azure Databricks の最も一般的な用途の 1 つであり、ほとんどのプラットフォームには ETL 用に構築および最適化された機能があります。 「 チュートリアル: Lakeflow Spark 宣言パイプラインを使用して ETL パイプラインを構築する」を参照してください。 |
| Queries |
|
| ダッシュボードと分析情報 |
|
| Ingest |
|
| Transformations | Azure Databricks では、SQL CTAS ステートメントから準リアルタイムのストリーミング アプリケーションまで複雑さが異なる変換に共通の構文とツールが使用されます。
|
| AI と機械学習 | Databricks Data Intelligence Platform には、データ サイエンス、機械学習、AI アプリケーション用の一連のツールが用意されています。 「Databricks での AI および機械学習」を参照してください。 |
データ アクセスを構成する
ほとんどの Azure Databricks ワークスペースでは、ワークスペース管理者などのパワー ユーザーを利用して、外部データ ソースへの接続を構成し、チーム メンバーシップ、リージョン、ロールに基づいてデータ資産に特権を適用します。 このセクションでは、昇格されたアクセス許可を必要とするデータ アクセスを構成および制御するための一般的なタスクの概要について説明します。
Note
データ ソースへの新しい接続を構成するために昇格されたアクセス許可を要求する前に、既存の接続、カタログ、またはテーブルに対する特権が不足しているかどうかを確認してください。 データ ソースが使用できない場合は、ワークスペースに新しいデータを追加するポリシーについて組織に問い合わせてください。
| 機能領域 | Resources |
|---|---|
| Unity カタログ |
|
| 接続とアクセス |
|
| Sharing |
|
ワークスペースとインフラストラクチャを構成する
このセクションでは、ワークスペース資産とインフラストラクチャの管理に関連する一般的なタスクの概要について説明します。 広く定義すると、ワークスペース資産には次のものが含まれます。
コンピューティング リソース: コンピューティング リソースには、汎用対話型クラスター、SQL ウェアハウス、ジョブ クラスター、パイプライン コンピューティングが含まれます。 ユーザーまたはワークロードには、指定されたロジックを処理するために、実行中のコンピューティング リソースに接続するアクセス許可が必要です。
Note
コンピューティング リソースに接続するアクセス権がないユーザーは、Azure Databricks の機能が非常に制限されています。
プラットフォーム ツール: Databricks Data Intelligence Platform には、ノートブック、Databricks SQL、Mosaic AI など、さまざまなユース ケースとペルソナに合わせて調整された一連のツールが用意されています。 管理者は、これらの多くのツールに対する既定の動作、オプション機能、ユーザー アクセスを含む設定をカスタマイズできます。
成果物: 成果物には、ノートブック、クエリ、ダッシュボード、ファイル、ライブラリ、パイプライン、ジョブが含まれます。 成果物には、ユーザーがデータに対して必要なアクションを実行するために作成するコードと構成が含まれます。
Important
ワークスペース資産を作成するユーザーには、既定で所有者ロールが割り当てられます。 ほとんどの資産では、所有者はワークスペース内の他のユーザーまたはグループにアクセス許可を付与できます。
データとコードを確実にセキュリティで保護するために、Databricks では、運用ワークスペースにデプロイされるすべての成果物とコンピューティング リソースに対して所有者ロールを構成することをお勧めします。
| 機能領域 | Resources |
|---|---|
| ワークスペースの権利 | ワークスペースのエンタイトルメントには、基本的なワークスペース アクセス、Databricks SQL へのアクセス、無制限のクラスター作成が含まれます。 「エンタイトルメントを管理する」を参照してください。 |
| コンピューティング リソースのアクセスとポリシー |
|
| プラットフォーム ツール | 管理コンソールを使用して、ワークスペースの外観のカスタマイズから、製品や機能の有効化や無効化までにわたる動作を構成します。 「ワークスペースを管理する」を参照してください。 |
| ワークスペース ACL | ワークスペースのアクセス制御リスト (ACL) は、ユーザーとグループがコンピューティング リソース、コード成果物、ジョブなどのワークスペース資産と対話する方法を制御します。 「アクセス制御リスト」を参照してください。 |
ワークロードの運用化
すべての Azure Databricks 製品は、開発から運用までのパスを短縮し、スケーリングと安定性を実現するように構築されています。 このセクションでは、ワークロードを運用環境に移行するために推奨される一連のツールについて簡単に説明します。
| 機能領域 | Resources |
|---|---|
| ETL パイプライン | Lakeflow Spark 宣言型パイプラインには、ETL パイプラインを構築および運用するための宣言構文が用意されています。 「Lakeflow Spark 宣言型パイプライン」を参照してください。 |
| Orchestration | ジョブを使用すると、依存関係、トリガー、スケジュールを使用して複雑なワークフローを定義できます。 「Lakeflow ジョブ」を参照してください。 |
| CI/CD | Databricks アセット バンドルを使用すると、ワークスペース間でデータ、資産、成果物を簡単に管理しデプロイできます。 「Databricks アセット バンドルとは」をご覧ください。 |