このページでは、Azure Databricks の既定のストレージのしくみと、それを使用するカタログとデータ オブジェクトを作成する方法について説明します。
既定のストレージとは
既定のストレージは、Azure Databricks アカウントですぐに使用できるストレージを提供するフル マネージド オブジェクト ストレージ プラットフォームです。 一部の Azure Databricks 機能では、外部ストレージの代わりに既定のストレージが使用されます。
サーバーレス ワークスペースでは、内部ストレージとワークスペース ストレージ、およびワークスペースで作成される既定のカタログに既定のストレージが使用されます。 サーバーレス ワークスペースでは、既定のストレージまたは独自の クラウド オブジェクト ストレージに追加のカタログを作成できます。
クラシック ワークスペースとサーバーレス ワークスペースの両方で、コントロール プレーンのメタデータ、派生データ、モデル、その他の成果物などを格納するために、既定のストレージが機能によって使用されます。 たとえば、 クリーン ルーム、 データ分類、 異常検出、 エージェント ブリック はすべて、ワークスペースの既定のストレージを使用します。 各機能が既定のストレージに格納する内容の詳細については、個々の機能ドキュメントを参照してください。
要求事項
- 既定のストレージでのカタログの作成は、 サーバーレス ワークスペース (パブリック プレビュー) でのみ使用できます。
- 既定では、既定のストレージを使用するカタログには、作成されたワークスペースからのみアクセスできます。 クラシック ワークスペースを含む他のワークスペースにアクセス権を付与できますが、カタログ内のデータにアクセスするにはサーバーレス コンピューティングを使用する必要があります。 特定のワークスペースへのカタログ アクセスの制限を参照してください。
- 既定のストレージを使用してカタログを作成するには、
CREATE CATALOG特権が必要です。 「Unity Catalog の権限とセキュリティ保護可能なオブジェクト」を参照してください。 - クライアントが Azure Databricks ODBC ドライバーを使用してファイアウォールの背後から既定のストレージ カタログにアクセスする場合は、Azure Databricks リージョン ストレージ ゲートウェイへのアクセスを許可するようにファイアウォールを構成する必要があります。 既定のストレージの IP とドメイン名の詳細については、 Azure Databricks サービスと資産の IP アドレスとドメインに関するページを参照してください。
新しいカタログを作成する
既定のストレージを使用して新しいカタログを作成するには、次の手順を実行します。
- [
サイドバーのカタログ。 カタログ エクスプローラーが表示されます。
- カタログを作成 をクリックします。 [ 新しいカタログの作成 ] ダイアログが表示されます。
- アカウントで一意の カタログ名 を指定します。
- [既定のストレージを使用する] オプションを選択します。
- Create をクリックしてください。
サーバーレス ワークスペースでは、次の SQL コマンドを使用して、既定のストレージに新しいカタログを作成することもできます。 カタログの場所を指定する必要はありません。
CREATE CATALOG [ IF NOT EXISTS ] catalog_name
[ COMMENT comment ]
既定のストレージを操作する
既定のストレージとのやり取りには、サーバーレスの Unity カタログ対応コンピューティングが必要です。
既定のストレージでサポートされるリソースでは、Unity カタログ内の他のオブジェクトと同じ特権モデルが使用されます。 データ オブジェクトを作成、表示、クエリ、または変更するための十分な権限が必要です。 「Unity Catalog の権限とセキュリティ保護可能なオブジェクト」を参照してください。
既定のストレージを使用するには、既定のストレージでバックアップされたマネージド テーブルとマネージド ボリュームを作成して操作します。 Delta Lake と Apache Iceberg の Azure Databricks の Unity カタログマネージド テーブルとUnity カタログ ボリュームとは何かを参照してください。
カタログ エクスプローラー、ノートブック、SQL エディター、ダッシュボードを使用して、既定のストレージに格納されているデータ オブジェクトを操作できます。
タスクの例
既定のストレージで完了できるタスクの例を次に示します。
- ローカル ファイルをマネージド ボリュームにアップロードするか、マネージド テーブルを作成します。 「Unity カタログ ボリュームにファイルをアップロードする」および「ファイルのアップロードを使用してテーブルを作成または変更する」を参照してください。
- ノートブックを使用してデータのクエリを実行します。 「チュートリアル: ノートブックからのデータのクエリと視覚化」を参照してください。
- ダッシュボードを作成します。 「ダッシュボードの作成」を参照してください。
- SQL を使用してデータを照会し、SQL クエリをスケジュールします。 新しい SQL エディターでのクエリの書き込みとデータの探索を参照してください。
- 外部ボリュームからマネージド テーブルにデータを取り込みます。 Unity カタログでの自動ローダーの使用を参照してください。
- Fivetran を使用してマネージド テーブルにデータを取り込みます。 Fivetran への接続を参照してください。
- BI ツールを使用してマネージド テーブルを探索します。 「Azure Databricks を使用して Tableau と Azure Databricks と Power BI を接続する」を参照してください。
- サーバーレス ノートブックを実行します。 「ノートブックのサーバーレス コンピューティング」をご覧ください。
- サーバーレス ジョブを実行します。 ワークフローのサーバーレス コンピューティングを使用した Lakeflow ジョブの実行を参照してください。
- エンドポイントを提供するモデルを実行します。 「モザイク AI モデル サービスを使用してモデルをデプロイする」を参照してください。
- サーバーレスの Lakeflow Spark 宣言パイプラインを実行します。 サーバーレス パイプラインの構成を参照してください。
- テーブルで予測最適化を使用します。 「Unity Catalog 管理テーブルの予測最適化」を参照してください。
制限事項
次の制限事項が適用されます。
- クラシック コンピューティング (サーバーレスではないコンピューティング) は、既定のストレージ内のデータ資産と対話できません。
- 差分共有では、任意の受信者 (開いているまたは Azure Databricks) へのテーブルの共有がサポートされており、受信者はクラシック コンピューティングを使用して共有テーブル (ベータ) にアクセスできます。 アカウント コンソールで、 既定のストレージ - 拡張アクセス機能の差分共有 を有効にします。
- この機能は、
southcentralus、uksouth、westus2の各リージョンではサポートされていません。
- 他のすべての共有可能な資産は、同じクラウド環境の Azure Databricks 受信者と Delta 共有することができます。 受信者はサーバーレス コンピューティングを使用する必要があります。
- この機能は、
- パーティション分割が有効になっているテーブルを差分共有にすることはできません。
- 外部 Iceberg および Delta クライアントは、既定のストレージ上の UC テーブルの基になるメタデータ、マニフェスト リスト、およびデータ ファイルに直接アクセスできません (FileIO アクセスはサポートされていません)。 ただし、Power BI や Tableau などの BI ツールは、ODBC ドライバーと JDBC ドライバーを使用して、既定のストレージ上の Unity カタログ テーブルにアクセスできます。 外部クライアントは、Files API を使用して、既定のストレージ上の Unity カタログ ボリュームにアクセスすることもできます。
- 既定のストレージでは、大規模なデータセットに対するクエリに対する ODBC ドライバーの Cloud Fetch パフォーマンスの最適化など、Azure Databricks ODBC ドライバーと JDBC ドライバーを介した外部アクセスがサポートされます。 ただし、フロントエンド Private Link が有効になっているワークスペースから既定のストレージ テーブルにアクセスする場合、100 MB を超える ODBC クライアント クエリは失敗します。既定のストレージ テーブルのクラウド フェッチの最適化では現在、フロントエンド Private Link がサポートされていないためです。