Azure Databricks ではどこにデータが書き込まれますか?

2024-11-07

この記事では、Azure Databricks が日常の操作と構成中にデータを書き込む場所について詳しく説明します。 Azure Databricks には、さまざまなテクノロジを網羅し、責任共有モデルでクラウドリソースを操作するための一連のツールが用意されていることから、データの格納に使用される既定の場所は、実行環境、構成、ライブラリによって異なります。

この記事の情報は、さまざまな操作の既定のパスと、構成によってその既定値が変わるしくみを理解するのに役立ちます。データへのアクセスの構成と制御に関するガイダンスを探しているデータスチュワードと管理者は、 Azure Databricks でのデータガバナンスに関するページを参照してください。

オブジェクトストレージとその他のデータソースの構成については、「データソースと外部サービスへの接続」を参照してください。

オブジェクトストレージとは

クラウドコンピューティングでは、オブジェクトストレージまたは BLOB ストレージとは、データをオブジェクトとして保持するストレージコンテナーを指し、各オブジェクトは、データ、メタデータ、およびグローバルに一意のリソース識別子 (URI) で構成されます。オブジェクトストレージでのデータ操作は、多くの場合、REST API インターフェイスを介した作成、読み取り、更新、削除 (CRUD) に制限されます。一部のオブジェクトストレージオファリングには、バージョン管理やライフサイクル管理などの機能が含まれています。オブジェクトストレージには、次の利点があります。

高い可用性、持続性、信頼性。
他のほとんどのストレージオプションと比較して、ストレージのコストが低い。
無限にスケーラブル (特定のクラウドリージョンで使用可能なストレージの合計量によって制限されます)。

ほとんどのクラウドベースのデータレイクは、クラウドオブジェクトストレージのオープンソースデータ形式に基づいて構築されています。

Azure Databricks でどのようにオブジェクトストレージが使用されるか

オブジェクトストレージは、Azure Databricks のほとんどの操作で使用されるストレージの主な形式です。 Unity Catalog ストレージの資格情報と外部の場所を使用して、クラウドオブジェクトストレージへのアクセスを構成します。これらの場所は、テーブルやボリュームの背景にあるデータファイルを格納するために使用されます。 Unity カタログを使用したクラウドオブジェクトストレージへの接続を参照してください。

外部データシステムに対してテーブルを特に構成しない限り、Azure Databricks で作成されたすべてのテーブルでは、クラウドオブジェクトストレージにデータが格納されます。

クラウドオブジェクトストレージに格納されている Delta Lake ファイルは、Databricks レイクハウスのデータ基盤となります。

ブロックストレージとは

クラウドコンピューティングでは、ブロックストレージまたはディスクストレージとは、"ハードドライブ" とも呼ばれる従来のハードディスクドライブ (HDD) またはソリッドステートドライブ (SSD) に対応するストレージボリュームを指します。クラウドコンピューティング環境にブロックストレージをデプロイする場合、通常は 1 つ以上の物理ドライブの論理パーティションがデプロイされます。実装は製品オファリングとクラウドベンダーによって若干異なりますが、通常、実装全体に次の特徴があります。

すべての仮想マシン (VM) に、アタッチされたブロックストレージボリュームが必要です。
ブロックストレージボリュームにインストールされたファイルとプログラムは、ブロックストレージボリュームが保持されている限り保持されます。
ブロックストレージボリュームは、一時データストレージによく使用されます。
VM にアタッチされているブロックストレージボリュームは、通常、VM と共に削除されます。

Azure Databricks でどのようにブロックストレージが使用されるか

コンピューティングリソースを有効にすると、Azure Databricks によって VM が構成およびデプロイされ、ブロックストレージボリュームがアタッチされます。このブロックストレージは、コンピューティングリソースの有効期間中にエフェメラルデータファイルを格納するために使用されます。これらのファイルには、ディスクキャッシュで使用されるデータに加えて、オペレーティングシステムとインストールされているライブラリが含まれます。 Apache Spark では効率的な並列処理とデータ読み込みのためにバックグラウンドでブロックストレージが使用されますが、Azure Databricks で実行されるほとんどのコードでは、ブロックストレージに対して直接データを保存したり、読み込んだりすることはありません。

ドライバーノードにアタッチされているブロックストレージを使用する Python や Bash コマンドなどの任意のコードを実行できます。「ドライバーノードにアタッチされたエフェメラルストレージでファイルを操作する」を参照してください。

Unity Catalog ではデータファイルはどこに格納されますか?

Unity Catalog は、クラウドストレージとリレーショナルオブジェクトの間の関係構成を管理者に任せます。データが存在する正確な場所は、管理者がどのように関係を構成したかによって異なります。

Unity Catalog によって統制されるオブジェクトに書き込まれたデータまたはアップロードされたデータは、次のいずれかの場所に格納されます。

メタストア、カタログ、またはスキーマに関連付けられているマネージドストレージの場所。マネージドテーブルとマネージドボリュームに書き込まれたデータまたはアップロードされたデータでは、マネージドストレージが使用されます。「Unity Catalog の管理されたストレージの場所の指定」を参照してください。
ストレージ資格情報で構成された外部の場所。外部テーブルと外部ボリュームに書き込まれたデータまたはアップロードされたデータでは、外部ストレージが使用されます。 Unity カタログを使用したクラウドオブジェクトストレージへの接続を参照してください。

Databricks SQL ではデータバッキングテーブルはどこに格納されますか?

Databricks SQL を Unity Catalog で構成して CREATE TABLE ステートメントを実行する場合、既定の動作では、Unity Catalog で構成されたマネージドストレージの場所にデータファイルが格納されます。「Unity Catalog ではデータファイルはどこに格納されますか?」を参照してください。

レガシ hive_metastore カタログはさまざまな規則に従います。 Unity カタログと共に従来の Hive メタストアを操作するを参照してください。

Lakeflow 宣言型パイプラインでは、データファイルはどこに格納されますか?

Databricks では、Lakeflow 宣言型パイプラインを作成するときに Unity カタログを使用することをお勧めします。データは、ターゲットスキーマに関連付けられているマネージドストレージの場所内のディレクトリに格納されます。

必要に応じて、Hive メタストアを使用して Lakeflow 宣言パイプラインを構成できます。 Hive メタストアを使用して構成する場合、DBFS 上またはクラウドオブジェクトストレージ上のストレージの場所を指定できます。場所を指定しない場合、DBFS ルート上の場所がパイプラインに割り当てられます。

Apache Spark ではどこにデータファイルが書き込まれますか?

Databricks では、データの読み取りと書き込みにオブジェクト名と Unity Catalog の使用を推奨しています。 /Volumes/<catalog>/<schema>/<volume>/<path>/<file-name> というパターンで Unity Catalog ボリュームにファイルを書き込むこともできます。 Unity Catalog で統制されるオブジェクトにデータをアップロード、作成、更新、挿入するための十分な権限が必要です。

任意で、ユニバーサルリソースインジケーター (URI) を使用してデータファイルへのパスを指定できます。 URI はクラウドプロバイダーによって異なります。また、クラウドオブジェクトストレージに書き込むには、現在お使いのコンピューティングリソースに合わせて書き込みアクセス許可が構成されている必要があります。

Azure Databricks では、Databricks ファイルシステムを使用し、Apache Spark の読み取りと書き込みのコマンドをクラウドオブジェクトストレージにマップします。各 Azure Databricks ワークスペースには、ワークスペースに割り当てられたクラウドアカウントで構成された DBFS ルートのストレージの場所が存在し、すべてのユーザーがデータの読み取りと書き込みでその場所にアクセスできます。 Databricks では、運用データを格納するために DBFS ルートを使用することはお勧めしません。「DBFS とは」と「DBFS ルートの使用方法に関する推奨事項」を参照してください。

pandas は Azure Databricks のどこにデータファイルを書き込みますか?

Databricks Runtime 14.0 以降では、Python のローカルのあらゆる読み取り操作と書き込み操作の CWD (現在の作業ディレクトリ) は既定で、ノートブックが含まれるディレクトリになります。データファイルの保存時にファイル名のみを指定すると、pandas では、現在実行しているノートブックに並列するワークスペースファイルとしてそのデータファイルが保存されます。

Databricks Runtime のバージョンによってはワークスペースファイルがサポートされないことがあります。また、Databricks Runtime の一部のバージョンでは、ノートブックまたは Git フォルダーの使用によって動作が変わります。「既定の現在の作業ディレクトリとは?」を参照してください。

Azure Databricks 上で一時ファイルを書き込むのに最適な場所

クラスターのシャットダウン後に保持したくない一時ファイルを書き込む必要がある場合で、現在の作業ディレクトリ (CWD) がワークスペースのファイルシステム内にある場合は、その一時ファイルを $TEMPDIR に書き込むと、CWD に書き込むよりもパフォーマンスが向上します。コードがリポジトリ内で実行される場合は、ブランチサイズの制限を超えるのを防ぐこともできます。詳細については、「 File とリポジトリの制限を参照してください。

書き込むデータの量が多く、ストレージを自動スケーリングさせる場合は、/local_disk0 に書き込みます。

次の方法で共有

Azure Databricks ではどこにデータが書き込まれますか?

オブジェクト ストレージとは

Azure Databricks でどのようにオブジェクト ストレージが使用されるか

ブロック ストレージとは

Azure Databricks でどのようにブロック ストレージが使用されるか

Unity Catalog ではデータ ファイルはどこに格納されますか?

Databricks SQL ではデータ バッキング テーブルはどこに格納されますか?

Lakeflow 宣言型パイプラインでは、データ ファイルはどこに格納されますか?

Apache Spark ではどこにデータ ファイルが書き込まれますか?