Azure Databricks でキャッシュを使用してパフォーマンスを最適化する

2025-02-04

Azure Databricks では、高速の中間データ形式を使用してノードのローカルストレージにリモート Parquet データファイルのコピーを作成することで、ディスクキャッシュを使用してデータ読み取りを高速化します。リモートの場所からファイルをフェッチする必要がある場合は常に、データが自動的にキャッシュされます。その後、同じデータの読み取りはローカルで実行され、読み取り速度が大幅に向上します。キャッシュは、すべての Parquet データファイル (Delta Lake テーブルを含む) に対して機能します。

注

SQL ウェアハウスおよび Databricks Runtime 14.2 以降では、CACHE SELECT コマンドは無視されます。代わりに拡張ディスクキャッシュアルゴリズムが使用されます。

Delta キャッシュからディスクキャッシュへの名称変更

Azure Databricks のディスクキャッシュは、以前は Delta キャッシュおよび DBIO キャッシュと呼ばれていました。ディスクキャッシュの動作は、独自の Azure Databricks 機能です。この名称変更は、それが Delta Lake プロトコルの一部であるかのような混同を避けるためのものです。

ディスクキャッシュSpark キャッシュ

Azure Databricks ディスクキャッシュは、Apache Spark キャッシュとは異なります。 Azure Databricks では、自動ディスクキャッシュを使用することをお勧めしています。

ワークフローに最適なツールを選択できるように、ディスクキャッシュと Apache Spark キャッシュの主な違いを次の表にまとめています。

機能	ディスクキャッシュ	Apache Spark キャッシュ
格納形式	ワーカーノード上のローカルファイル。	インメモリブロック。ただし、ストレージレベルによって異なります。
適用先	ABFS および他のファイルシステムに保存されている任意の Parquet テーブル。	任意の DataFrame または RDD。
トリガー	最初の読み取り時に自動的に実行 (キャッシュが有効な場合)。	手動。コードの変更が必要。
評価	遅延。	遅延。
可用性	構成フラグを使用して有効または無効にできます。特定のノードの種類では既定で有効になります。	常に使用可能です。
削除された	LRU 方式の使用時またはファイルの変更時に自動的に実行。クラスターの再起動時に手動。	LRU 方式の使用時に自動的に実行。`unpersist` の指定時に手動。

ディスクキャッシュの整合性

ディスクキャッシュは、データファイルの作成、削除、修正、上書きを自動的に検出し、それに応じて内容を更新します。キャッシュデータを明示的に無効にする必要なしに、テーブルデータの書き込み、変更、削除を行うことができます。古いエントリは、自動的に無効になり、キャッシュから削除されます。

ディスクキャッシュを使うインスタンスの種類の選択

ディスクキャッシュを使用するための推奨される (そして最も簡単な) 方法は、クラスターを構成するときに SSD ボリュームを使用するワーカーの種類を選択することです。このようなワーカーは、ディスクキャッシュ用に有効にされ、構成されます。

ディスクキャッシュは、ワーカーノードで提供されるローカル SSD 上で使用可能なスペースの最大で半分を使用するように構成されます。構成オプションについては、「ディスクキャッシュを構成する」を参照してください。

ディスクキャッシュを構成する

Azure Databricks では、コンピューティングにキャッシュ高速化ワーカーインスタンス型を選択することをお勧めしています。このようなインスタンスは、ディスクキャッシュ用に自動的に最適に構成されます。

注

ワーカーが使用停止されると、そのワーカーに格納されている Spark キャッシュが失われます。したがって、自動スケールが有効になっている場合は、キャッシュに不安定性があります。その後、Spark では、不足しているパーティションを必要に応じてソースから再読み取りする必要があります。

ディスク使用量を構成する

ディスクキャッシュでワーカーノードのローカルストレージを使用する方法を構成するには、クラスターの作成時に次の Spark 構成設定を指定します。

spark.databricks.io.cache.maxDiskUsage: キャッシュデータ用に予約されたノードあたりのディスク領域 (バイト単位)
spark.databricks.io.cache.maxMetaDataCache: キャッシュメタデータ用に予約されたノードあたりのディスク領域 (バイト単位)
spark.databricks.io.cache.compression.enabled: キャッシュデータを圧縮形式で保存する必要があるかどうか

構成の例

spark.databricks.io.cache.maxDiskUsage 50g
spark.databricks.io.cache.maxMetaDataCache 1g
spark.databricks.io.cache.compression.enabled false

ディスクキャッシュを有効または無効にする

ディスクキャッシュの現在の設定を確認するには、次のコマンドを実行します。

spark.conf.get("spark.databricks.io.cache.enabled")

ディスクキャッシュを有効または無効にするには、以下を実行します。

spark.conf.set("spark.databricks.io.cache.enabled", "[true | false]")

キャッシュを無効にしても、既にローカルストレージに格納されているデータは削除されません。代わりに、クエリの実行時にキャッシュへの新しいデータの追加とキャッシュからのデータの読み取りが行われなくなります。

次の方法で共有

Azure Databricks でキャッシュを使用してパフォーマンスを最適化する

Delta キャッシュからディスク キャッシュへの名称変更

ディスク キャッシュSpark キャッシュ

ディスク キャッシュの整合性

ディスク キャッシュを使うインスタンスの種類の選択

ディスク キャッシュを構成する