自動ローダー ファイル検出モードを比較する

自動ローダーには、新しいファイルの検出モードとして、ディレクトリ一覧とファイル通知の 2 つのモードがサポートされています。 ストリームの再起動ごとにファイル検出モードを切り替えて、データが厳密に 1 回だけ処理されるという保証を引き続き得ることができます。

ディレクトリ一覧モード

ディレクトリ一覧モードでは、自動ローダーは、入力ディレクトリの一覧を生成することによって、新しいファイルを識別します。 ディレクトリ一覧モードを使用すると、クラウド ストレージ上のデータへのアクセス以外のアクセス許可を構成することなく、自動ローダー ストリームをすばやく開始できます。

Databricks Runtime 9.1 以降では、ファイルが字句順にクラウド ストレージに到着するかどうかを、自動ローダーで自動的に検出でき、新しいファイルを検出するために必要な API 呼び出しの量を大幅に削減できます。 詳細については、「自動ローダー ディレクトリ リスト表示モードとは?」を参照してください。

ファイル通知モード

ファイル通知モードでは、クラウド インフラストラクチャ アカウントでファイル通知とキュー サービスを利用します。 自動ローダーは、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。

ファイル通知モードは、大規模な入力ディレクトリや大量のファイルに対して高いパフォーマンスと拡張性をもたらしますが、セットアップには追加のクラウド アクセス許可が必要になります。 詳細については、「自動ローダー ファイル通知モードとは?」を参照してください。

モードでサポートされるクラウド ストレージ

これらのモードの可用性を以下に示します。

外部の場所または DBFS マウントから Unity Catalog ボリュームに移行する場合、自動ローダーは引き続き一度だけ保証を提供します。

クラウド ストレージ ディレクトリ一覧 ファイル通知
AWS S3 すべてのバージョン すべてのバージョン
ADLS Gen2 すべてのバージョン すべてのバージョン
GCS すべてのバージョン Databricks Runtime 9.1 以降
Azure Blob Storage すべてのバージョン すべてのバージョン
ADLS Gen1 すべてのバージョン サポートされていない
DBFS すべてのバージョン マウント ポイントの場合のみ
Unity Catalog ボリューム Databricks Runtime 13.3 LTS 以降 サポートされていません