自動ローダー ファイル検出モードを比較する
自動ローダーには、新しいファイルの検出モードとして、ディレクトリ一覧とファイル通知の 2 つのモードがサポートされています。 ストリームの再起動ごとにファイル検出モードを切り替えて、データが厳密に 1 回だけ処理されるという保証を引き続き得ることができます。
ディレクトリ一覧モード
ディレクトリ一覧モードでは、自動ローダーは、入力ディレクトリの一覧を生成することによって、新しいファイルを識別します。 ディレクトリ一覧モードを使用すると、クラウド ストレージ上のデータへのアクセス以外のアクセス許可を構成することなく、自動ローダー ストリームをすばやく開始できます。
Databricks Runtime 9.1 以降では、ファイルが字句順にクラウド ストレージに到着するかどうかを、自動ローダーで自動的に検出でき、新しいファイルを検出するために必要な API 呼び出しの量を大幅に削減できます。 詳細については、「自動ローダー ディレクトリ リスト表示モードとは?」を参照してください。
ファイル通知モード
ファイル通知モードでは、クラウド インフラストラクチャ アカウントでファイル通知とキュー サービスを利用します。 自動ローダーは、入力ディレクトリからファイル イベントをサブスクライブする通知サービスとキュー サービスを自動的に設定できます。
ファイル通知モードは、大規模な入力ディレクトリや大量のファイルに対して高いパフォーマンスと拡張性をもたらしますが、セットアップには追加のクラウド アクセス許可が必要になります。 詳細については、「自動ローダー ファイル通知モードとは?」を参照してください。
モードでサポートされるクラウド ストレージ
これらのモードの可用性を以下に示します。
外部の場所または DBFS マウントから Unity Catalog ボリュームに移行する場合、自動ローダーは引き続き一度だけ保証を提供します。
クラウド ストレージ | ディレクトリ一覧 | ファイル通知 |
---|---|---|
AWS S3 | すべてのバージョン | すべてのバージョン |
ADLS Gen2 | すべてのバージョン | すべてのバージョン |
GCS | すべてのバージョン | Databricks Runtime 9.1 以降 |
Azure Blob Storage | すべてのバージョン | すべてのバージョン |
ADLS Gen1 | すべてのバージョン | サポートされていない |
DBFS | すべてのバージョン | マウント ポイントの場合のみ |
Unity Catalog ボリューム | Databricks Runtime 13.3 LTS 以降 | サポートされていません |