Confrontare le modalità di rilevamento file del caricatore automatico
Il caricatore automatico supporta due modalità per il rilevamento di nuovi file: elenco di directory e notifica file. È possibile cambiare le modalità di individuazione dei file tra i riavvii del flusso e ottenere comunque garanzie di elaborazione dei dati esattamente una volta.
Modalità elenco directory
In modalità elenco directory, il caricatore automatico identifica i nuovi file elencando la directory di input. La modalità elenco directory consente di avviare rapidamente flussi del caricatore automatico senza configurazioni di autorizzazione diverse dall'accesso ai dati nell'archiviazione cloud.
In Databricks Runtime 9.1 e versioni successive, il caricatore automatico può rilevare automaticamente se i file arrivano con l'ordinamento lessicale per l'archiviazione cloud e ridurre significativamente la quantità di chiamate API necessarie per rilevare nuovi file. Per altri dettagli, vedere Che cos'è la modalità elenco directory del caricatore automatico?
Modalità di notifica file
La modalità di notifica file sfrutta i servizi di notifica file e coda nell'account dell'infrastruttura cloud. Il caricatore automatico può configurare automaticamente un servizio di notifica e un servizio di accodamento che sottoscrivono gli eventi di file dalla directory di input.
La modalità di notifica dei file è più efficiente e scalabile per directory di input di grandi dimensioni o un volume elevato di file, ma richiede autorizzazioni cloud aggiuntive per la configurazione. Per altre informazioni, vedere Che cos'è la modalità di notifica file del caricatore automatico?.
Archiviazione cloud supportata dalle modalità
Di seguito è riportata la disponibilità per queste modalità.
Se si esegue la migrazione da una posizione esterna o da un montaggio DBFS a un volume del catalogo Unity, il caricatore automatico continua a fornire garanzie di tipo exactly-once.
Archiviazione cloud | Directory | Notifiche file |
---|---|---|
AWS S3 | Tutte le versioni | Tutte le versioni |
ADLS Gen2 | Tutte le versioni | Tutte le versioni |
GCS | Tutte le versioni | Databricks Runtime 9.1 e versioni successive |
Archiviazione BLOB di Azure | Tutte le versioni | Tutte le versioni |
ADLS Gen1 | Tutte le versioni | Non supportato |
DBFS | Tutte le versioni | Solo per i punti di montaggio |
Volume del catalogo Unity | Databricks Runtime 13.3 LTS e versioni successive | Non supportata |