Comparer les modes de détection de fichiers Auto Loader

Auto Loader prend en charge deux modes de détection des nouveaux fichiers : la liste de répertoires et la notification de fichiers. Vous pouvez changer de mode de détection des fichiers entre les redémarrages de flux et continuer à obtenir des garanties de traitement des données « une seule fois ».

Mode de liste de répertoires

Dans le mode Liste de répertoires, Auto Loader identifie les nouveaux fichiers en listant le répertoire d’entrée. Le mode Liste de répertoires vous permet de démarrer rapidement les flux Auto Loader sans aucune configuration d’autorisation autre que l’accès à vos données sur le stockage cloud.

Dans Databricks Runtime 9.1 et versions ultérieures, Auto Loader peut détecter automatiquement si les fichiers arrivent avec un ordre lexical dans votre stockage cloud et réduire de manière significative le nombre d’appels d’API qu’il doit effectuer pour détecter les nouveaux fichiers. Pour plus d’informations, consultezQu’est-ce que le mode de liste d’annuaires Auto Loader ?.

Mode de notification de fichier

Le mode de notification de fichier tire parti des services de notification de fichiers et de file d’attente dans votre compte d’infrastructure cloud. Auto Loader peut configurer automatiquement un service de notification et un service de file d’attente qui s’abonnent aux événements de fichiers du répertoire d’entrée.

Le mode de notification de fichiers est plus performant et évolutif pour les répertoires d’entrée volumineux ou un nombre élevé de fichiers, mais il nécessite des autorisations supplémentaires sur le cloud pour être configuré. Pour plus d’informations, consultez Qu’est-ce que le mode de notification de fichier Auto Loader ?.

Stockage en ligne pris en charge par les modes

La disponibilité de ces modes est indiquée ci-dessous.

Si vous migrez d’un emplacement externe ou d’un montage DBFS vers un volume Unity Catalog, Auto Loader continue de fournir des garanties d’exécution unique.

Cloud Storage Liste de répertoires Notifications de fichiers
AWS S3 Toutes les versions Toutes les versions
ADLS Gen2 Toutes les versions Toutes les versions
GCS Toutes les versions Databricks Runtime 9.1 et versions ultérieures
Stockage Blob Azure Toutes les versions Toutes les versions
ADLS Gen1 Toutes les versions Non pris en charge
DBFS Toutes les versions Pour les points de montage uniquement
Volume Unity Catalog Dans Databricks Runtime 13.3 LTS et versions ultérieures Non pris en charge