Porównanie trybów wykrywania plików automatycznego modułu ładującego

Moduł automatycznego ładowania obsługuje dwa tryby wykrywania nowych plików: lista katalogów i powiadomienie o plikach. Tryby odnajdywania plików można przełączać między ponownymi uruchomieniami strumienia i nadal uzyskiwać dokładnie jednokrotne gwarancje przetwarzania danych.

Tryb listy katalogów

W trybie listy katalogów funkcja automatycznego ładowania identyfikuje nowe pliki, wyświetlając katalog wejściowy. Tryb listy katalogów umożliwia szybkie uruchamianie strumieni automatycznego modułu ładującego bez żadnych konfiguracji uprawnień innych niż dostęp do danych w magazynie w chmurze.

W środowisku Databricks Runtime 9.1 lub nowszym narzędzie do automatycznego ładowania może automatycznie wykrywać, czy pliki docierają z kolejnością leksykalną do magazynu w chmurze i znacznie zmniejszają ilość wywołań interfejsu API potrzebnych do wykrywania nowych plików. Aby uzyskać więcej informacji, zobacz Co to jest tryb listy katalogów automatycznego ładowania?

Tryb powiadamiania o pliku

Tryb powiadomień plików korzysta z usług powiadomień dotyczących plików i kolejek na koncie infrastruktury chmury. Automatyczne ładowanie może automatycznie skonfigurować usługę powiadomień i usługę kolejki, która subskrybuje zdarzenia plików z katalogu wejściowego.

Tryb powiadomień plików jest bardziej wydajny i skalowalny w przypadku dużych katalogów wejściowych lub dużej liczby plików, ale wymaga dodatkowych uprawnień do chmury do skonfigurowania. Aby uzyskać więcej informacji, zobacz Co to jest tryb powiadomień pliku automatycznego ładowania?.

Magazyn w chmurze obsługiwany przez tryby

Dostępność tych trybów znajduje się poniżej.

W przypadku migracji z lokalizacji zewnętrznej lub instalacji systemu plików DBFS do woluminu wykazu aparatu Unity funkcja automatycznego ładowania nadal zapewnia dokładnie jednokrotne gwarancje.

Magazyn w chmurze Lista katalogów Powiadomienia dotyczące plików
AWS S3 Wszystkie wersje Wszystkie wersje
ADLS Gen2 Wszystkie wersje Wszystkie wersje
GCS Wszystkie wersje Databricks Runtime 9.1 i nowsze
Azure Blob Storage Wszystkie wersje Wszystkie wersje
ADLS Gen1 Wszystkie wersje Nieobsługiwane
DBFS Wszystkie wersje Tylko w przypadku punktów instalacji
Wolumin wykazu aparatu Unity Databricks Runtime 13.3 LTS i nowsze Nieobsługiwane