Co je automatický zavaděč?
Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště bez jakéhokoli dalšího nastavení.
Jak automatický zavaděč funguje?
Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště. Poskytuje zdroj strukturovaného streamování s názvem cloudFiles
. Vzhledem k cestě ke vstupnímu adresáři v cloudovém úložišti cloudFiles
souborů zdroj automaticky zpracovává nové soubory při jejich doručení s možností také zpracovávat existující soubory v tomto adresáři. Automatický zavaděč podporuje Python i SQL v dynamických tabulkách Delta.
Pomocí automatického zavaděče můžete zpracovat miliardy souborů k migraci nebo obnovení tabulky. Automatické zavaděče se škáluje tak, aby podporovalo příjem milionů souborů téměř v reálném čase za hodinu.
Podporované zdroje automatického zavaděče
Automatický zavaděč může načíst datové soubory z následujících zdrojů:
Amazon S3 (
s3://
)Azure Data Lake Storage Gen2 (ADLS Gen2,
abfss://
)Google Cloud Storage (GCS,
gs://
)Azure Blob Storage (
wasbs://
)Poznámka:
Starší verze ovladače objektů blob služby Windows Azure Storage (WASB) je zastaralá. ABFS má oproti WASB řadu výhod. Viz dokumentace k Azure v ABFS. Dokumentaci pro práci se starším ovladačem WASB najdete v tématu Připojení ke službě Azure Blob Storage pomocí WASB (starší verze).
ADLS Gen1 (
adl://
)Poznámka:
Platforma Azure oznámila nevyřízené vyřazení Azure Data Lake Storage Gen1. Databricks doporučuje migrovat všechna data z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2. Pokud jste ještě nemigrovali, přečtěte si téma Přístup k Azure Data Lake Storage Gen1 z Azure Databricks.
Systém souborů Databricks (DBFS,
dbfs:/
).
Automatický zavaděč může ingestovat JSON
, CSV
, XML
, PARQUET
, AVRO
, ORC
, , TEXT
a BINARYFILE
formáty souborů.
Jak automatické zavaděče sleduje průběh příjmu dat?
Při zjištění souborů se metadata uchovávají ve škálovatelném úložišti klíč-hodnota (RocksDB) v umístění kontrolního bodu vašeho kanálu automatického zavaděče. Toto úložiště klíč-hodnota zajišťuje, aby se data zpracovávala přesně jednou.
V případě selhání může automatický zavaděč pokračovat z místa, kde skončila informacemi uloženými v umístění kontrolního bodu, a při zápisu dat do Delta Lake dál poskytovat přesně jednou záruky. Abyste dosáhli odolnosti proti chybám nebo přesně jednou sémantiky, nemusíte udržovat ani spravovat žádný stav sami.
Přírůstkový příjem dat pomocí automatického zavaděče s dynamickými tabulkami Delta
Databricks doporučuje automatické zavaděče v rozdílových živých tabulkách pro přírůstkový příjem dat. Delta Live Tables rozšiřuje funkce strukturovaného streamování Apache Sparku a umožňuje napsat jen několik řádků deklarativního Pythonu nebo SQL pro nasazení datového kanálu pro produkční kvalitu pomocí:
- Automatické škálování výpočetní infrastruktury pro úsporu nákladů
- Kontroly kvality dat s očekáváním
- Automatické zpracování vývoje schématu
- Monitorování prostřednictvím metrik v protokolu událostí
Nemusíte zadávat schéma ani umístění kontrolního bodu, protože rozdílové živé tabulky automaticky spravují tato nastavení pro vaše kanály. Viz Načtení dat s rozdílovými živými tabulkami.
Databricks také doporučuje automatický zavaděč při každém použití strukturovaného streamování Apache Spark k ingestování dat z cloudového úložiště objektů. Rozhraní API jsou k dispozici v Pythonu a Scala.
Začínáme s automatickým zavaděčem Databricks
V následujících článcích se dozvíte, jak začít s konfigurací přírůstkového příjmu dat pomocí automatického zavaděče s rozdílovými živými tabulkami:
Příklady: Běžné vzory automatického zavaděče
Příklady běžných vzorů automatického zavaděče najdete v tématu Běžné vzory načítání dat.
Konfigurace možností automatického zavaděče
Automatický zavaděč můžete ladit na základě objemu dat, řady a rychlosti.
- Konfigurace odvození schématu a vývoje v automatickém zavaděči
- Konfigurace automatického zavaděče pro produkční úlohy
Úplný seznam možností automatického zavaděče najdete tady:
Pokud narazíte na neočekávaný výkon, podívejte se na nejčastější dotazy.
Konfigurace režimů detekce souborů automatického zavaděče
Automatický zavaděč podporuje dva režimy detekce souborů. Přečtěte si:
- Co je režim výpisu adresáře automatického zavaděče?
- Co je režim oznámení souboru automatického zavaděče?
Výhody automatického zavaděče při použití strukturovaného streamování přímo u souborů
V Apache Sparku můžete soubory číst přírůstkově pomocí spark.readStream.format(fileFormat).load(directory)
. Automatický zavaděč poskytuje pro zdroj souborů následující výhody:
- Škálovatelnost: Automatický zavaděč dokáže efektivně zjišťovat miliardy souborů. Obnovení je možné provádět asynchronně, aby nedocházelo k plýtvání výpočetními prostředky.
- Výkon: Náklady na zjišťování souborů s automatickým zavaděčem se škálují s počtem souborů, které se ingestují, místo počtu adresářů, ve které mohou soubory přistát. Podívejte se, co je režim výpisu adresáře automatického zavaděče?
- Podpora odvozování a vývoje schématu: Auto Loader dokáže rozpoznat odchylky schématu, upozornit vás, kdy dojde ke změnám schématu, a záchranná data, která by jinak byla ignorována nebo ztracena. Podívejte se, jak funguje odvození schématu automatického zavaděče?.
- Náklady: Auto Loader používá nativní cloudová rozhraní API k získání seznamů souborů, které existují v úložišti. Kromě toho může režim oznámení souborů automatického zavaděče pomoct snížit náklady na cloud ještě více tím, že se úplně vyhne výpisu adresáře. Automatické zavaděče může automaticky nastavit služby oznámení souborů v úložišti, aby bylo zjišťování souborů mnohem levnější.