Sdílet prostřednictvím


Použití Auto Loader s katalogem Unity

Automatický zavaděč může bezpečně zpracovávat data z externích umístění nakonfigurovaných pomocí katalogu Unity. Další informace o bezpečném připojení úložiště pomocí katalogu Unity najdete v tématu Připojení ke cloudovému úložišti objektů pomocí katalogu Unity. Program Auto Loader spoléhá na strukturované streamování pro přírůstkové zpracování. Doporučení a omezení naleznete v části Používání katalogu Unity se strukturovaným streamováním.

Poznámka:

Ve verzi Databricks Runtime 11.3 LTS a vyšší můžete použít Auto Loader s režimy standardního nebo vyhrazeného přístupu (dříve známé jako sdílený a samostatný režim přístupu).

Režim výpisu adresáře je ve výchozím nastavení podporovaný. Režim oznámení souborů se podporuje jenom na výpočetních prostředcích s vyhrazeným režimem přístupu.

Načítání dat z externích umístění spravovaných Katalogem Unity pomocí automatického načítače

Automatické zavaděče můžete použít k načítání dat z libovolného externího umístění spravovaného katalogem Unity Catalog. Musíte mít READ FILES oprávnění k externímu umístění.

Poznámka:

Azure Data Lake Storage je jediný typ úložiště Azure podporovaný službou Unity Catalog.

Určení umístění prostředků Auto Loader pro Unity Catalog

Model zabezpečení katalogu Unity předpokládá, že všechna umístění úložiště odkazovaná v úloze budou spravována katalogem Unity. Databricks doporučuje vždy ukládat informace o kontrolních bodech a evoluci schématu v umístěních úložiště spravovaných katalogem Unity. Katalog Unity neumožňuje vnořit soubory pro kontrolní bod ani soubory pro odvozování a vývoj schématu v adresáři tabulky.

Příklady

Následující příklady předpokládají, že uživatel, který provádí příkaz, má oprávnění vlastníka k cílovým tabulkám, a následující konfigurace a přidělení:

Dočasné úložiště stipendium
abfss://autoloader-source@<storage-account>.dfs.core.windows.net/json-data PŘEČTI SOUBORY
abfss://dev-bucket@<storage-account>.dfs.core.windows.net ČTENÍ SOUBORŮ, ZÁPIS SOUBORŮ, CREATE TABLE

Pomocí Auto Loaderu načíst do spravované tabulky katalogu Unity

checkpoint_path = "abfss://dev-bucket@<storage-account>.dfs.core.windows.net/_checkpoint/dev_table"

(spark.readStream
  .format("cloudFiles")
  .option("cloudFiles.format", "json")
  .option("cloudFiles.schemaLocation", checkpoint_path)
  .load("abfss://autoloader-source@<storage-account>.dfs.core.windows.net/json-data")
  .writeStream
  .option("checkpointLocation", checkpoint_path)
  .trigger(availableNow=True)
  .toTable("dev_catalog.dev_database.dev_table"))