Onboarding dat z Azure Data Lake Storage Gen2
Tento článek popisuje, jak připojit data do nového pracovního prostoru Azure Databricks z Azure Data Lake Storage Gen2. Dozvíte se, jak bezpečně přistupovat ke zdrojovým datům v cloudovém úložišti objektů, které odpovídá svazku katalogu Unity (doporučeno) nebo externímu umístění katalogu Unity. Pak se dozvíte, jak ingestovat data přírůstkově do spravované tabulky Unity Catalog pomocí automatického zavaděče s delta živými tabulkami.
Poznámka:
Pokud chcete připojit data v Databricks SQL místo v poznámkovém bloku, přečtěte si téma Načtení dat pomocí streamovaných tabulek v Databricks SQL.
Než začnete
Pokud nejste správcem, předpokládá se, že vám správce poskytl následující:
Přístup k pracovnímu prostoru Azure Databricks s povoleným katalogem Unity Další informace najdete v tématu Nastavení a správa katalogu Unity.
Oprávnění
READ FILES
k externímu svazku katalogu Unity nebo externímu umístění katalogu Unity, které odpovídá umístění cloudového úložiště, které obsahuje zdrojová data. Další informace najdete v tématu Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks.Cesta ke zdrojovým datům.
Příklad cesty svazku:
/Volumes/<catalog>/<schema>/<volume>/<path>/<folder>
Příklad cesty k externímu umístění:
abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
Oprávnění
USE SCHEMA
schématuCREATE TABLE
, do kterého chcete načíst data.Oprávnění k vytvoření clusteru nebo přístup k zásadám clusteru, které definují cluster kanálu Delta Live Tables (
cluster_type
pole nastavené nadlt
).Pokud je cesta ke zdrojovým datům cesta ke svazku, musí cluster spustit Databricks Runtime 13.3 LTS nebo vyšší.
Důležité
Pokud máte dotazy týkající se těchto požadavků, obraťte se na správce účtu.
Krok 1: Vytvoření clusteru
Pokud chcete vytvořit cluster, postupujte takto:
- Přihlaste se k pracovnímu prostoru Azure Databricks.
- Na bočním panelu klikněte na Nový>cluster.
- V uživatelském rozhraní clusterů zadejte jedinečný název clusteru.
- Pokud je cesta ke zdrojovým datům cesta ke svazku, pro verzi modulu runtime Databricks Runtime vyberte verzi 13.2 nebo vyšší.
- Klikněte na Create cluster (Vytvořit cluster).
Krok 2: Vytvoření poznámkového bloku pro zkoumání dat
Tato část popisuje, jak vytvořit poznámkový blok pro zkoumání dat, abyste pochopili data před vytvořením datového kanálu.
Na bočním panelu klikněte na +Nový>poznámkový blok.
Poznámkový blok se automaticky připojí k poslednímu použitému clusteru (v tomto případě cluster, který jste vytvořili v kroku 1: Vytvoření clusteru).
Zadejte název poznámkového bloku.
Klikněte na tlačítko jazyka a pak vyberte
Python
neboSQL
z rozevírací nabídky.Python
je ve výchozím nastavení vybraná.Pokud chcete potvrdit přístup ke zdrojovým datům v ADLS Gen2, vložte do buňky poznámkového bloku následující kód, klikněte na a potom klikněte na Spustit buňku.
SQL
LIST '<path-to-source-data>'
Python
%fs ls '<path-to-source-data>'
Nahraďte
<path-to-source-data>
cestu k adresáři, který obsahuje vaše data.Zobrazí se obsah adresáře, který obsahuje datovou sadu.
Pokud chcete zobrazit ukázku záznamů, abyste lépe porozuměli obsahu a formátu každého záznamu, vložte následující položky do buňky poznámkového bloku, klikněte na položku a potom klikněte na spustit buňku.
SQL
SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
Python
spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
Nahraďte následující hodnoty:
<file-format>
: Podporovaný formát souboru. Viz Možnosti formátu souboru.<path to source data>
: Cesta k souboru v adresáři, který obsahuje vaše data.
Zobrazí se prvních deset záznamů ze zadaného souboru.
Krok 3: Příjem nezpracovaných dat
Pokud chcete ingestovat nezpracovaná data, postupujte takto:
Na bočním panelu klikněte na Nový>poznámkový blok.
Poznámkový blok se automaticky připojí k poslednímu použitému clusteru (v tomto případě cluster, který jste vytvořili dříve v tomto článku).
Zadejte název poznámkového bloku.
Klikněte na tlačítko jazyka a pak vyberte
Python
neboSQL
z rozevírací nabídky.Python
je ve výchozím nastavení vybraná.Do buňky poznámkového bloku vložte následující kód:
SQL
CREATE OR REFRESH STREAMING TABLE <table-name> AS SELECT * FROM STREAM read_files( '<path-to-source-data>', format => '<file-format>' )
Python
@dlt.table(table_properties={'quality': 'bronze'}) def <table-name>(): return ( spark.readStream.format('cloudFiles') .option('cloudFiles.format', '<file-format>') .load(f'{<path-to-source-data>}') )
Nahraďte následující hodnoty:
<table-name>
: Název tabulky, která bude obsahovat ingestované záznamy.<path-to-source-data>
: Cesta ke zdrojovým datům.<file-format>
: Podporovaný formát souboru. Viz Možnosti formátu souboru.
Poznámka:
Rozdílové živé tabulky nejsou navržené tak, aby běžely interaktivně v buňkách poznámkového bloku. Spuštění buňky obsahující syntaxi delta živých tabulek v poznámkovém bloku vrátí zprávu o tom, jestli je dotaz syntakticky platný, ale nespouští logiku dotazu. Následující krok popisuje, jak vytvořit kanál z poznámkového bloku pro příjem dat, který jste právě vytvořili.
Krok 4: Vytvoření a publikování kanálu
Pokud chcete vytvořit kanál a publikovat ho do katalogu Unity, postupujte takto:
- Na bočním panelu klikněte na Pracovní postupy, klikněte na kartu Delta Live Tables a potom klikněte na Vytvořit kanál.
- Zadejte název kanálu.
- V režimu kanálu vyberte Aktivované.
- Jako zdrojový kód vyberte poznámkový blok, který obsahuje zdrojový kód kanálu.
- Jako cíl vyberte Katalog Unity.
- Pokud chcete zajistit, aby byla vaše tabulka spravovaná katalogem Unity a každý uživatel s přístupem k nadřazeným schématu se na ni může dotazovat, vyberte v rozevíracích seznamech katalog a cílové schéma .
- Pokud nemáte oprávnění k vytvoření clusteru, vyberte v rozevíracím seznamu zásadu clusteru, která podporuje rozdílové živé tabulky.
- V části Upřesnit nastavte kanál na náhled.
- Přijměte všechny ostatní výchozí hodnoty a klikněte na Vytvořit.
Krok 5: Naplánování kanálu
Pokud chcete naplánovat kanál, postupujte takto:
- Na bočním panelu klikněte na Rozdílové živé tabulky.
- Klikněte na název kanálu, který chcete naplánovat.
- Klikněte na Naplánovat>přidání plánu.
- Jako název úlohy zadejte název úlohy.
- Nastavte plán na Naplánovaný.
- Zadejte období, počáteční čas a časové pásmo.
- Nakonfigurujte jednu nebo více e-mailových adres pro příjem upozornění na spuštění kanálu, úspěch nebo selhání.
- Klikněte na Vytvořit.
Další kroky
- Udělte uživatelům přístup k nové tabulce. Další informace najdete v tématu Oprávnění katalogu Unity a zabezpečitelné objekty.
- Uživatelé s přístupem k nové tabulce se teď můžou dotazovat na tabulku v poznámkovém bloku nebo používat editor SQL Databricks.