Onboarding dat z Azure Data Lake Storage Gen2

Článek
11/07/2024

Tento článek popisuje, jak připojit data do nového pracovního prostoru Azure Databricks z Azure Data Lake Storage Gen2. Dozvíte se, jak bezpečně přistupovat ke zdrojovým datům v cloudovém úložišti objektů, které odpovídá svazku katalogu Unity (doporučeno) nebo externímu umístění katalogu Unity. Pak se dozvíte, jak ingestovat data přírůstkově do spravované tabulky Unity Catalog pomocí automatického zavaděče s delta živými tabulkami.

Poznámka:

Pokud chcete připojit data v Databricks SQL místo v poznámkovém bloku, přečtěte si téma Načtení dat pomocí streamovaných tabulek v Databricks SQL.

Než začnete

Pokud nejste správcem, předpokládá se, že vám správce poskytl následující:

Přístup k pracovnímu prostoru Azure Databricks s povoleným katalogem Unity Další informace najdete v tématu Nastavení a správa katalogu Unity.
Oprávnění READ FILES k externímu svazku katalogu Unity nebo externímu umístění katalogu Unity, které odpovídá umístění cloudového úložiště, které obsahuje zdrojová data. Další informace najdete v tématu Vytvoření externího umístění pro připojení cloudového úložiště k Azure Databricks.
Cesta ke zdrojovým datům.

Příklad cesty svazku: /Volumes/<catalog>/<schema>/<volume>/<path>/<folder>

Příklad cesty k externímu umístění: abfss://<container>@<storage-account>.dfs.core.windows.net/<folder>
Oprávnění USE SCHEMA schématu CREATE TABLE , do kterého chcete načíst data.
Oprávnění k vytvoření clusteru nebo přístup k zásadám clusteru, které definují cluster kanálu Delta Live Tables (cluster_typepole nastavené na dlt).

Pokud je cesta ke zdrojovým datům cesta ke svazku, musí cluster spustit Databricks Runtime 13.3 LTS nebo vyšší.

Důležité

Pokud máte dotazy týkající se těchto požadavků, obraťte se na správce účtu.

Krok 1: Vytvoření clusteru

Pokud chcete vytvořit cluster, postupujte takto:

Přihlaste se k pracovnímu prostoru Azure Databricks.
Na bočním panelu klikněte na Nový>cluster.
V uživatelském rozhraní clusterů zadejte jedinečný název clusteru.
Pokud je cesta ke zdrojovým datům cesta ke svazku, pro verzi modulu runtime Databricks Runtime vyberte verzi 13.2 nebo vyšší.
Klikněte na Create cluster (Vytvořit cluster).

Krok 2: Vytvoření poznámkového bloku pro zkoumání dat

Tato část popisuje, jak vytvořit poznámkový blok pro zkoumání dat, abyste pochopili data před vytvořením datového kanálu.

Na bočním panelu klikněte na +Nový>poznámkový blok.

Poznámkový blok se automaticky připojí k poslednímu použitému clusteru (v tomto případě cluster, který jste vytvořili v kroku 1: Vytvoření clusteru).
Zadejte název poznámkového bloku.
Klikněte na tlačítko jazyka a pak vyberte Python nebo SQL z rozevírací nabídky. Python je ve výchozím nastavení vybraná.
Pokud chcete potvrdit přístup ke zdrojovým datům v ADLS Gen2, vložte do buňky poznámkového bloku následující kód, klikněte na a potom klikněte na Spustit buňku.

SQL
```
LIST '<path-to-source-data>'
```
Python
```
%fs ls '<path-to-source-data>'
```
Nahraďte <path-to-source-data> cestu k adresáři, který obsahuje vaše data.

Zobrazí se obsah adresáře, který obsahuje datovou sadu.
Pokud chcete zobrazit ukázku záznamů, abyste lépe porozuměli obsahu a formátu každého záznamu, vložte následující položky do buňky poznámkového bloku, klikněte na položku a potom klikněte na spustit buňku.

SQL
```
SELECT * from read_files('<path-to-source-data>', format => '<file-format>') LIMIT 10
```
Python
```
spark.read.format('<file-format>').load('<path-to-source-data>').limit(10).display()
```
Nahraďte následující hodnoty:
- <file-format>: Podporovaný formát souboru. Viz Možnosti formátu souboru.
- <path to source data>: Cesta k souboru v adresáři, který obsahuje vaše data.
Zobrazí se prvních deset záznamů ze zadaného souboru.

Krok 3: Příjem nezpracovaných dat

Pokud chcete ingestovat nezpracovaná data, postupujte takto:

Na bočním panelu klikněte na Nový>poznámkový blok.

Poznámkový blok se automaticky připojí k poslednímu použitému clusteru (v tomto případě cluster, který jste vytvořili dříve v tomto článku).
Zadejte název poznámkového bloku.
Klikněte na tlačítko jazyka a pak vyberte Python nebo SQL z rozevírací nabídky. Python je ve výchozím nastavení vybraná.

Do buňky poznámkového bloku vložte následující kód:

SQL

CREATE OR REFRESH STREAMING TABLE
  <table-name>
AS SELECT
  *
FROM
  STREAM read_files(
    '<path-to-source-data>',
    format => '<file-format>'
  )

Python

@dlt.table(table_properties={'quality': 'bronze'})
def <table-name>():
  return (
     spark.readStream.format('cloudFiles')
     .option('cloudFiles.format', '<file-format>')
     .load(f'{<path-to-source-data>}')
 )

Nahraďte následující hodnoty:

<table-name>: Název tabulky, která bude obsahovat ingestované záznamy.
<path-to-source-data>: Cesta ke zdrojovým datům.
<file-format>: Podporovaný formát souboru. Viz Možnosti formátu souboru.

Poznámka:

Rozdílové živé tabulky nejsou navržené tak, aby běžely interaktivně v buňkách poznámkového bloku. Spuštění buňky obsahující syntaxi delta živých tabulek v poznámkovém bloku vrátí zprávu o tom, jestli je dotaz syntakticky platný, ale nespouští logiku dotazu. Následující krok popisuje, jak vytvořit kanál z poznámkového bloku pro příjem dat, který jste právě vytvořili.

Krok 4: Vytvoření a publikování kanálu

Pokud chcete vytvořit kanál a publikovat ho do katalogu Unity, postupujte takto:

Na bočním panelu klikněte na Pracovní postupy, klikněte na kartu Delta Live Tables a potom klikněte na Vytvořit kanál.
Zadejte název kanálu.
V režimu kanálu vyberte Aktivované.
Jako zdrojový kód vyberte poznámkový blok, který obsahuje zdrojový kód kanálu.
Jako cíl vyberte Katalog Unity.
Pokud chcete zajistit, aby byla vaše tabulka spravovaná katalogem Unity a každý uživatel s přístupem k nadřazeným schématu se na ni může dotazovat, vyberte v rozevíracích seznamech katalog a cílové schéma .
Pokud nemáte oprávnění k vytvoření clusteru, vyberte v rozevíracím seznamu zásadu clusteru, která podporuje rozdílové živé tabulky.
V části Upřesnit nastavte kanál na náhled.
Přijměte všechny ostatní výchozí hodnoty a klikněte na Vytvořit.

Krok 5: Naplánování kanálu

Pokud chcete naplánovat kanál, postupujte takto:

Na bočním panelu klikněte na Rozdílové živé tabulky.
Klikněte na název kanálu, který chcete naplánovat.
Klikněte na Naplánovat>přidání plánu.
Jako název úlohy zadejte název úlohy.
Nastavte plán na Naplánovaný.
Zadejte období, počáteční čas a časové pásmo.
Nakonfigurujte jednu nebo více e-mailových adres pro příjem upozornění na spuštění kanálu, úspěch nebo selhání.
Klikněte na Vytvořit.

Další kroky

Udělte uživatelům přístup k nové tabulce. Další informace najdete v tématu Oprávnění katalogu Unity a zabezpečitelné objekty.
Uživatelé s přístupem k nové tabulce se teď můžou dotazovat na tabulku v poznámkovém bloku nebo používat editor SQL Databricks.

Sdílet prostřednictvím

Onboarding dat z Azure Data Lake Storage Gen2

Než začnete

Krok 1: Vytvoření clusteru

Krok 2: Vytvoření poznámkového bloku pro zkoumání dat

SQL

Python

SQL

Python

Krok 3: Příjem nezpracovaných dat

SQL

Python

Krok 4: Vytvoření a publikování kanálu

Krok 5: Naplánování kanálu

Další kroky

Váš názor

Další materiály