Cvičení – použití výpočetních transformací ve službě Azure Data Factory

8 min

V některých případech nemusí transformace bez kódu ve velkém splňovat vaše požadavky. Pomocí služby Azure Data Factory můžete ingestovat nezpracovaná data shromážděná z různých zdrojů a pracovat s celou řadou výpočetních prostředků, jako jsou Azure Databricks, Azure HDInsight nebo jiné výpočetní prostředky, a změnit jejich strukturu podle vašich požadavků.

ADF a Azure Databricks

Například integrace Azure Databricks s ADF umožňuje přidávat poznámkové bloky Databricks do kanálu ADF, abyste mohli využívat možnosti analýzy a transformace dat Databricks. Poznámkový blok můžete přidat do pracovního postupu dat a strukturovat a transformovat tak nezpracovaná data načtená do služby ADF z různých zdrojů. Po transformaci ve službě Databricks můžete data načíst do libovolného zdroje datového skladu.

Příjem a transformace dat pomocí společných možností služby ADF a Azure Databricks v podstatě zahrnuje následující kroky:

Vytvoření účtu úložiště Azure – prvním krokem je vytvoření účtu úložiště Azure pro ukládání přijatých a transformovaných dat.
Vytvoření služby Azure Data Factory – jakmile máte nastavený účet úložiště, musíte na webu Azure Portal vytvořit Azure Data Factory.
Vytvoření kanálu pracovního postupu dat – po zprovoznění úložiště a ADF začnete vytvořením kanálu, přičemž prvním krokem bude zkopírování dat ze zdroje pomocí aktivity kopírování ve službě ADF. Aktivita kopírování umožňuje kopírovat data z různých místních a cloudových zdrojů.
Přidání poznámkového bloku Databricks do kanálu – po zkopírování dat do ADF přidáte do kanálu za aktivitu kopírování poznámkový blok Databricks. Podle potřeby tento poznámkový blok může obsahovat syntaxi a kód pro transformaci a vyčištění nezpracovaných dat.
Provedení analýzy dat – nyní, když máte data vyčištěná a strukturovaná v požadovaném formátu, můžete je pomocí poznámkových bloků Databricks dále trénovat nebo analyzovat, abyste dostali požadované výsledky.

Naučili jste se, co je služba Azure Data Factory a jak její integrace se službou Azure Databricks pomáhá při načítání a transformaci dat. Nyní si vytvořme celý ukázkový pracovní postup dat.

Integrace poznámkových bloků Azure Databricks s kanálem Azure Data Factory

K integraci poznámkových bloků Azure Databricks s kanálem Azure Data Factory je potřeba provést řadu úloh:

Vygenerujte přístupový token Databricks.
Generování poznámkového bloku Databricks
Vytvoření propojených služeb
Vytvořte kanál, který používá aktivitu poznámkového bloku Databricks.
Aktivace spuštění kanálu

Poznámka:

Následující kroky předpokládají, že už je zřízený cluster Azure Databricks.

Úkol 1: Vygenerování přístupového tokenu Databricks

Na webu Azure Portal klikněte na skupiny prostředků a potom klikněte na awrgstudxx a potom klikněte na awdbwsstudxx, kde xx jsou iniciály vašeho jména.
Klikněte na Spustit pracovní prostor.
Klikněte na uživatele Nastavení v levém dolním rohu pracovního prostoru Databricks.
Klikněte na Nastavení uživatele.
Přejděte na kartu Přístupové tokeny a klikněte na tlačítko Generovat nový token .
Zadejte popis v komentáři "Pro integraci ADF" a nastavte dobu životnosti 10 dnů a klikněte na Generovat.
Zkopírujte vygenerovaný token a uložte ho do Poznámkový blok a klikněte na Hotovo.

Úkol 2: Vygenerování poznámkového bloku Databricks

Na levé straně obrazovky klikněte na ikonu Pracovní prostor , potom klikněte na šipku vedle slova Pracovní prostor a pak klikněte na Vytvořit a potom klikněte na Složku. Pojmenujte složku adftutorial a klikněte na Vytvořit složku. Složka adftutorial se zobrazí v pracovním prostoru.
Klikněte na šipku rozevíracího seznamu vedle položky adftutorial a potom klikněte na Vytvořit a potom klikněte na Poznámkový blok.
V dialogovém okně Vytvořit poznámkový blok zadejte název mynotebooku a ujistěte se, že jazyk uvádí Python, a klikněte na Vytvořit. Zobrazí se poznámkový blok s názvem mynotebooku.

Do nově vytvořeného poznámkového bloku mynotebook přidejte následující kód:

# Creating widgets for leveraging parameters, and printing the parameters

dbutils.widgets.text("input", "","")
dbutils.widgets.get("input")
y = getArgument("input")
print ("Param -\'input':")
print (y)

Poznámka:

že cesta k poznámkovému bloku je /adftutorial/mynotebook

Úkol 3: Vytvoření propojených služeb

V Microsoft Edgi klikněte na kartu portálu Na webu Azure Portal a vraťte se do služby Azure Data Factory a klikněte na Otevřít Azure Data Factory Studio.
Na levé straně obrazovky klikněte na ikonu Spravovat .
V části Připojení klikněte na Propojené služby.
V propojené službě v horní části obrazovky klikněte na + Nový,
Klikněte na kartu Compute , klikněte na Azure Databricks a potom na Pokračovat.
Na obrazovce Nová propojená služba (Azure Databricks) vyplňte následující podrobnosti a klikněte na Dokončit.
- Název: xx_dbls, kde xx jsou vaše iniciály
- Pracovní prostor Databricks: awdbwsstudxx, kde xx jsou vaše iniciály
- Výběr clusteru: Použít existující
- Doména nebo oblast: měla by být vyplněna.
- Přístupový token: Zkopírujte přístupový token z Poznámkový blok a vložte ho do tohoto pole.
- Vyberte si z existujícího clusteru: awdbclstudxx, kde xx jsou vaše iniciály.
- U ostatních možností ponechte výchozí nastavení.
Poznámka:

Po kliknutí na tlačítko Dokončit se vrátíte na obrazovku Author &Monitor , kde byl vytvořen xx_dbls s dalšími propojenými službami vytvořenými v předchozím exercize.

Úkol 4: Vytvoření kanálu, který používá aktivitu poznámkového bloku Databricks

Na levé straně obrazovky klikněte na ikonu Autor a potom klikněte na Kanál. Otevře se karta s návrhářem kanálu.
V dolní části návrháře kanálu klikněte na kartu Parametry a potom klikněte na + Nový.
Vytvoření parametru s názvem s typem řetězce
V nabídce Aktivity rozbalte Databricks.
Klikněte a přetáhněte poznámkový blok na plátno.
Ve vlastnostech okna Poznámkový blok1 v dolní části proveďte následující kroky:
- Přepněte na kartu Azure Databricks.
- Vyberte xx_dbls , kterou jste vytvořili v předchozím postupu.
- Přepněte na kartu Nastavení a do cesty k poznámkovému bloku vložte /adftutorial/mynotebook.
- Rozbalte základní parametry a klikněte na + Nový
- Vytvoření parametru s názvem vstupu s hodnotou @pipeline().parameters.name
V poznámkovém bloku 1 klikněte na Ověřit vedle tlačítka Uložit jako šablonu. Na pravé straně obrazovky se zobrazí okno s textem "Váš kanál byl ověřen. Nebyly nalezeny žádné chyby." Kliknutím na tlačítko >> okno zavřete.
Kliknutím na publikovat vše publikujte propojenou službu a kanál.

Poznámka:

Zobrazí se zpráva s oznámením, že nasazení bylo úspěšné.

Úloha 5: Aktivace spuštění kanálu

V poznámkovém bloku 1 klikněte na Přidat trigger a klikněte na Aktivační událost nyní vedle tlačítka Ladit.
Dialogové okno Spustit kanál požádá o parametr name. Jako parametr zde použijte /path/filename. Klikněte na Dokončit. Nad aktivitou Poznámkový blok 1 na plátně se zobrazí červený kroužek.

Úloha 6: Monitorování kanálu

Na levé straně obrazovky klikněte na kartu Monitorování . Potvrďte, že se zobrazí spuštění kanálu. Vytvoření clusteru úloh Databricks, ve kterém se poznámkový blok spustí, trvá přibližně 5 až 8 minut.
Pravidelně klikejte na Aktualizovat a kontrolujte stav spuštění kanálu.
Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, vyberte možnost Zobrazit spuštění aktivit ve sloupci Akce.

Úkol 7: Ověření výstupu

V Microsoft Edgi klikněte na kartu mynotebook – Databricks
V pracovním prostoru Azure Databricks klikněte na Clustery a stav úlohy můžete zobrazit jako čekající spuštění, spuštění nebo ukončení.
Klikněte na cluster awdbclstudxx a potom kliknutím na protokol událostí zobrazte aktivity.

Poznámka:

Měl by se zobrazit typ události Zahájení s časem, kdy jste aktivovali spuštění kanálu.

Pokračovat