Cvičení – použití výpočetních transformací ve službě Azure Data Factory
V některých případech nemusí transformace bez kódu ve velkém splňovat vaše požadavky. Pomocí služby Azure Data Factory můžete ingestovat nezpracovaná data shromážděná z různých zdrojů a pracovat s celou řadou výpočetních prostředků, jako jsou Azure Databricks, Azure HDInsight nebo jiné výpočetní prostředky, a změnit jejich strukturu podle vašich požadavků.
ADF a Azure Databricks
Například integrace Azure Databricks s ADF umožňuje přidávat poznámkové bloky Databricks do kanálu ADF, abyste mohli využívat možnosti analýzy a transformace dat Databricks. Poznámkový blok můžete přidat do pracovního postupu dat a strukturovat a transformovat tak nezpracovaná data načtená do služby ADF z různých zdrojů. Po transformaci ve službě Databricks můžete data načíst do libovolného zdroje datového skladu.
Příjem a transformace dat pomocí společných možností služby ADF a Azure Databricks v podstatě zahrnuje následující kroky:
Vytvoření účtu úložiště Azure – prvním krokem je vytvoření účtu úložiště Azure pro ukládání přijatých a transformovaných dat.
Vytvoření služby Azure Data Factory – jakmile máte nastavený účet úložiště, musíte na webu Azure Portal vytvořit Azure Data Factory.
Vytvoření kanálu pracovního postupu dat – po zprovoznění úložiště a ADF začnete vytvořením kanálu, přičemž prvním krokem bude zkopírování dat ze zdroje pomocí aktivity kopírování ve službě ADF. Aktivita kopírování umožňuje kopírovat data z různých místních a cloudových zdrojů.
Přidání poznámkového bloku Databricks do kanálu – po zkopírování dat do ADF přidáte do kanálu za aktivitu kopírování poznámkový blok Databricks. Podle potřeby tento poznámkový blok může obsahovat syntaxi a kód pro transformaci a vyčištění nezpracovaných dat.
Provedení analýzy dat – nyní, když máte data vyčištěná a strukturovaná v požadovaném formátu, můžete je pomocí poznámkových bloků Databricks dále trénovat nebo analyzovat, abyste dostali požadované výsledky.
Naučili jste se, co je služba Azure Data Factory a jak její integrace se službou Azure Databricks pomáhá při načítání a transformaci dat. Nyní si vytvořme celý ukázkový pracovní postup dat.
Integrace poznámkových bloků Azure Databricks s kanálem Azure Data Factory
K integraci poznámkových bloků Azure Databricks s kanálem Azure Data Factory je potřeba provést řadu úloh:
Vygenerujte přístupový token Databricks.
Generování poznámkového bloku Databricks
Vytvoření propojených služeb
Vytvořte kanál, který používá aktivitu poznámkového bloku Databricks.
Aktivace spuštění kanálu
Poznámka:
Následující kroky předpokládají, že už je zřízený cluster Azure Databricks.
Úkol 1: Vygenerování přístupového tokenu Databricks
Na webu Azure Portal klikněte na skupiny prostředků a potom klikněte na awrgstudxx a potom klikněte na awdbwsstudxx, kde xx jsou iniciály vašeho jména.
Klikněte na Spustit pracovní prostor.
Klikněte na uživatele Nastavení v levém dolním rohu pracovního prostoru Databricks.
Klikněte na Nastavení uživatele.
Přejděte na kartu Přístupové tokeny a klikněte na tlačítko Generovat nový token .
Zadejte popis v komentáři "Pro integraci ADF" a nastavte dobu životnosti 10 dnů a klikněte na Generovat.
Zkopírujte vygenerovaný token a uložte ho do Poznámkový blok a klikněte na Hotovo.
Úkol 2: Vygenerování poznámkového bloku Databricks
Na levé straně obrazovky klikněte na ikonu Pracovní prostor , potom klikněte na šipku vedle slova Pracovní prostor a pak klikněte na Vytvořit a potom klikněte na Složku. Pojmenujte složku adftutorial a klikněte na Vytvořit složku. Složka adftutorial se zobrazí v pracovním prostoru.
Klikněte na šipku rozevíracího seznamu vedle položky adftutorial a potom klikněte na Vytvořit a potom klikněte na Poznámkový blok.
V dialogovém okně Vytvořit poznámkový blok zadejte název mynotebooku a ujistěte se, že jazyk uvádí Python, a klikněte na Vytvořit. Zobrazí se poznámkový blok s názvem mynotebooku.
Do nově vytvořeného poznámkového bloku mynotebook přidejte následující kód:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") dbutils.widgets.get("input") y = getArgument("input") print ("Param -\'input':") print (y)
Poznámka:
že cesta k poznámkovému bloku je /adftutorial/mynotebook
Úkol 3: Vytvoření propojených služeb
V Microsoft Edgi klikněte na kartu portálu Na webu Azure Portal a vraťte se do služby Azure Data Factory a klikněte na Otevřít Azure Data Factory Studio.
Na levé straně obrazovky klikněte na ikonu Spravovat .
V části Připojení klikněte na Propojené služby.
V propojené službě v horní části obrazovky klikněte na + Nový,
Klikněte na kartu Compute , klikněte na Azure Databricks a potom na Pokračovat.
Na obrazovce Nová propojená služba (Azure Databricks) vyplňte následující podrobnosti a klikněte na Dokončit.
- Název: xx_dbls, kde xx jsou vaše iniciály
- Pracovní prostor Databricks: awdbwsstudxx, kde xx jsou vaše iniciály
- Výběr clusteru: Použít existující
- Doména nebo oblast: měla by být vyplněna.
- Přístupový token: Zkopírujte přístupový token z Poznámkový blok a vložte ho do tohoto pole.
- Vyberte si z existujícího clusteru: awdbclstudxx, kde xx jsou vaše iniciály.
- U ostatních možností ponechte výchozí nastavení.
Poznámka:
Po kliknutí na tlačítko Dokončit se vrátíte na obrazovku Author &Monitor , kde byl vytvořen xx_dbls s dalšími propojenými službami vytvořenými v předchozím exercize.
Úkol 4: Vytvoření kanálu, který používá aktivitu poznámkového bloku Databricks
Na levé straně obrazovky klikněte na ikonu Autor a potom klikněte na Kanál. Otevře se karta s návrhářem kanálu.
V dolní části návrháře kanálu klikněte na kartu Parametry a potom klikněte na + Nový.
Vytvoření parametru s názvem s typem řetězce
V nabídce Aktivity rozbalte Databricks.
Klikněte a přetáhněte poznámkový blok na plátno.
Ve vlastnostech okna Poznámkový blok1 v dolní části proveďte následující kroky:
Přepněte na kartu Azure Databricks.
Vyberte xx_dbls , kterou jste vytvořili v předchozím postupu.
Přepněte na kartu Nastavení a do cesty k poznámkovému bloku vložte /adftutorial/mynotebook.
Rozbalte základní parametry a klikněte na + Nový
Vytvoření parametru s názvem vstupu s hodnotou @pipeline().parameters.name
V poznámkovém bloku 1 klikněte na Ověřit vedle tlačítka Uložit jako šablonu. Na pravé straně obrazovky se zobrazí okno s textem "Váš kanál byl ověřen. Nebyly nalezeny žádné chyby." Kliknutím na tlačítko >> okno zavřete.
Kliknutím na publikovat vše publikujte propojenou službu a kanál.
Poznámka:
Zobrazí se zpráva s oznámením, že nasazení bylo úspěšné.
Úloha 5: Aktivace spuštění kanálu
V poznámkovém bloku 1 klikněte na Přidat trigger a klikněte na Aktivační událost nyní vedle tlačítka Ladit.
Dialogové okno Spustit kanál požádá o parametr name. Jako parametr zde použijte /path/filename. Klikněte na Dokončit. Nad aktivitou Poznámkový blok 1 na plátně se zobrazí červený kroužek.
Úloha 6: Monitorování kanálu
Na levé straně obrazovky klikněte na kartu Monitorování . Potvrďte, že se zobrazí spuštění kanálu. Vytvoření clusteru úloh Databricks, ve kterém se poznámkový blok spustí, trvá přibližně 5 až 8 minut.
Pravidelně klikejte na Aktualizovat a kontrolujte stav spuštění kanálu.
Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, vyberte možnost Zobrazit spuštění aktivit ve sloupci Akce.
Úkol 7: Ověření výstupu
V Microsoft Edgi klikněte na kartu mynotebook – Databricks
V pracovním prostoru Azure Databricks klikněte na Clustery a stav úlohy můžete zobrazit jako čekající spuštění, spuštění nebo ukončení.
Klikněte na cluster awdbclstudxx a potom kliknutím na protokol událostí zobrazte aktivity.
Poznámka:
Měl by se zobrazit typ události Zahájení s časem, kdy jste aktivovali spuštění kanálu.