Cvičení – použití výpočetních transformací ve službě Azure Data Factory

Dokončeno

V některých případech nemusí transformace bez kódu ve velkém splňovat vaše požadavky. Pomocí služby Azure Data Factory můžete ingestovat nezpracovaná data shromážděná z různých zdrojů a pracovat s celou řadou výpočetních prostředků, jako jsou Azure Databricks, Azure HDInsight nebo jiné výpočetní prostředky, a změnit jejich strukturu podle vašich požadavků.

ADF a Azure Databricks

Například integrace Azure Databricks s ADF umožňuje přidávat poznámkové bloky Databricks do kanálu ADF, abyste mohli využívat možnosti analýzy a transformace dat Databricks. Poznámkový blok můžete přidat do pracovního postupu dat a strukturovat a transformovat tak nezpracovaná data načtená do služby ADF z různých zdrojů. Po transformaci ve službě Databricks můžete data načíst do libovolného zdroje datového skladu.

Příjem a transformace dat pomocí společných možností služby ADF a Azure Databricks v podstatě zahrnuje následující kroky:

  1. Vytvoření účtu úložiště Azure – prvním krokem je vytvoření účtu úložiště Azure pro ukládání přijatých a transformovaných dat.

  2. Vytvoření služby Azure Data Factory – jakmile máte nastavený účet úložiště, musíte na webu Azure Portal vytvořit Azure Data Factory.

  3. Vytvoření kanálu pracovního postupu dat – po zprovoznění úložiště a ADF začnete vytvořením kanálu, přičemž prvním krokem bude zkopírování dat ze zdroje pomocí aktivity kopírování ve službě ADF. Aktivita kopírování umožňuje kopírovat data z různých místních a cloudových zdrojů.

  4. Přidání poznámkového bloku Databricks do kanálu – po zkopírování dat do ADF přidáte do kanálu za aktivitu kopírování poznámkový blok Databricks. Podle potřeby tento poznámkový blok může obsahovat syntaxi a kód pro transformaci a vyčištění nezpracovaných dat.

  5. Provedení analýzy dat – nyní, když máte data vyčištěná a strukturovaná v požadovaném formátu, můžete je pomocí poznámkových bloků Databricks dále trénovat nebo analyzovat, abyste dostali požadované výsledky.

Naučili jste se, co je služba Azure Data Factory a jak její integrace se službou Azure Databricks pomáhá při načítání a transformaci dat. Nyní si vytvořme celý ukázkový pracovní postup dat.

Integrace poznámkových bloků Azure Databricks s kanálem Azure Data Factory

K integraci poznámkových bloků Azure Databricks s kanálem Azure Data Factory je potřeba provést řadu úloh:

  1. Vygenerujte přístupový token Databricks.

  2. Generování poznámkového bloku Databricks

  3. Vytvoření propojených služeb

  4. Vytvořte kanál, který používá aktivitu poznámkového bloku Databricks.

  5. Aktivace spuštění kanálu

    Poznámka:

    Následující kroky předpokládají, že už je zřízený cluster Azure Databricks.

Úkol 1: Vygenerování přístupového tokenu Databricks

  1. Na webu Azure Portal klikněte na skupiny prostředků a potom klikněte na awrgstudxx a potom klikněte na awdbwsstudxx, kde xx jsou iniciály vašeho jména.

  2. Klikněte na Spustit pracovní prostor.

  3. Klikněte na uživatele Nastavení v levém dolním rohu pracovního prostoru Databricks.

  4. Klikněte na Nastavení uživatele.

  5. Přejděte na kartu Přístupové tokeny a klikněte na tlačítko Generovat nový token .

  6. Zadejte popis v komentáři "Pro integraci ADF" a nastavte dobu životnosti 10 dnů a klikněte na Generovat.

  7. Zkopírujte vygenerovaný token a uložte ho do Poznámkový blok a klikněte na Hotovo.

Úkol 2: Vygenerování poznámkového bloku Databricks

  1. Na levé straně obrazovky klikněte na ikonu Pracovní prostor , potom klikněte na šipku vedle slova Pracovní prostor a pak klikněte na Vytvořit a potom klikněte na Složku. Pojmenujte složku adftutorial a klikněte na Vytvořit složku. Složka adftutorial se zobrazí v pracovním prostoru.

  2. Klikněte na šipku rozevíracího seznamu vedle položky adftutorial a potom klikněte na Vytvořit a potom klikněte na Poznámkový blok.

  3. V dialogovém okně Vytvořit poznámkový blok zadejte název mynotebooku a ujistěte se, že jazyk uvádí Python, a klikněte na Vytvořit. Zobrazí se poznámkový blok s názvem mynotebooku.

  4. Do nově vytvořeného poznámkového bloku mynotebook přidejte následující kód:

    # Creating widgets for leveraging parameters, and printing the parameters
    
    dbutils.widgets.text("input", "","")
    dbutils.widgets.get("input")
    y = getArgument("input")
    print ("Param -\'input':")
    print (y)
    

    Poznámka:

    že cesta k poznámkovému bloku je /adftutorial/mynotebook

Úkol 3: Vytvoření propojených služeb

  1. V Microsoft Edgi klikněte na kartu portálu Na webu Azure Portal a vraťte se do služby Azure Data Factory a klikněte na Otevřít Azure Data Factory Studio.

  2. Na levé straně obrazovky klikněte na ikonu Spravovat .

  3. V části Připojení klikněte na Propojené služby.

  4. V propojené službě v horní části obrazovky klikněte na + Nový,

  5. Klikněte na kartu Compute , klikněte na Azure Databricks a potom na Pokračovat.

  6. Na obrazovce Nová propojená služba (Azure Databricks) vyplňte následující podrobnosti a klikněte na Dokončit.

    • Název: xx_dbls, kde xx jsou vaše iniciály
    • Pracovní prostor Databricks: awdbwsstudxx, kde xx jsou vaše iniciály
    • Výběr clusteru: Použít existující
    • Doména nebo oblast: měla by být vyplněna.
    • Přístupový token: Zkopírujte přístupový token z Poznámkový blok a vložte ho do tohoto pole.
    • Vyberte si z existujícího clusteru: awdbclstudxx, kde xx jsou vaše iniciály.
    • U ostatních možností ponechte výchozí nastavení.

    Poznámka:

    Po kliknutí na tlačítko Dokončit se vrátíte na obrazovku Author &Monitor , kde byl vytvořen xx_dbls s dalšími propojenými službami vytvořenými v předchozím exercize.

Úkol 4: Vytvoření kanálu, který používá aktivitu poznámkového bloku Databricks

  1. Na levé straně obrazovky klikněte na ikonu Autor a potom klikněte na Kanál. Otevře se karta s návrhářem kanálu.

  2. V dolní části návrháře kanálu klikněte na kartu Parametry a potom klikněte na + Nový.

  3. Vytvoření parametru s názvem s typem řetězce

  4. V nabídce Aktivity rozbalte Databricks.

  5. Klikněte a přetáhněte poznámkový blok na plátno.

  6. Ve vlastnostech okna Poznámkový blok1 v dolní části proveďte následující kroky:

    • Přepněte na kartu Azure Databricks.

    • Vyberte xx_dbls , kterou jste vytvořili v předchozím postupu.

    • Přepněte na kartu Nastavení a do cesty k poznámkovému bloku vložte /adftutorial/mynotebook.

    • Rozbalte základní parametry a klikněte na + Nový

    • Vytvoření parametru s názvem vstupu s hodnotou @pipeline().parameters.name

  7. V poznámkovém bloku 1 klikněte na Ověřit vedle tlačítka Uložit jako šablonu. Na pravé straně obrazovky se zobrazí okno s textem "Váš kanál byl ověřen. Nebyly nalezeny žádné chyby." Kliknutím na tlačítko >> okno zavřete.

  8. Kliknutím na publikovat vše publikujte propojenou službu a kanál.

    Poznámka:

    Zobrazí se zpráva s oznámením, že nasazení bylo úspěšné.

Úloha 5: Aktivace spuštění kanálu

  1. V poznámkovém bloku 1 klikněte na Přidat trigger a klikněte na Aktivační událost nyní vedle tlačítka Ladit.

  2. Dialogové okno Spustit kanál požádá o parametr name. Jako parametr zde použijte /path/filename. Klikněte na Dokončit. Nad aktivitou Poznámkový blok 1 na plátně se zobrazí červený kroužek.

Úloha 6: Monitorování kanálu

  1. Na levé straně obrazovky klikněte na kartu Monitorování . Potvrďte, že se zobrazí spuštění kanálu. Vytvoření clusteru úloh Databricks, ve kterém se poznámkový blok spustí, trvá přibližně 5 až 8 minut.

  2. Pravidelně klikejte na Aktualizovat a kontrolujte stav spuštění kanálu.

  3. Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, vyberte možnost Zobrazit spuštění aktivit ve sloupci Akce.

Úkol 7: Ověření výstupu

  1. V Microsoft Edgi klikněte na kartu mynotebook – Databricks

  2. V pracovním prostoru Azure Databricks klikněte na Clustery a stav úlohy můžete zobrazit jako čekající spuštění, spuštění nebo ukončení.

  3. Klikněte na cluster awdbclstudxx a potom kliknutím na protokol událostí zobrazte aktivity.

    Poznámka:

    Měl by se zobrazit typ události Zahájení s časem, kdy jste aktivovali spuštění kanálu.