Spusťte poznámkový blok Databricks pomocí aktivity poznámkového bloku Databricks v Azure Data Factory

VZTAHUJE SE NA: Azure Data Factory Azure Synapse Analytics

Návod

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

V tomto kurzu pomocí portálu Azure vytvoříte kanál Azure Data Factory, který spustí poznámkový blok Databricks pro cluster úloh Databricks. Během provádění také předává do poznámkového bloku Databricks parametry Azure Data Factory.

V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny

  • Vytvořte kanál, který využívá aktivitu poznámkového bloku Databricks.

  • Aktivace spuštění kanálu

  • Sledujte spuštění kanálu

Pokud nemáte předplatné Azure, vytvořte si účet free než začnete.

Poznámka:

Úplné podrobnosti o tom, jak používat aktivitu poznámkového bloku Databricks, včetně použití knihoven a předávání vstupních a výstupních parametrů, najdete v dokumentaci k aktivitě poznámkového bloku Databricks.

Požadavky

  • Pracovní prostor Azure Databricks. Vytvořte pracovní prostor Databricks nebo použijte existující. V pracovním prostoru Azure Databricks vytvoříte poznámkový blok Python. Potom poznámkový blok spustíte a předáte mu parametry pomocí Azure Data Factory.

Vytvoření datové továrny

  1. Spusťte webový prohlížeč Microsoft Edge nebo Google Chrome. V současné době se uživatelské rozhraní služby Data Factory podporuje jenom ve webových prohlížečích Microsoft Edge a Google Chrome.

  2. V nabídce portálu Azure vyberte Vytvořit prostředek a pak vyberte Analytics>Data Factory:

    Snímek obrazovky znázorňující výběr služby Data Factory v podokně Nový

  3. Na stránce Create Data Factory vyberte v části Basics kartu Azure Subscription, ve které chcete vytvořit datovou továrnu.

  4. U položky Skupina prostředků proveďte jeden z následujících kroků:

    1. V rozevíracím seznamu vyberte existující skupinu prostředků.

    2. Vyberte Vytvořit nový a zadejte název nové skupiny prostředků.

    Další informace o skupinách prostředků najdete v tématu Usívání skupin prostředků ke správě prostředků Azure.

  5. V části Oblast vyberte umístění pro datovou továrnu.

    V seznamu jsou zobrazena pouze umístění, která služba Data Factory podporuje a kde se budou ukládat vaše Azure Data Factory meta data. Přidružená úložiště dat (například Azure Storage a Azure SQL Database) a výpočty (například Azure HDInsight), které služba Data Factory používá, se můžou spouštět v jiných oblastech.

  6. Jako název zadejte ADFTutorialDataFactory.

    Název datové továrny Azure musí být globicky jedinečný. Pokud se zobrazí následující chyba, změňte název datové továrny (například použijte <název>ADFTutorialDataFactory). Pravidla pojmenování artefaktů služby Data Factory najdete v článku Data Factory – pravidla pojmenování.

    Snímek obrazovky s chybou, pokud není název dostupný

  7. Jako Verzi vyberte V2.

  8. Vyberte Další: Konfigurace Gitu a pak zaškrtněte políčko Konfigurovat Git později .

  9. Vyberte Zkontrolovat a vytvořit a po úspěšném ověření vyberte Vytvořit .

  10. Po dokončení vytvoření vyberte Přejít k prostředku a přejděte na stránku Data Factory. Spusťte aplikaci uživatelského rozhraní Azure Data Factory kliknutím na dlaždici Open Azure Data Factory Studio na samostatné kartě prohlížeče.

    Snímek obrazovky znázorňující domovskou stránku Azure Data Factory, s dlaždicí Otevřít Azure Data Factory Studio.

Vytvoření propojených služeb

V této části vytvoříte propojenou službu Databricks. Tato propojená služba obsahuje informace o připojení ke clusteru Databricks:

Vytvoření propojené služby Azure Databricks

  1. Na domovské stránce přepněte na kartu Spravovat na levém panelu.

    Screenshot zobrazující kartu Spravovat.

  2. V rámci Připojení vyberte Propojené služby a pak vyberte + Nový.

    Snímek obrazovky znázorňující, jak vytvořit nové připojení

  3. V okně Nová propojená služba vyberte Compute>Azure Databricks a pak vyberte Continue.

    Snímek obrazovky znázorňující, jak zadat propojenou službu Databricks

  4. V okně Nová propojená služba proveďte následující kroky:

    1. Jako název zadejte AzureDatabricks_LinkedService.

    2. Vyberte příslušný pracovní prostor Databricks, ve kterém poznámkový blok spustíte.

    3. Pro výběr clusteru vyberte Nový cluster úloh.

    4. U Adresy URL pracovního prostoru Databricks by měly být informace automaticky vyplněny.

    5. Pokud pro typ ověřování vyberete Access Token, vygenerujte jej z pracovního prostoru Azure Databricks. Postup najdete tady. Pro identitu služby Spravovaná identita služby a Uživatelem přiřazenou spravovanou identitu udělte Contributor roli oběma identitám v menu Řízení přístupu prostředku Azure Databricks.

    6. Pro verzi clusteru vyberte verzi, kterou chcete použít.

    7. Jako typ uzlu clusteru vyberte Standard_D3_v2 v kategorii Pro obecné účely (HDD) pro účely tohoto kurzu.

    8. V části Pracovní procesy zadejte hodnotu 2.

    9. Vyberte Vytvořit.

      Screenshot zobrazující konfiguraci nové propojené služby.Azure Databricks.

Vytvořit potrubí

  1. Vyberte tlačítko + (plus) a potom v nabídce vyberte Pipeline.

    Snímek obrazovky s tlačítky pro vytvoření nového kanálu

  2. Vytvořte parametr, který se použije v Pipeline. Později tento parametr předáte do aktivity poznámkového bloku Databricks. V prázdném potrubí vyberte kartu Parametry, poté vyberte + Nový a pojmenujte jej "název".

    Snímek obrazovky znázorňující, jak vytvořit nový parametr

    Snímek obrazovky znázorňující, jak vytvořit parametr name

  3. Na panelu nástrojů Aktivity rozbalte Databricks. Přetáhněte úlohu Poznámkový blok z panelu nástrojů Aktivity na plochu návrháře potrubí.

    Snímek obrazovky znázorňující, jak přetáhnout poznámkový blok na plochu návrháře

  4. Ve vlastnostech okna aktivity DatabricksPoznámkový blok v dolní části proveďte následující kroky:

    1. Přepněte na kartu Azure Databricks.

    2. Vyberte AzureDatabricks_LinkedService (kterou jste vytvořili v předchozím postupu).

    3. Přepněte na kartu Nastavení.

    4. Procházejte a vyberte cestu k poznámkovému bloku Databricks. Teď vytvoříme poznámkový blok a zadáme cestu. Cestu k poznámkovému bloku získáte pomocí následujících několika kroků.

      1. Spusťte pracovní prostor Azure Databricks.

      2. Vytvořte v pracovním prostoru novou složku a pojmenujte ji adftutorial.

      3. Vytvořte nový poznámkový blok, pojmenujme ho mynotebook. Klikněte pravým tlačítkem na složku adftutorial a vyberte Vytvořit.

      4. Do nově vytvořeného poznámkového bloku mynotebook přidejte následující kód:

        # Creating widgets for leveraging parameters, and printing the parameters
        
        dbutils.widgets.text("input", "","")
        y = dbutils.widgets.get("input")
        print ("Param -\'input':")
        print (y)
        
      5. Cesta k poznámkovému bloku v tomto případě je /adftutorial/mynotebook.

  5. Přepněte zpět do nástroje pro vytváření v uživatelském rozhraní Data Factory. V aktivitě Poznámkový blok1 přejděte na kartu Nastavení.

    a. Přidejte parametr do aktivity poznámkového bloku. Použijte stejný parametr, který jste dříve přidali do Pipeline.

    Snímek obrazovky znázorňující, jak přidat parametr

    b) Parametr pojmenujte jako vstup a zadejte hodnotu jako výraz @pipeline().parameters.name.

  6. Pokud chcete kanál ověřit, vyberte tlačítko Ověřit na panelu nástrojů. Okno ověření zavřete tak, že vyberete tlačítko Zavřít .

    Snímek obrazovky znázorňující, jak ověřit pipeline.

  7. Zvolte Publikovat vše. Uživatelské rozhraní služby Data Factory publikuje entity (propojené služby a kanál) do služby Azure Data Factory.

    Snímek obrazovky znázorňující, jak publikovat nové entity v datové továrně

Zahájit běh pipelinového procesu

Na panelu nástrojů vyberte Přidat aktivační událost a pak vyberte Aktivovat.

Snímek obrazovky zobrazující, jak vybrat příkaz 'Trigger now'.

Dialogové okno Spuštění kanálu požádá o parametru název. Jako parametr zde použijte /path/filename. Vyberte OK.

Snímek obrazovky znázorňující, jak zadat hodnotu parametrů názvu

Sledujte spuštění potrubí

  1. Přepněte na záložku Monitor. Potvrďte, že vidíte běh pipeline. Vytvoření clusteru úloh Databricks, ve kterém se poznámkový blok spustí, trvá přibližně 5 až 8 minut.

    Snímek obrazovky znázorňující, jak monitorovat kanál

  2. Pravidelně vybírejte Obnovit pro kontrolu stavu spuštění kanálu.

  3. Pokud chcete zobrazit spuštění aktivit související s během kanálu, vyberte odkaz kanál1 ve sloupci Název kanálu.

  4. Na stránce Spuštění aktivity vyberte výstup ve sloupci Název aktivity, abyste zobrazili výstup jednotlivých aktivit, a odkaz na protokoly Databricks najdete v podokně Výstup, kde najdete podrobnější protokoly Sparku.

  5. Zpět do zobrazení všech spuštění kanálu můžete přepnout výběrem odkazu Všechna spuštění kanálu v navigační nabídce v horní části.

Ověření výstupu

Můžete se přihlásit k pracovnímu prostoru Azure Databricks, přejít na Job Runs a vidět stav úlohy jako čekající na spuštění, spuštěná nebo ukončená.

Můžete vybrat název úlohy a přejít k dalším podrobnostem. Po úspěšném spuštění můžete ověřit předané parametry a výstup poznámkového bloku Python.

Shrnutí

V této ukázce spouští potrubí aktivitu v poznámkovém bloku Databricks a předává do něj parametr. Naučili jste se:

  • Vytvoření datové továrny

  • Vytvořte kanál, který používá aktivitu poznámkového bloku Databricks.

  • Aktivace spuštění kanálu

  • Sledujte spuštění kanálu