Spusťte poznámkový blok Databricks pomocí aktivity poznámkového bloku Databricks ve službě Azure Data Factory

2025-04-19

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Návod

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přenosu dat až po datovou vědu, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu pomocí webu Azure Portal vytvoříte kanál Azure Data Factory, který spustí poznámkový blok Databricks pro cluster úloh Databricks. To také předá parametry Azure Data Factory do poznámkového bloku Databricks během provádění.

V tomto kurzu provedete následující kroky:

Vytvoření datové továrny
Vytvořte kanál, který využívá aktivitu poznámkového bloku Databricks.
Aktivace spuštění kanálu
Sledujte spuštění kanálu

Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Poznámka:

Úplné podrobnosti o tom, jak používat aktivitu poznámkového bloku Databricks, včetně použití knihoven a předávání vstupních a výstupních parametrů, najdete v dokumentaci k aktivitě poznámkového bloku Databricks.

Požadavky

Pracovní prostor Azure Databricks. Vytvořte pracovní prostor Databricks nebo použijte existující. V pracovním prostoru Azure Databricks vytvoříte poznámkový blok Python. Pak poznámkový blok spustíte a pomocí služby Azure Data Factory do něj předáte parametry.

Vytvoření datové továrny

Spusťte webový prohlížeč Microsoft Edge nebo Google Chrome. Uživatelské rozhraní služby Data Factory podporují v současnosti jenom webové prohlížeče Microsoft Edge a Google Chrome.
V nabídce webu Azure Portal vyberte Vytvořit prostředek a pak vyberte Analytics>Data Factory :
Na stránce Vytvořit datovou továrnu na kartě Základy vyberte své předplatné Azure, ve kterém chcete vytvořit datovou továrnu.
U položky Skupina prostředků proveďte jeden z následujících kroků:
1. V rozevíracím seznamu vyberte existující skupinu prostředků.
2. Vyberte Vytvořit nový a zadejte název nové skupiny prostředků.
Informace o skupinách prostředků najdete v článku Použití skupin prostředků ke správě prostředků Azure.
V části Oblast vyberte umístění pro datovou továrnu.

Seznam obsahuje jenom umístění podporovaná službou Data Factory, do kterých se budou ukládat vaše metadata Azure Data Factory. Přidružená úložiště dat (například Azure Storage a Azure SQL Database) a výpočty (jako Azure HDInsight), které služba Data Factory používá, se můžou spouštět v jiných oblastech.
Jako název zadejte ADFTutorialDataFactory.

Název objektu pro vytváření dat Azure musí být globálně jedinečný. Pokud se zobrazí následující chyba, změňte název datové továrny (například použijte <název>ADFTutorialDataFactory). Pravidla pojmenování artefaktů služby Data Factory najdete v článku Data Factory – pravidla pojmenování.
Jako Verzi vyberte V2.
Vyberte Další: Konfigurace Gitu a pak zaškrtněte políčko Konfigurovat Git později .
Vyberte Zkontrolovat a vytvořit a po úspěšném ověření vyberte Vytvořit .
Po dokončení vytvoření vyberte Přejít k prostředku a přejděte na stránku Data Factory. Výběrem dlaždice Otevřít Azure Data Factory Studio spusťte aplikaci uživatelského rozhraní (UI) služby Azure Data Factory na samostatné kartě prohlížeče.

Vytvoření propojených služeb

V této části vytvoříte propojenou službu Databricks. Tato propojená služba obsahuje informace o připojení ke clusteru Databricks:

Vytvoření propojené služby Azure Databricks

Na domovské stránce přepněte na kartu Spravovat na levém panelu.
V rámci Připojení vyberte Propojené služby a pak vyberte + Nový.
V okně Nová propojená služba vyberte Compute>Azure Databricks a pak vyberte Pokračovat.
V okně Nová propojená služba proveďte následující kroky:
1. Jako název zadejte AzureDatabricks_LinkedService.
2. Vyberte příslušný pracovní prostor Databricks, ve kterém poznámkový blok spustíte.
3. Pro výběr clusteru vyberte Nový cluster úloh.
4. U Adresy URL pracovního prostoru Databricks by měly být informace automaticky vyplněny.
5. Pokud jako typ ověřování vyberete Přístupový token, vygenerujte ho z pracoviště Azure Databricks. Postup najdete tady. Pro spravovanou identitu služby a uživatelem přiřazenou spravovanou identitu udělte roli Přispěvatele oběma identitám v nabídce Řízení přístupu k prostředku Azure Databricks.
6. Pro verzi clusteru vyberte verzi, kterou chcete použít.
7. Jako typ uzlu clusteru vyberte Standard_D3_v2 v kategorii Pro obecné účely (HDD) pro účely tohoto kurzu.
8. V části Pracovní procesy zadejte hodnotu 2.
9. Vyberte Vytvořit.

Vytvořit potrubí

Vyberte tlačítko + (plus) a potom v nabídce vyberte Pipeline.
Vytvořte parametr, který se použije v Pipeline. Později tento parametr předáte do aktivity poznámkového bloku Databricks. V prázdném potrubí vyberte kartu Parametry, poté vyberte + Nový a pojmenujte jej "název".
Na panelu nástrojů Aktivity rozbalte Databricks. Přetáhněte úlohu Poznámkový blok z panelu nástrojů Aktivity na plochu návrháře potrubí.
Ve vlastnostech okna aktivity DatabricksPoznámkový blok v dolní části proveďte následující kroky:
1. Přepněte na kartu Azure Databricks.
2. Vyberte AzureDatabricks_LinkedService (kterou jste vytvořili v předchozím postupu).
3. Přepněte na kartu Nastavení.
4. Procházejte a vyberte cestu k poznámkovému bloku Databricks. Teď vytvoříme poznámkový blok a zadáme cestu. Cestu k poznámkovému bloku získáte pomocí následujících několika kroků.
  1. Spusťte pracovní prostor Azure Databricks.
  2. Vytvořte v pracovním prostoru novou složku a pojmenujte ji adftutorial.
  3. Vytvořte nový poznámkový blok, pojmenujme ho mynotebook. Klikněte pravým tlačítkem na složku adftutorial a vyberte Vytvořit.
  4. Do nově vytvořeného poznámkového bloku mynotebook přidejte následující kód:
```
# Creating widgets for leveraging parameters, and printing the parameters

dbutils.widgets.text("input", "","")
y = dbutils.widgets.get("input")
print ("Param -\'input':")
print (y)
```
  5. Cesta k poznámkovému bloku v tomto případě je /adftutorial/mynotebook.
Přepněte zpět do nástroje pro vytváření v uživatelském rozhraní Data Factory. V aktivitě Poznámkový blok1 přejděte na kartu Nastavení.

a. Přidejte parametr do aktivity poznámkového bloku. Použijte stejný parametr, který jste dříve přidali do Pipeline.

b) Parametr pojmenujte jako vstup a zadejte hodnotu jako výraz @pipeline().parameters.name.
Pokud chcete kanál ověřit, vyberte tlačítko Ověřit na panelu nástrojů. Okno ověření zavřete tak, že vyberete tlačítko Zavřít .
Zvolte Publikovat vše. Uživatelské rozhraní služby Data Factory publikuje entity (propojené služby a kanál) do služby Azure Data Factory.

Zahájit běh pipelinového procesu

Na panelu nástrojů vyberte Přidat aktivační událost a pak vyberte Aktivovat.

Snímek obrazovky zobrazující, jak vybrat příkaz 'Trigger now'.

Dialogové okno Spuštění kanálu požádá o parametru název. Jako parametr zde použijte /path/filename. Vyberte OK.

Snímek obrazovky znázorňující, jak zadat hodnotu parametrů názvu

Sledujte spuštění potrubí

Přepněte na záložku Monitor. Potvrďte, že vidíte běh pipeline. Vytvoření clusteru úloh Databricks, ve kterém se poznámkový blok spustí, trvá přibližně 5 až 8 minut.
Pravidelně vybírejte Obnovit pro kontrolu stavu spuštění kanálu.
Pokud chcete zobrazit spuštění aktivit související s během kanálu, vyberte odkaz kanál1 ve sloupci Název kanálu.
Na stránce Spuštění aktivity vyberte výstup ve sloupci Název aktivity, abyste zobrazili výstup jednotlivých aktivit, a odkaz na protokoly Databricks najdete v podokně Výstup, kde najdete podrobnější protokoly Sparku.
Zpět do zobrazení všech spuštění kanálu můžete přepnout výběrem odkazu Všechna spuštění kanálu v navigační nabídce v horní části.

Ověření výstupu

Můžete se přihlásit k pracovnímu prostoru Azure Databricks, přejít na Spuštění úloh a zobrazit stav úlohy jako čekající spuštění, spuštění nebo ukončení.

Můžete vybrat název úlohy a přejít k dalším podrobnostem. Po úspěšném spuštění můžete ověřit předané parametry a výstup poznámkového bloku Python.

Shrnutí

V této ukázce spouští potrubí aktivitu v poznámkovém bloku Databricks a předává do něj parametr. Naučili jste se:

Vytvoření datové továrny
Vytvořte kanál, který používá aktivitu poznámkového bloku Databricks.
Aktivace spuštění kanálu
Sledujte spuštění kanálu

Sdílet prostřednictvím