Transformace dat spuštěním poznámkového bloku Databricks

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte Službu Data Factory v Microsoft Fabric, analytické řešení typu vše v jednom pro podniky. Microsoft Fabric pokrývá všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak zdarma začít používat novou zkušební verzi .

Aktivita poznámkového bloku Azure Databricks v kanálu spouští poznámkový blok Databricks ve vašem pracovním prostoru Azure Databricks. Tento článek vychází z článku o aktivitách transformace dat , který představuje obecný přehled transformace dat a podporovaných transformačních aktivit. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku.

Poznámkový blok Databricks můžete vytvořit pomocí šablony ARM pomocí json nebo přímo prostřednictvím uživatelského rozhraní Azure Data Factory Studia. Podrobný návod k vytvoření aktivity poznámkového bloku Databricks pomocí uživatelského rozhraní najdete v kurzu Spuštění poznámkového bloku Databricks s aktivitou poznámkového bloku Databricks v Azure Data Factory.

Přidání aktivity poznámkového bloku pro Azure Databricks do kanálu pomocí uživatelského rozhraní

Pokud chcete v kanálu použít aktivitu poznámkového bloku pro Azure Databricks, proveďte následující kroky:

  1. V podokně Aktivity kanálu vyhledejte Poznámkový blok a přetáhněte aktivitu Poznámkového bloku na plátno kanálu.

  2. Vyberte novou aktivitu poznámkového bloku na plátně, pokud ještě není vybraná.

  3. Vyberte kartu Azure Databricks a vyberte nebo vytvořte novou propojenou službu Azure Databricks, která spustí aktivitu poznámkového bloku.

    Zobrazuje uživatelské rozhraní pro aktivitu poznámkového bloku.

  4. Vyberte kartu Nastavení a zadejte cestu poznámkového bloku, která se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat do poznámkového bloku, a všechny další knihovny, které se mají nainstalovat do clusteru pro spuštění úlohy.

    Zobrazuje uživatelské rozhraní pro kartu Nastavení pro aktivitu poznámkového bloku.

Definice aktivity poznámkového bloku Databricks

Tady je ukázková definice JSON aktivity poznámkového bloku Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksNotebook",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "notebookPath": "/Users/user@example.com/ScalaExampleNotebook",
            "baseParameters": {
                "inputpath": "input/folder1/",
                "outputpath": "output/"
            },
            "libraries": [
                {
                "jar": "dbfs:/docs/library.jar"
                }
            ]
        }
    }
}

Vlastnosti aktivity poznámkového bloku Databricks

Následující tabulka popisuje vlastnosti JSON použité v definici JSON:

Vlastnost Popis Vyžadováno
name Název aktivity v kanálu Yes
description Text popisující, co aktivita dělá. No
typ V případě aktivity poznámkového bloku Databricks je typ aktivity DatabricksNotebook. Yes
linkedServiceName Název propojené služby Databricks, ve které běží poznámkový blok Databricks. Další informace o této propojené službě najdete v článku Propojené služby Compute . Yes
cesta poznámkového bloku Absolutní cesta poznámkového bloku, který se má spustit v pracovním prostoru Databricks. Tato cesta musí začínat lomítkem. Yes
baseParameters Pole párů Key-Value. Základní parametry je možné použít pro každé spuštění aktivity. Pokud poznámkový blok převezme parametr, který není zadaný, použije se výchozí hodnota z poznámkového bloku. Další informace o parametrech najdete v poznámkových blocích Databricks. No
knihovny Seznam knihoven, které se mají nainstalovat do clusteru, který provede úlohu. Může se jednat o pole <řetězců, objektu>. No

Podporované knihovny pro aktivity Databricks

Ve výše uvedené definici aktivity Databricks zadáte tyto typy knihoven: jar, egg, whl, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "whl": "dbfs:/mnt/libraries/mlflow-0.0.1.dev0-py2-none-any.whl"
        },
        {
            "whl": "dbfs:/mnt/libraries/wheel-libraries.wheelhouse.zip"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Další informace najdete v dokumentaci k Databricks pro typy knihoven.

Předávání parametrů mezi poznámkovými bloky a kanály

Do poznámkových bloků můžete předat parametry pomocí vlastnosti baseParameters v aktivitě databricks.

V některých případech můžete vyžadovat, aby se určité hodnoty z poznámkového bloku předávaly zpět do služby, které se dají použít pro tok řízení (podmíněné kontroly) ve službě nebo které mohou využívat podřízené aktivity (limit velikosti je 2 MB).

  1. V poznámkovém bloku můžete volat dbutils.notebook.exit("returnValue") a službě se vrátí odpovídající "returnValue".

  2. Výstup ve službě můžete využívat pomocí výrazu, jako @{activity('databricks notebook activity name').output.runOutput}je .

    Důležité

    Pokud předáváte objekt JSON, můžete načíst hodnoty přidáním názvů vlastností. Příklad: @{activity('databricks notebook activity name').output.runOutput.PropertyName}

Jak nahrát knihovnu v Databricks

Můžete použít uživatelské rozhraní pracovního prostoru:

  1. Použití uživatelského rozhraní pracovního prostoru Databricks

  2. Pokud chcete získat cestu dbfs ke knihovně přidané pomocí uživatelského rozhraní, můžete použít Rozhraní příkazového řádku Databricks.

    Knihovny Jar jsou při používání uživatelského rozhraní obvykle uložené v části dbfs:/FileStore/jars. Seznam můžete zobrazit přes rozhraní příkazového řádku: databricks fs ls dbfs:/FileStore/job-jars

Nebo můžete použít rozhraní příkazového řádku Databricks:

  1. Postupujte podle pokynů v části Kopírování knihovny pomocí rozhraní příkazového řádku Databricks.

  2. Použití Rozhraní příkazového řádku Databricks (kroky instalace)

    Příklad kopírování souboru JAR do dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar