Sdílet prostřednictvím


Transformace dat spuštěním poznámkového bloku Databricks

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat přes následné zpracování dat, analýzy v reálném čase, podnikovou inteligenci a reporting. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Aktivita poznámkového bloku Azure Databricks v potrubí spouští poznámkový blok Databricks ve vašem pracovním prostoru Azure Databricks. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku.

Notebook Databricks můžete vytvořit pomocí šablony ARM v JSON, nebo přímo prostřednictvím uživatelského rozhraní Azure Data Factory Studio. Podrobný návod, jak vytvořit aktivitu poznámkového bloku Databricks pomocí uživatelského rozhraní, najdete v kurzu Spuštění poznámkového bloku Databricks s aktivitou poznámkového bloku Databricks ve službě Azure Data Factory.

Přidejte úlohu poznámkového bloku pro Azure Databricks do zpracovatelského řetězce pomocí uživatelského rozhraní.

Pokud chcete v kanálu použít aktivitu poznámkového bloku pro Azure Databricks, proveďte následující kroky:

  1. Vyhledejte poznámkový blok v podokně Aktivity kanálu a přetáhněte aktivitu poznámkového bloku na plátno kanálu.

  2. Pokud ještě není vybraná, vyberte na plátně novou aktivitu poznámkového bloku.

  3. Vyberte kartu Azure Databricks a vyberte nebo vytvořte novou propojenou službu Azure Databricks, která vykoná notebookovou aktivitu.

    Zobrazuje uživatelské rozhraní pro aktivitu poznámkového bloku.

  4. Vyberte kartu Nastavení a zadejte cestu poznámkového bloku, která se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat do poznámkového bloku, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Zobrazuje uživatelské rozhraní karty Nastavení pro aktivitu poznámkového bloku.

Definice aktivity poznámkového bloku Databricks

Tady je ukázková definice JSON aktivity poznámkového bloku Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksNotebook",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedservice",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "notebookPath": "/Users/user@example.com/ScalaExampleNotebook",
            "baseParameters": {
                "inputpath": "input/folder1/",
                "outputpath": "output/"
            },
            "libraries": [
                {
                "jar": "dbfs:/docs/library.jar"
                }
            ]
        }
    }
}

Vlastnosti aktivity poznámkového bloku Databricks

Následující tabulka popisuje vlastnosti JSON použité v definici JSON:

Vlastnost Popis Povinné
název Název aktivity v potrubí. Ano
popis Text popisující, co aktivita dělá. Ne
typ U aktivity poznámkového bloku Databricks je typ aktivity DatabricksNotebook. Ano
názevPrepojenéSlužby Název služby Databricks Linked Service, na které běží notebook Databricks. Další informace o této propojené službě najdete v článku o propojených službách Compute. Ano
notebookPath Absolutní cesta notebooku, který se má spustit v pracovním prostoru Databricks. Tato cesta musí začínat lomítkem. Ano
základníParametry Pole klíčových-hodnotových párů. Základní parametry lze použít pro každé spuštění aktivity. Pokud poznámkový blok vezme parametr, který není zadaný, použije se výchozí hodnota z poznámkového bloku. Další informace o parametrech najdete v Databricks Notebooky. Ne
knihovny Seznam knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Může to být pole <řetězců, objektů>. Ne

Podporované knihovny pro aktivity Databricks

V definici aktivity Databricks zadáte tyto typy knihoven: jar, egg, whl, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "whl": "dbfs:/mnt/libraries/mlflow-0.0.1.dev0-py2-none-any.whl"
        },
        {
            "whl": "dbfs:/mnt/libraries/wheel-libraries.wheelhouse.zip"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Další informace najdete v dokumentaci k Databricks pro typy knihoven.

Předávání parametrů mezi notebooky a pipelineami

Parametry můžete předat poznámkovým blokům pomocí vlastnosti baseParameters v aktivitě Databricks.

V některých případech může být potřebné předat určité hodnoty z poznámkového bloku zpět do služby, které lze použít pro řídicí tok (podmínkové kontroly) ve službě nebo být zpracovány následnými aktivitami (limit velikosti je 2 MB).

  1. V poznámkovém bloku můžete zavolat dbutils.notebook.exit("returnValue") a odpovídající "returnValue" bude vrácen do služby.

  2. Výstup ve službě můžete využívat pomocí výrazu, například @{activity('databricks notebook activity name').output.runOutput}.

    Důležité

    Pokud předáváte objekt JSON, můžete načíst hodnoty připojením názvů vlastností. Příklad: @{activity('databricks notebook activity name').output.runOutput.PropertyName}

Jak nahrát knihovnu v Databricks

Můžete použít uživatelské rozhraní pracovního prostoru:

  1. Použití uživatelského rozhraní pracovního prostoru Databricks

  2. K získání cesty dbfs knihovny přidané pomocí uživatelského rozhraní můžete použít Rozhraní příkazového řádku Databricks.

    Knihovny Jar se obvykle ukládají v souboru dbfs:/FileStore/jars při používání uživatelského rozhraní. Můžete vypsat všechny prostřednictvím příkazového řádku (CLI): databricks fs ls dbfs:/FileStore/job-jars

Nebo můžete použít rozhraní příkazového řádku Databricks:

  1. Postupujte podle pokynů ke kopírování knihovny pomocí rozhraní příkazového řádku Databricks.

  2. Použijte Databricks CLI (kroky instalace)

    Například zkopírování souboru JAR do dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar