Transformace dat spuštěním aktivity Python v Azure Databricks

VZTAHUJE SE NA: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.

Aktivita Azure Databricks Python v pipeline spustí soubor Python v clusteru Azure Databricks. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku.

Jedenáctiminutové představení a ukázku této funkce najdete v tomto videu:

Přidání aktivity Python pro Azure Databricks do datového kanálu pomocí uživatelského rozhraní

Pokud chcete použít aktivitu Python pro Azure Databricks v datovém potrubí, proveďte následující kroky:

  1. V podokně Aktivity kanálu vyhledejte Python a přetáhněte Python aktivitu na plátno kanálu.

  2. Vyberte novou aktivitu Python na plátně, pokud ještě není vybraná.

  3. Vyberte kartu Azure Databricks a vyberte nebo vytvořte novou propojenou službu Azure Databricks, která spustí aktivitu Python.

    Zobrazí uživatelské rozhraní pro aktivitu Pythonu.

  4. Vyberte kartu Settings a zadejte cestu v Azure Databricks k souboru Python, který se má spustit, volitelné parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Zobrazí uživatelské rozhraní na kartě Nastavení pro aktivitu v Pythonu.

Definice aktivity Python v Databricks

Tady je ukázková definice JSON aktivity Python Databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

Pythonové aktivity v Databricks

Následující tabulka popisuje vlastnosti JSON použité v definici JSON:

Vlastnost Popis Požadováno
název Název aktivity v kanálu Ano
popis Text popisující, co aktivita dělá. Ne
typ Pro aktivitu Python Databricks je typ aktivity DatabricksSparkPython. Ano
názevPropojenéSlužby Název propojené služby Databricks, na které se spouští aktivita Python. Další informace o této propojené službě najdete v článku o propojených službách Compute. Ano
pythonFile Identifikátor URI souboru Python, který se má spustit. Podporují se pouze cesty DBFS. Ano
parametry Parametry příkazového řádku, které se předají Python souboru. Toto je pole řetězců. Ne
knihovny Seznam knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Může to být pole řetězců, objektů <.> Ne

Podporované knihovny pro aktivity Databricks

Ve výše uvedené definici aktivity Databricks zadáte tyto typy knihoven: jar, egg, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Další podrobnosti ohledně typů knihoven najdete v dokumentaci Databricks.

Jak nahrát knihovnu v Databricks

Můžete použít uživatelské rozhraní pracovního prostoru:

  1. Použití uživatelského rozhraní pracovního prostoru Databricks

  2. Pro získání dbfs cesty knihovny přidané pomocí uživatelského rozhraní můžete použít příkazovou řádku Databricks (CLI).

    Knihovny Jar se obvykle ukládají v souboru dbfs:/FileStore/jars při používání uživatelského rozhraní. Všechny položky můžete vypsat prostřednictvím rozhraní příkazového řádku: databricks fs ls dbfs:/FileStore/job-jars

Nebo můžete použít rozhraní příkazového řádku Databricks:

  1. Postupujte podle pokynů ke kopírování knihovny pomocí rozhraní příkazového řádku Databricks.

  2. Použijte příkazový řádek Databricks (instalační kroky)

    Například zkopírování souboru JAR do dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar