Sdílet prostřednictvím


Transformace dat spuštěním aktivity Pythonu v Azure Databricks

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od pohybu dat až po datovou vědu, analýzy v reálném čase, business intelligence a reporting. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Aktivita Pythonu Azure Databricks v pipelině spouští Pythonový soubor v clusteru Azure Databricks. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku.

Jedenáctiminutové představení a ukázku této funkce najdete v tomto videu:

Přidejte aktivitu Pythonu pro Azure Databricks do datového potrubí pomocí uživatelského rozhraní

Pokud chcete v rámci datového kanálu použít aktivitu Pythonu pro Azure Databricks, proveďte následující kroky:

  1. Vyhledejte Python v podokně Aktivity kanálu a přetáhněte aktivitu Pythonu na plátno kanálu.

  2. Vyberte novou aktivitu Pythonu na plátně, pokud ještě není vybraná.

  3. Výběrem karty Azure Databricks vyberte nebo vytvořte novou propojenou službu Azure Databricks, která spustí aktivitu Pythonu.

    Zobrazuje uživatelské rozhraní pro aktivitu Pythonu.

  4. Vyberte kartu Nastavení a zadejte cestu v rámci Azure Databricks k souboru Pythonu, který se má spustit, volitelné parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Zobrazuje uživatelské rozhraní pro kartu Nastavení pro aktivitu Pythonu.

Definice aktivity Pythonu v Databricks

Tady je ukázková definice JSON aktivity Pythonu databricks:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

Vlastnosti aktivity Pythonu pro Databricks

Následující tabulka popisuje vlastnosti JSON použité v definici JSON:

Vlastnost Popis Požadováno
název Název aktivity v kanálu Ano
popis Text popisující, co aktivita dělá. Ne
typ Pro Databricks Python aktivitu je typ aktivity DatabricksSparkPython. Ano
názevPropojenéSlužby Název propojené služby Databricks, na které se aktivita Pythonu spouští. Další informace o této propojené službě najdete v článku o propojených službách Compute. Ano
pythonFile Identifikátor URI souboru Pythonu, který se má spustit. Podporují se pouze cesty DBFS. Ano
parametry Parametry příkazového řádku, které se předají do souboru Pythonu. Toto je pole řetězců. Ne
knihovny Seznam knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Může to být pole řetězců, objektů <.> Ne

Podporované knihovny pro aktivity Databricks

Ve výše uvedené definici aktivity Databricks zadáte tyto typy knihoven: jar, egg, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

Další podrobnosti ohledně typů knihoven najdete v dokumentaci Databricks.

Jak nahrát knihovnu v Databricks

Můžete použít uživatelské rozhraní pracovního prostoru:

  1. Použití uživatelského rozhraní pracovního prostoru Databricks

  2. Pro získání dbfs cesty knihovny přidané pomocí uživatelského rozhraní můžete použít příkazovou řádku Databricks (CLI).

    Knihovny Jar se obvykle ukládají v souboru dbfs:/FileStore/jars při používání uživatelského rozhraní. Všechny položky můžete vypsat prostřednictvím rozhraní příkazového řádku: databricks fs ls dbfs:/FileStore/job-jars

Nebo můžete použít rozhraní příkazového řádku Databricks:

  1. Postupujte podle pokynů ke kopírování knihovny pomocí rozhraní příkazového řádku Databricks.

  2. Použijte příkazový řádek Databricks (instalační kroky)

    Například zkopírování souboru JAR do dbfs: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar