Adatok átalakítása Python tevékenység futtatásával a Azure Databricks

Vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Data Factory a Microsoft Fabric a Azure Data Factory következő generációja, egyszerűbb architektúrával, beépített AI-vel és új funkciókkal. Ha még nem ismerkedik az adatintegrációval, kezdje a Fabric Data Factoryvel. A meglévő ADF-számítási feladatok frissíthetők Fabric használatával, hogy elérjék az adatkutatás, a valós idejű elemzés és a jelentéskészítés új képességeit.

A pipeline Azure Databricks Python tevékenysége egy Python fájlt futtat a Azure Databricks fürtben. Ez a cikk az adatátalakítási tevékenységekről szóló cikkre épül, amely általános áttekintést nyújt az adatátalakításról és a támogatott átalakítási tevékenységekről. Azure Databricks egy felügyelt platform az Apache Spark futtatásához.

Az alábbi videóban a funkció bemutatását és ismertetését tekintheti meg tizenegy percben:

Python tevékenység hozzáadása Azure Databricks folyamathoz felhasználói felülettel

Egy Azure Databricks Python tevékenység használatához egy folyamatban hajtsa végre a következő lépéseket:

  1. Keressen Python a folyamattevékenységek panelen, és húzzon egy Python tevékenységet a folyamatvászonra.

  2. Jelölje ki az új Python tevékenységet a vásznon, ha még nincs kijelölve.

  3. Válassza a Azure Databricks lapot egy új Azure Databricks társított szolgáltatás kiválasztásához vagy létrehozásához, amely végrehajtja a Python tevékenységet.

    Megjeleníti a Python tevékenység felhasználói felületét.

  4. Jelölje ki a Settings lapot, és adja meg az Azure Databricksben a végrehajtani kívánt Python fájl elérési útját, az opcionális paramétereket, valamint a fürtre telepítendő további kódtárakat a feladat végrehajtásához.

    Megjeleníti a Python tevékenység Beállítások fülének felhasználói felületét.

A Databricks Python tevékenységdefiníciója

A Databricks Python-tevékenység JSON-mintadefiníciója:

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

A Databricks Python tevékenység tulajdonságai

Az alábbi táblázat a JSON-definícióban használt JSON-tulajdonságokat ismerteti:

Tulajdonság Leírás Szükséges
név A folyamat tevékenységének neve. Igen
leírás A tevékenység célját leíró szöveg. Nem
típus A Databricks Python Tevékenység esetében a tevékenység típusa DatabricksSparkPython. Igen
linkedServiceName (CsatlakoztatottSzolgáltatásNév) Annak a Databricks társított szolgáltatásnak a neve, amelyen a Python tevékenység fut. A társított szolgáltatással kapcsolatos további információkért tekintse meg a társított számítási szolgáltatásokról szóló cikket. Igen
pythonFile A végrehajtandó Python fájl URI-ja. Csak a DBFS-útvonalak támogatottak. Igen
paraméterek A Python fájlnak átadott parancssori paraméterek. Ez egy sztringtömb. Nem
könyvtárak A feladatot végrehajtó fürtre telepítendő könyvtárak listája. Lehet egy karakterláncok vagy objektumok tömbje <> Nem

A databricks-tevékenységekhez támogatott kódtárak

A fenti Databricks-tevékenységdefinícióban a következő kódtártípusokat adja meg: jar, egg, maven, pypi, cran.

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

További részletekért tekintse meg a Databricks könyvtártípusokkal kapcsolatos dokumentációját .

Tár feltöltése a Databricksben

A munkaterület felhasználói felületét használhatja:

  1. A Databricks-munkaterület felhasználói felületének használata

  2. A felhasználói felületen hozzáadott kódtár adatbázis-elérési útjának lekéréséhez használhatja a Databricks parancssori felületét.

    A Jar-kódtárak általában a dbfs:/FileStore/jars alatt vannak tárolva a felhasználói felület használata során. Az összes elemet felsorolhatja a parancssori felületen: databricks fs ls dbfs:/FileStore/job-jars

Vagy használhatja a Databricks parancssori felületét:

  1. Kövesse a kódtár másolását a Databricks parancssori felületével

  2. A Databricks parancssori felületének használata (telepítési lépések)

    Például egy JAR másolása a dbfs-be: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar