Adatok átalakítása Python-tevékenység futtatásával az Azure Databricksben

Cikk
2025. 01. 15.

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

A folyamat Azure Databricks Python-tevékenysége egy Python-fájlt futtat az Azure Databricks-fürtben. Ez a cikk az adatátalakítási tevékenységekről szóló cikkre épül, amely általános áttekintést nyújt az adatátalakításról és a támogatott átalakítási tevékenységekről. Az Azure Databricks egy felügyelt platform az Apache Spark futtatásához.

Az alábbi videóban a funkció bemutatását és ismertetését tekintheti meg tizenegy percben:

Python-tevékenység hozzáadása az Azure Databrickshez felhasználói felülettel rendelkező folyamathoz

Ha Python-tevékenységet szeretne használni az Azure Databrickshez egy folyamatban, hajtsa végre a következő lépéseket:

Keresse meg a Pythont a folyamattevékenységek panelen, és húzzon egy Python-tevékenységet a folyamatvászonra.
Jelölje ki az új Python-tevékenységet a vásznon, ha még nincs kijelölve.
Válassza az Azure Databricks lapot egy új Azure Databricks társított szolgáltatás kiválasztásához vagy létrehozásához, amely végrehajtja a Python-tevékenységet.
Válassza a Beállítások lapot, és adja meg az Azure Databricksben a végrehajtandó Python-fájl elérési útját, az átadandó opcionális paramétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.

Databricks Python-tevékenységdefiníció

Íme egy Databricks Python-tevékenység JSON-mintadefiníciója:

JSON

{
    "activity": {
        "name": "MyActivity",
        "description": "MyActivity description",
        "type": "DatabricksSparkPython",
        "linkedServiceName": {
            "referenceName": "MyDatabricksLinkedService",
            "type": "LinkedServiceReference"
        },
        "typeProperties": {
            "pythonFile": "dbfs:/docs/pi.py",
            "parameters": [
                "10"
            ],
            "libraries": [
                {
                    "pypi": {
                        "package": "tensorflow"
                    }
                }
            ]
        }
    }
}

A Databricks Python-tevékenység tulajdonságai

Az alábbi táblázat a JSON-definícióban használt JSON-tulajdonságokat ismerteti:

Tulajdonság	Leírás	Szükséges
név	A folyamat tevékenységének neve.	Igen
leírás	A tevékenység tevékenységeit leíró szöveg.	Nem
típus	A Databricks Python-tevékenység esetében a tevékenység típusa a DatabricksSparkPython.	Igen
linkedServiceName	Annak a Databricks társított szolgáltatásnak a neve, amelyen a Python-tevékenység fut. A társított szolgáltatással kapcsolatos további információkért tekintse meg a társított számítási szolgáltatásokról szóló cikket.	Igen
pythonFile	A végrehajtandó Python-fájl URI-ja. Csak a DBFS-útvonalak támogatottak.	Igen
parameters	A Python-fájlnak átadott parancssori paraméterek. Ez egy sztringtömb.	Nem
kódtárak	A feladatot végrehajtó fürtre telepíteni kívánt kódtárak listája. Ez lehet sztringek, objektumok tömbje <>	Nem

A databricks-tevékenységekhez támogatott kódtárak

A fenti Databricks-tevékenységdefinícióban a következő kódtártípusokat adja meg: jar, egg, maven, pypi, cran.

JSON

{
    "libraries": [
        {
            "jar": "dbfs:/mnt/libraries/library.jar"
        },
        {
            "egg": "dbfs:/mnt/libraries/library.egg"
        },
        {
            "maven": {
                "coordinates": "org.jsoup:jsoup:1.7.2",
                "exclusions": [ "slf4j:slf4j" ]
            }
        },
        {
            "pypi": {
                "package": "simplejson",
                "repo": "http://my-pypi-mirror.com"
            }
        },
        {
            "cran": {
                "package": "ada",
                "repo": "https://cran.us.r-project.org"
            }
        }
    ]
}

További részletekért tekintse meg a Databricks könyvtártípusokkal kapcsolatos dokumentációját .

Tár feltöltése a Databricksben

A munkaterület felhasználói felületét használhatja:

A Databricks-munkaterület felhasználói felületének használata
A felhasználói felületen hozzáadott kódtár adatbázis-elérési útjának lekéréséhez használhatja a Databricks parancssori felületét.

A Jar-kódtárak általában a dbfs:/FileStore/jars alatt vannak tárolva a felhasználói felület használata során. A parancssori felület összes elemét listázhatja: databricks fs ls dbfs:/FileStore/job-jars

Vagy használhatja a Databricks parancssori felületét:

A kódtár másolása a Databricks parancssori felületével
A Databricks parancssori felületének használata (telepítési lépések)

Például egy JAR másolása a dbfs-be: dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar

További források

Dokumentáció

Adatok átalakítása a Databricks-jegyzetfüzettel - Azure Data Factory & Azure Synapse

Megtudhatja, hogyan dolgozhatja fel vagy alakíthatja át az adatokat egy Databricks-jegyzetfüzet Azure Data Factoryben és Synapse Analytics-folyamatokban való futtatásával.
Adatok átalakítása a Databricks Jar használatával - Azure Data Factory & Azure Synapse

Megtudhatja, hogyan dolgozhatja fel vagy alakíthatja át az adatokat egy Databricks Jar Azure Data Factory vagy Synapse Analytics-folyamaton belüli futtatásával.
Databricks-jegyzetfüzet futtatása a tevékenységgel - Azure Data Factory

Ismerje meg, hogyan használhatja a Databricks jegyzetfüzet tevékenységet egy Azure Data Factory-ben, hogy a Databricks jegyzetfüzetet egy Databricks feladatfürtön futtassa.
Compute environments - Azure Data Factory & Azure Synapse

Learn about compute environments that can be used with Azure Data Factory and Synapse Analytics pipelines (such as Azure HDInsight) to transform or process data.
Folyamatok és tevékenységek - Azure Data Factory & Azure Synapse

Megtudhatja, hogyan használhat folyamatokat és tevékenységeket az Azure Data Factoryben és az Azure Synapse Analyticsben adatvezérelt munkafolyamatok létrehozására adatáthelyezési és feldolgozási forgatókönyvekhez.
Adatok másolása a Sparkból - Azure Data Factory & Azure Synapse

Megtudhatja, hogyan másolhat adatokat a Sparkból a támogatott fogadóadattárakba másolási tevékenységgel az Azure Data Factoryben vagy a Synapse Analytics-folyamatban.
A sablonok áttekintése - Azure Data Factory

Megtudhatja, hogyan használhat előre definiált sablont az Azure Data Factory használatának gyors megkezdéséhez.
Adatok átalakítása a Synapse Notebook használatával - Azure Data Factory & Azure Synapse

Megtudhatja, hogyan dolgozhatja fel vagy alakíthatja át az adatokat Egy Synapse-jegyzetfüzet Azure Data Factoryben és Synapse Analytics-folyamatokban való futtatásával.

Oktatás

Modul

Azure Databricks-jegyzetfüzetek futtatása az Azure Data Factoryvel - Training

Azure Databricks-jegyzetfüzetek futtatása az Azure Data Factoryvel

Megosztás a következőn keresztül: