A folyamat Azure Databricks Python-tevékenysége egy Python-fájlt futtat az Azure Databricks-fürtben. Ez a cikk az adatátalakítási tevékenységekről szóló cikkre épül, amely általános áttekintést nyújt az adatátalakításról és a támogatott átalakítási tevékenységekről. Az Azure Databricks egy felügyelt platform az Apache Spark futtatásához.
Az alábbi videóban a funkció bemutatását és ismertetését tekintheti meg tizenegy percben:
Python-tevékenység hozzáadása az Azure Databrickshez felhasználói felülettel rendelkező folyamathoz
Ha Python-tevékenységet szeretne használni az Azure Databrickshez egy folyamatban, hajtsa végre a következő lépéseket:
Keresse meg a Pythont a folyamattevékenységek panelen, és húzzon egy Python-tevékenységet a folyamatvászonra.
Jelölje ki az új Python-tevékenységet a vásznon, ha még nincs kijelölve.
Válassza az Azure Databricks lapot egy új Azure Databricks társított szolgáltatás kiválasztásához vagy létrehozásához, amely végrehajtja a Python-tevékenységet.
Válassza a Beállítások lapot, és adja meg az Azure Databricksben a végrehajtandó Python-fájl elérési útját, az átadandó opcionális paramétereket, valamint a fürtre telepíteni kívánt további kódtárakat a feladat végrehajtásához.
Databricks Python-tevékenységdefiníció
Íme egy Databricks Python-tevékenység JSON-mintadefiníciója:
Az alábbi táblázat a JSON-definícióban használt JSON-tulajdonságokat ismerteti:
Tulajdonság
Leírás
Szükséges
név
A folyamat tevékenységének neve.
Igen
leírás
A tevékenység tevékenységeit leíró szöveg.
Nem
típus
A Databricks Python-tevékenység esetében a tevékenység típusa a DatabricksSparkPython.
Igen
linkedServiceName
Annak a Databricks társított szolgáltatásnak a neve, amelyen a Python-tevékenység fut. A társított szolgáltatással kapcsolatos további információkért tekintse meg a társított számítási szolgáltatásokról szóló cikket.
Igen
pythonFile
A végrehajtandó Python-fájl URI-ja. Csak a DBFS-útvonalak támogatottak.
Igen
parameters
A Python-fájlnak átadott parancssori paraméterek. Ez egy sztringtömb.
Nem
kódtárak
A feladatot végrehajtó fürtre telepíteni kívánt kódtárak listája. Ez lehet sztringek, objektumok tömbje <>
Nem
A databricks-tevékenységekhez támogatott kódtárak
A fenti Databricks-tevékenységdefinícióban a következő kódtártípusokat adja meg: jar, egg, maven, pypi, cran.
A Jar-kódtárak általában a dbfs:/FileStore/jars alatt vannak tárolva a felhasználói felület használata során. A parancssori felület összes elemét listázhatja: databricks fs ls dbfs:/FileStore/job-jars
Vagy használhatja a Databricks parancssori felületét:
Megtudhatja, hogyan dolgozhatja fel vagy alakíthatja át az adatokat egy Databricks-jegyzetfüzet Azure Data Factoryben és Synapse Analytics-folyamatokban való futtatásával.
Megtudhatja, hogyan dolgozhatja fel vagy alakíthatja át az adatokat egy Databricks Jar Azure Data Factory vagy Synapse Analytics-folyamaton belüli futtatásával.
Ismerje meg, hogyan használhatja a Databricks jegyzetfüzet tevékenységet egy Azure Data Factory-ben, hogy a Databricks jegyzetfüzetet egy Databricks feladatfürtön futtassa.
Learn about compute environments that can be used with Azure Data Factory and Synapse Analytics pipelines (such as Azure HDInsight) to transform or process data.
Megtudhatja, hogyan használhat folyamatokat és tevékenységeket az Azure Data Factoryben és az Azure Synapse Analyticsben adatvezérelt munkafolyamatok létrehozására adatáthelyezési és feldolgozási forgatókönyvekhez.
Megtudhatja, hogyan másolhat adatokat a Sparkból a támogatott fogadóadattárakba másolási tevékenységgel az Azure Data Factoryben vagy a Synapse Analytics-folyamatban.
Megtudhatja, hogyan dolgozhatja fel vagy alakíthatja át az adatokat Egy Synapse-jegyzetfüzet Azure Data Factoryben és Synapse Analytics-folyamatokban való futtatásával.