Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Vonatkozik:
Azure Data Factory
Azure Synapse Analytics
Tipp.
Az Azure Databricks jegyzetfüzet-tevékenység egy pipeline-ben egy Databricks-jegyzetfüzetet futtat az Azure Databricks munkaterületen. Ez a cikk az adatátalakítási tevékenységekről szóló cikkre épül, amely általános áttekintést nyújt az adatátalakításról és a támogatott átalakítási tevékenységekről. Azure Databricks egy felügyelt platform az Apache Spark futtatásához.
A Databricks-jegyzetfüzeteket egy ARM-sablonnal JSON használatával vagy közvetlenül a Azure Data Factory Studio felhasználói felületén hozhatja létre. A Databricks-jegyzetfüzetek felhasználói felületen keresztül történő létrehozásának részletes útmutatójához tekintse meg az Az útmutató: A Databricks-jegyzetfüzet futtatását a Databricks-jegyzetfüzet-tevékenységgel az Azure Data Factoryben.
Azure Databricks jegyzetfüzet-tevékenység hozzáadása egy felhasználói felületű folyamatba.
Ha jegyzetfüzet-tevékenységet szeretne használni Azure Databricks egy folyamatban, hajtsa végre a következő lépéseket:
Keressen jegyzetfüzetet a folyamattevékenységek panelen, és húzzon egy jegyzetfüzet-tevékenységet a folyamatvászonra.
Jelölje ki az új jegyzetfüzet-tevékenységet a vásznon, ha még nincs kijelölve.
A Azure Databricks lapon válasszon ki vagy hozzon létre egy új Azure Databricks társított szolgáltatást, amely végrehajtja a jegyzetfüzet-tevékenységet.
Válassza a Settings lapot, és adja meg a jegyzetfüzet elérési útját, ami az Azure Databricks-en kerül végrehajtásra, a jegyzetfüzet számára átadott választható alapparamétereket, valamint minden egyéb könyvtárat, amit a fürtre kell telepíteni a feladat végrehajtásához.
Databricks Notebook tevékenység definíció
A Databricks Notebook-tevékenység JSON-mintadefiníciója a következő:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksNotebook",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"notebookPath": "/Users/user@example.com/ScalaExampleNotebook",
"baseParameters": {
"inputpath": "input/folder1/",
"outputpath": "output/"
},
"libraries": [
{
"jar": "dbfs:/docs/library.jar"
}
]
}
}
}
Databricks Notebook-tevékenység tulajdonságai
Az alábbi táblázat a JSON-definícióban használt JSON-tulajdonságokat ismerteti:
| Tulajdonság | Leírás | Szükséges |
|---|---|---|
| név | A folyamat tevékenységének neve. | Igen |
| leírás | A tevékenység célját leíró szöveg. | Nem |
| típus | A Databricks Notebook-tevékenység esetében a tevékenység típusa a DatabricksNotebook. | Igen |
| KapcsoltSzolgáltatásNév | Annak a Databricks társított szolgáltatásnak a neve, amelyen a Databricks-jegyzetfüzet fut. A társított szolgáltatással kapcsolatos további információkért tekintse meg a társított számítási szolgáltatásokról szóló cikket. | Igen |
| notebookPath | A Databricks-munkaterületen futtatandó jegyzetfüzet abszolút elérési útja. Ennek az elérési útnak perjellel kell kezdődnie. | Igen |
| alapParaméterek | Kulcs-érték párok tömbje. Az alap-paraméterek minden tevékenységvégrehajtáshoz használhatók. Ha a jegyzetfüzet nem megadott paramétert használ, a rendszer a jegyzetfüzet alapértelmezett értékét használja. További információ a Databricks-jegyzetfüzetek paramétereiről. | Nem |
| könyvtárak | A feladatot végrehajtó fürtre telepíteni kívánt könyvtárak listája. Ez lehet egy <sztringek, objektumok> tömbje. | Nem |
A Databricks-tevékenységekhez támogatott kódtárak
A fenti Databricks-tevékenységdefinícióban a következő kódtártípusokat adja meg: jar, egg, whl, maven, pypi, cran.
{
"libraries": [
{
"jar": "dbfs:/mnt/libraries/library.jar"
},
{
"egg": "dbfs:/mnt/libraries/library.egg"
},
{
"whl": "dbfs:/mnt/libraries/mlflow-0.0.1.dev0-py2-none-any.whl"
},
{
"whl": "dbfs:/mnt/libraries/wheel-libraries.wheelhouse.zip"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2",
"exclusions": [ "slf4j:slf4j" ]
}
},
{
"pypi": {
"package": "simplejson",
"repo": "http://my-pypi-mirror.com"
}
},
{
"cran": {
"package": "ada",
"repo": "https://cran.us.r-project.org"
}
}
]
}
További információkért tekintse meg a Databricks könyvtártípusokkal kapcsolatos dokumentációját .
Paraméterek átadása jegyzetfüzetek és adattovábbító csatornák között
A databricks-tevékenység BaseParameters tulajdonságával paramétereket adhat át a jegyzetfüzeteknek.
Bizonyos esetekben előfordulhat, hogy vissza kell adnia bizonyos értékeket a jegyzetfüzetből a szolgáltatásnak, amelyek felhasználhatók a szolgáltatás vezérlési folyamatához (feltételes ellenőrzésekhez), vagy az alsóbb rétegbeli tevékenységek használhatják fel (a méretkorlát 2 MB).
A jegyzetfüzetben meghívhatja a dbutils.notebook.exit("returnValue") parancsot, és a megfelelő "returnValue" visszakerül a szolgáltatásba.
A szolgáltatás kimenetét használhatja olyan kifejezésekkel, mint a
@{activity('databricks notebook activity name').output.runOutput}.Fontos
Ha JSON-objektumot ad át, a tulajdonságnevek hozzáfűzésével lekérheti az értékeket. Példa:
@{activity('databricks notebook activity name').output.runOutput.PropertyName}
Tár feltöltése a Databricksben
A munkaterület felhasználói felületét használhatja:
A Databricks-munkaterület felhasználói felületének használata
A felhasználói felületen hozzáadott kódtár adatbázis-elérési útjának lekéréséhez használhatja a Databricks parancssori felületét.
A Jar-kódtárak általában a dbfs:/FileStore/jars alatt vannak tárolva a felhasználói felület használata során. A parancssori felületen az összes adatot listázhatja: databricks fs ls dbfs:/FileStore/job-jars
Vagy használhatja a Databricks parancssori felületét:
Kövesse a könyvtár másolását a Databricks parancssori felületével
A Databricks parancssori felületének használata (telepítési lépések)
Például egy JAR másolása a dbfs-be:
dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar