Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
VZTAHUJE SE NA:
Azure Data Factory
Azure Synapse Analytics
Tip
Data Factory v Microsoft Fabric je nová generace Azure Data Factory s jednodušší architekturou, integrovanou AI a novými funkcemi. Pokud s integrací dat začínáte, začněte Fabric Data Factory. Stávající úlohy ADF lze upgradovat na Fabric pro přístup k novým funkcím v oblastech datové vědy, analýz v reálném čase a vytváření sestav.
Aktivita Azure Databricks Python v pipeline spustí soubor Python v clusteru Azure Databricks. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku.
Jedenáctiminutové představení a ukázku této funkce najdete v tomto videu:
Přidání aktivity Python pro Azure Databricks do datového kanálu pomocí uživatelského rozhraní
Pokud chcete použít aktivitu Python pro Azure Databricks v datovém potrubí, proveďte následující kroky:
V podokně Aktivity kanálu vyhledejte Python a přetáhněte Python aktivitu na plátno kanálu.
Vyberte novou aktivitu Python na plátně, pokud ještě není vybraná.
Vyberte kartu Azure Databricks a vyberte nebo vytvořte novou propojenou službu Azure Databricks, která spustí aktivitu Python.
Vyberte kartu Settings a zadejte cestu v Azure Databricks k souboru Python, který se má spustit, volitelné parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.
Definice aktivity Python v Databricks
Tady je ukázková definice JSON aktivity Python Databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksSparkPython",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"pythonFile": "dbfs:/docs/pi.py",
"parameters": [
"10"
],
"libraries": [
{
"pypi": {
"package": "tensorflow"
}
}
]
}
}
}
Pythonové aktivity v Databricks
Následující tabulka popisuje vlastnosti JSON použité v definici JSON:
| Vlastnost | Popis | Požadováno |
|---|---|---|
| název | Název aktivity v kanálu | Ano |
| popis | Text popisující, co aktivita dělá. | Ne |
| typ | Pro aktivitu Python Databricks je typ aktivity DatabricksSparkPython. | Ano |
| názevPropojenéSlužby | Název propojené služby Databricks, na které se spouští aktivita Python. Další informace o této propojené službě najdete v článku o propojených službách Compute. | Ano |
| pythonFile | Identifikátor URI souboru Python, který se má spustit. Podporují se pouze cesty DBFS. | Ano |
| parametry | Parametry příkazového řádku, které se předají Python souboru. Toto je pole řetězců. | Ne |
| knihovny | Seznam knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Může to být pole řetězců, objektů <.> | Ne |
Podporované knihovny pro aktivity Databricks
Ve výše uvedené definici aktivity Databricks zadáte tyto typy knihoven: jar, egg, maven, pypi, cran.
{
"libraries": [
{
"jar": "dbfs:/mnt/libraries/library.jar"
},
{
"egg": "dbfs:/mnt/libraries/library.egg"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2",
"exclusions": [ "slf4j:slf4j" ]
}
},
{
"pypi": {
"package": "simplejson",
"repo": "http://my-pypi-mirror.com"
}
},
{
"cran": {
"package": "ada",
"repo": "https://cran.us.r-project.org"
}
}
]
}
Další podrobnosti ohledně typů knihoven najdete v dokumentaci Databricks.
Jak nahrát knihovnu v Databricks
Můžete použít uživatelské rozhraní pracovního prostoru:
Použití uživatelského rozhraní pracovního prostoru Databricks
Pro získání dbfs cesty knihovny přidané pomocí uživatelského rozhraní můžete použít příkazovou řádku Databricks (CLI).
Knihovny Jar se obvykle ukládají v souboru dbfs:/FileStore/jars při používání uživatelského rozhraní. Všechny položky můžete vypsat prostřednictvím rozhraní příkazového řádku: databricks fs ls dbfs:/FileStore/job-jars
Nebo můžete použít rozhraní příkazového řádku Databricks:
Postupujte podle pokynů ke kopírování knihovny pomocí rozhraní příkazového řádku Databricks.
Použijte příkazový řádek Databricks (instalační kroky)
Například zkopírování souboru JAR do dbfs:
dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar