Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
PLATÍ PRO:
Azure Data Factory
Azure Synapse Analytics
Tip
Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od pohybu dat až po datovou vědu, analýzy v reálném čase, business intelligence a reporting. Přečtěte si, jak začít používat novou zkušební verzi zdarma.
Aktivita Pythonu Azure Databricks v pipelině spouští Pythonový soubor v clusteru Azure Databricks. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku.
Jedenáctiminutové představení a ukázku této funkce najdete v tomto videu:
Přidejte aktivitu Pythonu pro Azure Databricks do datového potrubí pomocí uživatelského rozhraní
Pokud chcete v rámci datového kanálu použít aktivitu Pythonu pro Azure Databricks, proveďte následující kroky:
Vyhledejte Python v podokně Aktivity kanálu a přetáhněte aktivitu Pythonu na plátno kanálu.
Vyberte novou aktivitu Pythonu na plátně, pokud ještě není vybraná.
Výběrem karty Azure Databricks vyberte nebo vytvořte novou propojenou službu Azure Databricks, která spustí aktivitu Pythonu.
Vyberte kartu Nastavení a zadejte cestu v rámci Azure Databricks k souboru Pythonu, který se má spustit, volitelné parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.
Definice aktivity Pythonu v Databricks
Tady je ukázková definice JSON aktivity Pythonu databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksSparkPython",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedService",
"type": "LinkedServiceReference"
},
"typeProperties": {
"pythonFile": "dbfs:/docs/pi.py",
"parameters": [
"10"
],
"libraries": [
{
"pypi": {
"package": "tensorflow"
}
}
]
}
}
}
Vlastnosti aktivity Pythonu pro Databricks
Následující tabulka popisuje vlastnosti JSON použité v definici JSON:
| Vlastnost | Popis | Požadováno |
|---|---|---|
| název | Název aktivity v kanálu | Ano |
| popis | Text popisující, co aktivita dělá. | Ne |
| typ | Pro Databricks Python aktivitu je typ aktivity DatabricksSparkPython. | Ano |
| názevPropojenéSlužby | Název propojené služby Databricks, na které se aktivita Pythonu spouští. Další informace o této propojené službě najdete v článku o propojených službách Compute. | Ano |
| pythonFile | Identifikátor URI souboru Pythonu, který se má spustit. Podporují se pouze cesty DBFS. | Ano |
| parametry | Parametry příkazového řádku, které se předají do souboru Pythonu. Toto je pole řetězců. | Ne |
| knihovny | Seznam knihoven, které se mají nainstalovat do clusteru, který spustí úlohu. Může to být pole řetězců, objektů <.> | Ne |
Podporované knihovny pro aktivity Databricks
Ve výše uvedené definici aktivity Databricks zadáte tyto typy knihoven: jar, egg, maven, pypi, cran.
{
"libraries": [
{
"jar": "dbfs:/mnt/libraries/library.jar"
},
{
"egg": "dbfs:/mnt/libraries/library.egg"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2",
"exclusions": [ "slf4j:slf4j" ]
}
},
{
"pypi": {
"package": "simplejson",
"repo": "http://my-pypi-mirror.com"
}
},
{
"cran": {
"package": "ada",
"repo": "https://cran.us.r-project.org"
}
}
]
}
Další podrobnosti ohledně typů knihoven najdete v dokumentaci Databricks.
Jak nahrát knihovnu v Databricks
Můžete použít uživatelské rozhraní pracovního prostoru:
Použití uživatelského rozhraní pracovního prostoru Databricks
Pro získání dbfs cesty knihovny přidané pomocí uživatelského rozhraní můžete použít příkazovou řádku Databricks (CLI).
Knihovny Jar se obvykle ukládají v souboru dbfs:/FileStore/jars při používání uživatelského rozhraní. Všechny položky můžete vypsat prostřednictvím rozhraní příkazového řádku: databricks fs ls dbfs:/FileStore/job-jars
Nebo můžete použít rozhraní příkazového řádku Databricks:
Postupujte podle pokynů ke kopírování knihovny pomocí rozhraní příkazového řádku Databricks.
Použijte příkazový řádek Databricks (instalační kroky)
Například zkopírování souboru JAR do dbfs:
dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar