Transformace dat spuštěním poznámkového bloku Databricks
PLATÍ PRO: Azure Data Factory Azure Synapse Analytics
Tip
Vyzkoušejte Službu Data Factory v Microsoft Fabric, analytické řešení typu vše v jednom pro podniky. Microsoft Fabric pokrývá všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak zdarma začít používat novou zkušební verzi .
Aktivita poznámkového bloku Azure Databricks v kanálu spouští poznámkový blok Databricks ve vašem pracovním prostoru Azure Databricks. Tento článek vychází z článku o aktivitách transformace dat , který představuje obecný přehled transformace dat a podporovaných transformačních aktivit. Azure Databricks je spravovaná platforma pro spouštění Apache Sparku.
Poznámkový blok Databricks můžete vytvořit pomocí šablony ARM pomocí json nebo přímo prostřednictvím uživatelského rozhraní Azure Data Factory Studia. Podrobný návod k vytvoření aktivity poznámkového bloku Databricks pomocí uživatelského rozhraní najdete v kurzu Spuštění poznámkového bloku Databricks s aktivitou poznámkového bloku Databricks v Azure Data Factory.
Přidání aktivity poznámkového bloku pro Azure Databricks do kanálu pomocí uživatelského rozhraní
Pokud chcete v kanálu použít aktivitu poznámkového bloku pro Azure Databricks, proveďte následující kroky:
V podokně Aktivity kanálu vyhledejte Poznámkový blok a přetáhněte aktivitu Poznámkového bloku na plátno kanálu.
Vyberte novou aktivitu poznámkového bloku na plátně, pokud ještě není vybraná.
Vyberte kartu Azure Databricks a vyberte nebo vytvořte novou propojenou službu Azure Databricks, která spustí aktivitu poznámkového bloku.
Vyberte kartu Nastavení a zadejte cestu poznámkového bloku, která se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat do poznámkového bloku, a všechny další knihovny, které se mají nainstalovat do clusteru pro spuštění úlohy.
Definice aktivity poznámkového bloku Databricks
Tady je ukázková definice JSON aktivity poznámkového bloku Databricks:
{
"activity": {
"name": "MyActivity",
"description": "MyActivity description",
"type": "DatabricksNotebook",
"linkedServiceName": {
"referenceName": "MyDatabricksLinkedservice",
"type": "LinkedServiceReference"
},
"typeProperties": {
"notebookPath": "/Users/user@example.com/ScalaExampleNotebook",
"baseParameters": {
"inputpath": "input/folder1/",
"outputpath": "output/"
},
"libraries": [
{
"jar": "dbfs:/docs/library.jar"
}
]
}
}
}
Vlastnosti aktivity poznámkového bloku Databricks
Následující tabulka popisuje vlastnosti JSON použité v definici JSON:
Vlastnost | Popis | Vyžadováno |
---|---|---|
name | Název aktivity v kanálu | Yes |
description | Text popisující, co aktivita dělá. | No |
typ | V případě aktivity poznámkového bloku Databricks je typ aktivity DatabricksNotebook. | Yes |
linkedServiceName | Název propojené služby Databricks, ve které běží poznámkový blok Databricks. Další informace o této propojené službě najdete v článku Propojené služby Compute . | Yes |
cesta poznámkového bloku | Absolutní cesta poznámkového bloku, který se má spustit v pracovním prostoru Databricks. Tato cesta musí začínat lomítkem. | Yes |
baseParameters | Pole párů Key-Value. Základní parametry je možné použít pro každé spuštění aktivity. Pokud poznámkový blok převezme parametr, který není zadaný, použije se výchozí hodnota z poznámkového bloku. Další informace o parametrech najdete v poznámkových blocích Databricks. | No |
knihovny | Seznam knihoven, které se mají nainstalovat do clusteru, který provede úlohu. Může se jednat o pole <řetězců, objektu>. | No |
Podporované knihovny pro aktivity Databricks
Ve výše uvedené definici aktivity Databricks zadáte tyto typy knihoven: jar, egg, whl, maven, pypi, cran.
{
"libraries": [
{
"jar": "dbfs:/mnt/libraries/library.jar"
},
{
"egg": "dbfs:/mnt/libraries/library.egg"
},
{
"whl": "dbfs:/mnt/libraries/mlflow-0.0.1.dev0-py2-none-any.whl"
},
{
"whl": "dbfs:/mnt/libraries/wheel-libraries.wheelhouse.zip"
},
{
"maven": {
"coordinates": "org.jsoup:jsoup:1.7.2",
"exclusions": [ "slf4j:slf4j" ]
}
},
{
"pypi": {
"package": "simplejson",
"repo": "http://my-pypi-mirror.com"
}
},
{
"cran": {
"package": "ada",
"repo": "https://cran.us.r-project.org"
}
}
]
}
Další informace najdete v dokumentaci k Databricks pro typy knihoven.
Předávání parametrů mezi poznámkovými bloky a kanály
Do poznámkových bloků můžete předat parametry pomocí vlastnosti baseParameters v aktivitě databricks.
V některých případech můžete vyžadovat, aby se určité hodnoty z poznámkového bloku předávaly zpět do služby, které se dají použít pro tok řízení (podmíněné kontroly) ve službě nebo které mohou využívat podřízené aktivity (limit velikosti je 2 MB).
V poznámkovém bloku můžete volat dbutils.notebook.exit("returnValue") a službě se vrátí odpovídající "returnValue".
Výstup ve službě můžete využívat pomocí výrazu, jako
@{activity('databricks notebook activity name').output.runOutput}
je .Důležité
Pokud předáváte objekt JSON, můžete načíst hodnoty přidáním názvů vlastností. Příklad:
@{activity('databricks notebook activity name').output.runOutput.PropertyName}
Jak nahrát knihovnu v Databricks
Můžete použít uživatelské rozhraní pracovního prostoru:
Použití uživatelského rozhraní pracovního prostoru Databricks
Pokud chcete získat cestu dbfs ke knihovně přidané pomocí uživatelského rozhraní, můžete použít Rozhraní příkazového řádku Databricks.
Knihovny Jar jsou při používání uživatelského rozhraní obvykle uložené v části dbfs:/FileStore/jars. Seznam můžete zobrazit přes rozhraní příkazového řádku: databricks fs ls dbfs:/FileStore/job-jars
Nebo můžete použít rozhraní příkazového řádku Databricks:
Postupujte podle pokynů v části Kopírování knihovny pomocí rozhraní příkazového řádku Databricks.
Použití Rozhraní příkazového řádku Databricks (kroky instalace)
Příklad kopírování souboru JAR do dbfs:
dbfs cp SparkPi-assembly-0.1.jar dbfs:/docs/sparkpi.jar