Použití poznámkových bloků s Databricks Connect

Článek
07/16/2024

Poznámka:

Tato funkce funguje s Modulem Databricks Runtime 13.3 a novějším.

Poznámkové bloky Azure Databricks můžete spustit a zobrazit jejich výsledky v integrovaném vývojovém prostředí editoru Visual Studio Code , jednu buňku najednou nebo všechny buňky najednou pomocí integrace Databricks Connect v rozšíření Databricks pro Visual Studio Code. Veškerý kód běží místně, zatímco veškerý kód zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu. Buňky můžete také ladit. Veškerý kód je laděný místně, zatímco veškerý kód Sparku se bude dál spouštět v clusteru ve vzdáleném pracovním prostoru Azure Databricks. Základní kód modulu Spark nelze ladit přímo z klienta.

Ve výchozím nastavení je použití poznámkového bloku omezené bez integrace Databricks Connect popsané v tomto článku:

Poznámkové bloky nelze spustit po jedné buňce pomocí pouze rozšíření Databricks pro Visual Studio Code.
Buňky nelze ladit.
Poznámkové bloky můžete spouštět jenom jako úlohy Azure Databricks a zobrazit výsledky spuštění poznámkových bloků pouze v integrovaném vývojovém prostředí editoru Visual Studio Code.
Veškerý kód poznámkového bloku běží jenom v clusterech přidružených k těmto úlohám.

Pokud chcete povolit integraci Databricks Connect pro poznámkové bloky v rozšíření Databricks pro Visual Studio Code, musíte povolit integraci Databricks Connect v rozšíření Databricks pro Visual Studio Code. Viz Ladění kódu pomocí Databricks Connect pro rozšíření Databricks pro Visual Studio Code.

Po povolení se u poznámkových bloků s názvy souborů, které mají příponu .py , po otevření poznámkového bloku v integrovaném vývojovém prostředí editoru Visual Studio Code zobrazí každá buňka tlačítka Spustit buňku, Spustit nad a Ladit buňku . Při spuštění buňky se její výsledky zobrazí na samostatné kartě integrovaného vývojového prostředí (IDE). Při ladění se v laděné buňce zobrazují tlačítka Pokračovat, Zastavit a Krokovat . Při ladění buňky můžete použít funkce ladění editoru Visual Studio Code, jako je sledování stavů proměnných a zobrazení zásobníku volání a konzoly ladění.

Po povolení obsahují poznámkové bloky s názvy souborů, které mají .ipynb rozšíření, když poznámkový blok otevřete v integrovaném vývojovém prostředí editoru Visual Studio Code, poznámkový blok a její buňky obsahují další funkce. Viz Spuštění buněk a práce s buňkami kódu v Editoru poznámkových bloků.

Další informace o formátech poznámkových bloků pro názvy souborů a .ipynb .py rozšíření najdete v tématu Export a import poznámkových bloků Databricks.

Jsou povoleny také následující globální poznámkové bloky:

spark, představující instanci objektu databricks.connect.DatabricksSession, je předem nakonfigurovaný tak, aby vytvořil instanci DatabricksSession získáním přihlašovacích údajů pro ověřování Azure Databricks z rozšíření. Pokud DatabricksSession už je v kódu buňky poznámkového bloku vytvořena instance, použije se toto DatabricksSession nastavení. Podívejte se na příklady kódu pro Databricks Connect pro Python.
udf, předkonfigurováno jako alias pro pyspark.sql.functions.udf, což je alias pro uživatelem definované uživatelem Pythonu. Viz pyspark.sql.functions.udf.
sql, předkonfigurováno jako alias pro spark.sql. spark, jak je popsáno výše, představuje předkonfigurovanou instanci databricks.connect.DatabricksSession. Viz Spark SQL.
dbutils, předkonfigurováno jako instance nástrojů Databricks, která se importuje a databricks-sdk vytvoří instanci získáním přihlašovacích údajů pro ověřování Azure Databricks z rozšíření. Viz Použití nástrojů Databricks.
Poznámka:

Poznámkové bloky s Databricks Connect podporují jenom podmnožinu nástrojů Databricks.

Pokud chcete povolit dbutils.widgets, musíte nejprve nainstalovat sadu Databricks SDK pro Python spuštěním následujícího příkazu v terminálu místního vývojového počítače:
```
pip install 'databricks-sdk[notebook]'
```
display, předkonfigurováno jako alias pro předdefinovaný IPython.display.displayJupyter . Viz IPython.display.display.
displayHTML, předkonfigurováno jako alias pro dbruntime.display.displayHTML, což je alias pro display.HTML z ipython. Viz IPython.display.html.

Jsou povoleny také následující magicky poznámkového bloku:

%fs, což je stejné jako volání dbutils.fs . Viz jazyky mixu.
%sh, který spustí příkaz pomocí magie %%script buňky na místním počítači. Tento příkaz se nespustí ve vzdáleném pracovním prostoru Azure Databricks. Viz jazyky mixu.
%md a %md-sandbox, který spouští magii %%markdownbuňky . Viz jazyky mixu.
%sql, který běží spark.sql. Viz jazyky mixu.
%pip, který běží pip install na místním počítači. To se nespustí pip install ve vzdáleném pracovním prostoru Azure Databricks. Viz Správa knihoven pomocí příkazů %pip.
%run, který spouští jiný poznámkový blok. Toto kouzlo poznámkového bloku je k dispozici v rozšíření Databricks pro Visual Studio Code verze 1.1.2 a vyšší. Viz Spuštění poznámkového bloku Databricks z jiného poznámkového bloku.
Poznámka:

Pokud chcete povolit %run, musíte nejprve nainstalovat knihovnu nbformat spuštěním následujícího příkazu v terminálu místního vývojového počítače:
```
pip install nbformat
```
# MAGIC. Toto kouzlo poznámkového bloku je k dispozici v rozšíření Databricks pro Visual Studio Code verze 1.1.2 a vyšší.

Mezi další funkce, které jsou povolené, patří:

Datové rámce Sparku se převedou na datové rámce pandas, které se zobrazují ve formátu tabulky Jupyter.

Mezi omezení patří:

Poznámkové bloky magics a %scala nejsou podporovány %r a zobrazují chybu, pokud je volána. Viz jazyky mixu.
Magic %sql poznámkového bloku nepodporuje některé příkazy DML, například Zobrazit tabulky.

Sdílet prostřednictvím

Použití poznámkových bloků s Databricks Connect

Váš názor

Váš názor

Další materiály