Sdílet prostřednictvím


Použití poznámkových bloků s Databricks Connect

Poznámka:

Tato funkce funguje s Modulem Databricks Runtime 13.3 a novějším.

Poznámkové bloky Azure Databricks můžete spustit a zobrazit jejich výsledky v integrovaném vývojovém prostředí editoru Visual Studio Code , jednu buňku najednou nebo všechny buňky najednou pomocí integrace Databricks Connect v rozšíření Databricks pro Visual Studio Code. Veškerý kód běží místně, zatímco veškerý kód zahrnující operace datového rámce běží v clusteru ve vzdáleném pracovním prostoru Azure Databricks a odpovědi na spuštění se odešlou zpět místnímu volajícímu. Buňky můžete také ladit. Veškerý kód je laděný místně, zatímco veškerý kód Sparku se bude dál spouštět v clusteru ve vzdáleném pracovním prostoru Azure Databricks. Základní kód modulu Spark nelze ladit přímo z klienta.

Ve výchozím nastavení je použití poznámkového bloku omezené bez integrace Databricks Connect popsané v tomto článku:

  • Poznámkové bloky nelze spustit po jedné buňce pomocí pouze rozšíření Databricks pro Visual Studio Code.
  • Buňky nelze ladit.
  • Poznámkové bloky můžete spouštět jenom jako úlohy Azure Databricks a zobrazit výsledky spuštění poznámkových bloků pouze v integrovaném vývojovém prostředí editoru Visual Studio Code.
  • Veškerý kód poznámkového bloku běží jenom v clusterech přidružených k těmto úlohám.

Pokud chcete povolit integraci Databricks Connect pro poznámkové bloky v rozšíření Databricks pro Visual Studio Code, musíte povolit integraci Databricks Connect v rozšíření Databricks pro Visual Studio Code. Viz Ladění kódu pomocí Databricks Connect pro rozšíření Databricks pro Visual Studio Code.

Po povolení se u poznámkových bloků s názvy souborů, které mají příponu .py , po otevření poznámkového bloku v integrovaném vývojovém prostředí editoru Visual Studio Code zobrazí každá buňka tlačítka Spustit buňku, Spustit nad a Ladit buňku . Při spuštění buňky se její výsledky zobrazí na samostatné kartě integrovaného vývojového prostředí (IDE). Při ladění se v laděné buňce zobrazují tlačítka Pokračovat, Zastavit a Krokovat . Při ladění buňky můžete použít funkce ladění editoru Visual Studio Code, jako je sledování stavů proměnných a zobrazení zásobníku volání a konzoly ladění.

Po povolení obsahují poznámkové bloky s názvy souborů, které mají .ipynb rozšíření, když poznámkový blok otevřete v integrovaném vývojovém prostředí editoru Visual Studio Code, poznámkový blok a její buňky obsahují další funkce. Viz Spuštění buněk a práce s buňkami kódu v Editoru poznámkových bloků.

Další informace o formátech poznámkových bloků pro názvy souborů a .ipynb .py rozšíření najdete v tématu Export a import poznámkových bloků Databricks.

Jsou povoleny také následující globální poznámkové bloky:

  • spark, představující instanci objektu databricks.connect.DatabricksSession, je předem nakonfigurovaný tak, aby vytvořil instanci DatabricksSession získáním přihlašovacích údajů pro ověřování Azure Databricks z rozšíření. Pokud DatabricksSession už je v kódu buňky poznámkového bloku vytvořena instance, použije se toto DatabricksSession nastavení. Podívejte se na příklady kódu pro Databricks Connect pro Python.

  • udf, předkonfigurováno jako alias pro pyspark.sql.functions.udf, což je alias pro uživatelem definované uživatelem Pythonu. Viz pyspark.sql.functions.udf.

  • sql, předkonfigurováno jako alias pro spark.sql. spark, jak je popsáno výše, představuje předkonfigurovanou instanci databricks.connect.DatabricksSession. Viz Spark SQL.

  • dbutils, předkonfigurováno jako instance nástrojů Databricks, která se importuje a databricks-sdk vytvoří instanci získáním přihlašovacích údajů pro ověřování Azure Databricks z rozšíření. Viz Použití nástrojů Databricks.

    Poznámka:

    Poznámkové bloky s Databricks Connect podporují jenom podmnožinu nástrojů Databricks.

    Pokud chcete povolit dbutils.widgets, musíte nejprve nainstalovat sadu Databricks SDK pro Python spuštěním následujícího příkazu v terminálu místního vývojového počítače:

    pip install 'databricks-sdk[notebook]'
    
  • display, předkonfigurováno jako alias pro předdefinovaný IPython.display.displayJupyter . Viz IPython.display.display.

  • displayHTML, předkonfigurováno jako alias pro dbruntime.display.displayHTML, což je alias pro display.HTML z ipython. Viz IPython.display.html.

Jsou povoleny také následující magicky poznámkového bloku:

  • %fs, což je stejné jako volání dbutils.fs . Viz jazyky mixu.

  • %sh, který spustí příkaz pomocí magie %%script buňky na místním počítači. Tento příkaz se nespustí ve vzdáleném pracovním prostoru Azure Databricks. Viz jazyky mixu.

  • %md a %md-sandbox, který spouští magii %%markdownbuňky . Viz jazyky mixu.

  • %sql, který běží spark.sql. Viz jazyky mixu.

  • %pip, který běží pip install na místním počítači. To se nespustí pip install ve vzdáleném pracovním prostoru Azure Databricks. Viz Správa knihoven pomocí příkazů %pip.

  • %run, který spouští jiný poznámkový blok. Toto kouzlo poznámkového bloku je k dispozici v rozšíření Databricks pro Visual Studio Code verze 1.1.2 a vyšší. Viz Spuštění poznámkového bloku Databricks z jiného poznámkového bloku.

    Poznámka:

    Pokud chcete povolit %run, musíte nejprve nainstalovat knihovnu nbformat spuštěním následujícího příkazu v terminálu místního vývojového počítače:

    pip install nbformat
    
  • # MAGIC. Toto kouzlo poznámkového bloku je k dispozici v rozšíření Databricks pro Visual Studio Code verze 1.1.2 a vyšší.

Mezi další funkce, které jsou povolené, patří:

  • Datové rámce Sparku se převedou na datové rámce pandas, které se zobrazují ve formátu tabulky Jupyter.

Mezi omezení patří:

  • Poznámkové bloky magics a %scala nejsou podporovány %r a zobrazují chybu, pokud je volána. Viz jazyky mixu.
  • Magic %sql poznámkového bloku nepodporuje některé příkazy DML, například Zobrazit tabulky.