Kurz: Spuštění Pythonu v clusteru a jako úloha pomocí rozšíření Databricks pro Visual Studio Code
Tento kurz vás provede nastavením rozšíření Databricks pro Visual Studio Code a následným spuštěním Pythonu v clusteru Azure Databricks a jako úlohu Azure Databricks ve vzdáleném pracovním prostoru. Podívejte se , co je rozšíření Databricks pro Visual Studio Code?.
Požadavky
Tento kurz vyžaduje:
- Nainstalovali jste rozšíření Databricks pro Visual Studio Code. Viz Instalace rozšíření Databricks pro Visual Studio Code.
- Máte vzdálený cluster Azure Databricks, který můžete použít. Poznamenejte si název clusteru. Pokud chcete zobrazit dostupné clustery, klikněte na bočním panelu pracovního prostoru Azure Databricks na Compute. Viz Výpočty.
Krok 1: Vytvoření nového projektu Databricks
V tomto kroku vytvoříte nový projekt Databricks a nakonfigurujete připojení ke vzdálenému pracovnímu prostoru Azure Databricks.
- Spusťte Visual Studio Code a potom klikněte na Otevřít složku soubor > a otevřete nějakou prázdnou složku na místním vývojovém počítači.
- Na bočním panelu klikněte na ikonu loga Databricks . Tím se otevře rozšíření Databricks.
- V zobrazení Konfigurace klepněte na tlačítko Migrovat do projektu Databricks.
- Otevře se paleta příkazů pro konfiguraci pracovního prostoru Databricks. V případě hostitele Databricks zadejte nebo vyberte adresu URL pro jednotlivé pracovní prostory, například
https://adb-1234567890123456.7.azuredatabricks.net
. - Vyberte profil ověřování pro projekt. Viz Nastavení ověřování pro rozšíření Databricks pro Visual Studio Code.
Krok 2: Přidání informací o clusteru do rozšíření Databricks a spuštění clusteru
Když už máte otevřené zobrazení Konfigurace, klikněte na Vybrat cluster nebo klikněte na ikonu ozubeného kola (Konfigurovat cluster).
Na paletě příkazů vyberte název clusteru, který jste vytvořili dříve.
Pokud ještě není spuštěný, klikněte na ikonu přehrávání (Spustit cluster).
Krok 3: Vytvoření a spuštění kódu Pythonu
Vytvořte místní soubor kódu Pythonu: na bočním panelu klikněte na ikonu složky (Průzkumníka).
V hlavní nabídce klikněte na Soubor > nový soubor. Pojmenujte soubor demo.py a uložte ho do kořenového adresáře projektu.
Do souboru přidejte následující kód a pak ho uložte. Tento kód vytvoří a zobrazí obsah základního datového rámce PySpark:
from pyspark.sql import SparkSession from pyspark.sql.types import * spark = SparkSession.builder.getOrCreate() schema = StructType([ StructField('CustomerID', IntegerType(), False), StructField('FirstName', StringType(), False), StructField('LastName', StringType(), False) ]) data = [ [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ], [ 1001, 'Joost', 'van Brunswijk' ], [ 1002, 'Stan', 'Bokenkamp' ] ] customers = spark.createDataFrame(data, schema) customers.show() # Output: # # +----------+---------+-------------------+ # |CustomerID|FirstName| LastName| # +----------+---------+-------------------+ # | 1000| Mathijs|Oosterhout-Rijntjes| # | 1001| Joost| van Brunswijk| # | 1002| Stan| Bokenkamp| # +----------+---------+-------------------+
Klikněte na ikonu Spustit v Databricks vedle seznamu karet editoru a potom klikněte na Nahrát a spustit soubor. Výstup se zobrazí v zobrazení konzoly ladění.
Případně v zobrazení Průzkumníka klikněte pravým tlačítkem myši na
demo.py
soubor a potom klikněte na Spustit v Databricks>Nahrát a spustit soubor.
Krok 4: Spuštění kódu jako úlohy
Pokud chcete spustit demo.py
jako úlohu, klikněte na ikonu Spustit v Databricks vedle seznamu karet editoru a potom klikněte na Spustit soubor jako pracovní postup. Výstup se zobrazí na samostatné kartě editoru vedle editoru demo.py
souborů.
Případně klikněte pravým tlačítkem myši na demo.py
soubor na panelu Průzkumník a pak vyberte Spustit v Databricks>Spustit soubor jako pracovní postup.
Další kroky
Teď, když jste úspěšně použili rozšíření Databricks pro Visual Studio Code k nahrání místního souboru Pythonu a jeho vzdálenému spuštění, můžete také:
- Prozkoumejte prostředky a proměnné sady prostředků Databricks pomocí uživatelského rozhraní rozšíření. Viz funkce rozšíření Sady prostředků Databricks.
- Spuštění nebo ladění kódu Pythonu pomocí Databricks Connect Viz Ladění kódu pomocí Databricks Connect pro rozšíření Databricks pro Visual Studio Code.
- Spusťte soubor nebo poznámkový blok jako úlohu Azure Databricks. Viz Spuštění souboru v clusteru nebo souboru nebo poznámkovém bloku jako úlohy v Azure Databricks pomocí rozšíření Databricks pro Visual Studio Code.
- Spouštět testy pomocí
pytest
příkazu . Viz Spuštění testů pomocí pytestu pomocí rozšíření Databricks pro Visual Studio Code.