Sdílet prostřednictvím


Kurz: Spuštění Pythonu v clusteru a jako úloha pomocí rozšíření Databricks pro Visual Studio Code

Tento kurz vás provede nastavením rozšíření Databricks pro Visual Studio Code a následným spuštěním Pythonu v clusteru Azure Databricks a jako úlohu Azure Databricks ve vzdáleném pracovním prostoru. Podívejte se , co je rozšíření Databricks pro Visual Studio Code?.

Požadavky

Tento kurz vyžaduje:

  • Nainstalovali jste rozšíření Databricks pro Visual Studio Code. Viz Instalace rozšíření Databricks pro Visual Studio Code.
  • Máte vzdálený cluster Azure Databricks, který můžete použít. Poznamenejte si název clusteru. Pokud chcete zobrazit dostupné clustery, klikněte na bočním panelu pracovního prostoru Azure Databricks na Compute. Viz Výpočty.

Krok 1: Vytvoření nového projektu Databricks

V tomto kroku vytvoříte nový projekt Databricks a nakonfigurujete připojení ke vzdálenému pracovnímu prostoru Azure Databricks.

  1. Spusťte Visual Studio Code a potom klikněte na Otevřít složku soubor > a otevřete nějakou prázdnou složku na místním vývojovém počítači.
  2. Na bočním panelu klikněte na ikonu loga Databricks . Tím se otevře rozšíření Databricks.
  3. V zobrazení Konfigurace klepněte na tlačítko Migrovat do projektu Databricks.
  4. Otevře se paleta příkazů pro konfiguraci pracovního prostoru Databricks. V případě hostitele Databricks zadejte nebo vyberte adresu URL pro jednotlivé pracovní prostory, například https://adb-1234567890123456.7.azuredatabricks.net.
  5. Vyberte profil ověřování pro projekt. Viz Nastavení ověřování pro rozšíření Databricks pro Visual Studio Code.

Krok 2: Přidání informací o clusteru do rozšíření Databricks a spuštění clusteru

  1. Když už máte otevřené zobrazení Konfigurace, klikněte na Vybrat cluster nebo klikněte na ikonu ozubeného kola (Konfigurovat cluster).

    Konfigurace clusteru

  2. Na paletě příkazů vyberte název clusteru, který jste vytvořili dříve.

  3. Pokud ještě není spuštěný, klikněte na ikonu přehrávání (Spustit cluster).

Krok 3: Vytvoření a spuštění kódu Pythonu

  1. Vytvořte místní soubor kódu Pythonu: na bočním panelu klikněte na ikonu složky (Průzkumníka).

  2. V hlavní nabídce klikněte na Soubor > nový soubor. Pojmenujte soubor demo.py a uložte ho do kořenového adresáře projektu.

  3. Do souboru přidejte následující kód a pak ho uložte. Tento kód vytvoří a zobrazí obsah základního datového rámce PySpark:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Klikněte na ikonu Spustit v Databricks vedle seznamu karet editoru a potom klikněte na Nahrát a spustit soubor. Výstup se zobrazí v zobrazení konzoly ladění.

    Nahrání a spuštění souboru z ikony

    Případně v zobrazení Průzkumníka klikněte pravým tlačítkem myši na demo.py soubor a potom klikněte na Spustit v Databricks>Nahrát a spustit soubor.

    Nahrání a spuštění souboru z místní nabídky

Krok 4: Spuštění kódu jako úlohy

Pokud chcete spustit demo.py jako úlohu, klikněte na ikonu Spustit v Databricks vedle seznamu karet editoru a potom klikněte na Spustit soubor jako pracovní postup. Výstup se zobrazí na samostatné kartě editoru vedle editoru demo.py souborů.

Spustit soubor jako pracovní postup z ikony

Případně klikněte pravým tlačítkem myši na demo.py soubor na panelu Průzkumník a pak vyberte Spustit v Databricks>Spustit soubor jako pracovní postup.

Spuštění souboru jako pracovního postupu z místní nabídky

Další kroky

Teď, když jste úspěšně použili rozšíření Databricks pro Visual Studio Code k nahrání místního souboru Pythonu a jeho vzdálenému spuštění, můžete také: