Megosztás a következőn keresztül:


VSCode-bővítmény a Databrickshez oktatóanyag: Python futtatása fürtön és feladatként

Ez az oktatóanyag bemutatja, hogyan kezdheti meg a Visual Studio Code Databricks-bővítményét úgy, hogy egy alapszintű Python-kódfájlt futtat egy Azure Databricks-fürtön, és hogyan futtatható Azure Databricks-feladatként a távoli munkaterületen. Lásd : Mi a Visual Studio Code Databricks-bővítménye?.

Mit fog csinálni ebben az oktatóanyagban?

Ebben a gyakorlati oktatóanyagban a következőket teheti:

  • Hozzon létre egy Azure Databricks-fürtöt a helyi Python-kód futtatásához.
  • Telepítse a Visual Studio Code-ot és a Visual Studio Code Databricks-bővítményét.
  • Állítsa be az Azure Databricks-hitelesítést, és konfigurálja a Visual Studio Code Databricks-bővítményét ezekkel az információkkal.
  • Konfigurálja a Databricks-bővítményt a Visual Studio Code-hoz a távoli fürt adataival, és állítsa be a bővítményt a fürt elindításához.
  • Konfigurálja a Databricks-bővítményt a Visual Studio Code-hoz a távoli Azure Databricks-munkaterület helyével a helyi Python-kód feltöltéséhez, és a bővítmény figyeli a kódfeltöltési eseményeket.
  • Írjon és mentsen egy Python-kódot, amely elindít egy kódfeltöltési eseményt.
  • A Visual Studio Code Databricks bővítményével futtassa a feltöltött kódot a távoli fürtön, majd futtassa a fürttel távoli feladatfuttatásként.

Ez az oktatóanyag csak a Python-kódfájlok futtatásának módját mutatja be, és ez az oktatóanyag csak az OAuth felhasználó–gép (U2M) hitelesítés beállítását mutatja be. A Python-kódfájlok hibakereséséről, a jegyzetfüzetek futtatásáról és hibakereséséről, valamint más hitelesítési típusok beállításáról a következő lépésekben olvashat.

1. lépés: Fürt létrehozása

Ha már van egy távoli Azure Databricks-fürtje, amelyet használni szeretne, jegyezze fel a fürt nevét, és ugorjon a 2. lépésre a Visual Studio Code telepítéséhez. Az elérhető fürtök megtekintéséhez kattintson a munkaterület oldalsávján a Számítás gombra.

A Databricks azt javasolja, hogy hozzon létre egy személyes számítási fürtöt a gyors kezdéshez. A fürt létrehozásához tegye a következőket:

  1. Az Azure Databricks-munkaterület oldalsávján kattintson a Számítás gombra.
  2. Kattintson a Létrehozás személyes számítással elemre.
  3. Kattintson a Számítás létrehozása gombra.
  4. Jegyezze fel a fürt nevét, mivel az 5. lépésben szüksége lesz rá, amikor fürtinformációkat ad hozzá a bővítményhez.

2. lépés: A Visual Studio Code telepítése

A Visual Studio Code telepítéséhez kövesse a macOS, Linux vagy Windows rendszerre vonatkozó utasításokat.

Ha már telepítve van a Visual Studio Code, ellenőrizze, hogy az 1.69.1-es vagy újabb verzióról van-e szó. Ehhez a Visual Studio Code-ban a főmenüben kattintson a MacOS-hez készült Visual Studio Code-ról szóló kódra>, illetve a Linux vagy a Windows súgójára>.

A Visual Studio Code frissítéséhez a főmenüben kattintson a MacOS Frissítések kódellenőrzése > vagy a Linux vagy Windows Frissítések súgójának > ellenőrzésére.

3. lépés: A Databricks-bővítmény telepítése

A Visual Studio Code bővítmény telepítése

  1. A Visual Studio Code oldalsávjában kattintson a Bővítmények ikonra.
  2. A Marketplace keresőbővítményeiben adja meg a következőt Databricks:
  3. A Databricks által a Databrickshez készült IDE-támogatással ellátott Databricks feliratú bejegyzésben kattintson a Telepítés gombra.

4. lépés: Az Azure Databricks-hitelesítés beállítása

Ebben a lépésben engedélyezi a hitelesítést a Visual Studio Code Databricks-bővítménye és a távoli Azure Databricks-munkaterület között az alábbiak szerint:

  1. A Visual Studio Code-ban nyisson meg egy üres mappát a helyi fejlesztői gépen, amellyel a 7. lépésben létrehozandó és futtatandó Python-kódot fogja tartalmazni. Ehhez a főmenüben kattintson a Fájl > megnyitása mappára, és kövesse a képernyőn megjelenő utasításokat.
  2. A Visual Studio Code oldalsávján kattintson a Databricks embléma ikonra.
  3. A Konfiguráció panelen kattintson a Databricks konfigurálása elemre.
  4. A ParancskatalógusBan a Databricks-gazdagéphez adja meg például https://adb-1234567890123456.7.azuredatabricks.neta munkaterületenkénti URL-címet. Nyomja le az Enter billentyűt.
  5. Válassza az OAuth (felhasználó a géphez) lehetőséget.
  6. A webböngészőben végezze el a képernyőn megjelenő utasításokat az Azure Databricks hitelesítésének befejezéséhez. Ha a rendszer kéri, engedélyezze az all-apis-hozzáférést .

5. lépés: Fürtinformációk hozzáadása a Databricks-bővítményhez, majd a fürt indítása

  1. Ha a Konfiguráció panel már meg van nyitva az előző lépésben, ahol beállította a hitelesítést, a Fürt mellett kattintson a fogaskerék (Fürt konfigurálása) ikonra.
  2. A parancskatalógusban válassza ki az 1. lépésben létrehozott fürt nevét.
  3. Indítsa el a fürtöt, ha még nincs elindítva: a Fürt mellett, ha a lejátszás (Fürt indítása) ikon látható, kattintson rá.

A fürt indítása

6. lépés: Adja hozzá a kódfeltöltési helyet a Databricks-bővítményhez, és indítsa el a feltöltési figyelőt

  1. Ha a Konfiguráció panel már meg van nyitva az előző lépésben, ahol fürtinformációkat adott hozzá, a Szinkronizálási cél mellett kattintson a fogaskerék (Szinkronizálási cél konfigurálása) ikonra.
  2. A parancskatalógusban válassza az Új szinkronizálási cél létrehozása lehetőséget.
  3. Nyomja le Enter a létrehozott távoli feltöltési könyvtár nevének megerősítéséhez.
  4. Indítsa el a feltöltési figyelőt, ha még nincs elindítva: ha a Szinkronizálási cél mellett látható a nyílkör (Szinkronizálás indítása) ikon, kattintson rá.

A feltöltési figyelő indítása

7. lépés: Python-kód létrehozása és futtatása

  1. Hozzon létre egy helyi Python-kódfájlt: az oldalsávon kattintson a mappa (Explorer) ikonra.

  2. A főmenüben kattintson az Új fájl fájlja >elemre. Nevezze el a fájlt demo.py , és mentse a projekt gyökérmappájába.

  3. Adja hozzá a következő kódot a fájlhoz, majd mentse. Ez a kód egy alapszintű PySpark DataFrame tartalmát hozza létre és jeleníti meg:

    from pyspark.sql import SparkSession
    from pyspark.sql.types import *
    
    spark = SparkSession.builder.getOrCreate()
    
    schema = StructType([
       StructField('CustomerID', IntegerType(), False),
       StructField('FirstName',  StringType(),  False),
       StructField('LastName',   StringType(),  False)
    ])
    
    data = [
       [ 1000, 'Mathijs', 'Oosterhout-Rijntjes' ],
       [ 1001, 'Joost',   'van Brunswijk' ],
       [ 1002, 'Stan',    'Bokenkamp' ]
    ]
    
    customers = spark.createDataFrame(data, schema)
    customers.show()
    
    # Output:
    #
    # +----------+---------+-------------------+
    # |CustomerID|FirstName|           LastName|
    # +----------+---------+-------------------+
    # |      1000|  Mathijs|Oosterhout-Rijntjes|
    # |      1001|    Joost|      van Brunswijk|
    # |      1002|     Stan|          Bokenkamp|
    # +----------+---------+-------------------+
    
  4. Explorer nézetben kattintson a jobb gombbal a demo.py fájlra, majd kattintson a Fájl feltöltése és futtatása a Databricksen parancsra. A kimenet megjelenik a Hibakeresési konzol panelen.

Fájl feltöltése és futtatása a Databricksen

8. lépés: A kód futtatása feladatként

Az előző lépésben a Python-kódot közvetlenül a távoli fürtön futtatta. Ebben a lépésben elindít egy munkafolyamatot, amely a fürtöt használja a kód Azure Databricks-feladatként való futtatásához. Lásd : Mi az Azure Databricks-feladatok?.

A kód feladatként való futtatásához az Explorer nézetben kattintson a jobb gombbal a demo.py fájlra, majd kattintson a Fájl futtatása munkafolyamatként a Databricksen parancsra. A kimenet egy külön szerkesztőlapon jelenik meg a demo.py fájlszerkesztő mellett.

Fájl futtatása munkafolyamatként a Databricksen

Elérte az oktatóanyag végét.

Következő lépések

Most, hogy sikeresen használta a Visual Studio Code Databricks bővítményét egy helyi Python-fájl feltöltéséhez és távoli futtatásához, további információ a bővítmény használatáról:

  • További tudnivalók a bővítmény hitelesítésének beállításáról. Lásd a VS Code Databricks-bővítményének hitelesítési beállítását.
  • Megtudhatja, hogyan engedélyezheti a PySpark és a Databricks Utilities kódkiegészítését, hogyan futtathat vagy hibakeresést a Python-kódokkal a Databricks Csatlakozás, hogyan futtathat egy fájlt vagy jegyzetfüzetet Azure Databricks-feladatként, hogyan futtathat teszteket a környezeti változók definíciós fájljaivalpytest, hogyan hozhat létre egyéni futtatási konfigurációkat stb. Lásd a Visual Studio Code Databricks-bővítményének fejlesztési feladatait.