Megosztás:


Oktatóanyag: Kód futtatása a PyCharmból a klasszikus számításon

Megjegyzés:

Ez a cikk a Databricks Runtime 13.3 LTS és újabb verzióihoz tartozó Databricks Connectre vonatkozik.

A Databricks Connect lehetővé teszi népszerű fejlesztői környezetek, például a PyCharm, a notebook-kiszolgálók és más egyéni alkalmazások Azure Databricks-számítási erőforrásokhoz való csatlakoztatását. Lásd : Mi az a Databricks Connect?.

Ez a cikk bemutatja, hogyan kezdheti meg gyorsan a Pythonhoz készült Databricks Connect használatát a PyCharm használatával. Létrehoz egy projektet a PyCharmban, telepíti a Databricks Runtime 13.3 LTS-hez készült Databricks Connectet, és egyszerű kódot futtat a klasszikus számításon a Databricks-munkaterületen a PyCharmból.

Követelmények

Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:

  • A munkaterület, a helyi környezet és a számítás megfelel a Pythonhoz készült Databricks Connect követelményeinek. Lásd a Databricks Connect használati követelményeit.
  • A PyCharm telepítve van. Ezt az oktatóanyagot a PyCharm Community Edition 2023.3.5-ös verziójával teszteltük. Ha a PyCharm másik verzióját vagy kiadását használja, az alábbi utasítások eltérhetnek.
  • Ha klasszikus számítást használ, szüksége lesz a fürt azonosítójára. A fürtazonosító megtekintéséhez a saját munkaterületén kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja a clusters és configuration között található karaktersorozatot az URL-ből.

1. lépés: Az Azure Databricks-hitelesítés konfigurálása

Ez az oktatóanyag az Azure Databricks OAuth felhasználói (U2M) hitelesítését és egy Azure Databricks-konfigurációs profilt használ az Azure Databricks-munkaterületre való hitelesítéshez. Ha más hitelesítési típust szeretne használni, tekintse meg a kapcsolat tulajdonságainak konfigurálását.

Az OAuth U2M-hitelesítés konfigurálásához a Databricks parancssori felületre van szükség. A Databricks parancssori felület telepítéséről további információt a Databricks parancssori felület telepítése vagy frissítése című témakörben talál.

OAuth U2M-hitelesítés kezdeményezése az alábbiak szerint:

  1. Az OAuth-jogkivonatok helyi felügyeletének elindításához használja a Databricks parancssori felületét az alábbi parancs futtatásával minden cél-munkaterületen.

    Az alábbi parancsban cserélje le a <workspace-url> elemet az Azure Databricks munkaterületenkénti URL-címére, például https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Jótanács

    Ha kiszolgáló nélküli számítást szeretne használni a Databricks Connecttel, tekintse meg a kiszolgáló nélküli számításhoz való kapcsolat konfigurálását.

  2. A Databricks parancssori felülete kéri, hogy mentse az Azure Databricks konfigurációs profiljaként megadott adatokat. Nyomja meg a Enter gombot a javasolt profilnév elfogadásához, vagy írja be egy új vagy meglévő profil nevét. Az azonos nevű meglévő profilokat felülírja a megadott adatokkal. Profilok használatával gyorsan válthat a hitelesítési környezetre több munkaterületen.

    A meglévő profilok listájának lekéréséhez egy külön terminálban vagy parancssorban futtassa a Databricks parancssori felületét a parancs databricks auth profilesfuttatásához. Egy adott profil meglévő beállításainak megtekintéséhez futtassa a parancsot databricks auth env --profile <profile-name>.

  3. A webböngészőben végezze el a képernyőn megjelenő utasításokat az Azure Databricks-munkaterületre való bejelentkezéshez.

  4. A terminálban vagy parancssorban megjelenő elérhető fürtök listájában a felfelé és lefelé mutató nyílbillentyűkkel válassza ki a munkaterületen a cél Azure Databricks-fürtöt, majd nyomja le Entera billentyűt. Az elérhető fürtök listájának szűréséhez beírhatja a fürt megjelenítésre kerülő nevének bármely részét.

  5. A profil aktuális OAuth-tokenértékének és a jogkivonat közelgő lejárati időbélyegének megtekintéséhez futtassa az alábbi parancsok egyikét:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Ha több azonos --host értékű profillal rendelkezik, lehet, hogy együtt kell megadnia a --host és a -p beállításokat, hogy a Databricks CLI megkeresse a megfelelő OAuth token információkat.

2. lépés: A projekt létrehozása

  1. Indítsa el a PyCharmot.
  2. A főmenüben kattintson > fájlja elemre.
  3. Az Új projekt párbeszédpanelen kattintson a Tiszta Python elemre.
  4. A Hely beállításhoz kattintson a mappa ikonra, és végezze el a képernyőn megjelenő utasításokat az új Python-projekt elérési útjának megadásához.
  5. Hagyja bejelölve main.py üdvözlőprogram létrehozását.
  6. Értelmező típus esetén kattintson a Project venv elemre.
  7. Bontsa ki a Python-verziót, és a mappaikon vagy a legördülő lista használatával adja meg a Python-értelmező elérési útját az előző követelmények alapján.
  8. Kattintson Létrehozásra.

A PyCharm-projekt létrehozása

3. lépés: A Databricks Connect csomag hozzáadása

  1. A PyCharm főmenüjében kattintson a Windows > Python-csomagok megtekintése eszközre>.
  2. A keresőmezőbe írja be a databricks-connect kifejezést.
  3. A PyPI-adattár listájában kattintson a databricks-connect elemre.
  4. Az eredménypanel legújabb legördülő listájában válassza ki a fürt Databricks Runtime-verziójának megfelelő verziót. Ha például a fürtön telepítve van a Databricks Runtime 14.3, válassza a 14.3.1-et.
  5. Kattintson a Csomag telepítése elemre.
  6. A csomag telepítése után bezárhatja a Python Packages ablakot.

A Databricks Connect csomag telepítése

4. lépés: Kód hozzáadása

  1. A Project eszközablakban kattintson a jobb gombbal a projekt gyökérmappájára, és válassza az Új > Python-fájl parancsot.

  2. Írja be main.py és kattintson duplán a Python-fájlra.

  3. Írja be a következő kódot a fájlba, majd mentse a fájlt a konfigurációs profil nevétől függően.

    Ha az 1. lépésben megadott konfigurációs profil neve el van nevezve DEFAULT, írja be a következő kódot a fájlba, majd mentse a fájlt:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Ha az 1. lépésben megadott konfigurációs profil neve nem DEFAULTszerepel, írja be helyette a következő kódot a fájlba. Cserélje le a helyőrzőt <profile-name> a konfigurációs profil nevére az 1. lépésben, majd mentse a fájlt:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

5. lépés: A kód futtatása

  1. Indítsa el a célfürtöt a távoli Azure Databricks-munkaterületen.
  2. A fürt elindítása után a főmenüben kattintson a >, majd válassza a 'main' futtatását.
  3. A Futtatás eszközablakban (Nézet > Eszközablakok > Futtatás), a Futtatás lap ablaktábláján megjelenik a samples.nyctaxi.trips első 5 sora.

6. lépés: A kód hibakeresése

  1. Ha a fürt továbbra is fut, az előző kódban a töréspont beállításához kattintson a mellette lévő ereszcsatornára df.show(5) .
  2. A főmenüben kattintson a "fő" hibakeresés futtatása >parancsra.
  3. A Hibakeresési eszköz ablakában (Eszköz ablakok megtekintése > Hibakeresés >), a Hibakereső fül Változók paneljén bontsa ki a df és a spark változócsomópontokat a kód és a változók információinak böngészéséhez.
  4. A Hibakeresés eszköz ablakának oldalsávján kattintson a zöld nyílra (Program folytatása) ikonra.
  5. A Hibakereső lap Konzol paneljén megjelenik a samples.nyctaxi.trips első 5 sora.

A PyCharm-projekt hibakeresése