Oktatóanyag: Kód futtatása a PyCharmból a klasszikus számításon

Megjegyzés:

Ez a cikk a Databricks Runtime 13.3 LTS és újabb verzióihoz tartozó Databricks Connectre vonatkozik.

A Databricks Connect lehetővé teszi, hogy népszerű fejlesztői környezeteket, mint például a PyCharm, notebook-kiszolgálókat és más egyéni alkalmazásokat csatlakoztasson az Azure Databricks számítási felülethez. Lásd : Databricks Connect.

Ez a cikk bemutatja, hogyan kezdheti meg gyorsan a Databricks Connect használatát Python PyCharm használatával. Létrehoz egy projektet a PyCharmban, telepíti a Databricks Runtime 13.3 LTS-hez készült Databricks Connectet, és egyszerű kódot futtat a klasszikus számításon a Databricks-munkaterületen a PyCharmból.

Követelmények

Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:

  • A munkaterület, a helyi környezet és a számítás megfelel a Databricks Connect Python követelményeinek. Lásd a Databricks Connect használati követelményeit.
  • A PyCharm telepítve van. Ezt az oktatóanyagot a PyCharm Community Edition 2023.3.5-ös verziójával teszteltük. Ha a PyCharm másik verzióját vagy kiadását használja, az alábbi utasítások eltérhetnek.
  • Ha klasszikus számítást használ, szüksége lesz a fürt azonosítójára. A fürtazonosító megtekintéséhez a saját munkaterületén kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja a clusters és configuration között található karaktersorozatot az URL-ből.

1. lépés: Azure Databricks hitelesítés konfigurálása

Ez az oktatóanyag Azure Databricks OAuth felhasználó–gép (U2M) hitelesítést és Azure Databricks konfigurációs profilt használ a Azure Databricks-munkaterületre való hitelesítéshez. Ha más hitelesítési típust szeretne használni, tekintse meg a kapcsolat tulajdonságainak konfigurálását.

Az OAuth U2M-hitelesítés konfigurálásához a Databricks parancssori felületre van szükség. A Databricks parancssori felület telepítéséről további információt a Databricks parancssori felület telepítése vagy frissítése című témakörben talál.

OAuth U2M-hitelesítés kezdeményezése az alábbiak szerint:

  1. Az OAuth-jogkivonatok helyi felügyeletének elindításához használja a Databricks parancssori felületét az alábbi parancs futtatásával minden cél-munkaterületen.

    A következő parancsban cserélje le <workspace-url> az Azure Databricks munkaterület URL-címére, például https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Jótanács

    Ha kiszolgáló nélküli számítást szeretne használni a Databricks Connecttel, tekintse meg a kiszolgáló nélküli számításhoz való kapcsolat konfigurálását.

  2. A Databricks parancssori felülete kéri, hogy mentse a Azure Databricks konfigurációs profilként megadott adatokat. Nyomja meg a Enter gombot a javasolt profilnév elfogadásához, vagy írja be egy új vagy meglévő profil nevét. Az azonos nevű meglévő profilokat felülírja a megadott adatokkal. Profilok használatával gyorsan válthat a hitelesítési környezetre több munkaterületen.

    A meglévő profilok listájának lekéréséhez egy külön terminálban vagy parancssorban futtassa a Databricks parancssori felületét a parancs databricks auth profilesfuttatásához. Egy adott profil meglévő beállításainak megtekintéséhez futtassa a parancsot databricks auth env --profile <profile-name>.

  3. A webböngészőben végezze el a képernyőn megjelenő utasításokat a Azure Databricks munkaterületre való bejelentkezéshez.

  4. A terminálban vagy parancssorban megjelenő, elérhető fürtök listájából a felfelé és lefelé mutató nyílbillentyűkkel jelölje ki a munkaterületen az Azure Databricks célfürtöt, majd nyomja le a Enter billentyűt. Az elérhető fürtök listájának szűréséhez beírhatja a fürt megjelenítésre kerülő nevének bármely részét.

  5. A profil aktuális OAuth-tokenértékének és a jogkivonat közelgő lejárati időbélyegének megtekintéséhez futtassa az alábbi parancsok egyikét:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Ha több azonos --host értékű profillal rendelkezik, lehet, hogy együtt kell megadnia a --host és a -p beállításokat, hogy a Databricks CLI megkeresse a megfelelő OAuth token információkat.

2. lépés: A projekt létrehozása

  1. Indítsa el a PyCharmot.
  2. A főmenüben kattintson a File > New Project elemre.
  3. A Új Project párbeszédpanelen kattintson a Pure Python elemre.
  4. A Location esetén kattintson a mappa ikonra, és adja meg az új Python projekt elérési útját a képernyőn.
  5. Hagyja bejelölve a main.py üdvözlő szkript létrehozását.
  6. A Interpreter típus esetén kattintson a Project venv elemre.
  7. Bontsa ki a Python verzió elemet, és a mappaikon vagy a legördülő lista segítségével adja meg az előző követelményekből származó Python értelmező elérési útját.
  8. Kattintson Létrehozásra.

A PyCharm-projekt létrehozása

3. lépés: A Databricks Connect csomag hozzáadása

  1. A PyCharm főmenüjében kattintson a View > Tool Windows > Python Packages elemre.
  2. A keresőmezőbe írja be a databricks-connect kifejezést.
  3. A PyPI-adattár listájában kattintson a databricks-connect elemre.
  4. Az eredménypanel legújabb legördülő listájában válassza ki a fürt Databricks Runtime-verziójának megfelelő verziót. Ha például a fürtön telepítve van a Databricks Runtime 14.3, válassza a 14.3.1-et.
  5. Kattintson a Csomag telepítése elemre.
  6. A csomag telepítése után bezárhatja a Python Csomagok ablakot.

A Databricks Connect csomag telepítése

4. lépés: Kód hozzáadása

  1. A Project eszközablakban kattintson a jobb gombbal a project gyökérmappájára, majd kattintson a Új > Python Fájl parancsra.

  2. Adja meg main.py, majd kattintson duplán a Python fájlra.

  3. Írja be a következő kódot a fájlba, majd mentse a fájlt a konfigurációs profil nevétől függően.

    Ha az 1. lépésben megadott konfigurációs profil neve el van nevezve DEFAULT, írja be a következő kódot a fájlba, majd mentse a fájlt:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Ha az 1. lépésben megadott konfigurációs profil neve nem DEFAULT, akkor írja be a következő kódot a fájlba. Cserélje le a helyőrzőt <profile-name> a konfigurációs profil nevére az 1. lépésben, majd mentse a fájlt:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

5. lépés: A kód futtatása

  1. Indítsa el a célfürtöt a távoli Azure Databricks munkaterületen.
  2. A fürt elindítása után a főmenüben kattintson a >, majd válassza a 'main' futtatását.
  3. A Run eszközablakban (Nézet > Eszközablakok > Futtatás) a Run lap paneljén a samples.nyctaxi.trips első 5 sora jelenik meg.

6. lépés: A kód hibakeresése

  1. Amíg a fürt még fut, kattintson az előző kódban a df.show(5) melletti sávra, hogy beállítson egy töréspontot.
  2. A főmenüben kattintson a "fő" hibakeresés futtatása >parancsra.
  3. A Debug eszközablakban (Nézet Eszköz ablakok Hibakeresés), a Debugger fül Változók paneljén bontsa ki a df és spark változó csomópontokat, hogy áttekintse a kód és változóiról szóló információkat.
  4. A Hibakeresés eszköz ablakának oldalsávján kattintson a zöld nyílra (Program folytatása) ikonra.
  5. A Hibakereső lap Konzol paneljén megjelenik a samples.nyctaxi.trips első 5 sora.

A PyCharm-projekt hibakeresése