Megosztás a következőn keresztül:


Databricks Connect for Python

Feljegyzés

Ez a cikk a Databricks Runtime 13.3 LTS-hez készült Databricks Connectet ismerteti.

Ez a cikk bemutatja, hogyan kezdheti meg gyorsan a Databricks Connect használatát a Python és a PyCharm használatával.

A Databricks Connect lehetővé teszi népszerű azonosítók, például a PyCharm, a notebook-kiszolgálók és más egyéni alkalmazások Azure Databricks-fürtökhöz való csatlakoztatását. Lásd : Mi az a Databricks Connect?.

Oktatóanyag

Ha ki szeretné hagyni ezt az oktatóanyagot, és ehelyett egy másik IDE-t szeretne használni, tekintse meg a következő lépéseket.

Követelmények

Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:

  • A cél Azure Databricks-munkaterületen engedélyezni kell a Unity Catalog használatát.
  • A PyCharm telepítve van. Ezt az oktatóanyagot a PyCharm Community Edition 2023.3.5-ös verziójával teszteltük. Ha a PyCharm másik verzióját vagy kiadását használja, az alábbi utasítások eltérhetnek.
  • A számítás megfelel a Databricks Connect Python-telepítési követelményeinek.
  • Ha klasszikus számítást használ, szüksége lesz a fürt azonosítójára. A fürtazonosító lekéréséhez a munkaterületen kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja ki a karakterek sztringjét az URL-cím között clusters és configuration az URL-címben.

1. lépés: Az Azure Databricks-hitelesítés konfigurálása

Ez az oktatóanyag az Azure Databricks OAuth felhasználói (U2M) hitelesítését és egy Azure Databricks-konfigurációs profilt használ az Azure Databricks-munkaterületre való hitelesítéshez. Ha más hitelesítési típust szeretne használni, tekintse meg a kapcsolat tulajdonságainak konfigurálását.

Az OAuth U2M-hitelesítés konfigurálásához a Databricks parancssori felületre van szükség. A Databricks parancssori felület telepítéséről további információt a Databricks parancssori felület telepítése vagy frissítése című témakörben talál.

OAuth U2M-hitelesítés kezdeményezése az alábbiak szerint:

  1. Az OAuth-jogkivonatok helyi felügyeletének elindításához használja a Databricks parancssori felületét az alábbi parancs futtatásával minden cél-munkaterületen.

    Az alábbi parancsban cserélje le <workspace-url> például az Azure Databricks munkaterületenkénti URL-címéthttps://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Másik lehetőségként, ha kiszolgáló nélküli Databricks-számítást szeretne használni a DB Connecttel, kövesse a kiszolgáló nélküli számításhoz való kapcsolat konfigurálásához szükséges lépéseket.

  2. A Databricks parancssori felülete kéri, hogy mentse az Azure Databricks konfigurációs profiljaként megadott adatokat. Nyomja le Enter a javasolt profilnevet, vagy adja meg egy új vagy meglévő profil nevét. Az azonos nevű meglévő profilokat felülírja a megadott adatokkal. Profilok használatával gyorsan válthat a hitelesítési környezetre több munkaterületen.

    A meglévő profilok listájának lekéréséhez egy külön terminálban vagy parancssorban futtassa a Parancsot databricks auth profilesa Databricks parancssori felületével. Egy adott profil meglévő beállításainak megtekintéséhez futtassa a parancsot databricks auth env --profile <profile-name>.

  3. A webböngészőben végezze el a képernyőn megjelenő utasításokat az Azure Databricks-munkaterületre való bejelentkezéshez.

  4. A terminálban vagy parancssorban megjelenő elérhető fürtök listájában a felfelé és lefelé mutató nyílbillentyűkkel válassza ki a munkaterületen a cél Azure Databricks-fürtöt, majd nyomja le Entera billentyűt. A fürt megjelenítendő nevének bármely részét beírhatja az elérhető fürtök listájának szűréséhez.

  5. A profil aktuális OAuth-tokenértékének és a jogkivonat közelgő lejárati időbélyegének megtekintéséhez futtassa az alábbi parancsok egyikét:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Ha több azonos értékű profillal rendelkezik--host, előfordulhat, hogy együtt kell megadnia azokat és -p a --host beállításokat, hogy a Databricks parancssori felülete megkeresse a megfelelő OAuth-jogkivonat-információkat.

2. lépés: A projekt létrehozása

  1. Indítsa el a PyCharmot.
  2. A főmenüben kattintson az Új projekt fájlja elemre>.
  3. Az Új projekt párbeszédpanelen kattintson a Tiszta Python elemre.
  4. A Hely beállításhoz kattintson a mappa ikonra, és végezze el a képernyőn megjelenő utasításokat az új Python-projekt elérési útjának megadásához.
  5. Hagyja bejelölve main.py üdvözlőprogram létrehozását.
  6. Értelmező típus esetén kattintson a Project venv elemre.
  7. Bontsa ki a Python-verziót, és a mappaikon vagy a legördülő lista használatával adja meg a Python-értelmező elérési útját az előző követelmények alapján.
  8. Kattintson a Létrehozás gombra.

A PyCharm-projekt létrehozása

3. lépés: A Databricks Connect csomag hozzáadása

  1. A PyCharm főmenüjében kattintson a Windows > Python-csomagok megtekintése eszközre>.
  2. A keresőmezőbe írja be a databricks-connect kifejezést.
  3. A PyPI-adattár listájában kattintson a databricks-connect elemre.
  4. Az eredménypanel legújabb legördülő listájában válassza ki a fürt Databricks Runtime-verziójának megfelelő verziót. Ha például a fürtön telepítve van a Databricks Runtime 14.3, válassza a 14.3.1-et.
  5. Kattintson a Csomag telepítése elemre.
  6. A csomag telepítése után bezárhatja a Python Packages ablakot.

A Databricks Connect csomag telepítése

4. lépés: Kód hozzáadása

  1. A Project eszközablakban kattintson a jobb gombbal a projekt gyökérmappájára, és válassza az Új > Python-fájl parancsot.

  2. Írja be main.py és kattintson duplán a Python-fájlra.

  3. Írja be a következő kódot a fájlba, majd mentse a fájlt a konfigurációs profil nevétől függően.

    Ha az 1. lépésben megadott konfigurációs profil neve el van nevezve DEFAULT, írja be a következő kódot a fájlba, majd mentse a fájlt:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Ha az 1. lépésben megadott konfigurációs profil neve nem DEFAULTszerepel, írja be helyette a következő kódot a fájlba. Cserélje le a helyőrzőt <profile-name> a konfigurációs profil nevére az 1. lépésben, majd mentse a fájlt:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

5. lépés: A kód futtatása

  1. Indítsa el a célfürtöt a távoli Azure Databricks-munkaterületen.
  2. A fürt elindítása után a főmenüben kattintson a Futtatás főmenüre>.
  3. A Futtatás eszközablakban (Windows futtatás megtekintése > >) a Futtatás lap fő ablaktábláján megjelenik a samples.nyctaxi.trips lap első 5 sora.

6. lépés: A kód hibakeresése

  1. Ha a fürt továbbra is fut, az előző kódban a töréspont beállításához kattintson a mellette lévő ereszcsatornára df.show(5) .
  2. A főmenüben kattintson a "fő" hibakeresés futtatása > parancsra.
  3. A Hibakeresési eszköz ablakában (Az eszköz Windows > hibakeresésének megtekintése>) a Hibakereső lap Változók paneljén bontsa ki az elosztott fájlrendszer és a Spark változócsomópontot a kód és spark a változók információinak df böngészéséhez.
  4. A Hibakeresés eszköz ablakának oldalsávján kattintson a zöld nyílra (Program folytatása) ikonra.
  5. A Hibakereső lap Konzol paneljén megjelenik a samples.nyctaxi.trips hibakereső lap első 5 sora.

A PyCharm-projekt hibakeresése

Következő lépések

A Databricks Connectről az alábbi cikkekben talál további információt: