Databricks Connect for Python
Feljegyzés
Ez a cikk a Databricks Runtime 13.3 LTS-hez készült Databricks Connectet ismerteti.
Ez a cikk bemutatja, hogyan kezdheti meg gyorsan a Databricks Connect használatát a Python és a PyCharm használatával.
- A cikk R-verziójával kapcsolatban lásd : Databricks Connect for R.
- A cikk Scala-verziójával kapcsolatban lásd : Databricks Connect for Scala.
A Databricks Connect lehetővé teszi népszerű azonosítók, például a PyCharm, a notebook-kiszolgálók és más egyéni alkalmazások Azure Databricks-fürtökhöz való csatlakoztatását. Lásd : Mi az a Databricks Connect?.
Oktatóanyag
Ha ki szeretné hagyni ezt az oktatóanyagot, és ehelyett egy másik IDE-t szeretne használni, tekintse meg a következő lépéseket.
Követelmények
Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:
- A cél Azure Databricks-munkaterületen engedélyezni kell a Unity Catalog használatát.
- A PyCharm telepítve van. Ezt az oktatóanyagot a PyCharm Community Edition 2023.3.5-ös verziójával teszteltük. Ha a PyCharm másik verzióját vagy kiadását használja, az alábbi utasítások eltérhetnek.
- A számítás megfelel a Databricks Connect Python-telepítési követelményeinek.
- Ha klasszikus számítást használ, szüksége lesz a fürt azonosítójára. A fürtazonosító lekéréséhez a munkaterületen kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja ki a karakterek sztringjét az URL-cím között
clusters
ésconfiguration
az URL-címben.
1. lépés: Az Azure Databricks-hitelesítés konfigurálása
Ez az oktatóanyag az Azure Databricks OAuth felhasználói (U2M) hitelesítését és egy Azure Databricks-konfigurációs profilt használ az Azure Databricks-munkaterületre való hitelesítéshez. Ha más hitelesítési típust szeretne használni, tekintse meg a kapcsolat tulajdonságainak konfigurálását.
Az OAuth U2M-hitelesítés konfigurálásához a Databricks parancssori felületre van szükség. A Databricks parancssori felület telepítéséről további információt a Databricks parancssori felület telepítése vagy frissítése című témakörben talál.
OAuth U2M-hitelesítés kezdeményezése az alábbiak szerint:
Az OAuth-jogkivonatok helyi felügyeletének elindításához használja a Databricks parancssori felületét az alábbi parancs futtatásával minden cél-munkaterületen.
Az alábbi parancsban cserélje le
<workspace-url>
például az Azure Databricks munkaterületenkénti URL-címéthttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
Másik lehetőségként, ha kiszolgáló nélküli Databricks-számítást szeretne használni a DB Connecttel, kövesse a kiszolgáló nélküli számításhoz való kapcsolat konfigurálásához szükséges lépéseket.
A Databricks parancssori felülete kéri, hogy mentse az Azure Databricks konfigurációs profiljaként megadott adatokat. Nyomja le
Enter
a javasolt profilnevet, vagy adja meg egy új vagy meglévő profil nevét. Az azonos nevű meglévő profilokat felülírja a megadott adatokkal. Profilok használatával gyorsan válthat a hitelesítési környezetre több munkaterületen.A meglévő profilok listájának lekéréséhez egy külön terminálban vagy parancssorban futtassa a Parancsot
databricks auth profiles
a Databricks parancssori felületével. Egy adott profil meglévő beállításainak megtekintéséhez futtassa a parancsotdatabricks auth env --profile <profile-name>
.A webböngészőben végezze el a képernyőn megjelenő utasításokat az Azure Databricks-munkaterületre való bejelentkezéshez.
A terminálban vagy parancssorban megjelenő elérhető fürtök listájában a felfelé és lefelé mutató nyílbillentyűkkel válassza ki a munkaterületen a cél Azure Databricks-fürtöt, majd nyomja le
Enter
a billentyűt. A fürt megjelenítendő nevének bármely részét beírhatja az elérhető fürtök listájának szűréséhez.A profil aktuális OAuth-tokenértékének és a jogkivonat közelgő lejárati időbélyegének megtekintéséhez futtassa az alábbi parancsok egyikét:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Ha több azonos értékű profillal rendelkezik
--host
, előfordulhat, hogy együtt kell megadnia azokat és-p
a--host
beállításokat, hogy a Databricks parancssori felülete megkeresse a megfelelő OAuth-jogkivonat-információkat.
2. lépés: A projekt létrehozása
- Indítsa el a PyCharmot.
- A főmenüben kattintson az Új projekt fájlja elemre>.
- Az Új projekt párbeszédpanelen kattintson a Tiszta Python elemre.
- A Hely beállításhoz kattintson a mappa ikonra, és végezze el a képernyőn megjelenő utasításokat az új Python-projekt elérési útjának megadásához.
- Hagyja bejelölve main.py üdvözlőprogram létrehozását.
- Értelmező típus esetén kattintson a Project venv elemre.
- Bontsa ki a Python-verziót, és a mappaikon vagy a legördülő lista használatával adja meg a Python-értelmező elérési útját az előző követelmények alapján.
- Kattintson a Létrehozás gombra.
3. lépés: A Databricks Connect csomag hozzáadása
- A PyCharm főmenüjében kattintson a Windows > Python-csomagok megtekintése eszközre>.
- A keresőmezőbe írja be a
databricks-connect
kifejezést. - A PyPI-adattár listájában kattintson a databricks-connect elemre.
- Az eredménypanel legújabb legördülő listájában válassza ki a fürt Databricks Runtime-verziójának megfelelő verziót. Ha például a fürtön telepítve van a Databricks Runtime 14.3, válassza a 14.3.1-et.
- Kattintson a Csomag telepítése elemre.
- A csomag telepítése után bezárhatja a Python Packages ablakot.
4. lépés: Kód hozzáadása
A Project eszközablakban kattintson a jobb gombbal a projekt gyökérmappájára, és válassza az Új > Python-fájl parancsot.
Írja be
main.py
és kattintson duplán a Python-fájlra.Írja be a következő kódot a fájlba, majd mentse a fájlt a konfigurációs profil nevétől függően.
Ha az 1. lépésben megadott konfigurációs profil neve el van nevezve
DEFAULT
, írja be a következő kódot a fájlba, majd mentse a fájlt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Ha az 1. lépésben megadott konfigurációs profil neve nem
DEFAULT
szerepel, írja be helyette a következő kódot a fájlba. Cserélje le a helyőrzőt<profile-name>
a konfigurációs profil nevére az 1. lépésben, majd mentse a fájlt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
5. lépés: A kód futtatása
- Indítsa el a célfürtöt a távoli Azure Databricks-munkaterületen.
- A fürt elindítása után a főmenüben kattintson a Futtatás főmenüre>.
- A Futtatás eszközablakban (Windows futtatás megtekintése > >) a Futtatás lap fő ablaktábláján megjelenik a
samples.nyctaxi.trips
lap első 5 sora.
6. lépés: A kód hibakeresése
- Ha a fürt továbbra is fut, az előző kódban a töréspont beállításához kattintson a mellette lévő ereszcsatornára
df.show(5)
. - A főmenüben kattintson a "fő" hibakeresés futtatása > parancsra.
- A Hibakeresési eszköz ablakában (Az eszköz Windows > hibakeresésének megtekintése>) a Hibakereső lap Változók paneljén bontsa ki az elosztott fájlrendszer és a Spark változócsomópontot a kód és
spark
a változók információinakdf
böngészéséhez. - A Hibakeresés eszköz ablakának oldalsávján kattintson a zöld nyílra (Program folytatása) ikonra.
- A Hibakereső lap Konzol paneljén megjelenik a
samples.nyctaxi.trips
hibakereső lap első 5 sora.
Következő lépések
A Databricks Connectről az alábbi cikkekben talál további információt:
Ha az Azure Databricks személyes hozzáférési jogkivonattól eltérő Azure Databricks-hitelesítési típusokat szeretne használni, tekintse meg a kapcsolat tulajdonságainak konfigurálását.
Más azonosítók, jegyzetfüzet-kiszolgálók és Spark-rendszerhéj használatához tekintse meg a következőket:
További egyszerű kód példák megtekintéséhez tekintse meg a Pythonhoz készült Databricks Connect kód példáit.
Összetettebb kódpéldák megtekintéséhez tekintse meg a GitHub Databricks Connect-adattárának példaalkalmazásait:
A Databricks Utilities és a Databricks Connect használatához lásd : Databricks Utilities with Databricks Connect for Python.
A Databricks Connect for Databricks Runtime 12.2 LTS-ről a Databricks Runtime 13.3 LTS-hez készült Databricks Connectre való migráláshoz lásd: Migrálás a Databricks Connect for Pythonba.
További információ a hibaelhárításról és a korlátozásokról.