Jegyzet
Az oldalhoz való hozzáférés engedélyezést igényel. Próbálhatod be jelentkezni vagy könyvtárat váltani.
Az oldalhoz való hozzáférés engedélyezést igényel. Megpróbálhatod a könyvtár váltását.
Megjegyzés:
Ez a cikk a Databricks Runtime 13.3 LTS és újabb verzióihoz tartozó Databricks Connectre vonatkozik.
A Databricks Connect lehetővé teszi népszerű fejlesztői környezetek, például a PyCharm, a notebook-kiszolgálók és más egyéni alkalmazások Azure Databricks-számítási erőforrásokhoz való csatlakoztatását. Lásd : Mi az a Databricks Connect?.
Ez a cikk bemutatja, hogyan kezdheti meg gyorsan a Pythonhoz készült Databricks Connect használatát a PyCharm használatával. Létrehoz egy projektet a PyCharmban, telepíti a Databricks Runtime 13.3 LTS-hez készült Databricks Connectet, és egyszerű kódot futtat a klasszikus számításon a Databricks-munkaterületen a PyCharmból.
Követelmények
Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:
- A munkaterület, a helyi környezet és a számítás megfelel a Pythonhoz készült Databricks Connect követelményeinek. Lásd a Databricks Connect használati követelményeit.
- A PyCharm telepítve van. Ezt az oktatóanyagot a PyCharm Community Edition 2023.3.5-ös verziójával teszteltük. Ha a PyCharm másik verzióját vagy kiadását használja, az alábbi utasítások eltérhetnek.
- Ha klasszikus számítást használ, szüksége lesz a fürt azonosítójára. A fürtazonosító megtekintéséhez a saját munkaterületén kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja a
clustersésconfigurationközött található karaktersorozatot az URL-ből.
1. lépés: Az Azure Databricks-hitelesítés konfigurálása
Ez az oktatóanyag az Azure Databricks OAuth felhasználói (U2M) hitelesítését és egy Azure Databricks-konfigurációs profilt használ az Azure Databricks-munkaterületre való hitelesítéshez. Ha más hitelesítési típust szeretne használni, tekintse meg a kapcsolat tulajdonságainak konfigurálását.
Az OAuth U2M-hitelesítés konfigurálásához a Databricks parancssori felületre van szükség. A Databricks parancssori felület telepítéséről további információt a Databricks parancssori felület telepítése vagy frissítése című témakörben talál.
OAuth U2M-hitelesítés kezdeményezése az alábbiak szerint:
Az OAuth-jogkivonatok helyi felügyeletének elindításához használja a Databricks parancssori felületét az alábbi parancs futtatásával minden cél-munkaterületen.
Az alábbi parancsban cserélje le a
<workspace-url>elemet az Azure Databricks munkaterületenkénti URL-címére, példáulhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --configure-cluster --host <workspace-url>Jótanács
Ha kiszolgáló nélküli számítást szeretne használni a Databricks Connecttel, tekintse meg a kiszolgáló nélküli számításhoz való kapcsolat konfigurálását.
A Databricks parancssori felülete kéri, hogy mentse az Azure Databricks konfigurációs profiljaként megadott adatokat. Nyomja meg a
Entergombot a javasolt profilnév elfogadásához, vagy írja be egy új vagy meglévő profil nevét. Az azonos nevű meglévő profilokat felülírja a megadott adatokkal. Profilok használatával gyorsan válthat a hitelesítési környezetre több munkaterületen.A meglévő profilok listájának lekéréséhez egy külön terminálban vagy parancssorban futtassa a Databricks parancssori felületét a parancs
databricks auth profilesfuttatásához. Egy adott profil meglévő beállításainak megtekintéséhez futtassa a parancsotdatabricks auth env --profile <profile-name>.A webböngészőben végezze el a képernyőn megjelenő utasításokat az Azure Databricks-munkaterületre való bejelentkezéshez.
A terminálban vagy parancssorban megjelenő elérhető fürtök listájában a felfelé és lefelé mutató nyílbillentyűkkel válassza ki a munkaterületen a cél Azure Databricks-fürtöt, majd nyomja le
Entera billentyűt. Az elérhető fürtök listájának szűréséhez beírhatja a fürt megjelenítésre kerülő nevének bármely részét.A profil aktuális OAuth-tokenértékének és a jogkivonat közelgő lejárati időbélyegének megtekintéséhez futtassa az alábbi parancsok egyikét:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Ha több azonos
--hostértékű profillal rendelkezik, lehet, hogy együtt kell megadnia a--hostés a-pbeállításokat, hogy a Databricks CLI megkeresse a megfelelő OAuth token információkat.
2. lépés: A projekt létrehozása
- Indítsa el a PyCharmot.
- A főmenüben kattintson > fájlja elemre.
- Az Új projekt párbeszédpanelen kattintson a Tiszta Python elemre.
- A Hely beállításhoz kattintson a mappa ikonra, és végezze el a képernyőn megjelenő utasításokat az új Python-projekt elérési útjának megadásához.
- Hagyja bejelölve main.py üdvözlőprogram létrehozását.
- Értelmező típus esetén kattintson a Project venv elemre.
- Bontsa ki a Python-verziót, és a mappaikon vagy a legördülő lista használatával adja meg a Python-értelmező elérési útját az előző követelmények alapján.
- Kattintson Létrehozásra.
3. lépés: A Databricks Connect csomag hozzáadása
- A PyCharm főmenüjében kattintson a Windows > Python-csomagok megtekintése eszközre>.
- A keresőmezőbe írja be a
databricks-connectkifejezést. - A PyPI-adattár listájában kattintson a databricks-connect elemre.
- Az eredménypanel legújabb legördülő listájában válassza ki a fürt Databricks Runtime-verziójának megfelelő verziót. Ha például a fürtön telepítve van a Databricks Runtime 14.3, válassza a 14.3.1-et.
- Kattintson a Csomag telepítése elemre.
- A csomag telepítése után bezárhatja a Python Packages ablakot.
4. lépés: Kód hozzáadása
A Project eszközablakban kattintson a jobb gombbal a projekt gyökérmappájára, és válassza az Új > Python-fájl parancsot.
Írja be
main.pyés kattintson duplán a Python-fájlra.Írja be a következő kódot a fájlba, majd mentse a fájlt a konfigurációs profil nevétől függően.
Ha az 1. lépésben megadott konfigurációs profil neve el van nevezve
DEFAULT, írja be a következő kódot a fájlba, majd mentse a fájlt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Ha az 1. lépésben megadott konfigurációs profil neve nem
DEFAULTszerepel, írja be helyette a következő kódot a fájlba. Cserélje le a helyőrzőt<profile-name>a konfigurációs profil nevére az 1. lépésben, majd mentse a fájlt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
5. lépés: A kód futtatása
- Indítsa el a célfürtöt a távoli Azure Databricks-munkaterületen.
- A fürt elindítása után a főmenüben kattintson a >, majd válassza a 'main' futtatását.
- A Futtatás eszközablakban (Nézet > Eszközablakok > Futtatás), a Futtatás lap fő ablaktábláján megjelenik a
samples.nyctaxi.tripselső 5 sora.
6. lépés: A kód hibakeresése
- Ha a fürt továbbra is fut, az előző kódban a töréspont beállításához kattintson a mellette lévő ereszcsatornára
df.show(5). - A főmenüben kattintson a "fő" hibakeresés futtatása >parancsra.
- A Hibakeresési eszköz ablakában (Eszköz ablakok megtekintése > Hibakeresés >), a Hibakereső fül Változók paneljén bontsa ki a df és a spark változócsomópontokat a kód és a változók információinak böngészéséhez.
- A Hibakeresés eszköz ablakának oldalsávján kattintson a zöld nyílra (Program folytatása) ikonra.
- A Hibakereső lap Konzol paneljén megjelenik a
samples.nyctaxi.tripselső 5 sora.