Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Megjegyzés:
Ez a cikk a Databricks Runtime 13.3 LTS és újabb verzióihoz tartozó Databricks Connectre vonatkozik.
A Databricks Connect lehetővé teszi, hogy népszerű fejlesztői környezeteket, mint például a PyCharm, notebook-kiszolgálókat és más egyéni alkalmazásokat csatlakoztasson az Azure Databricks számítási felülethez. Lásd : Databricks Connect.
Ez a cikk bemutatja, hogyan kezdheti meg gyorsan a Databricks Connect használatát Python PyCharm használatával. Létrehoz egy projektet a PyCharmban, telepíti a Databricks Runtime 13.3 LTS-hez készült Databricks Connectet, és egyszerű kódot futtat a klasszikus számításon a Databricks-munkaterületen a PyCharmból.
Követelmények
Az oktatóanyag elvégzéséhez meg kell felelnie a következő követelményeknek:
- A munkaterület, a helyi környezet és a számítás megfelel a Databricks Connect Python követelményeinek. Lásd a Databricks Connect használati követelményeit.
- A PyCharm telepítve van. Ezt az oktatóanyagot a PyCharm Community Edition 2023.3.5-ös verziójával teszteltük. Ha a PyCharm másik verzióját vagy kiadását használja, az alábbi utasítások eltérhetnek.
- Ha klasszikus számítást használ, szüksége lesz a fürt azonosítójára. A fürtazonosító megtekintéséhez a saját munkaterületén kattintson a Számítás gombra az oldalsávon, majd kattintson a fürt nevére. A webböngésző címsorában másolja a
clustersésconfigurationközött található karaktersorozatot az URL-ből.
1. lépés: Azure Databricks hitelesítés konfigurálása
Ez az oktatóanyag Azure Databricks OAuth felhasználó–gép (U2M) hitelesítést és Azure Databricks konfigurációs profilt használ a Azure Databricks-munkaterületre való hitelesítéshez. Ha más hitelesítési típust szeretne használni, tekintse meg a kapcsolat tulajdonságainak konfigurálását.
Az OAuth U2M-hitelesítés konfigurálásához a Databricks parancssori felületre van szükség. A Databricks parancssori felület telepítéséről további információt a Databricks parancssori felület telepítése vagy frissítése című témakörben talál.
OAuth U2M-hitelesítés kezdeményezése az alábbiak szerint:
Az OAuth-jogkivonatok helyi felügyeletének elindításához használja a Databricks parancssori felületét az alábbi parancs futtatásával minden cél-munkaterületen.
A következő parancsban cserélje le
<workspace-url>az Azure Databricks munkaterület URL-címére, példáulhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --configure-cluster --host <workspace-url>Jótanács
Ha kiszolgáló nélküli számítást szeretne használni a Databricks Connecttel, tekintse meg a kiszolgáló nélküli számításhoz való kapcsolat konfigurálását.
A Databricks parancssori felülete kéri, hogy mentse a Azure Databricks konfigurációs profilként megadott adatokat. Nyomja meg a
Entergombot a javasolt profilnév elfogadásához, vagy írja be egy új vagy meglévő profil nevét. Az azonos nevű meglévő profilokat felülírja a megadott adatokkal. Profilok használatával gyorsan válthat a hitelesítési környezetre több munkaterületen.A meglévő profilok listájának lekéréséhez egy külön terminálban vagy parancssorban futtassa a Databricks parancssori felületét a parancs
databricks auth profilesfuttatásához. Egy adott profil meglévő beállításainak megtekintéséhez futtassa a parancsotdatabricks auth env --profile <profile-name>.A webböngészőben végezze el a képernyőn megjelenő utasításokat a Azure Databricks munkaterületre való bejelentkezéshez.
A terminálban vagy parancssorban megjelenő, elérhető fürtök listájából a felfelé és lefelé mutató nyílbillentyűkkel jelölje ki a munkaterületen az Azure Databricks célfürtöt, majd nyomja le a
Enterbillentyűt. Az elérhető fürtök listájának szűréséhez beírhatja a fürt megjelenítésre kerülő nevének bármely részét.A profil aktuális OAuth-tokenértékének és a jogkivonat közelgő lejárati időbélyegének megtekintéséhez futtassa az alábbi parancsok egyikét:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Ha több azonos
--hostértékű profillal rendelkezik, lehet, hogy együtt kell megadnia a--hostés a-pbeállításokat, hogy a Databricks CLI megkeresse a megfelelő OAuth token információkat.
2. lépés: A projekt létrehozása
- Indítsa el a PyCharmot.
- A főmenüben kattintson a File > New Project elemre.
- A Új Project párbeszédpanelen kattintson a Pure Python elemre.
- A Location esetén kattintson a mappa ikonra, és adja meg az új Python projekt elérési útját a képernyőn.
- Hagyja bejelölve a main.py üdvözlő szkript létrehozását.
- A Interpreter típus esetén kattintson a Project venv elemre.
- Bontsa ki a Python verzió elemet, és a mappaikon vagy a legördülő lista segítségével adja meg az előző követelményekből származó Python értelmező elérési útját.
- Kattintson Létrehozásra.
3. lépés: A Databricks Connect csomag hozzáadása
- A PyCharm főmenüjében kattintson a View > Tool Windows > Python Packages elemre.
- A keresőmezőbe írja be a
databricks-connectkifejezést. - A PyPI-adattár listájában kattintson a databricks-connect elemre.
- Az eredménypanel legújabb legördülő listájában válassza ki a fürt Databricks Runtime-verziójának megfelelő verziót. Ha például a fürtön telepítve van a Databricks Runtime 14.3, válassza a 14.3.1-et.
- Kattintson a Csomag telepítése elemre.
- A csomag telepítése után bezárhatja a Python Csomagok ablakot.
4. lépés: Kód hozzáadása
A Project eszközablakban kattintson a jobb gombbal a project gyökérmappájára, majd kattintson a Új > Python Fájl parancsra.
Adja meg
main.py, majd kattintson duplán a Python fájlra.Írja be a következő kódot a fájlba, majd mentse a fájlt a konfigurációs profil nevétől függően.
Ha az 1. lépésben megadott konfigurációs profil neve el van nevezve
DEFAULT, írja be a következő kódot a fájlba, majd mentse a fájlt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Ha az 1. lépésben megadott konfigurációs profil neve nem
DEFAULT, akkor írja be a következő kódot a fájlba. Cserélje le a helyőrzőt<profile-name>a konfigurációs profil nevére az 1. lépésben, majd mentse a fájlt:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
5. lépés: A kód futtatása
- Indítsa el a célfürtöt a távoli Azure Databricks munkaterületen.
- A fürt elindítása után a főmenüben kattintson a >, majd válassza a 'main' futtatását.
- A Run eszközablakban (Nézet > Eszközablakok > Futtatás) a Run lap fő paneljén a
samples.nyctaxi.tripselső 5 sora jelenik meg.
6. lépés: A kód hibakeresése
- Amíg a fürt még fut, kattintson az előző kódban a
df.show(5)melletti sávra, hogy beállítson egy töréspontot. - A főmenüben kattintson a "fő" hibakeresés futtatása >parancsra.
- A
Debug eszközablakban (Nézet ), aEszköz ablakok Hibakeresés Debugger fülVáltozók paneljén bontsa ki adf ésspark változó csomópontokat, hogy áttekintse a kódés változóiról szóló információkat. - A Hibakeresés eszköz ablakának oldalsávján kattintson a zöld nyílra (Program folytatása) ikonra.
- A Hibakereső lap Konzol paneljén megjelenik a
samples.nyctaxi.tripselső 5 sora.