Fürtök konfigurálása
Megjegyzés
Ezek a régi fürt felhasználói felületére vonatkozó utasítások, amelyek csak az előzmény pontossága érdekében érhetők el. Minden ügyfélnek a frissített létrehozási fürt felhasználói felületét kell használnia.
Ez a cikk az Azure Databricks-fürtök létrehozásakor és szerkesztésekor elérhető konfigurációs beállításokat ismerteti. A felhasználói felület használatával fürtök létrehozására és szerkesztésére összpontosít. További módszerekért lásd: Clusters CLI, Clusters API 2.0 és Databricks Terraform provider.
Az igényeinek leginkább megfelelő konfigurációs lehetőségek kiválasztásához tekintse meg a fürtkonfiguráció ajánlott eljárásait ismertető cikket.
Fürtszabályzat
A fürtszabályzatok korlátozzák a fürtök szabályokon alapuló konfigurálásának lehetőségét. A szabályzatszabályok korlátozzák a fürtlétrehozáshoz elérhető attribútumokat vagy attribútumértékeket. A fürtszabályzatok olyan ACL-ekkel rendelkeznek, amelyek bizonyos felhasználókra és csoportokra korlátozzák a használatukat, és így korlátozzák a fürt létrehozásakor kiválasztható szabályzatokat.
Fürtszabályzat konfigurálásához válassza ki a fürtszabályzatot a Szabályzat legördülő listában.
Megjegyzés
Ha a munkaterületen nem hoztak létre szabályzatokat, a Szabályzat legördülő lista nem jelenik meg.
Ha az alábbiakat szeretné:
- Fürtlétrehozás engedély, kiválaszthatja a Korlátlan szabályzatot, és teljes mértékben konfigurálható fürtöket hozhat létre. A Korlátlan szabályzat nem korlátozza a fürtattribútumokat és az attribútumértékeket.
- A fürtök egyaránt létrehoznak engedélyeket és hozzáférést a fürtházirendekhez, kiválaszthatja a Korlátlan szabályzatot és azokat a szabályzatokat, amelyekhez hozzáféréssel rendelkezik.
- Csak a fürtszabályzatokhoz való hozzáféréssel kiválaszthatja azokat a szabályzatokat, amelyekhez hozzáféréssel rendelkezik.
Fürtmód
Megjegyzés
Ez a cikk az örökölt fürtök felhasználói felületét ismerteti. Az előzetes verziójú felhasználói felület részleteiért lásd: Fürt létrehozása. Ez magában foglalja a fürthozzáférés típusainak és módjainak egyes terminológiai változásait. Az új és örökölt fürttípusok összehasonlításáért lásd: Fürtök felhasználói felületének változásai és fürthozzáférés módjai. Az előzetes verzió felhasználói felületén:
- A standard módú fürtöket mostantól nincs elkülönítési megosztott hozzáférési módú fürtnek nevezzük.
- A táblák ACL-jeinek magas egyidejűsége mostantól megosztott hozzáférési módú fürtöknek nevezik.
Az Azure Databricks három fürtmódot támogat: Standard, High Concurrency és Single Node. Az alapértelmezett fürtmód a Standard.
Fontos
- Ha a munkaterület egy Unity Catalog-metaadattárhoz van rendelve, a magas egyidejűségi fürtök nem érhetők el. Ehelyett hozzáférési módot használ a hozzáférés-vezérlés integritásának biztosítására és az erős elkülönítési garanciák kényszerítésére. Lásd még : Unity Catalog elérésére képes fürt létrehozása.
- A fürt üzemmódja nem módosítható a fürt létrehozása után. Ha másik fürtmódot szeretne használni, létre kell hoznia egy új fürtöt.
A fürtkonfiguráció tartalmaz egy automatikus leállási beállítást, amelynek alapértelmezett értéke a fürt üzemmódjától függ:
- A standard és az egycsomópontos fürtök alapértelmezés szerint 120 perc elteltével automatikusan leállnak.
- A magas egyidejűségi fürtök alapértelmezés szerint nem fejeződnek be automatikusan.
Standard fürtök
Figyelmeztetés
A standard módú fürtöket (más néven Nincs elkülönítési megosztott fürtöt) több felhasználó is megoszthatja, és nincs elkülönítés a felhasználók között. Ha a Magas egyidejűségi fürtmódot további biztonsági beállítások, például Tábla ACL-ek vagy Hitelesítő adatok átengedése nélkül használja, a standard módú fürtök ugyanazokat a beállításokat használják. A fiókadminisztrátorokkal megakadályozhatják, hogy a databricks-munkaterület rendszergazdái automatikusan létrehozzák a belső hitelesítő adatokat az ilyen típusú fürtökön. A biztonságosabb beállítások érdekében a Databricks olyan alternatív megoldásokat javasol, mint például a tábla ACL-ekkel rendelkező nagy egyidejűségi fürtök.
Standard fürtök használata csak önálló felhasználók számára ajánlott. A standard fürtök Pythonban, SQL-ben, R-ben és Scalában fejlesztett számítási feladatokat futtathatnak.
Magas egyidejűségi fürtök
A Magas egyidejűségi fürt egy felügyelt felhőerőforrás. A high concurrency fürtök fő előnye, hogy részletes megosztást biztosítanak a maximális erőforrás-használathoz és a lekérdezések minimális késéséhez.
A magas egyidejűségi fürtök SQL, Python és R nyelven fejlesztett számítási feladatokat futtathatnak. A magas egyidejűségi fürtök teljesítményét és biztonságát a felhasználói kód külön folyamatokban való futtatása biztosítja, ami a Scalában nem lehetséges.
Emellett csak a magas egyidejűségi fürtök támogatják a táblahozzáférés-vezérlést.
Magas egyidejűségi fürt létrehozásához állítsa a Fürt üzemmódotMagas egyidejűség értékre.
A High Concurrency fürt Fürt api használatával történő létrehozásáról a Magas egyidejűségi fürt példa című témakörben talál példát.
Egycsomópontos fürtök
Egy csomópontos fürtnek nincsenek feldolgozói, és Spark-feladatokat futtat az illesztőprogram-csomóponton.
Ezzel szemben a Standard fürtökhöz az illesztőprogram-csomóponton kívül legalább egy Spark-feldolgozó csomópontra van szükség a Spark-feladatok végrehajtásához.
Egycsomópontos fürt létrehozásához állítsa a Fürt üzemmódotegyetlen csomópontra.
Az egycsomópontos fürtök használatával kapcsolatos további információkért lásd: Egycsomópontos fürtök.
Medencék
A fürt kezdési idejének csökkentése érdekében csatolhat egy fürtöt egy előre definiált üresjárati példánykészlethez az illesztőprogram és a munkavégző csomópontok számára. A fürt a készletek példányainak használatával jön létre. Ha egy készlet nem rendelkezik elegendő tétlen erőforrással a kért illesztőprogram- vagy munkavégző csomópontok létrehozásához, a készlet úgy bővül, hogy új példányokat foglal ki a példányszolgáltatótól. Ha egy csatolt fürt leáll, a rendszer visszaadja a használt példányokat a készleteknek, és egy másik fürt újra felhasználhatja.
Ha a munkavégző csomópontokhoz kiválaszt egy készletet, de az illesztőprogram-csomóponthoz nem, az illesztőprogram-csomópont örökli a készletet a munkavégző csomópont konfigurációjából.
Fontos
Ha megpróbál készletet választani az illesztőprogram-csomóponthoz, de a munkavégző csomópontokhoz nem, hiba történik, és a fürt nem jön létre. Ez a követelmény megakadályozza azt a helyzetet, amikor az illesztőprogram-csomópontnak várnia kell a munkavégző csomópontok létrehozására, vagy fordítva.
A készletek Azure Databricksben való használatával kapcsolatos további információkért lásd a Készletek című témakört.
Databricks-futtatókörnyezet
A Databricks-futtatókörnyezetek a fürtökön futó alapvető összetevők készletei. Minden Databricks-futtatókörnyezet tartalmazza az Apache Sparkot, és olyan összetevőket és frissítéseket ad hozzá, amelyek javítják a használhatóságot, a teljesítményt és a biztonságot. Részletekért lásd: Databricks-futtatókörnyezetek.
Az Azure Databricks többféle futtatókörnyezetet és több futtatókörnyezettípust kínál a Databricks Futtatókörnyezet verziója legördülő menüben, amikor létrehoz vagy szerkeszt egy fürtöt.
Foton gyorsítása
A Photon a Databricks Runtime 9.1 LTS-t és újabb verziót futtató fürtökhöz érhető el.
A Foton-gyorsítás engedélyezéséhez jelölje be a Foton-gyorsítás használata jelölőnégyzetet.
Igény szerint megadhatja a példánytípust a Feldolgozó típusa és az Illesztőprogram típusa legördülő menüben.
A Databricks az alábbi példánytípusokat javasolja az optimális ár és teljesítmény érdekében:
- Standard_E4ds_v4
- Standard_E8ds_v4
- Standard_E16ds_v4
A Photon-tevékenységet a Spark felhasználói felületén tekintheti meg. Az alábbi képernyőképen a lekérdezés részleteinek DAG-adatai láthatók. A FOTON két jelzést mutat a DAG-ban. Először is a Photon operátorai a "Photon" karakterrel kezdődnek, például PhotonGroupingAgg
: . Másodszor, a DAG,Photon operátorok és szakaszok színes őszibarack, míg a nem Photon is kék.
Docker-képek
Egyes Databricks-futtatókörnyezeti verziók esetében a fürt létrehozásakor megadhat egy Docker-lemezképet. A példahasználati esetek közé tartozik a kódtár testreszabása, egy aranyszínű tárolókörnyezet, amely nem változik, és a Docker CI/CD-integrációja.
Docker-rendszerképekkel egyéni mélytanulási környezeteket is létrehozhat a GPU-eszközökkel rendelkező fürtökön.
Útmutatásért lásd: Tárolók testreszabása a Databricks Container Services ésa Databricks Container Services használatával GPU-fürtökön.
Fürtcsomópont típusa
A fürtök egy illesztőprogram-csomópontból és nulla vagy több munkavégző csomópontból állnak.
Külön felhőszolgáltatói példánytípusokat választhat az illesztőprogramok és a feldolgozó csomópontok számára, bár alapértelmezés szerint az illesztőprogram-csomópont ugyanazt a példánytípust használja, mint a feldolgozó csomópont. A példánytípusok különböző családjai különböző használati esetekhez illeszkednek, például memóriaigényes vagy nagy számítási igényű számítási feladatokhoz.
Megjegyzés
Ha a biztonsági követelmények közé tartozik a számítási elkülönítés, válasszon ki egy Standard_F72s_V2 példányt feldolgozótípusként. Ezek a példánytípusok olyan izolált virtuális gépeket jelölnek, amelyek a teljes fizikai gazdagépet felhasználják, és biztosítják a szükséges elkülönítési szintet, amely például az EGYESÜLT Államok védelmi minisztériumának 5. (IL5) szintű számítási feladatainak támogatásához szükséges.
Illesztőprogram-csomópont
Az illesztőcsomópont őrzi meg a fürthöz csatolt minden jegyzetfüzet állapotinformációját. Az illesztőcsomópont a SparkContext tartalmát is megőrzi, illetve értelmezi a fürtön lévő jegyzetfüzetekből vagy kódtárakból futtatott parancsokat, és futtatja a Spark-végrehajtókkal együttműködő Apache Spark-főkiszolgálót.
Az illesztőcsomópont típusának alapértelmezett értéke megegyezik a munkavégző csomópont típusáéval. Nagyobb, több memóriával rendelkező illesztőprogram-csomóponttípust is választhat, ha a Spark-feldolgozóktól származó sok adatot szeretne elemezni collect()
a jegyzetfüzetben.
Tipp
Mivel az illesztőprogram-csomópont megőrzi a csatolt jegyzetfüzetek összes állapotinformációját, győződjön meg arról, hogy leválasztja a nem használt jegyzetfüzeteket az illesztőprogram-csomópontról.
Munkavégző csomópont
Az Azure Databricks munkavégző csomópontjai futtatják a Spark-végrehajtókat és a fürtök megfelelő működéséhez szükséges egyéb szolgáltatásokat. Ha a Sparkkal osztja el a számítási feladatokat, az elosztott feldolgozás teljes egészében a munkavégző csomópontokon történik. Az Azure Databricks feldolgozó csomópontonként egy végrehajtót futtat; ezért a végrehajtó és a feldolgozó kifejezéseket az Azure Databricks-architektúra kontextusában felcserélhetően használják.
Tipp
Spark-feladat futtatásához legalább egy munkavégző csomópontra van szükség. Ha egy fürtben nincs feldolgozó, nem Spark-parancsokat futtathat az illesztőprogram-csomóponton, de a Spark-parancsok sikertelenek lesznek.
GPU-példánytípusok
A nagy teljesítményt igénylő számítási feladatokhoz, például a mély tanuláshoz kapcsolódó feladatok esetében az Azure Databricks támogatja a grafikus feldolgozási egységek (GPU-k) használatával felgyorsított fürtöket. További információ: GPU-kompatibilis fürtök.
Kihasználatlan példányok
A költségmegtakarítás érdekében a Kihasználatlan példányok jelölőnégyzet bejelölésével választhatja, hogy kihasználatlan példányokat( más néven Azure Spot virtuális gépeket) használ.
Az első példány mindig igény szerinti lesz (az illesztőprogram-csomópont mindig igény szerint működik), a későbbi példányok pedig a kihasználatlan példányok lesznek. Ha a kihasználatlanság miatt a rendszer kizárja a kihasználatlan példányokat, a rendszer igény szerinti példányokat helyez üzembe a kiürített példányok lecseréléséhez.
Fürtméret és automatikus skálázás
Azure Databricks-fürt létrehozásakor megadhat egy rögzített számú feldolgozót a fürthöz, vagy megadhat egy minimális és maximális számú feldolgozót a fürthöz.
Ha rögzített méretű fürtöt ad meg, az Azure Databricks biztosítja, hogy a fürt a megadott számú feldolgozóval rendelkezik. Ha megadja a feldolgozók számának tartományát, a Databricks kiválasztja a feladat futtatásához szükséges feldolgozók számát. Ezt automatikus skálázásnak nevezzük.
Az automatikus skálázással az Azure Databricks dinamikusan újratelepíti a feldolgozókat, hogy figyelembe vegyék a feladat jellemzőit. Előfordulhat, hogy a folyamat bizonyos részei számítási igényesebbek, mint mások, és a Databricks automatikusan további feldolgozókat ad hozzá a feladat ezen fázisai során (és eltávolítja őket, amikor már nincs rájuk szükség).
Az automatikus skálázás megkönnyíti a magas fürtkihasználtság elérését, mivel nem kell kiépítenie a fürtöt a számítási feladatnak megfelelően. Ez különösen azokra a számítási feladatokra vonatkozik, amelyeknek a követelményei idővel változnak (például egy adatkészletet egy nap alatt vizsgálnak meg), de olyan egyszeri, rövidebb számítási feladatokra is alkalmazható, amelyek kiépítési követelményei ismeretlenek. Az automatikus skálázás így két előnnyel jár:
- A számítási feladatok gyorsabban futhatnak egy állandó méretű, alulkiépített fürthöz képest.
- Az automatikus skálázási fürtök csökkenthetik a statikus méretű fürtök teljes költségeit.
A fürt és a számítási feladat állandó méretétől függően az automatikus skálázás egyszerre biztosít egy vagy mindkét előnyt. A fürt mérete a felhőszolgáltató példányainak leállásakor kiválasztott minimális feldolgozói szám alá csökkenhet. Ebben az esetben az Azure Databricks folyamatosan újrapróbálkozott a példányok újbóli kiépítésére a feldolgozók minimális számának fenntartása érdekében.
Megjegyzés
Az automatikus skálázás nem érhető el feladatokhoz spark-submit
.
Az automatikus skálázás viselkedése
- 2 lépésben felskálázható min-ről max-ra.
- Leskálázható még akkor is, ha a fürt nem tétlen, ha az shuffle fájl állapotát vizsgáljuk.
- Leskálázás az aktuális csomópontok százalékos aránya alapján.
- A feladatfürtökön leskálázható, ha a fürt kihasználatlan az elmúlt 40 másodpercben.
- Minden célú fürtön leskálázható, ha a fürt kihasználatlan az elmúlt 150 másodpercben.
- A
spark.databricks.aggressiveWindowDownS
Spark konfigurációs tulajdonsága másodpercek alatt meghatározza, hogy egy fürt milyen gyakran hoz leskálázási döntéseket. Az érték növelésével a fürtök lassabban skálázhatók le. A maximális érték 600.
Automatikus skálázás engedélyezése és konfigurálása
Ahhoz, hogy az Azure Databricks automatikusan átméretezhesse a fürtöt, engedélyezheti az automatikus skálázást a fürt számára, és megadja a minimális és maximális feldolgozói tartományt.
Engedélyezze az automatikus skálázást.
All-Purpose fürt – A Fürt létrehozása lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az Autopilot beállításai mezőben:
Feladatfürt – A Fürt konfigurálása lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az Autopilot beállításai mezőben:
Konfigurálja a minimális és maximális feldolgozót.
Amikor a fürt fut, a fürt részletes lapja megjeleníti a lefoglalt feldolgozók számát. Összehasonlíthatja a lefoglalt feldolgozók számát a feldolgozó konfigurációjával, és szükség szerint módosíthatja azokat.
Fontos
Példánykészlet használata esetén:
- Győződjön meg arról, hogy a kért fürtméret kisebb vagy egyenlő a készlet üresjárati példányainak minimális számával . Ha a fürtméret ennél nagyobb, a fürt indítási ideje ugyanakkora lesz, mint a készletet nem használó fürtöké.
- Győződjön meg arról, hogy a fürt maximális mérete kisebb vagy egyenlő a készlet maximális kapacitásával . Ha a fürtméret ennél nagyobb, a fürt létrehozása sikertelen lesz.
Automatikus skálázási példa
Ha újrakonfigurál egy statikus fürtöt automatikus skálázási fürtként, az Azure Databricks azonnal átméretezi a fürtöt a minimális és maximális korlátokon belül, majd elindítja az automatikus skálázást. Az alábbi táblázat például bemutatja, mi történik egy bizonyos kezdeti méretű fürttel, ha újrakonfigurál egy fürtöt 5 és 10 csomópont közötti automatikus skálázásra.
Kezdeti méret | Újrakonfigurálás utáni méret |
---|---|
6 | 6 |
12 | 10 |
3 | 5 |
Helyi tároló automatikus skálázása
Gyakran nehéz megbecsülni, hogy egy adott feladat mennyi lemezterületet fog igénybe venni. Az Azure Databricks automatikusan engedélyezi a helyi tároló automatikus skálázását az összes Azure Databricks-fürtön, hogy ne kelljen megbecsülnie, hogy hány gigabájt felügyelt lemezt kell csatlakoztatnia a fürthöz a létrehozáskor.
A helyi tároló automatikus skálázásával az Azure Databricks figyeli a fürt Spark-feldolgozóiban rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó túl alacsonyan kezd futni a lemezen, a Databricks automatikusan csatol egy új felügyelt lemezt a feldolgozóhoz, mielőtt elfogyna a lemezterület. A lemezek legfeljebb 5 TB lemezterületet csatolnak virtuális gépenként (beleértve a virtuális gép kezdeti helyi tárolóját is).
A virtuális géphez csatlakoztatott felügyelt lemezek csak akkor lesznek leválasztva, ha a virtuális gép visszakerül az Azure-ba. Vagyis a felügyelt lemezek soha nem lesznek leválasztva egy virtuális gépről, amíg egy futó fürt része. A felügyelt lemezhasználat vertikális leskálázásához az Azure Databricks azt javasolja, hogy használja ezt a funkciót egy spot példányokkal vagy automatikus leállítással konfigurált fürtön.
Helyi lemeztitkosítás
Fontos
Ez a funkció a nyilvános előzetes verzióban érhető el.
A fürtök futtatásához használt példánytípusok némelyike helyileg csatlakoztatott lemezekkel rendelkezhet. Az Azure Databricks a helyileg csatlakoztatott lemezeken tárolhatja a sorrendben tárolt adatokat vagy rövid élettartamú adatokat. Ha meg szeretné győződni arról, hogy az összes inaktív adat titkosítva van az összes tárolási típushoz, beleértve a fürt helyi lemezén ideiglenesen tárolt adatokat is, engedélyezheti a helyi lemeztitkosítást.
Fontos
Előfordulhat, hogy a számítási feladatok lassabban futnak a titkosított adatok helyi kötetekre és kötetekre való olvasásának és írásának teljesítményre gyakorolt hatása miatt.
Ha engedélyezve van a helyi lemeztitkosítás, az Azure Databricks helyileg hoz létre egy, az egyes fürtcsomópontokra egyedi titkosítási kulcsot, amely a helyi lemezeken tárolt összes adat titkosítására szolgál. A kulcs hatóköre minden fürtcsomóponton helyi, és a fürtcsomóponttal együtt megsemmisül. A kulcs az élettartama során a memóriában található a titkosításhoz és a visszafejtéshez, és titkosítva tárolja a lemezen.
A helyi lemeztitkosítás engedélyezéséhez a Clusters API 2.0-t kell használnia. A fürt létrehozása vagy szerkesztése során állítsa be a következőt:
{
"enable_local_disk_encryption": true
}
Az API-k meghívására példákat a Létrehozás és szerkesztés a Fürtök API-ban című témakörben talál.
Íme egy példa egy fürtlétrehozás hívására, amely lehetővé teszi a helyi lemeztitkosítást:
{
"cluster_name": "my-cluster",
"spark_version": "7.3.x-scala2.12",
"node_type_id": "Standard_D3_v2",
"enable_local_disk_encryption": true,
"spark_conf": {
"spark.speculation": true
},
"num_workers": 25
}
Biztonsági mód
Ha a munkaterület egy Unity Catalog-metaadattárhoz van rendelve, a magas egyidejűségi fürtmód helyett biztonsági módot használ a hozzáférés-vezérlés integritásának biztosítása és az erős elkülönítési garanciák kikényszerítése érdekében. A Magas egyidejűségi fürtmód nem érhető el a Unity Catalog szolgáltatásban.
A Speciális beállítások területen válasszon a következő fürtbiztonsági módok közül:
- Nincs: Nincs elkülönítés. Nem kényszeríti ki a munkaterület-helyi tábla hozzáférés-vezérlését vagy a hitelesítő adatok átadását. A Unity Catalog adatai nem érhetők el.
- Egyetlen felhasználó: Csak egyetlen felhasználó használhatja (alapértelmezés szerint a fürtöt létrehozó felhasználó). Más felhasználók nem csatolhatók a fürthöz. Ha egy egyfelhasználós biztonsági módban lévő fürtből fér hozzá egy nézethez, a rendszer a felhasználó engedélyeivel hajtja végre a nézetet. Az egyfelhasználós fürtök a Python, a Scala és az R használatával támogatják a számítási feladatokat. Az Init-szkriptek, a kódtár telepítése és a DBFS-csatlakoztatások támogatottak az egyfelhasználós fürtökön. Az automatizált feladatoknak egyfelhasználós fürtöket kell használniuk.
- Felhasználóelkülönítés: Több felhasználó is megosztható. Csak az SQL számítási feladatok támogatottak. A kódtár telepítése, az init-szkriptek és a DBFS-csatlakoztatások le vannak tiltva, hogy szigorú elkülönítést kényszerítsen ki a fürtfelhasználók között.
- Csak tábla ACL (örökölt): A munkaterület-helyi tábla hozzáférés-vezérlését kényszeríti ki, de nem fér hozzá a Unity Catalog adataihoz.
- Csak átengedés (örökölt): A munkaterület-helyi hitelesítő adatok átengedése kényszeríti, de nem fér hozzá a Unity Catalog adataihoz.
A Unity Catalog számítási feladatainak egyetlen biztonsági módja az egyfelhasználós és a felhasználóelkülönítés.
További információ: Mi az a fürtelérési mód?.
Spark-konfiguráció
A Spark-feladatok finomhangolásához egyéni Spark-konfigurációs tulajdonságokat adhat meg egy fürtkonfigurációban.
A fürtkonfiguráció lapon kattintson a Speciális beállítások váltógombra.
Kattintson a Spark fülre.
A Spark-konfigurációban adja meg a konfigurációs tulajdonságokat soronként egy kulcs-érték párként.
Amikor fürtöt konfigurál a Clusters API 2.0 használatával, állítsa be a Spark-tulajdonságokat a spark_conf
Fürt létrehozása vagy a Fürt szerkesztése kérelem mezőben.
Ha a Spark-tulajdonságokat az összes fürthöz szeretné beállítani, hozzon létre egy globális init szkriptet:
dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
|#!/bin/bash
|
|cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
|[driver] {
| "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
|}
|EOF
""".stripMargin, true)
Spark-konfigurációs tulajdonság lekérése titkos kódból
A Databricks azt javasolja, hogy egyszerű szöveg helyett titkos kódban tárolja a bizalmas adatokat, például a jelszavakat. Ha egy titkos kódra szeretne hivatkozni a Spark-konfigurációban, használja a következő szintaxist:
spark.<property-name> {{secrets/<scope-name>/<secret-name>}}
Ha például egy Spark-konfigurációs tulajdonságot password
szeretne beállítani a következőben secrets/acme_app/password
tárolt titkos kód értékére:
spark.password {{secrets/acme-app/password}}
További információ: Szintaxis a Titkos kódok hivatkozásához Spark-konfigurációs tulajdonságban vagy környezeti változóban.
Környezeti változók
Konfigurálhat egyéni környezeti változókat, amelyek a fürtön futó init-szkriptekből érhetők el. A Databricks előre definiált környezeti változókat is biztosít, amelyeket init-szkriptekben használhat. Ezeket az előre definiált környezeti változókat nem bírálhatja felül.
A fürtkonfiguráció lapon kattintson a Speciális beállítások váltógombra.
Kattintson a Spark fülre.
Állítsa be a környezeti változókat a Környezeti változók mezőben.
A környezeti változókat a spark_env_vars
Fürtkérelmek létrehozása vagy a Fürtkérelmek szerkesztése API-végpontok mező használatával is beállíthatja.
Fürtcímkék
A fürtcímkék lehetővé teszik a szervezet különböző csoportjai által használt felhőerőforrások költségeinek egyszerű monitorozását. A fürtök létrehozásakor kulcs-érték párként adhat meg címkéket, és az Azure Databricks ezeket a címkéket alkalmazza a felhőerőforrásokra, például a virtuális gépekre és a lemezkötetekre, valamint a DBU használati jelentéseire.
A készletekből indított fürtök esetében az egyéni fürtcímkék csak a DBU használati jelentéseire lesznek alkalmazva, és nem propagálódnak a felhőbeli erőforrásokra.
A készlet- és fürtcímketípusok együttes működéséről a Használat figyelése fürt, készlet és munkaterületcímkék használatával című témakörben olvashat bővebben.
A kényelem érdekében az Azure Databricks négy alapértelmezett címkét alkalmaz minden fürtre: Vendor
, Creator
, , ClusterName
és ClusterId
.
Emellett a feladatfürtökön az Azure Databricks két alapértelmezett címkét alkalmaz: RunName
és JobId
.
A Databricks SQL által használt erőforrásokon az Azure Databricks az alapértelmezett címkét SqlWarehouseId
is alkalmazza.
Figyelmeztetés
Ne rendeljen hozzá egyéni címkét a kulccsal Name
egy fürthöz. Minden fürt rendelkezik egy címkével Name
, amelynek értékét az Azure Databricks állítja be. Ha módosítja a kulccsal Name
társított értéket, az Azure Databricks már nem tudja nyomon követni a fürtöt. Ennek következtében előfordulhat, hogy a fürt tétlenné válása után nem szűnik meg, és továbbra is használati költségekkel jár.
Fürt létrehozásakor egyéni címkéket is hozzáadhat. Fürtcímkék konfigurálása:
A fürtkonfiguráció lapon kattintson a Speciális beállítások váltógombra.
A lap alján kattintson a Címkék fülre.
Adjon hozzá egy kulcs-érték párot az egyes egyéni címkékhez. Legfeljebb 43 egyéni címkét adhat hozzá.
További részletekért lásd: Használat figyelése fürt- és készletcímkék használatával.
SSH-hozzáférés a fürtökhöz
Biztonsági okokból az Azure Databricksben az SSH-port alapértelmezés szerint bezárul. Ha engedélyezni szeretné az SSH-hozzáférést a Spark-fürtökhöz, forduljon az Azure Databricks ügyfélszolgálatához.
Megjegyzés
Az SSH csak akkor engedélyezhető, ha a munkaterület a saját Azure-beli virtuális hálózatában van üzembe helyezve.
Fürtnapló-kézbesítés
A fürt létrehozásakor megadhat egy helyet a Spark illesztőprogram-csomópontjához, munkavégző csomópontjaihoz és eseményeihez tartozó naplók kézbesítéséhez. A rendszer öt percenként kézbesíti a naplókat a kiválasztott célhelyre. A fürt leállásakor az Azure Databricks garantálja, hogy a fürt leállításáig az összes létrehozott naplót kézbesíti.
A naplók célja a fürtazonosítótól függ. Ha a megadott célhely, dbfs:/cluster-log-delivery
a fürtnaplók a következő helyre lesznek 0630-191345-leap375
kézbesítve dbfs:/cluster-log-delivery/0630-191345-leap375
: .
A naplók kézbesítési helyének konfigurálása:
A fürtkonfiguráció lapon kattintson a Speciális beállítások váltógombra.
Kattintson a Naplózás fülre.
Válasszon egy céltípust.
Adja meg a fürtnapló elérési útját.
Megjegyzés
Ez a funkció a REST API-ban is elérhető. Lásd: Clusters API 2.0 és Fürtnaplók kézbesítési példái.
Init-szkriptek
A fürtcsomópont inicializálási vagy inicializálási szkriptje egy rendszerhéjszkript, amely az egyes fürtcsomópontok indításkor futnak a Spark-illesztőprogram vagy a feldolgozó JVM elindítása előtt . Init-szkriptekkel többek között telepíthet a Databricks-futtatókörnyezetben nem szereplő csomagokat és kódtárakat, módosíthatja a JVM rendszerosztályútvonalát, beállíthatja a JVM által használt rendszertulajdonságokat és környezeti változókat, vagy módosíthatja a Spark konfigurációs paramétereit.
Init-szkripteket csatolhat egy fürthöz a Speciális beállítások szakasz kibontásával, majd az Init Scripts (Init-szkriptek ) fülre kattintva.
Részletes útmutatásért lásd: Fürtcsomópont inicializálási szkriptjei.