Fürtök konfigurálása

Megjegyzés

Ezek a régi fürt felhasználói felületére vonatkozó utasítások, amelyek csak az előzmény pontossága érdekében érhetők el. Minden ügyfélnek a frissített létrehozási fürt felhasználói felületét kell használnia.

Ez a cikk az Azure Databricks-fürtök létrehozásakor és szerkesztésekor elérhető konfigurációs beállításokat ismerteti. A felhasználói felület használatával fürtök létrehozására és szerkesztésére összpontosít. További módszerekért lásd: Clusters CLI, Clusters API 2.0 és Databricks Terraform provider.

Az igényeinek leginkább megfelelő konfigurációs lehetőségek kiválasztásához tekintse meg a fürtkonfiguráció ajánlott eljárásait ismertető cikket.

Fürt létrehozása

Fürtszabályzat

A fürtszabályzatok korlátozzák a fürtök szabályokon alapuló konfigurálásának lehetőségét. A szabályzatszabályok korlátozzák a fürtlétrehozáshoz elérhető attribútumokat vagy attribútumértékeket. A fürtszabályzatok olyan ACL-ekkel rendelkeznek, amelyek bizonyos felhasználókra és csoportokra korlátozzák a használatukat, és így korlátozzák a fürt létrehozásakor kiválasztható szabályzatokat.

Fürtszabályzat konfigurálásához válassza ki a fürtszabályzatot a Szabályzat legördülő listában.

Fürtszabályzat kiválasztása

Megjegyzés

Ha a munkaterületen nem hoztak létre szabályzatokat, a Szabályzat legördülő lista nem jelenik meg.

Ha az alábbiakat szeretné:

  • Fürtlétrehozás engedély, kiválaszthatja a Korlátlan szabályzatot, és teljes mértékben konfigurálható fürtöket hozhat létre. A Korlátlan szabályzat nem korlátozza a fürtattribútumokat és az attribútumértékeket.
  • A fürtök egyaránt létrehoznak engedélyeket és hozzáférést a fürtházirendekhez, kiválaszthatja a Korlátlan szabályzatot és azokat a szabályzatokat, amelyekhez hozzáféréssel rendelkezik.
  • Csak a fürtszabályzatokhoz való hozzáféréssel kiválaszthatja azokat a szabályzatokat, amelyekhez hozzáféréssel rendelkezik.

Fürtmód

Megjegyzés

Ez a cikk az örökölt fürtök felhasználói felületét ismerteti. Az előzetes verziójú felhasználói felület részleteiért lásd: Fürt létrehozása. Ez magában foglalja a fürthozzáférés típusainak és módjainak egyes terminológiai változásait. Az új és örökölt fürttípusok összehasonlításáért lásd: Fürtök felhasználói felületének változásai és fürthozzáférés módjai. Az előzetes verzió felhasználói felületén:

  • A standard módú fürtöket mostantól nincs elkülönítési megosztott hozzáférési módú fürtnek nevezzük.
  • A táblák ACL-jeinek magas egyidejűsége mostantól megosztott hozzáférési módú fürtöknek nevezik.

Az Azure Databricks három fürtmódot támogat: Standard, High Concurrency és Single Node. Az alapértelmezett fürtmód a Standard.

Fontos

  • Ha a munkaterület egy Unity Catalog-metaadattárhoz van rendelve, a magas egyidejűségi fürtök nem érhetők el. Ehelyett hozzáférési módot használ a hozzáférés-vezérlés integritásának biztosítására és az erős elkülönítési garanciák kényszerítésére. Lásd még : Unity Catalog elérésére képes fürt létrehozása.
  • A fürt üzemmódja nem módosítható a fürt létrehozása után. Ha másik fürtmódot szeretne használni, létre kell hoznia egy új fürtöt.

A fürtkonfiguráció tartalmaz egy automatikus leállási beállítást, amelynek alapértelmezett értéke a fürt üzemmódjától függ:

  • A standard és az egycsomópontos fürtök alapértelmezés szerint 120 perc elteltével automatikusan leállnak.
  • A magas egyidejűségi fürtök alapértelmezés szerint nem fejeződnek be automatikusan.

Standard fürtök

Figyelmeztetés

A standard módú fürtöket (más néven Nincs elkülönítési megosztott fürtöt) több felhasználó is megoszthatja, és nincs elkülönítés a felhasználók között. Ha a Magas egyidejűségi fürtmódot további biztonsági beállítások, például Tábla ACL-ek vagy Hitelesítő adatok átengedése nélkül használja, a standard módú fürtök ugyanazokat a beállításokat használják. A fiókadminisztrátorokkal megakadályozhatják, hogy a databricks-munkaterület rendszergazdái automatikusan létrehozzák a belső hitelesítő adatokat az ilyen típusú fürtökön. A biztonságosabb beállítások érdekében a Databricks olyan alternatív megoldásokat javasol, mint például a tábla ACL-ekkel rendelkező nagy egyidejűségi fürtök.

Standard fürtök használata csak önálló felhasználók számára ajánlott. A standard fürtök Pythonban, SQL-ben, R-ben és Scalában fejlesztett számítási feladatokat futtathatnak.

Magas egyidejűségi fürtök

A Magas egyidejűségi fürt egy felügyelt felhőerőforrás. A high concurrency fürtök fő előnye, hogy részletes megosztást biztosítanak a maximális erőforrás-használathoz és a lekérdezések minimális késéséhez.

A magas egyidejűségi fürtök SQL, Python és R nyelven fejlesztett számítási feladatokat futtathatnak. A magas egyidejűségi fürtök teljesítményét és biztonságát a felhasználói kód külön folyamatokban való futtatása biztosítja, ami a Scalában nem lehetséges.

Emellett csak a magas egyidejűségi fürtök támogatják a táblahozzáférés-vezérlést.

Magas egyidejűségi fürt létrehozásához állítsa a Fürt üzemmódotMagas egyidejűség értékre.

Magas egyidejűségi fürtmód

A High Concurrency fürt Fürt api használatával történő létrehozásáról a Magas egyidejűségi fürt példa című témakörben talál példát.

Egycsomópontos fürtök

Egy csomópontos fürtnek nincsenek feldolgozói, és Spark-feladatokat futtat az illesztőprogram-csomóponton.

Ezzel szemben a Standard fürtökhöz az illesztőprogram-csomóponton kívül legalább egy Spark-feldolgozó csomópontra van szükség a Spark-feladatok végrehajtásához.

Egycsomópontos fürt létrehozásához állítsa a Fürt üzemmódotegyetlen csomópontra.

Egycsomópontos fürtmód

Az egycsomópontos fürtök használatával kapcsolatos további információkért lásd: Egycsomópontos fürtök.

Medencék

A fürt kezdési idejének csökkentése érdekében csatolhat egy fürtöt egy előre definiált üresjárati példánykészlethez az illesztőprogram és a munkavégző csomópontok számára. A fürt a készletek példányainak használatával jön létre. Ha egy készlet nem rendelkezik elegendő tétlen erőforrással a kért illesztőprogram- vagy munkavégző csomópontok létrehozásához, a készlet úgy bővül, hogy új példányokat foglal ki a példányszolgáltatótól. Ha egy csatolt fürt leáll, a rendszer visszaadja a használt példányokat a készleteknek, és egy másik fürt újra felhasználhatja.

Ha a munkavégző csomópontokhoz kiválaszt egy készletet, de az illesztőprogram-csomóponthoz nem, az illesztőprogram-csomópont örökli a készletet a munkavégző csomópont konfigurációjából.

Fontos

Ha megpróbál készletet választani az illesztőprogram-csomóponthoz, de a munkavégző csomópontokhoz nem, hiba történik, és a fürt nem jön létre. Ez a követelmény megakadályozza azt a helyzetet, amikor az illesztőprogram-csomópontnak várnia kell a munkavégző csomópontok létrehozására, vagy fordítva.

A készletek Azure Databricksben való használatával kapcsolatos további információkért lásd a Készletek című témakört.

Databricks-futtatókörnyezet

A Databricks-futtatókörnyezetek a fürtökön futó alapvető összetevők készletei. Minden Databricks-futtatókörnyezet tartalmazza az Apache Sparkot, és olyan összetevőket és frissítéseket ad hozzá, amelyek javítják a használhatóságot, a teljesítményt és a biztonságot. Részletekért lásd: Databricks-futtatókörnyezetek.

Az Azure Databricks többféle futtatókörnyezetet és több futtatókörnyezettípust kínál a Databricks Futtatókörnyezet verziója legördülő menüben, amikor létrehoz vagy szerkeszt egy fürtöt.

Futtatókörnyezeti verzió kiválasztása

Foton gyorsítása

A Photon a Databricks Runtime 9.1 LTS-t és újabb verziót futtató fürtökhöz érhető el.

A Foton-gyorsítás engedélyezéséhez jelölje be a Foton-gyorsítás használata jelölőnégyzetet.

Igény szerint megadhatja a példánytípust a Feldolgozó típusa és az Illesztőprogram típusa legördülő menüben.

A Databricks az alábbi példánytípusokat javasolja az optimális ár és teljesítmény érdekében:

  • Standard_E4ds_v4
  • Standard_E8ds_v4
  • Standard_E16ds_v4

A Photon-tevékenységet a Spark felhasználói felületén tekintheti meg. Az alábbi képernyőképen a lekérdezés részleteinek DAG-adatai láthatók. A FOTON két jelzést mutat a DAG-ban. Először is a Photon operátorai a "Photon" karakterrel kezdődnek, például PhotonGroupingAgg: . Másodszor, a DAG,Photon operátorok és szakaszok színes őszibarack, míg a nem Photon is kék.

Foton DAG

Docker-képek

Egyes Databricks-futtatókörnyezeti verziók esetében a fürt létrehozásakor megadhat egy Docker-lemezképet. A példahasználati esetek közé tartozik a kódtár testreszabása, egy aranyszínű tárolókörnyezet, amely nem változik, és a Docker CI/CD-integrációja.

Docker-rendszerképekkel egyéni mélytanulási környezeteket is létrehozhat a GPU-eszközökkel rendelkező fürtökön.

Útmutatásért lásd: Tárolók testreszabása a Databricks Container Services ésa Databricks Container Services használatával GPU-fürtökön.

Fürtcsomópont típusa

A fürtök egy illesztőprogram-csomópontból és nulla vagy több munkavégző csomópontból állnak.

Külön felhőszolgáltatói példánytípusokat választhat az illesztőprogramok és a feldolgozó csomópontok számára, bár alapértelmezés szerint az illesztőprogram-csomópont ugyanazt a példánytípust használja, mint a feldolgozó csomópont. A példánytípusok különböző családjai különböző használati esetekhez illeszkednek, például memóriaigényes vagy nagy számítási igényű számítási feladatokhoz.

Megjegyzés

Ha a biztonsági követelmények közé tartozik a számítási elkülönítés, válasszon ki egy Standard_F72s_V2 példányt feldolgozótípusként. Ezek a példánytípusok olyan izolált virtuális gépeket jelölnek, amelyek a teljes fizikai gazdagépet felhasználják, és biztosítják a szükséges elkülönítési szintet, amely például az EGYESÜLT Államok védelmi minisztériumának 5. (IL5) szintű számítási feladatainak támogatásához szükséges.

Illesztőprogram-csomópont

Az illesztőcsomópont őrzi meg a fürthöz csatolt minden jegyzetfüzet állapotinformációját. Az illesztőcsomópont a SparkContext tartalmát is megőrzi, illetve értelmezi a fürtön lévő jegyzetfüzetekből vagy kódtárakból futtatott parancsokat, és futtatja a Spark-végrehajtókkal együttműködő Apache Spark-főkiszolgálót.

Az illesztőcsomópont típusának alapértelmezett értéke megegyezik a munkavégző csomópont típusáéval. Nagyobb, több memóriával rendelkező illesztőprogram-csomóponttípust is választhat, ha a Spark-feldolgozóktól származó sok adatot szeretne elemezni collect() a jegyzetfüzetben.

Tipp

Mivel az illesztőprogram-csomópont megőrzi a csatolt jegyzetfüzetek összes állapotinformációját, győződjön meg arról, hogy leválasztja a nem használt jegyzetfüzeteket az illesztőprogram-csomópontról.

Munkavégző csomópont

Az Azure Databricks munkavégző csomópontjai futtatják a Spark-végrehajtókat és a fürtök megfelelő működéséhez szükséges egyéb szolgáltatásokat. Ha a Sparkkal osztja el a számítási feladatokat, az elosztott feldolgozás teljes egészében a munkavégző csomópontokon történik. Az Azure Databricks feldolgozó csomópontonként egy végrehajtót futtat; ezért a végrehajtó és a feldolgozó kifejezéseket az Azure Databricks-architektúra kontextusában felcserélhetően használják.

Tipp

Spark-feladat futtatásához legalább egy munkavégző csomópontra van szükség. Ha egy fürtben nincs feldolgozó, nem Spark-parancsokat futtathat az illesztőprogram-csomóponton, de a Spark-parancsok sikertelenek lesznek.

GPU-példánytípusok

A nagy teljesítményt igénylő számítási feladatokhoz, például a mély tanuláshoz kapcsolódó feladatok esetében az Azure Databricks támogatja a grafikus feldolgozási egységek (GPU-k) használatával felgyorsított fürtöket. További információ: GPU-kompatibilis fürtök.

Kihasználatlan példányok

A költségmegtakarítás érdekében a Kihasználatlan példányok jelölőnégyzet bejelölésével választhatja, hogy kihasználatlan példányokat( más néven Azure Spot virtuális gépeket) használ.

Kihasználatlanság konfigurálása

Az első példány mindig igény szerinti lesz (az illesztőprogram-csomópont mindig igény szerint működik), a későbbi példányok pedig a kihasználatlan példányok lesznek. Ha a kihasználatlanság miatt a rendszer kizárja a kihasználatlan példányokat, a rendszer igény szerinti példányokat helyez üzembe a kiürített példányok lecseréléséhez.

Fürtméret és automatikus skálázás

Azure Databricks-fürt létrehozásakor megadhat egy rögzített számú feldolgozót a fürthöz, vagy megadhat egy minimális és maximális számú feldolgozót a fürthöz.

Ha rögzített méretű fürtöt ad meg, az Azure Databricks biztosítja, hogy a fürt a megadott számú feldolgozóval rendelkezik. Ha megadja a feldolgozók számának tartományát, a Databricks kiválasztja a feladat futtatásához szükséges feldolgozók számát. Ezt automatikus skálázásnak nevezzük.

Az automatikus skálázással az Azure Databricks dinamikusan újratelepíti a feldolgozókat, hogy figyelembe vegyék a feladat jellemzőit. Előfordulhat, hogy a folyamat bizonyos részei számítási igényesebbek, mint mások, és a Databricks automatikusan további feldolgozókat ad hozzá a feladat ezen fázisai során (és eltávolítja őket, amikor már nincs rájuk szükség).

Az automatikus skálázás megkönnyíti a magas fürtkihasználtság elérését, mivel nem kell kiépítenie a fürtöt a számítási feladatnak megfelelően. Ez különösen azokra a számítási feladatokra vonatkozik, amelyeknek a követelményei idővel változnak (például egy adatkészletet egy nap alatt vizsgálnak meg), de olyan egyszeri, rövidebb számítási feladatokra is alkalmazható, amelyek kiépítési követelményei ismeretlenek. Az automatikus skálázás így két előnnyel jár:

  • A számítási feladatok gyorsabban futhatnak egy állandó méretű, alulkiépített fürthöz képest.
  • Az automatikus skálázási fürtök csökkenthetik a statikus méretű fürtök teljes költségeit.

A fürt és a számítási feladat állandó méretétől függően az automatikus skálázás egyszerre biztosít egy vagy mindkét előnyt. A fürt mérete a felhőszolgáltató példányainak leállásakor kiválasztott minimális feldolgozói szám alá csökkenhet. Ebben az esetben az Azure Databricks folyamatosan újrapróbálkozott a példányok újbóli kiépítésére a feldolgozók minimális számának fenntartása érdekében.

Megjegyzés

Az automatikus skálázás nem érhető el feladatokhoz spark-submit .

Az automatikus skálázás viselkedése

  • 2 lépésben felskálázható min-ről max-ra.
  • Leskálázható még akkor is, ha a fürt nem tétlen, ha az shuffle fájl állapotát vizsgáljuk.
  • Leskálázás az aktuális csomópontok százalékos aránya alapján.
  • A feladatfürtökön leskálázható, ha a fürt kihasználatlan az elmúlt 40 másodpercben.
  • Minden célú fürtön leskálázható, ha a fürt kihasználatlan az elmúlt 150 másodpercben.
  • A spark.databricks.aggressiveWindowDownS Spark konfigurációs tulajdonsága másodpercek alatt meghatározza, hogy egy fürt milyen gyakran hoz leskálázási döntéseket. Az érték növelésével a fürtök lassabban skálázhatók le. A maximális érték 600.

Automatikus skálázás engedélyezése és konfigurálása

Ahhoz, hogy az Azure Databricks automatikusan átméretezhesse a fürtöt, engedélyezheti az automatikus skálázást a fürt számára, és megadja a minimális és maximális feldolgozói tartományt.

  1. Engedélyezze az automatikus skálázást.

    • All-Purpose fürt – A Fürt létrehozása lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az Autopilot beállításai mezőben:

      Automatikus skálázás engedélyezése interaktív fürtökhöz

    • Feladatfürt – A Fürt konfigurálása lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az Autopilot beállításai mezőben:

      Automatikus skálázás engedélyezése feladatfürtökhöz

  2. Konfigurálja a minimális és maximális feldolgozót.

    Minimális és maximális feldolgozók konfigurálása

    Amikor a fürt fut, a fürt részletes lapja megjeleníti a lefoglalt feldolgozók számát. Összehasonlíthatja a lefoglalt feldolgozók számát a feldolgozó konfigurációjával, és szükség szerint módosíthatja azokat.

Fontos

Példánykészlet használata esetén:

  • Győződjön meg arról, hogy a kért fürtméret kisebb vagy egyenlő a készlet üresjárati példányainak minimális számával . Ha a fürtméret ennél nagyobb, a fürt indítási ideje ugyanakkora lesz, mint a készletet nem használó fürtöké.
  • Győződjön meg arról, hogy a fürt maximális mérete kisebb vagy egyenlő a készlet maximális kapacitásával . Ha a fürtméret ennél nagyobb, a fürt létrehozása sikertelen lesz.

Automatikus skálázási példa

Ha újrakonfigurál egy statikus fürtöt automatikus skálázási fürtként, az Azure Databricks azonnal átméretezi a fürtöt a minimális és maximális korlátokon belül, majd elindítja az automatikus skálázást. Az alábbi táblázat például bemutatja, mi történik egy bizonyos kezdeti méretű fürttel, ha újrakonfigurál egy fürtöt 5 és 10 csomópont közötti automatikus skálázásra.

Kezdeti méret Újrakonfigurálás utáni méret
6 6
12 10
3 5

Helyi tároló automatikus skálázása

Gyakran nehéz megbecsülni, hogy egy adott feladat mennyi lemezterületet fog igénybe venni. Az Azure Databricks automatikusan engedélyezi a helyi tároló automatikus skálázását az összes Azure Databricks-fürtön, hogy ne kelljen megbecsülnie, hogy hány gigabájt felügyelt lemezt kell csatlakoztatnia a fürthöz a létrehozáskor.

A helyi tároló automatikus skálázásával az Azure Databricks figyeli a fürt Spark-feldolgozóiban rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó túl alacsonyan kezd futni a lemezen, a Databricks automatikusan csatol egy új felügyelt lemezt a feldolgozóhoz, mielőtt elfogyna a lemezterület. A lemezek legfeljebb 5 TB lemezterületet csatolnak virtuális gépenként (beleértve a virtuális gép kezdeti helyi tárolóját is).

A virtuális géphez csatlakoztatott felügyelt lemezek csak akkor lesznek leválasztva, ha a virtuális gép visszakerül az Azure-ba. Vagyis a felügyelt lemezek soha nem lesznek leválasztva egy virtuális gépről, amíg egy futó fürt része. A felügyelt lemezhasználat vertikális leskálázásához az Azure Databricks azt javasolja, hogy használja ezt a funkciót egy spot példányokkal vagy automatikus leállítással konfigurált fürtön.

Helyi lemeztitkosítás

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

A fürtök futtatásához használt példánytípusok némelyike helyileg csatlakoztatott lemezekkel rendelkezhet. Az Azure Databricks a helyileg csatlakoztatott lemezeken tárolhatja a sorrendben tárolt adatokat vagy rövid élettartamú adatokat. Ha meg szeretné győződni arról, hogy az összes inaktív adat titkosítva van az összes tárolási típushoz, beleértve a fürt helyi lemezén ideiglenesen tárolt adatokat is, engedélyezheti a helyi lemeztitkosítást.

Fontos

Előfordulhat, hogy a számítási feladatok lassabban futnak a titkosított adatok helyi kötetekre és kötetekre való olvasásának és írásának teljesítményre gyakorolt hatása miatt.

Ha engedélyezve van a helyi lemeztitkosítás, az Azure Databricks helyileg hoz létre egy, az egyes fürtcsomópontokra egyedi titkosítási kulcsot, amely a helyi lemezeken tárolt összes adat titkosítására szolgál. A kulcs hatóköre minden fürtcsomóponton helyi, és a fürtcsomóponttal együtt megsemmisül. A kulcs az élettartama során a memóriában található a titkosításhoz és a visszafejtéshez, és titkosítva tárolja a lemezen.

A helyi lemeztitkosítás engedélyezéséhez a Clusters API 2.0-t kell használnia. A fürt létrehozása vagy szerkesztése során állítsa be a következőt:

{
  "enable_local_disk_encryption": true
}

Az API-k meghívására példákat a Létrehozás és szerkesztés a Fürtök API-ban című témakörben talál.

Íme egy példa egy fürtlétrehozás hívására, amely lehetővé teszi a helyi lemeztitkosítást:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Biztonsági mód

Ha a munkaterület egy Unity Catalog-metaadattárhoz van rendelve, a magas egyidejűségi fürtmód helyett biztonsági módot használ a hozzáférés-vezérlés integritásának biztosítása és az erős elkülönítési garanciák kikényszerítése érdekében. A Magas egyidejűségi fürtmód nem érhető el a Unity Catalog szolgáltatásban.

A Speciális beállítások területen válasszon a következő fürtbiztonsági módok közül:

  • Nincs: Nincs elkülönítés. Nem kényszeríti ki a munkaterület-helyi tábla hozzáférés-vezérlését vagy a hitelesítő adatok átadását. A Unity Catalog adatai nem érhetők el.
  • Egyetlen felhasználó: Csak egyetlen felhasználó használhatja (alapértelmezés szerint a fürtöt létrehozó felhasználó). Más felhasználók nem csatolhatók a fürthöz. Ha egy egyfelhasználós biztonsági módban lévő fürtből fér hozzá egy nézethez, a rendszer a felhasználó engedélyeivel hajtja végre a nézetet. Az egyfelhasználós fürtök a Python, a Scala és az R használatával támogatják a számítási feladatokat. Az Init-szkriptek, a kódtár telepítése és a DBFS-csatlakoztatások támogatottak az egyfelhasználós fürtökön. Az automatizált feladatoknak egyfelhasználós fürtöket kell használniuk.
  • Felhasználóelkülönítés: Több felhasználó is megosztható. Csak az SQL számítási feladatok támogatottak. A kódtár telepítése, az init-szkriptek és a DBFS-csatlakoztatások le vannak tiltva, hogy szigorú elkülönítést kényszerítsen ki a fürtfelhasználók között.
  • Csak tábla ACL (örökölt): A munkaterület-helyi tábla hozzáférés-vezérlését kényszeríti ki, de nem fér hozzá a Unity Catalog adataihoz.
  • Csak átengedés (örökölt): A munkaterület-helyi hitelesítő adatok átengedése kényszeríti, de nem fér hozzá a Unity Catalog adataihoz.

A Unity Catalog számítási feladatainak egyetlen biztonsági módja az egyfelhasználós és a felhasználóelkülönítés.

További információ: Mi az a fürtelérési mód?.

Spark-konfiguráció

A Spark-feladatok finomhangolásához egyéni Spark-konfigurációs tulajdonságokat adhat meg egy fürtkonfigurációban.

  1. A fürtkonfiguráció lapon kattintson a Speciális beállítások váltógombra.

  2. Kattintson a Spark fülre.

    Spark-konfiguráció

    A Spark-konfigurációban adja meg a konfigurációs tulajdonságokat soronként egy kulcs-érték párként.

Amikor fürtöt konfigurál a Clusters API 2.0 használatával, állítsa be a Spark-tulajdonságokat a spark_confFürt létrehozása vagy a Fürt szerkesztése kérelem mezőben.

Ha a Spark-tulajdonságokat az összes fürthöz szeretné beállítani, hozzon létre egy globális init szkriptet:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

Spark-konfigurációs tulajdonság lekérése titkos kódból

A Databricks azt javasolja, hogy egyszerű szöveg helyett titkos kódban tárolja a bizalmas adatokat, például a jelszavakat. Ha egy titkos kódra szeretne hivatkozni a Spark-konfigurációban, használja a következő szintaxist:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Ha például egy Spark-konfigurációs tulajdonságot password szeretne beállítani a következőben secrets/acme_app/passwordtárolt titkos kód értékére:

spark.password {{secrets/acme-app/password}}

További információ: Szintaxis a Titkos kódok hivatkozásához Spark-konfigurációs tulajdonságban vagy környezeti változóban.

Környezeti változók

Konfigurálhat egyéni környezeti változókat, amelyek a fürtön futó init-szkriptekből érhetők el. A Databricks előre definiált környezeti változókat is biztosít, amelyeket init-szkriptekben használhat. Ezeket az előre definiált környezeti változókat nem bírálhatja felül.

  1. A fürtkonfiguráció lapon kattintson a Speciális beállítások váltógombra.

  2. Kattintson a Spark fülre.

  3. Állítsa be a környezeti változókat a Környezeti változók mezőben.

    Környezeti változók mező

A környezeti változókat a spark_env_varsFürtkérelmek létrehozása vagy a Fürtkérelmek szerkesztése API-végpontok mező használatával is beállíthatja.

Fürtcímkék

A fürtcímkék lehetővé teszik a szervezet különböző csoportjai által használt felhőerőforrások költségeinek egyszerű monitorozását. A fürtök létrehozásakor kulcs-érték párként adhat meg címkéket, és az Azure Databricks ezeket a címkéket alkalmazza a felhőerőforrásokra, például a virtuális gépekre és a lemezkötetekre, valamint a DBU használati jelentéseire.

A készletekből indított fürtök esetében az egyéni fürtcímkék csak a DBU használati jelentéseire lesznek alkalmazva, és nem propagálódnak a felhőbeli erőforrásokra.

A készlet- és fürtcímketípusok együttes működéséről a Használat figyelése fürt, készlet és munkaterületcímkék használatával című témakörben olvashat bővebben.

A kényelem érdekében az Azure Databricks négy alapértelmezett címkét alkalmaz minden fürtre: Vendor, Creator, , ClusterNameés ClusterId.

Emellett a feladatfürtökön az Azure Databricks két alapértelmezett címkét alkalmaz: RunName és JobId.

A Databricks SQL által használt erőforrásokon az Azure Databricks az alapértelmezett címkét SqlWarehouseIdis alkalmazza.

Figyelmeztetés

Ne rendeljen hozzá egyéni címkét a kulccsal Name egy fürthöz. Minden fürt rendelkezik egy címkével Name , amelynek értékét az Azure Databricks állítja be. Ha módosítja a kulccsal Nametársított értéket, az Azure Databricks már nem tudja nyomon követni a fürtöt. Ennek következtében előfordulhat, hogy a fürt tétlenné válása után nem szűnik meg, és továbbra is használati költségekkel jár.

Fürt létrehozásakor egyéni címkéket is hozzáadhat. Fürtcímkék konfigurálása:

  1. A fürtkonfiguráció lapon kattintson a Speciális beállítások váltógombra.

  2. A lap alján kattintson a Címkék fülre.

    Címkék lap

  3. Adjon hozzá egy kulcs-érték párot az egyes egyéni címkékhez. Legfeljebb 43 egyéni címkét adhat hozzá.

További részletekért lásd: Használat figyelése fürt- és készletcímkék használatával.

SSH-hozzáférés a fürtökhöz

Biztonsági okokból az Azure Databricksben az SSH-port alapértelmezés szerint bezárul. Ha engedélyezni szeretné az SSH-hozzáférést a Spark-fürtökhöz, forduljon az Azure Databricks ügyfélszolgálatához.

Megjegyzés

Az SSH csak akkor engedélyezhető, ha a munkaterület a saját Azure-beli virtuális hálózatában van üzembe helyezve.

Fürtnapló-kézbesítés

A fürt létrehozásakor megadhat egy helyet a Spark illesztőprogram-csomópontjához, munkavégző csomópontjaihoz és eseményeihez tartozó naplók kézbesítéséhez. A rendszer öt percenként kézbesíti a naplókat a kiválasztott célhelyre. A fürt leállásakor az Azure Databricks garantálja, hogy a fürt leállításáig az összes létrehozott naplót kézbesíti.

A naplók célja a fürtazonosítótól függ. Ha a megadott célhely, dbfs:/cluster-log-deliverya fürtnaplók a következő helyre lesznek 0630-191345-leap375 kézbesítve dbfs:/cluster-log-delivery/0630-191345-leap375: .

A naplók kézbesítési helyének konfigurálása:

  1. A fürtkonfiguráció lapon kattintson a Speciális beállítások váltógombra.

  2. Kattintson a Naplózás fülre.

    Fürtnapló-kézbesítés

  3. Válasszon egy céltípust.

  4. Adja meg a fürtnapló elérési útját.

Megjegyzés

Ez a funkció a REST API-ban is elérhető. Lásd: Clusters API 2.0 és Fürtnaplók kézbesítési példái.

Init-szkriptek

A fürtcsomópont inicializálási vagy inicializálási szkriptje egy rendszerhéjszkript, amely az egyes fürtcsomópontok indításkor futnak a Spark-illesztőprogram vagy a feldolgozó JVM elindítása előtt . Init-szkriptekkel többek között telepíthet a Databricks-futtatókörnyezetben nem szereplő csomagokat és kódtárakat, módosíthatja a JVM rendszerosztályútvonalát, beállíthatja a JVM által használt rendszertulajdonságokat és környezeti változókat, vagy módosíthatja a Spark konfigurációs paramétereit.

Init-szkripteket csatolhat egy fürthöz a Speciális beállítások szakasz kibontásával, majd az Init Scripts (Init-szkriptek ) fülre kattintva.

Részletes útmutatásért lásd: Fürtcsomópont inicializálási szkriptjei.