Fürtök konfigurálása

Megjegyzés

Ezek az örökölt fürt-létrehozási felhasználói felületre vonatkozó utasítások, és csak az előzmény pontosságát tartalmazzák. Minden ügyfélnek a frissített létrehozási fürt felhasználói felületét kell használnia.

Ez a cikk az Azure Databricks-fürtök létrehozásakor és szerkesztésekor elérhető konfigurációs lehetőségeket ismerteti. A célja fürtök létrehozása és szerkesztése a felhasználói felület használatával. Egyéb módszerekért lásd a Fürtök parancssori felületét, a Clusters API 2.0-t és a Databricks Terraform-szolgáltatót.

Ha segítségre van szüksége annak eldöntéséhez, hogy a konfigurációs lehetőségek melyik kombinációja felel meg a legjobban az igényeinek, tekintse meg a fürtkonfiguráció ajánlott eljárásait.

Fürt létrehozása

Fürtszabályzat

A fürtszabályzatok szabálykészletek alapján korlátozzák a fürtök konfigurálásának képességét. A szabályzatszabályok korlátozzák a fürt létrehozásához elérhető attribútumokat vagy attribútumértékeket. A fürtszabályzatok olyan ACL-ekkel rendelkeznek, amelyek adott felhasználókra és csoportokra korlátozzák a használatukat, és így korlátozzák a fürt létrehozásakor kiválasztható házirendeket.

Fürtszabályzat konfigurálásához válassza ki a fürtszabályzatot a Szabályzat legördülő listában.

Fürtszabályzat kiválasztása

Megjegyzés

Ha nem hoztak létre házirendeket a munkaterületen, a Szabályzat legördülő lista nem jelenik meg.

Ha rendelkezik a következő:

  • Fürt létrehozási engedélyével kiválaszthatja a Korlátlan szabályzatot, és teljesen konfigurálható fürtöket hozhat létre. A Korlátlan szabályzat nem korlátozza a fürtattribútumokat és az attribútumértékeket.
  • A fürtök egyaránt létrehoznak engedélyeket és hozzáférést a fürtszabályzatokhoz, kiválaszthatja a Korlátlan szabályzatot és azokat a szabályzatokat, amelyekhez hozzáféréssel rendelkezik.
  • Csak a fürtszabályzatokhoz való hozzáféréssel kiválaszthatja azokat a szabályzatokat, amelyekhez hozzáféréssel rendelkezik.

Fürtmód

Megjegyzés

Ez a cikk az örökölt fürtök felhasználói felületét ismerteti. Az előzetes verziójú felhasználói felület részleteiért lásd: Fürt létrehozása. Ez magában foglalja a fürthozzáférés típusainak és módjainak néhány terminológiai módosítását. Az új és örökölt fürttípusok összehasonlításáért tekintse meg a Fürtök felhasználói felületének változásait és a fürtelérési módokat. Az előzetes verzió felhasználói felületén:

  • A standard módú fürtök nevemostantól nincs elkülönítési megosztott hozzáférési módú fürt.
  • A táblák ACL-jeivel való magas egyidejűség mostantól közös hozzáférésű módú fürtöknek nevezik.

Az Azure Databricks három fürtmódot támogat: Standard, High Concurrency és Single Node. Az alapértelmezett fürtmód a Standard.

Fontos

  • Ha a munkaterület egy Unity-katalógus metaadattárához van hozzárendelve, a magas egyidejűségi fürtök nem érhetők el. Ehelyett a hozzáférési móddal biztosíthatja a hozzáférés-vezérlés integritását, és szigorú elkülönítési garanciákat érvényesíthet. Lásd még : Unity-katalógushoz hozzáférő fürt létrehozása.
  • A fürt üzemmódja a fürt létrehozása után nem módosítható. Ha másik fürtmódot szeretne használni, létre kell hoznia egy új fürtöt.

A fürtkonfiguráció tartalmaz egy automatikus leállítási beállítást, amelynek alapértelmezett értéke a fürt üzemmódjától függ:

  • A standard és az egycsomópontos fürtök alapértelmezés szerint 120 perc után automatikusan leállnak.
  • A magas párhuzamosságú fürtök alapértelmezés szerint nem fejeződnek be automatikusan.

Standard fürtök

Figyelmeztetés

A standard módú fürtöket (más néven nincs elkülönítési megosztott fürtöt) több felhasználó is megosztható, a felhasználók közötti elkülönítés nélkül. Ha a Magas párhuzamosságú fürt üzemmódot további biztonsági beállítások, például tábla ACL-ek vagy hitelesítő adatok átengedése nélkül használja, ugyanazokat a beállításokat használja standard módú fürtökként. A fiókadminisztrátorokkal megakadályozhatják, hogy az ilyen típusú fürtökön a Databricks-munkaterület rendszergazdái automatikusan létrehozzák a belső hitelesítő adatokat . A biztonságosabb lehetőségek érdekében a Databricks olyan alternatív megoldásokat javasol, mint a tábla ACL-ekkel rendelkező magas párhuzamosságú fürtök.

Standard fürt használata csak önálló felhasználók számára ajánlott. A standard fürtök python, SQL, R és Scala nyelven fejlesztett számítási feladatokat futtathatnak.

Magas egyidejűségi fürtök

A magas párhuzamosságú fürt egy felügyelt felhőerőforrás. A magas párhuzamosságú fürtök fő előnyei, hogy részletes megosztást biztosítanak a maximális erőforrás-használathoz és a lekérdezések minimális késéséhez.

A magas párhuzamosságú fürtök SQL, Python és R nyelven fejlesztett számítási feladatokat futtathatnak. A magas párhuzamosságú fürtök teljesítményét és biztonságát a felhasználói kód külön folyamatokban való futtatásával biztosítják, ami a Scalában nem lehetséges.

Emellett csak a magas párhuzamosságú fürtök támogatják a táblahozzáférés-vezérlést.

Magas párhuzamosságú fürt létrehozásához állítsa a fürt üzemmódotMagas egyidejűség értékre.

Magas egyidejűségi fürtmód

A Magas párhuzamosságú fürt a Clusters API használatával történő létrehozására vonatkozó példát a Magas párhuzamosságú fürt példájában tekintheti meg.

Egycsomópontos fürtök

Egy csomópontos fürt nem rendelkezik feldolgozóval, és Spark-feladatokat futtat az illesztőprogram-csomóponton.

Ezzel szemben a Standard fürthöz legalább egy Spark-feldolgozó csomópontra van szükség az illesztőprogram-csomópont mellett a Spark-feladatok végrehajtásához.

Egycsomópontos fürt létrehozásához állítsa a fürt üzemmódotegyetlen csomópontra.

Egycsomópontos fürt üzemmód

Az egycsomópontos fürtök használatával kapcsolatos további információkért lásd az egycsomópontos fürtöket.

Adatéletút

Adatéletút rögzítésére szolgáló fürt létrehozásához lépjen a fürt konfigurációs lapjára, és kövesse az alábbi lépéseket:

Megjegyzés

Ha feladatfürt használatával szeretné rögzíteni az életútját egy feladatfuttatás részeként, konfigurálja a feladatfürtöt az alábbi konfigurációval.

  1. Access módban válassza az Egy felhasználó vagy a Megosztott lehetőséget.

    • Egyetlen felhasználó: Több nyelvet támogató, de egyetlen hozzárendelt felhasználó által használható fürt.
    • Megosztott: Több felhasználó által megosztható fürt. Csak az SQL- és Python-számítási feladatok támogatottak.
  2. A Databricks-futtatókörnyezet verziójában válassza a Databricks Runtime 11.1-es vagy újabb verzióját.

  3. Kattintson a Speciális beállítások váltógombra.

  4. Kattintson a Spark fülre.

  5. A Spark konfigurációs szövegmezőjében adja meg a következő konfigurációt:

    spark.databricks.dataLineage.enabled true
    
  6. Kattintson a Fürt létrehozása gombra.

Készletek

A fürt kezdési idejének csökkentése érdekében csatolhat egy fürtöt egy előre meghatározott üresjárati példánykészlethez az illesztőprogram és a munkavégző csomópontok számára. A fürt a készletek példányainak használatával jön létre. Ha egy készlet nem rendelkezik elegendő tétlen erőforrással a kért illesztőprogram- vagy feldolgozócsomópontok létrehozásához, a készlet úgy bővül, hogy új példányokat foglal le a példányszolgáltatótól. Egy csatolt fürt leállásakor a rendszer visszaadja a használt példányokat a készleteknek, és egy másik fürt újra felhasználhatja.

Ha a munkavégző csomópontokhoz kiválaszt egy készletet, de az illesztőprogram-csomóponthoz nem, az illesztőprogram-csomópont örökli a készletet a munkavégző csomópont konfigurációjától.

Fontos

Ha megkísérli kiválasztani az illesztőprogram-csomópont készletét, de munkavégző csomópontokhoz nem, hiba történik, és a fürt nem jön létre. Ez a követelmény megakadályozza, hogy az illesztőprogram-csomópont megvárja a munkavégző csomópontok létrehozását, vagy fordítva.

A készletek azure databricksbeli használatával kapcsolatos további információkért tekintse meg a Készletek című témakört.

Databricks-futtatókörnyezet

A Databricks-futtatókörnyezetek a fürtökön futó alapvető összetevők készletei. Minden Databricks-futtatókörnyezet tartalmazza az Apache Sparkot, és olyan összetevőket és frissítéseket ad hozzá, amelyek javítják a használhatóságot, a teljesítményt és a biztonságot. Részletekért lásd a Databricks futtatókörnyezeteit.

Az Azure Databricks többféle futtatókörnyezetet és ezek több verzióját is kínálja a Databricks Futtatókörnyezet verziójának legördülő menüjében, amikor fürtöt hoz létre vagy szerkeszt.

Futtatókörnyezet verziójának kiválasztása

Fotongyorsítás

A Photon a Databricks Runtime 9.1 LTS-t vagy újabb verziót futtató fürtökhöz érhető el.

A fotongyorsítás engedélyezéséhez jelölje be a Foton gyorsítás használata jelölőnégyzetet.

Szükség esetén megadhatja a példány típusát a Feldolgozó típusa és az Illesztőprogram típusa legördülő listában.

A Databricks a következő példánytípusokat javasolja az optimális ár és teljesítmény érdekében:

  • Standard_E4ds_v4
  • Standard_E8ds_v4
  • Standard_E16ds_v4

A Photon-tevékenységet a Spark felhasználói felületén tekintheti meg. Az alábbi képernyőképen a lekérdezés részleteinek dagadtja látható. A DAG-ban két fotonra utaló jel van. Először is a Photon operátorok a "Photon" kezdetűek, például PhotonGroupingAgg. Másodszor, a DAG,Photon operátorok és szakaszok színes őszibarack, míg a nem foton is kék.

Photon DAG

Docker-rendszerképek

Egyes Databricks Runtime-verziók esetén a fürt létrehozásakor megadhat egy Docker-rendszerképet. A használati esetek közé tartozik például a kódtár testreszabása, az aranyszínű tárolókörnyezet, amely nem változik, és a Docker CI/CD-integrációja.

Docker-rendszerképekkel egyéni mélytanulási környezeteket is létrehozhat GPU-eszközökkel rendelkező fürtökön.

Útmutatásért lásd: Tárolók testreszabása a Databricks Container Services és a Databricks Container Services használatával GPU-fürtökön.

Fürtcsomópont típusa

A fürt egy illesztőprogram-csomópontból és nulla vagy több munkavégző csomópontból áll.

Külön felhőszolgáltatói példánytípusokat választhat az illesztőprogram- és feldolgozó csomópontokhoz, bár alapértelmezés szerint az illesztőprogram-csomópont ugyanazt a példánytípust használja, mint a munkavégző csomópont. A példánytípusok különböző családjai különböző használati esetekhez illeszkednek, például memóriaigényes vagy nagy számítási igényű számítási feladatokhoz.

Megjegyzés

Ha a biztonsági követelmények között számításelkülönítés is szerepel, válasszon egy Standard_F72s_V2 példányt a feldolgozó típusaként. Ezek a példánytípusok olyan izolált virtuális gépeket képviselnek, amelyek a teljes fizikai gazdagépet felhasználják, és biztosítják a szükséges elkülönítési szintet, amely például az USA Védelmi Minisztériumának 5. hatásszintje (IL5) számítási feladatok támogatásához szükséges.

Illesztőprogram-csomópont

Az illesztőprogram-csomópont megőrzi a fürthöz csatolt összes jegyzetfüzet állapotinformációit. Az illesztőcsomópont emellett fenntartja a SparkContextet, értelmezi a fürtön lévő jegyzetfüzetből vagy tárból futtatott összes parancsot, és futtatja a Spark-végrehajtókkal koordináló Apache Spark-főkiszolgálót.

Az illesztőprogram-csomópont típusának alapértelmezett értéke megegyezik a munkavégző csomópont típusával. Nagyobb, több memóriával rendelkező illesztőprogram-csomóponttípust is választhat, ha a Spark-feldolgozóktól származó adatok nagy részét tervezi elemezni collect() a jegyzetfüzetben.

Tipp

Mivel az illesztőprogram-csomópont fenntartja a csatolt jegyzetfüzetek összes állapotinformációját, mindenképpen válassza le a nem használt jegyzetfüzeteket az illesztőprogram-csomópontról.

Feldolgozó csomópont

Az Azure Databricks feldolgozó csomópontjai futtatják a Spark-végrehajtókat és a fürtök megfelelő működéséhez szükséges egyéb szolgáltatásokat. Ha a számítási feladatot a Sparkkal osztja el, az összes elosztott feldolgozás a munkavégző csomópontokon történik. Az Azure Databricks feldolgozó csomópontonként egy végrehajtót futtat; ezért a végrehajtó és a feldolgozó kifejezés felcserélhetően használatos az Azure Databricks-architektúra kontextusában.

Tipp

Spark-feladat futtatásához legalább egy munkavégző csomópontra van szükség. Ha egy fürtben nincs feldolgozó, futtathat nem Spark-parancsokat az illesztőprogram-csomóponton, de a Spark-parancsok sikertelenek lesznek.

GPU-példánytípusok

A nagy teljesítményt igénylő számítási feladatokhoz, például a mély tanuláshoz kapcsolódó feladatok esetében az Azure Databricks támogatja a grafikus feldolgozási egységekkel (GPU-kkal) felgyorsított fürtöket. További információ: GPU-kompatibilis fürtök.

Kihasználatlan példányok

A költségek megtakarítása érdekében a kihasználatlan példányok, más néven Az Azure-beli kihasználatlan virtuális gépek használata mellett a Kihasználatlan példányok jelölőnégyzet bejelölésével is dönthet.

Kihasználatlanság konfigurálása

Az első példány mindig igény szerinti lesz (az illesztőcsomópont mindig igény szerint működik), a későbbi példányok pedig kihasználatlan példányok lesznek. Ha a kihasználatlanság miatt a rendszer kizárja a kihasználatlan példányokat, a rendszer igény szerinti példányokat helyez üzembe a kizárt példányok lecseréléséhez.

Fürtméret és automatikus skálázás

Azure Databricks-fürt létrehozásakor megadhat rögzített számú feldolgozót a fürthöz, vagy megadhatja a fürthöz tartozó feldolgozók minimális és maximális számát.

Ha rögzített méretű fürtöt ad meg, az Azure Databricks biztosítja, hogy a fürt a megadott számú feldolgozóval rendelkezik. Ha megadja a feldolgozók számának tartományát, a Databricks kiválasztja a feladat futtatásához szükséges feldolgozók megfelelő számát. Ezt automatikus skálázásnak nevezzük.

Az automatikus skálázással az Azure Databricks dinamikusan átcsoportosítja a dolgozókat, hogy figyelembe vegyék a feladat jellemzőit. Előfordulhat, hogy a folyamat bizonyos részei nagyobb számítási igényűek, mint mások, és a Databricks automatikusan további feldolgozókat ad hozzá a feladat ezen fázisai során (és eltávolítja őket, ha már nincs rájuk szükség).

Az automatikus skálázás megkönnyíti a magas fürtkihasználtság elérését, mivel nem kell kiépítenie a fürtöt a számítási feladatnak megfelelően. Ez különösen azokra a számítási feladatokra vonatkozik, amelyeknek a követelményei idővel változnak (például egy adathalmazt vizsgálnak egy nap folyamán), de olyan egyszeri, rövidebb számítási feladatokra is alkalmazható, amelyek kiépítési követelményei ismeretlenek. Az automatikus skálázás így két előnnyel jár:

  • A számítási feladatok gyorsabban futnak, mint az állandó méretű, alulkiépített fürtök.
  • Az automatikus skálázási fürtök a statikus méretű fürthöz képest csökkenthetik a teljes költségeket.

A fürt és a számítási feladat állandó méretétől függően az automatikus skálázás egyszerre nyújt egyet vagy mindkettőt. A fürt mérete a felhőszolgáltató példányainak leállásakor kiválasztott feldolgozók minimális száma alatt lehet. Ebben az esetben az Azure Databricks folyamatosan újrapróbálkozott a példányok újbóli kiépítésére a feldolgozók minimális számának fenntartása érdekében.

Megjegyzés

Az automatikus skálázás nem érhető el a feladatokhoz spark-submit .

Az automatikus skálázás viselkedése

  • 2 lépésben felskálázható a minimálistól a maximumig.
  • Leskálázható még akkor is, ha a fürt nem üresjáratban van az elosztási fájl állapotának megvizsgálásával.
  • Leskálázás az aktuális csomópontok százalékos aránya alapján.
  • A feladatfürtökön vertikálisan leskálázható, ha a fürt kihasználtsága az elmúlt 40 másodpercben nem volt kihasználva.
  • Minden célú fürtön leskálázható, ha a fürt kihasználatlan az elmúlt 150 másodpercben.
  • A spark.databricks.aggressiveWindowDownS Spark konfigurációs tulajdonsága másodpercek alatt meghatározza, hogy egy fürt milyen gyakran hoz leskálázási döntéseket. Az érték növelésével a fürt lassabban skálázható le. A maximális érték 600.

Automatikus skálázás engedélyezése és konfigurálása

Ahhoz, hogy az Azure Databricks automatikusan átméretezhesse a fürtöt, engedélyezheti a fürt automatikus skálázását, és megadhatja a feldolgozók minimális és maximális tartományát.

  1. Engedélyezze az automatikus skálázást.

    • All-Purpose fürt – A Fürt létrehozása lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az Autopilot beállításai párbeszédpanelen:

      Automatikus skálázás engedélyezése interaktív fürtökhöz

    • Feladatfürt – A Fürt konfigurálása lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az Autopilot beállításai párbeszédpanelen:

      Automatikus skálázás engedélyezése feladatfürtökhöz

  2. Konfigurálja a minimális és a maximális feldolgozót.

    Minimális és maximális feldolgozók konfigurálása

    Amikor a fürt fut, a fürtinformációs lap megjeleníti a lefoglalt feldolgozók számát. Összehasonlíthatja a kiosztott feldolgozók számát a feldolgozó konfigurációjával, és szükség szerint módosíthatja azokat.

Fontos

Ha példánykészletet használ:

Példa automatikus skálázásra

Ha újrakonfigurál egy statikus fürtöt automatikus skálázási fürtként, az Azure Databricks azonnal átméretezi a fürtöt a minimális és maximális korlátokon belül, majd megkezdi az automatikus skálázást. Az alábbi táblázat például azt mutatja be, hogy mi történik egy bizonyos kezdeti méretű fürttel, ha újrakonfigurál egy fürtöt 5 és 10 csomópont közötti automatikus skálázásra.

Kezdeti méret Újrakonfigurálás utáni méret
6 6
12 10
3 5

Helyi tároló automatikus skálázása

Gyakran nehéz megbecsülni, hogy egy adott feladat mennyi lemezterületet fog igénybe venni. Az Azure Databricks automatikusan engedélyezi a helyi tárterület automatikus skálázását az összes Azure Databricks-fürtön, hogy ne kelljen megbecsülnie, hogy hány gigabájtnyi felügyelt lemezt kell csatlakoztatnia a fürthöz a létrehozáskor.

A helyi tároló automatikus skálázásával az Azure Databricks figyeli a fürt Spark-feldolgozóiban rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó túl kevés lemezen kezd futni, a Databricks automatikusan csatlakoztat egy új felügyelt lemezt a feldolgozóhoz, mielőtt elfogyna a lemezterület. A lemezek legfeljebb 5 TB lemezterületet csatlakoztatnak virtuális gépenként (beleértve a virtuális gép kezdeti helyi tárterületét is).

A virtuális géphez csatolt felügyelt lemezek csak akkor lesznek leválasztva, ha a virtuális gép visszakerül az Azure-ba. Ez azt jelzi, hogy a felügyelt lemezek soha nem lesznek leválasztva a virtuális gépekről, amíg azok egy futó fürt részei. A felügyelt lemez használatának vertikális leskálázásához az Azure Databricks azt javasolja, hogy ezt a funkciót kihasználatlan példányokkal vagy automatikus leállítással konfigurált fürtben használja.

Helyi lemeztitkosítás

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

A fürtök futtatásához használt példánytípusok némelyike helyileg csatlakoztatott lemezekkel rendelkezhet. Az Azure Databricks tárolhat elosztási vagy rövid élettartamú adatokat ezeken a helyileg csatlakoztatott lemezeken. A helyi lemeztitkosítás engedélyezéséval biztosíthatja, hogy az inaktív adatok minden tárolótípushoz titkosítva legyenek, beleértve az ideiglenesen a fürt helyi lemezén tárolt elosztási adatokat is.

Fontos

A számítási feladatok lassabban futhatnak a titkosított adatok helyi kötetekre és kötetekre való beolvasásának és írásának teljesítményre gyakorolt hatása miatt.

Ha a helyi lemeztitkosítás engedélyezve van, az Azure Databricks helyileg létrehoz egy, az egyes fürtcsomópontokra egyedi titkosítási kulcsot, amely a helyi lemezeken tárolt összes adat titkosítására szolgál. A kulcs hatóköre minden fürtcsomóponton helyi, és a fürtcsomóponttal együtt megsemmisül. Élettartama során a kulcs a memóriában található a titkosításhoz és a visszafejtéshez, és titkosítva van tárolva a lemezen.

A helyi lemeztitkosítás engedélyezéséhez a Clusters API 2.0-t kell használnia. Fürt létrehozása vagy szerkesztése során állítsa be a következőt:

{
  "enable_local_disk_encryption": true
}

Az API-k meghívására példákat a Clusters API-referenciában található Létrehozás és szerkesztés című témakörben talál.

Íme egy példa egy fürt létrehozási hívására, amely lehetővé teszi a helyi lemeztitkosítást:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Biztonsági mód

Ha a munkaterület egy Unity Catalog-metaadattárhoz van rendelve, a magas egyidejűségi fürtmód helyett biztonsági módot használ a hozzáférés-vezérlés integritásának biztosítása és az erős elkülönítési garanciák érvényesítése érdekében. A Magas egyidejűségi fürtmód nem érhető el a Unity Catalogban.

A Speciális beállítások területen válasszon az alábbi fürtbiztonsági módok közül:

  • Nincs: Nincs elkülönítés. Nem kényszeríti ki a munkaterület helyi táblája hozzáférés-vezérlését vagy hitelesítő adatok átengedását. A Unity-katalógus adatai nem érhetők el.
  • Egyetlen felhasználó: Csak egyetlen felhasználó használhatja (alapértelmezés szerint a fürtöt létrehozó felhasználó). Más felhasználók nem tudnak csatlakozni a fürthöz. Ha egy egyfelhasználós biztonsági módban lévő fürtről fér hozzá egy nézethez, a nézet a felhasználó engedélyeivel lesz végrehajtva. Az egyfelhasználós fürtök a Python, Scala és R használatával támogatják a számítási feladatokat. Az Init-szkriptek, a kódtár telepítése és a DBFS-csatlakoztatások egyfelhasználós fürtökön támogatottak. Az automatizált feladatoknak egyfelhasználós fürtöket kell használniuk.
  • Felhasználóelkülönítés: Több felhasználó is megosztható. Csak az SQL számítási feladatok támogatottak. A kódtár telepítése, az inicializálási szkriptek és a DBFS-csatlakoztatások le vannak tiltva, hogy szigorú elkülönítést kényszerítsen ki a fürt felhasználói között.
  • Csak a tábla ACL-je (örökölt): A munkaterület-helyi tábla hozzáférés-vezérlését kényszeríti ki, de nem fér hozzá a Unity-katalógus adataihoz.
  • Csak átengedés (örökölt): Kényszeríti a munkaterület helyi hitelesítő adatainak átengedést, de nem fér hozzá a Unity-katalógus adataihoz.

A Unity Catalog számítási feladatainak egyetlen biztonsági módja az egyfelhasználós és a felhasználóelkülönítés.

További információ: Mi az a fürtelérési mód?

Spark-konfiguráció

A Spark-feladatok finomhangolásához egyéni Spark-konfigurációs tulajdonságokat adhat meg egy fürtkonfigurációban.

  1. A fürtkonfigurációs lapon kattintson a Speciális beállítások váltógombra.

  2. Kattintson a Spark fülre.

    Spark-konfiguráció

    A Spark-konfigurációban soronként egy kulcs-érték párként adja meg a konfigurációs tulajdonságokat.

Ha a Fürtök API 2.0-val konfigurál egy fürtöt, állítsa be a Spark-tulajdonságokat a spark_confFürt létrehozása vagyfürtkérelem szerkesztése mezőben.

Az összes fürt Spark-tulajdonságainak beállításához hozzon létre egy globális inicializálási szkriptet:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

Spark-konfigurációs tulajdonság lekérése titkos kódból

A Databricks azt javasolja, hogy az egyszerű szöveg helyett titkos kódban tárolja a bizalmas adatokat, például a jelszavakat. Ha egy titkos kódra szeretne hivatkozni a Spark-konfigurációban, használja a következő szintaxist:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Ha például egy Spark-konfigurációs tulajdonságot password szeretne beállítani a következőben secrets/acme_app/passwordtárolt titkos kód értékére:

spark.password {{secrets/acme-app/password}}

További információkért tekintse meg a Spark konfigurációs tulajdonságában vagy környezeti változójában található titkos kulcsokra való hivatkozás szintaxisát.

Környezeti változók

Egyéni környezeti változókat konfigurálhat, amelyek a fürtön futó init szkriptekből érhetők el. A Databricks előre definiált környezeti változókat is biztosít, amelyeket inicializálási szkriptekben használhat. Ezeket az előre definiált környezeti változókat nem bírálhatja felül.

  1. A fürtkonfigurációs lapon kattintson a Speciális beállítások váltógombra.

  2. Kattintson a Spark fülre.

  3. Állítsa be a környezeti változókat a Környezeti változók mezőben.

    Környezeti változók mező

Környezeti változókat a spark_env_varsFürt létrehozása vagy a Fürtkérelmek szerkesztése API-végpontok mezőben is beállíthat.

Fürtcímkék

A fürtcímkék lehetővé teszik a szervezet különböző csoportjai által használt felhőerőforrások költségeinek egyszerű monitorozását. A fürtök létrehozásakor kulcs-érték párként adhat meg címkéket, és az Azure Databricks ezeket a címkéket felhőbeli erőforrásokra, például virtuális gépekre és lemezkötetekre, valamint DBU-használati jelentésekre alkalmazza.

A készletekből indított fürtök esetében az egyéni fürtcímkék csak a DBU használati jelentéseire lesznek alkalmazva, és nem propagálódnak a felhőbeli erőforrásokra.

A készlet- és fürtcímkék típusainak együttműködéséről további információt a használat figyelése fürt-, készlet- és munkaterületcímkék használatával című témakörben talál.

Az egyszerűség kedvéért az Azure Databricks négy alapértelmezett címkét alkalmaz minden fürtre: Vendor, Creator, , ClusterNameés ClusterId.

Emellett a feladatfürtökön az Azure Databricks két alapértelmezett címkét alkalmaz: RunName és JobId.

A Databricks SQL által használt erőforrásokon az Azure Databricks az alapértelmezett címkét SqlWarehouseIdis alkalmazza.

Figyelmeztetés

Ne rendeljen hozzá egy kulccsal Name rendelkező egyéni címkét egy fürthöz. Minden fürt rendelkezik egy címkével Name , amelynek értékét az Azure Databricks állítja be. Ha módosítja a kulcshoz Nametársított értéket, az Azure Databricks már nem tudja nyomon követni a fürtöt. Ennek következtében előfordulhat, hogy a fürt tétlenné válása után nem szűnik meg, és továbbra is használati költségekkel jár.

Fürt létrehozásakor egyéni címkéket is hozzáadhat. Fürtcímkék konfigurálása:

  1. A fürtkonfigurációs lapon kattintson a Speciális beállítások váltógombra.

  2. A lap alján kattintson a Címkék fülre.

    Címkék lap

  3. Adjon hozzá kulcs-érték párokat minden egyéni címkéhez. Legfeljebb 43 egyéni címkét adhat hozzá.

További részletekért tekintse meg a használat figyelése fürt-, készlet- és munkaterületcímkék használatával című témakört.

SSH-hozzáférés a fürtökhöz

Biztonsági okokból az Azure Databricksben az SSH-port alapértelmezés szerint bezárul. Ha engedélyezni szeretné az SSH-hozzáférést a Spark-fürtökhöz, forduljon az Azure Databricks ügyfélszolgálatához.

Megjegyzés

Az SSH csak akkor engedélyezhető, ha a munkaterület a saját Azure-beli virtuális hálózatában van üzembe helyezve.

Fürtnapló-kézbesítés

Fürt létrehozásakor megadhat egy helyet a Spark-illesztőprogram-csomópont, a feldolgozó csomópontok és az események naplóinak kézbesítéséhez. A naplók kézbesítése öt percenként történik a kiválasztott célhelyre. A fürt leállásakor az Azure Databricks garantálja, hogy a fürt leállításáig minden létrehozott naplót kézbesít.

A naplók célja a fürtazonosítótól függ. Ha a megadott célhely, dbfs:/cluster-log-deliverya rendszer a fürtnaplókat a következő helyre 0630-191345-leap375 kézbesíti dbfs:/cluster-log-delivery/0630-191345-leap375: .

A naplók kézbesítési helyének konfigurálása:

  1. A fürtkonfigurációs lapon kattintson a Speciális beállítások váltógombra.

  2. Kattintson a Naplózás fülre.

    Fürtnapló-kézbesítés

  3. Válasszon ki egy céltípust.

  4. Adja meg a fürtnapló elérési útját.

Megjegyzés

Ez a funkció a REST API-ban is elérhető. Lásd a Clusters API 2.0-s és a fürtnapló-kézbesítési példákat.

Init szkriptek

A fürtcsomópont-inicializálási vagy inicializálási szkriptek olyan rendszerhéj-szkriptek, amelyek az egyes fürtcsomópontok indításakor futnak a Spark-illesztőprogram vagy a feldolgozó JVM indítása előtt . Init-szkriptekkel telepíthet a Databricks-futtatókörnyezetben nem szereplő csomagokat és kódtárakat, módosíthatja a JVM rendszerosztályútvonalát, beállíthatja a JVM által használt rendszertulajdonságokat és környezeti változókat, vagy módosíthatja a Spark konfigurációs paramétereit, többek között a konfigurációs feladatokat.

Az Init-szkripteket a fürthöz úgy csatolhatja, hogy kibontja a Speciális beállítások szakaszt, és az Init Scripts fülre kattint.

Részletes útmutatást a fürtcsomópont inicializálási szkriptjeiben talál.