Fürt létrehozása

Megjegyzés

Ezek az utasítások a frissített fürt-létrehozási felhasználói felületre vonatkozóak. Ha az örökölt fürt létrehozása felhasználói felületre szeretne váltani, kattintson a fürt létrehozása lap tetején található felhasználói felület előnézetére , és állítsa ki a beállítást. Az örökölt felhasználói felület dokumentációját a Fürtök konfigurálása című témakörben találja. Az új és örökölt fürttípusok összehasonlításáért tekintse meg a Fürtök felhasználói felületének változásait és a fürtelérési módokat.

Ez a cikk az Azure Databricks-fürtök létrehozásakor és szerkesztésekor elérhető konfigurációs lehetőségeket ismerteti. A célja fürtök létrehozása és szerkesztése a felhasználói felület használatával. Egyéb módszerekért lásd a Fürtök parancssori felületét, a Clusters API 2.0-t és a Databricks Terraform-szolgáltatót.

A fürtlétrehozás felhasználói felületén kiválaszthatja a fürtkonfigurációs beállításokat, beleértve a következőket:

Hozzáférés a fürtlétrehozó felülethez

Ha a felhasználói felületen szeretne fürtöt létrehozni, kattintson a Számítás szakaszban a Fürt létrehozása gombra, vagy kattintson a munkaterület oldalnavigációjában az Új>fürt elemre.

Fürtkonfigurációs felhasználói felület

Megjegyzés

Fürt létrehozásához az Azure Databricks Terraform-szolgáltatót is használhatja.

Fürtszabályzat

A fürtszabályzatok olyan szabályok, amelyek korlátozzák a felhasználók számára a fürt létrehozásakor elérhető konfigurációs beállításokat. A fürtszabályzatok ACL-ekkel rendelkeznek, amelyek szabályozzák, hogy mely felhasználók és csoportok férhetnek hozzá bizonyos szabályzatokhoz.

Alapértelmezés szerint minden felhasználó hozzáfér a személyes számítási szabályzathoz, így egyszerűen hozhat létre egygépes számítási erőforrásokat. Ha a személyes számítási szabályzat nem jelenik meg lehetőségként a fürt létrehozásakor, akkor nem kapott hozzáférést a szabályzathoz. Lépjen kapcsolatba a rendszergazdával, és kérjen hozzáférést a személyes számítási szabályzathoz vagy egy megfelelő egyenértékű szabályzathoz.

A fürt szabályzat szerinti konfigurálásához válasszon ki egy fürtszabályzatot a Szabályzat legördülő listából.

Mi az a fürtelérési mód?

A Hozzáférési mód legördülő menü felváltotta a Biztonsági mód legördülő menüt. A hozzáférési módokat a következőképpen szabványosítjuk:

Hozzáférési mód legördülő menüje Látható a felhasználó számára Unity Catalog-támogatás Támogatott nyelvek
Egyetlen felhasználó Mindig Yes Python, SQL, Scala, R
Megosztott Mindig (prémium csomag szükséges) Yes Python, SQL
Nincs megosztott elkülönítés Mindig No Python, SQL, Scala, R
Egyéni Ez a beállítás csak a hozzáférési mód nélküli meglévő fürtök esetében jelenik meg. Ha az örökölt fürtmódokkal (például Standard vagy Magas egyidejűség) hoztak létre fürtöt, a Databricks ezt az értéket jeleníti meg a hozzáférési módhoz az új felhasználói felület használatakor. Ez az érték nem használható új fürtök létrehozására. No Python, SQL, Scala, R

Fontos

A Clusters API hozzáférési módja még nem támogatott.

A Databricks Runtime verziója

A Databricks Runtimes a fürtökön futó alapvető összetevők halmaza. Minden Databricks-futtatókörnyezet tartalmazza az Apache Sparkot, és olyan összetevőket és frissítéseket ad hozzá, amelyek javítják a használhatóságot, a teljesítményt és a biztonságot. Részletekért lásd a Databricks futtatókörnyezeteit.

Az Azure Databricks többféle futtatókörnyezetet és ezek több verzióját kínálja. A fürt létrehozásakor vagy szerkesztésekor a Databricks Runtime Version legördülő menüben választhatja ki a fürt futtatókörnyezetét.

Fürtcsomópont típusa

A fürt egy illesztőprogram-csomópontból és nulla vagy több munkavégző csomópontból áll. Külön felhőszolgáltatói példánytípusokat választhat az illesztőprogram- és feldolgozó csomópontokhoz, bár alapértelmezés szerint az illesztőprogram-csomópont ugyanazt a példánytípust használja, mint a munkavégző csomópont. A példánytípusok különböző családjai különböző használati esetekhez illeszkednek, például memóriaigényes vagy nagy számítási igényű számítási feladatokhoz.

Illesztőprogram-csomópont

Az illesztőprogram-csomópont megőrzi a fürthöz csatolt összes jegyzetfüzet állapotinformációit. Az illesztőprogram-csomópont emellett fenntartja a SparkContext objektumot, értelmezi a fürtön lévő jegyzetfüzetből vagy tárból futtatott összes parancsot, és futtatja a Spark-végrehajtókkal koordináló Apache Spark-főkiszolgálót.

Az illesztőprogram-csomópont típusának alapértelmezett értéke megegyezik a munkavégző csomópont típusával. Nagyobb, több memóriával rendelkező illesztőprogram-csomóponttípust is választhat, ha a Spark-feldolgozóktól származó adatok nagy részét tervezi elemezni collect() a jegyzetfüzetben.

Tipp

Mivel az illesztőprogram-csomópont fenntartja a csatolt jegyzetfüzetek összes állapotinformációját, mindenképpen válassza le a nem használt jegyzetfüzeteket az illesztőprogram-csomópontról.

Feldolgozó csomópont

Az Azure Databricks feldolgozó csomópontjai futtatják a Spark-végrehajtókat és a megfelelő működésű fürtökhöz szükséges egyéb szolgáltatásokat. Ha a számítási feladatot a Sparkkal osztja el, az összes elosztott feldolgozás a munkavégző csomópontokon történik. Az Azure Databricks egy végrehajtót futtat munkavégző csomópontonként. Ezért a végrehajtó és a feldolgozó kifejezés felcserélhetően használatos a Databricks-architektúra kontextusában.

Tipp

Spark-feladat futtatásához legalább egy munkavégző csomópontra van szükség. Ha egy fürtben nincs feldolgozó, futtathat nem Spark-parancsokat az illesztőprogram-csomóponton, de a Spark-parancsok sikertelenek lesznek.

Feldolgozó csomópont IP-címei

Az Azure Databricks két privát IP-címmel indít munkavégző csomópontokat. A csomópont elsődleges magánhálózati IP-címe az Azure Databricks belső forgalmát üzemelteti. A másodlagos magánhálózati IP-címet a Spark-tároló használja a fürtön belüli kommunikációhoz. Ez a modell lehetővé teszi, hogy az Azure Databricks elkülönítést biztosítson több fürt között ugyanabban a munkaterületen.

GPU-példánytípusok

A nagy teljesítményt igénylő számítási feladatokhoz, például a mély tanuláshoz kapcsolódó feladatok esetében az Azure Databricks támogatja a grafikus feldolgozási egységekkel (GPU-kkal) felgyorsított fürtöket. További információ: GPU-kompatibilis fürtök.

Fürtméret és automatikus skálázás

Azure Databricks-fürt létrehozásakor megadhat rögzített számú feldolgozót a fürthöz, vagy megadhatja a fürthöz tartozó feldolgozók minimális és maximális számát.

Ha rögzített méretű fürtöt ad meg, az Azure Databricks biztosítja, hogy a fürt a megadott számú feldolgozóval rendelkezik. Ha megadja a feldolgozók számának tartományát, a Databricks kiválasztja a feladat futtatásához szükséges feldolgozók megfelelő számát. Ezt automatikus skálázásnak nevezzük.

Az automatikus skálázással az Azure Databricks dinamikusan átcsoportosítja a dolgozókat, hogy figyelembe vegyék a feladat jellemzőit. Előfordulhat, hogy a folyamat bizonyos részei nagyobb számítási igényűek, mint mások, és a Databricks automatikusan további feldolgozókat ad hozzá a feladat ezen fázisai során (és eltávolítja őket, ha már nincs rájuk szükség).

Az automatikus skálázás megkönnyíti a magas fürtkihasználtság elérését, mivel nem kell kiépítenie a fürtöt a számítási feladatnak megfelelően. Ez különösen azokra a számítási feladatokra vonatkozik, amelyeknek a követelményei idővel változnak (például egy adathalmazt vizsgálnak egy nap folyamán), de olyan egyszeri, rövidebb számítási feladatokra is alkalmazható, amelyek kiépítési követelményei ismeretlenek. Az automatikus skálázás így két előnnyel jár:

  • A számítási feladatok gyorsabban futnak, mint az állandó méretű, alulkiépített fürtök.
  • Az automatikus skálázási fürtök a statikus méretű fürthöz képest csökkenthetik a teljes költségeket.

A fürt és a számítási feladat állandó méretétől függően az automatikus skálázás egyszerre nyújt egy vagy mindkét előnyt. A fürt mérete a felhőszolgáltató példányainak leállásakor kiválasztott feldolgozók minimális száma alatt lehet. Ebben az esetben az Azure Databricks folyamatosan újrapróbálkozott a példányok újrakiépítésével a feldolgozók minimális számának fenntartása érdekében.

Megjegyzés

Az automatikus skálázás feladatokhoz spark-submit nem érhető el.

Az automatikus skálázás viselkedése

  • 2 lépésben vertikálisan felskálázható a minimálistól a maximumig.
  • Leskálázható még akkor is, ha a fürt nem tétlen, az elosztási fájl állapotát vizsgálva.
  • Leskálázás az aktuális csomópontok százalékos aránya alapján.
  • Feladatfürtökön leskálázható, ha a fürt kihasználatlan az elmúlt 40 másodpercben.
  • Minden célú fürtön leskálázható, ha a fürt kihasználatlan az elmúlt 150 másodpercben.
  • A spark.databricks.aggressiveWindowDownS Spark konfigurációs tulajdonsága másodpercek alatt megadja, hogy a fürtök milyen gyakran hoznak leskálázási döntéseket. Az érték növelésével a fürt lassabban skálázható le. A maximális érték 600.

Automatikus skálázás engedélyezése és konfigurálása

Ahhoz, hogy az Azure Databricks automatikusan átméretezhesse a fürtöt, engedélyezi az automatikus méretezést a fürthöz, és megadja a minimális és maximális feldolgozói tartományt.

  1. Engedélyezze az automatikus skálázást.

    • All-Purpose fürt – A fürt létrehozása és szerkesztése lapon jelölje be az Automatikus skálázás engedélyezése jelölőnégyzetet az Autopilot beállításai párbeszédpanelen:

      Automatikus skálázás engedélyezése interaktív fürtökhöz

    • Feladatfürt – A fürt létrehozásának és szerkesztésének lapján jelölje be az Automatikus méretezés engedélyezése jelölőnégyzetet az Autopilot beállításai párbeszédpanelen:

      Automatikus skálázás engedélyezése feladatfürtökhöz

  2. Konfigurálja a minimális és a maximális feldolgozót.

Fontos

Ha példánykészletet használ:

Példa automatikus skálázásra

Ha újrakonfigurál egy statikus fürtöt automatikus skálázási fürtként, az Azure Databricks azonnal átméretezi a fürtöt a minimális és maximális korlátokon belül, majd elindítja az automatikus skálázást. Az alábbi táblázat például bemutatja, hogy mi történik a bizonyos kezdeti méretű fürtökkel, ha újrakonfigurál egy fürtöt 5 és 10 csomópont közötti automatikus skálázásra.

Kezdeti méret Újrakonfigurálás utáni méret
6 6
12 10
3 5

Helyi tároló automatikus skálázása

Gyakran nehéz megbecsülni, hogy egy adott feladat mennyi lemezterületet fog igénybe venni. Az Azure Databricks automatikusan engedélyezi a helyi tároló automatikus skálázását az összes Azure Databricks-fürtön, hogy ne kelljen megbecsülnie, hogy hány gigabájtnyi felügyelt lemezt kell csatlakoztatnia a fürthöz a létrehozáskor.

A helyi tároló automatikus méretezésével az Azure Databricks figyeli a fürt Spark-feldolgozói számára rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó túl kevés lemezen kezd futni, a Databricks automatikusan csatol egy új felügyelt lemezt a feldolgozóhoz, mielőtt elfogyna a lemezterület. A lemezek legfeljebb 5 TB lemezterületet csatolnak virtuális gépenként (beleértve a virtuális gép kezdeti helyi tárolóját is).

A virtuális géphez csatolt felügyelt lemezek csak akkor lesznek leválasztva, ha a virtuális gép visszakerül az Azure-ba. Ez azt jelzi, hogy a felügyelt lemezek soha nem lesznek leválasztva a virtuális gépekről, amíg egy futó fürt részei. A felügyelt lemezhasználat vertikális leskálázásához az Azure Databricks azt javasolja, hogy ezt a funkciót egy fürtmérettel, automatikus skálázással vagyautomatikus leállítással konfigurált fürtben használja.

Helyi lemeztitkosítás

Fontos

Ez a funkció a nyilvános előzetes verzióban érhető el.

A fürtök futtatásához használt példánytípusok némelyike helyileg csatlakoztatott lemezekkel rendelkezhet. Az Azure Databricks a helyileg csatlakoztatott lemezeken tárolhatja az elosztási vagy rövid élettartamú adatokat. Ha meg szeretné győződni arról, hogy az összes inaktív adat titkosítva van minden tárolótípushoz, beleértve az ideiglenesen a fürt helyi lemezén tárolt shuffle-adatokat is, engedélyezheti a helyi lemeztitkosítást.

Fontos

Előfordulhat, hogy a számítási feladatok lassabban futnak, mert a helyi kötetekbe és onnan érkező titkosított adatok olvasása és írása teljesítménybeli hatással van.

Ha engedélyezve van a helyi lemeztitkosítás, az Azure Databricks helyileg hoz létre egy, az egyes fürtcsomópontokra egyedi titkosítási kulcsot, amely a helyi lemezeken tárolt összes adat titkosítására szolgál. A kulcs hatóköre minden fürtcsomóponton helyi, és a fürtcsomóponttal együtt megsemmisül. Élettartama során a kulcs a memóriában található a titkosításhoz és a visszafejtéshez, és titkosítva van a lemezen.

A helyi lemeztitkosítás engedélyezéséhez a Clusters API 2.0-t kell használnia. Fürt létrehozása vagy szerkesztése során állítsa be a következőt:

{
  "enable_local_disk_encryption": true
}

Az API-k meghívására példákat a Clusters API-referenciában a Létrehozás és szerkesztés című témakörben talál.

Íme egy példa egy fürt létrehozási hívására, amely lehetővé teszi a helyi lemeztitkosítást:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}