Ajánlott eljárások: Fürtkonfiguráció

Az Azure Databricks számos lehetőséget kínál a fürtök létrehozásakor és konfigurálásakor, hogy a lehető legjobb teljesítményt érhesse el a legalacsonyabb költséggel. Ez a rugalmasság azonban kihívást jelenthet, amikor a számítási feladatok optimális konfigurációit próbálja meghatározni. Ha alaposan mérlegeli, hogy a felhasználók hogyan fogják használni a fürtöket, útmutatást nyújtanak a konfigurációs beállításokhoz, amikor új fürtöket hoz létre, vagy meglévő fürtöket konfigurál. A konfigurációs beállítások meghatározásakor megfontolandó szempontok a következők:

  • Milyen típusú felhasználó fogja használni a fürtöt? Az adatelemzők különböző feladattípusokat futtathatnak más követelményekkel, mint egy adatmérnök vagy adatelemző.
  • Milyen típusú számítási feladatokat futtatnak a felhasználók a fürtön? A kötegelt kinyerési, átalakítási és betöltési (ETL) feladatok például valószínűleg eltérő követelményekkel rendelkeznek, mint az elemzési számítási feladatok.
  • Milyen szolgáltatásiszint-szerződésnek (SLA) kell megfelelnie?
  • Milyen költségvetési korlátozások vannak?

Ez a cikk a különböző forgatókönyvekhez nyújt fürtkonfigurációs javaslatokat ezen szempontok alapján. Ez a cikk az Azure Databricks-fürtök egyes funkcióit és az ezeket a funkciókat szem előtt tartva megfontolandó szempontokat is ismerteti.

A konfigurációs döntésekhez kompromisszumra van szükség a költségek és a teljesítmény között. A fürt elsődleges költsége magában foglalja a fürt által felhasznált Databricks-egységeket (DBU-kat), valamint a fürt futtatásához szükséges mögöttes erőforrások költségeit. Ami nem feltétlenül nyilvánvaló, az olyan másodlagos költségek, mint például az, hogy a vállalkozása nem felel meg az SLA-nak, csökkent az alkalmazotti hatékonyság, vagy az erőforrások elpazarlása a gyenge ellenőrzések miatt.

Fürtfunkciók

Mielőtt részletesebb fürtkonfigurációs forgatókönyveket beszélnénk meg, fontos tisztában lenni az Azure Databricks-fürtök egyes funkcióival, és hogy ezek hogyan használhatók a legjobban.

Minden célra szolgáló fürtök és feladatfürtök

Fürt létrehozásakor kiválaszt egy fürttípust: egy teljes körű fürtöt vagy egy feladatfürtöt. A teljes körű fürtöket több felhasználó is megoszthatja, és a legalkalmasabbak alkalmi elemzések, adatfeltárások vagy fejlesztés elvégzésére. Ha befejezte a feldolgozás implementálását, és készen áll a kód üzembe helyezésére, váltson arra, hogy egy feladatfürtön futtassa. A feladatfürtök a feladat befejeződésekor leállnak, csökkentve az erőforrás-használatot és a költségeket.

Fürt mód

Megjegyzés

Ez a cikk az örökölt fürtök felhasználói felületét ismerteti. Az előzetes verziójú felhasználói felület részleteiért lásd: Fürt létrehozása. Ebbe beletartozik a fürthozzáférés típusainak és módjainak néhány terminológiai változása. Az új és örökölt fürttípusok összehasonlításáért lásd: Fürtök felhasználói felületének változásai és fürthozzáférés módjai. Az előzetes verzió felhasználói felületén:

  • A standard módú fürtöket mostantól nincs elkülönítési megosztott hozzáférési módú fürtnek nevezzük.
  • A Táblák ACL-ekkel való magas egyidejűség mostantól megosztott hozzáférési módú fürtöknek nevezik.

Az Azure Databricks három fürtmódot támogat: Standard, High Concurrency és Single Node. A normál felhasználók többsége standard vagy egycsomópontos fürtöket használ.

Figyelmeztetés

A standard módú fürtöket (más néven Nincs elkülönítési megosztott fürtöt) több felhasználó is megoszthatja, a felhasználók közötti elkülönítés nélkül. Ha a Magas párhuzamosságú fürt üzemmódot további biztonsági beállítások, például tábla ACL-ek vagy hitelesítő adatok átengedése nélkül használja, ugyanazokat a beállításokat használja standard módú fürtökként. A fiókadminisztrátor megakadályozhatja, hogy az ilyen típusú fürtökön a Databricks-munkaterület rendszergazdái automatikusan létrehozzák a belső hitelesítő adatokat . A biztonságosabb lehetőségek érdekében a Databricks olyan alternatív megoldásokat javasol, mint a nagy párhuzamosságú fürtök tábla ACL-ekkel.

  • A standard fürtök használata csak az egyes felhasználók számára ajánlott. A standard fürtök Pythonban, SQL-ben, R-ben és Scalában fejlesztett számítási feladatokat futtathatnak.
  • Az egycsomópontos fürtök olyan feladatokhoz készültek, amelyek kis mennyiségű adatot vagy nem elosztott számítási feladatot, például egycsomópontos gépi tanulási kódtárakat használnak.
  • A magas párhuzamosságú fürtök ideálisak olyan felhasználói csoportok számára, akiknek erőforrásokat kell megosztaniuk vagy alkalmi feladatokat kell futtatniuk. A rendszergazdák általában magas párhuzamosságú fürtöket hoznak létre. A Databricks javasolja az automatikus skálázás engedélyezését a magas párhuzamosságú fürtök esetében.

Igény szerinti és kihasználatlan példányok

A költségek megtakarítása érdekében az Azure Databricks támogatja a fürtök létrehozását igény szerinti és kihasználatlan példányok kombinációjával. Kihasználhatja a kihasználatlan azure-beli kapacitás előnyeit kihasználva az alkalmazások futtatásának költségeit, növelheti az alkalmazás számítási kapacitását, és növelheti az átviteli sebességet.

Automatikus skálázás

Az automatikus skálázás lehetővé teszi, hogy a fürtök a számítási feladatok alapján automatikusan átméreteződjenek. Az automatikus skálázás számos használati esetet és forgatókönyvet kihasználhat költség- és teljesítmény szempontjából, de nehéz lehet megérteni, hogy mikor és hogyan kell automatikus skálázást használni. Az alábbiakban néhány szempontot figyelembe kell venni annak meghatározásához, hogy az automatikus skálázást kell-e használni, és hogyan lehet a legnagyobb előnyt elérni:

  • Az automatikus skálázás általában csökkenti a költségeket a rögzített méretű fürthöz képest.
  • Az automatikus skálázási számítási feladatok gyorsabban futhatnak, mint egy nem kiépített rögzített méretű fürt.
  • Egyes számítási feladatok nem kompatibilisek az automatikus skálázási fürtekkel, beleértve a spark-submit feladatokat és néhány Python-csomagot.
  • Az egyfelhasználós, teljes körű fürtök esetében előfordulhat, hogy az automatikus skálázás lelassítja a fejlesztést vagy az elemzést, ha a feldolgozók minimális száma túl alacsony. Ennek az az oka, hogy az általuk futtatott parancsok vagy lekérdezések gyakran néhány perc távolságra vannak egymástól, és a fürt tétlen, és leskálázható a költségek csökkentése érdekében. A következő parancs végrehajtásakor a fürtkezelő megkísérli a vertikális felskálázást, ami eltarthat néhány percig, amíg lekérte a példányokat a felhőszolgáltatótól. Ez idő alatt előfordulhat, hogy a feladatok nem elegendő erőforrással futnak, ami lelassítja az eredmények lekérésének idejét. Miközben a munkavállalók minimális számának növelése segít, a költségeket is növeli. Ez egy másik példa arra, hogy a költségeket és a teljesítményt egyensúlyba kell hozni.
  • Ha Delta-gyorsítótárazást használ, fontos megjegyezni, hogy a csomópont gyorsítótárazott adatai elvesznek a csomópont leállása esetén. Ha a gyorsítótárazott adatok megőrzése fontos a számítási feladathoz, fontolja meg egy rögzített méretű fürt használatát.
  • Ha ETL számítási feladatot futtató feladatfürtje van, néha a finomhangoláskor megfelelően méretezheti a fürtöt, ha tudja, hogy a feladat valószínűleg nem fog változni. Az automatikus skálázás azonban rugalmasságot biztosít, ha az adatok mérete nő. Azt is érdemes megjegyezni, hogy az optimalizált automatikus skálázás csökkentheti a hosszú ideig futó feladatok költségeit, ha a fürt kihasználatlan, vagy egy másik folyamat eredményeire vár. Előfordulhat azonban, hogy a feladat kisebb késéseket tapasztal, amikor a fürt a megfelelő vertikális felskálázást kísérli meg. Ha szoros SLA-kkal rendelkezik egy feladathoz, egy rögzített méretű fürt jobb választás lehet, vagy fontolja meg egy Azure Databricks-készlet használatát a fürt kezdési idejének csökkentése érdekében.

Az Azure Databricks támogatja a helyi tároló automatikus skálázását is. A helyi tároló automatikus skálázásával az Azure Databricks figyeli a fürt Spark-feldolgozóiban rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó elkezd alacsony lemezterületen futni, az Azure Databricks automatikusan egy új felügyelt kötetet csatol a feldolgozóhoz, mielőtt elfogyna a lemezterület.

Medencék

A készletek a rendelkezésre álló, használatra kész példányok fenntartásával csökkentik a fürtök indítási és vertikális felskálázási idejét. A Databricks azt javasolja, hogy használja ki a készletek előnyeit a feldolgozási idő javítása és a költségek minimalizálása érdekében.

Databricks Runtime-verziók

A Databricks a Legújabb Databricks Runtime-verzió használatát javasolja a teljes körű fürtökhöz. A legújabb verzió használata biztosítja a legújabb optimalizálást és a legújabb kompatibilitást a kód és az előre betöltött csomagok között.

Az operatív számítási feladatokat futtató feladatfürtök esetében fontolja meg a Hosszú távú támogatás (LTS) Databricks Runtime-verzió használatát. Az LTS-verzió használata biztosítja, hogy ne ütközjön kompatibilitási problémákba, és a frissítés előtt alaposan tesztelje a számítási feladatokat. Ha a gépi tanulás speciális használati esettel rendelkezik, fontolja meg a Databricks Runtime speciális verzióját.

Fürtszabályzatok

Az Azure Databricks-fürtszabályzatok lehetővé teszik a rendszergazdák számára a fürtök létrehozásának és konfigurálásának szabályozását. A Databricks a fürtszabályzatok használatát javasolja az útmutatóban ismertetett javaslatok alkalmazásához. A fürtszabályzatokról további információt a fürtszabályzatok ajánlott eljárásokat ismertető útmutatójában talál.

Automatikus leállítás

Sok felhasználó nem fogja tudni leállíteni a fürtöket, ha már használatba veszi őket. Szerencsére a fürtök egy megadott időszak után automatikusan leállnak, alapértelmezett értéke 120 perc.

A rendszergazdák ezt az alapértelmezett beállítást módosíthatják fürtszabályzatok létrehozásakor. Ennek a beállításnak a csökkentése csökkentheti a költségeket azáltal, hogy csökkenti a fürtök üresjárati idejét. Fontos megjegyezni, hogy egy fürt leállásakor az összes állapot elvész, beleértve az összes változót, ideiglenes táblát, gyorsítótárat, függvényt, objektumot stb. Ezt az állapotot a fürt újraindulásakor vissza kell állítani. Ha egy fejlesztő kijelentkezik egy 30 perces ebédszünetre, felesleges lenne ugyanazt az időt töltenie, hogy a jegyzetfüzetet a korábbi állapotba helyezze vissza.

Fontos

A tétlen fürtök továbbra is halmoznak fel DBU- és felhőpéldány-díjakat a leállítás előtti inaktivitási időszakban.

Szemétgyűjtés

Bár ez kevésbé nyilvánvaló, mint a cikkben tárgyalt egyéb szempontok, a szemétgyűjtésre való odafigyelés segíthet optimalizálni a feladatok teljesítményét a fürtökön. A nagy mennyiségű RAM biztosítása segíthet a feladatok hatékonyabb végrehajtásában, de késésekhez is vezethet a szemétgyűjtés során.

A hosszú szemétgyűjtési takarítások hatásának minimalizálása érdekében kerülje az egyes példányokhoz konfigurált nagy mennyiségű RAM-mal rendelkező fürtök üzembe helyezését. Ha több RAM van lefoglalva a végrehajtó számára, az hosszabb szemétgyűjtési időt eredményez. Ehelyett konfiguráljon kisebb RAM-méretű példányokat, és helyezzen üzembe több példányt, ha több memóriára van szüksége a feladatokhoz. Vannak azonban olyan esetek, amikor kevesebb, több RAM-mal rendelkező csomópont ajánlott, például olyan számítási feladatok, amelyek sok elosztást igényelnek, a fürtméretezéssel kapcsolatos szempontokat ismertető szakaszban leírtak szerint.

Fürthozzáférés-vezérlés

Kétféle fürtengedélyt konfigurálhat:

  • A Fürtlétrehozás engedélyezése engedély szabályozza, hogy a felhasználók hogyan hozhatnak létre fürtöket.
  • A fürtszintű engedélyek egy adott fürt használatát és módosítását szabályozzák.

A fürtengedélyek konfigurálásával kapcsolatos további információkért lásd: fürthozzáférés-vezérlés.

Fürtöt akkor hozhat létre, ha rendelkezik fürtlétrehozási engedélyekkel vagy hozzáféréssel egy fürtszabályzathoz, amely lehetővé teszi, hogy bármilyen fürtöt hozzon létre a szabályzat specifikációiban. A fürt létrehozója a tulajdonos, és rendelkezik a Kezelés engedéllyel, amely lehetővé teszi számukra, hogy megoszthassák bármely más felhasználóval a fürt adathozzáférési engedélyeinek korlátain belül.

A fürtengedélyek és a fürtszabályzatok ismerete fontos a gyakori forgatókönyvek fürtkonfigurációinak kiválasztásakor.

Fürtcímkék

A fürtcímkék lehetővé teszik a szervezet különböző csoportjai által használt felhőerőforrások költségeinek egyszerű monitorozását. A fürtök létrehozásakor kulcs-érték sztringként adhat meg címkéket, és az Azure Databricks ezeket a címkéket a felhőbeli erőforrásokra, például példányokra és EBS-kötetekre alkalmazza. A címkekényszerítésről további információt a fürtszabályzatok ajánlott eljárásainak útmutatójában talál.

Fürtméretezési szempontok

Az Azure Databricks egy végrehajtót futtat munkavégző csomópontonként. Ezért a végrehajtó és a feldolgozó kifejezés felcserélhető az Azure Databricks-architektúra kontextusában. A fürtök méretét általában a feldolgozók száma alapján állapítják meg, de más fontos tényezőket is figyelembe kell venni:

  • Összes végrehajtó magja (számítás): Az összes végrehajtó magjainak teljes száma. Ez határozza meg a fürt maximális párhuzamosságát.
  • Teljes végrehajtói memória: Az összes végrehajtó ram-jának teljes mennyisége. Ez határozza meg, hogy mennyi adat tárolható a memóriában, mielőtt a lemezre kerül.
  • Végrehajtó helyi tárolója: A helyi lemezterület típusa és mennyisége. A helyi lemezt elsősorban a shuffles és a gyorsítótárazás során előforduló kiömlések esetén használják.

További szempontok közé tartozik a feldolgozópéldány típusa és mérete, amelyek a fenti tényezőket is befolyásolják. A fürt méretezése során fontolja meg a következőket:

  • Mennyi adatot fog használni a számítási feladat?
  • Mi a számítási feladat számítási összetettsége?
  • Honnan olvas adatokat?
  • Hogyan particionálják az adatokat külső tárolóban?
  • Mennyi párhuzamosságra van szüksége?

Ezeknek a kérdéseknek a megválaszolása segít meghatározni az optimális fürtkonfigurációkat a számítási feladatok alapján. Olyan egyszerű ETL-stílusú számítási feladatok esetében, amelyek csak keskeny átalakításokat használnak (olyan átalakítások esetében, amelyekben minden bemeneti partíció csak egy kimeneti partícióhoz járul hozzá), a számításoptimalizált konfigurációra kell összpontosítani. Ha sok elosztásra számít, akkor a memória mennyisége is fontos, valamint a tárterület, amely figyelembe veszi az adatkiömléseket. Kevesebb nagy példány csökkentheti a hálózati I/O-t, ha a nagy számítási feladatok során adatokat továbbít a gépek között.

A feldolgozók száma és a feldolgozópéldány-típusok mérete között kiegyensúlyozási művelet áll fenn. Egy két feldolgozóval rendelkező, egyenként 40 maggal és 100 GB RAM-mal rendelkező fürt számítása és memóriája megegyezik egy 10 maggal és 25 GB RAM-mal rendelkező nyolc feldolgozófürttel.

Ha ugyanannak az adatnak a sok újraolvasására számít, akkor a számítási feladatok számára előnyös lehet a gyorsítótárazás. Fontolja meg a tárolóoptimalizált konfigurációt a Delta Cache használatával.

Példák fürtméretezésre

Az alábbi példák a fürtjavaslatokat mutatják be adott számítási feladatok típusai alapján. Ezek a példák olyan konfigurációkat is tartalmaznak, amelyek elkerülhetők, és hogy ezek a konfigurációk miért nem megfelelőek a számítási feladatok típusaihoz.

Adatelemzés

Az adatelemzők általában több partícióból származó adatokat igénylő feldolgozást végeznek, ami számos elosztási művelethez vezet. A kisebb számú csomóponttal rendelkező fürtök csökkenthetik az átrendezések végrehajtásához szükséges hálózatot és lemez I/O-t. Az alábbi ábrán látható A fürt valószínűleg a legjobb választás, különösen az egyetlen elemzőt támogató fürtök esetében.

A D fürt valószínűleg a legrosszabb teljesítményt nyújtja, mivel nagyobb számú, kevesebb memóriával és tárhellyel rendelkező csomóponthoz több adatelosztásra van szükség a feldolgozás befejezéséhez.

Adatelemzési fürt méretezése

Az elemzési számítási feladatokhoz valószínűleg újra és újra be kell olvasni ugyanazokat az adatokat, ezért az ajánlott feldolgozótípusok a Delta Cache-t engedélyezve vannak optimalizálva.

Az elemzési számítási feladatokhoz ajánlott további funkciók a következők:

  • Engedélyezze az automatikus leállítást annak biztosításához, hogy a fürtök inaktivitás után leálljanak.
  • Fontolja meg az automatikus skálázás engedélyezését az elemző tipikus számítási feladatai alapján.
  • Fontolja meg a készletek használatát, amely lehetővé teszi a fürtök előre jóváhagyott példánytípusokra való korlátozását és a konzisztens fürtkonfigurációk biztosítását.

Olyan funkciók, amelyek valószínűleg nem hasznosak:

  • A tárterület automatikus skálázása, mivel ez a felhasználó valószínűleg nem fog sok adatot előállítani.
  • Magas párhuzamosságú fürtök, mivel ez a fürt egyetlen felhasználó számára készült, és a magas párhuzamosságú fürtök a legjobbak a megosztott használathoz.

Alapszintű köteg ETL

Az egyszerű kötegelt ETL-feladatok, amelyek nem igényelnek széles körű átalakításokat, például illesztéseket vagy összesítéseket, általában a számításoptimalizált fürtök előnyeit élvezik. Az ilyen típusú számítási feladatok esetében az alábbi ábrán szereplő fürtök bármelyike valószínűleg elfogadható.

Alapszintű kötegelt ETL-fürtméretezés

A számításoptimalizált feldolgozótípusok használata ajánlott; ezek olcsóbbak lesznek, és ezek a számítási feladatok valószínűleg nem igényelnek jelentős memóriát vagy tárterületet.

A készlet használata előnyös lehet az egyszerű ETL-feladatokat támogató fürtök számára, mivel csökkenti a fürtindítási időt, és csökkenti a teljes futásidőt a feladatfolyamatok futtatásakor. Mivel azonban az ilyen típusú számítási feladatok általában ütemezett feladatokként futnak, ahol a fürt csak elég ideig fut a feladat befejezéséhez, előfordulhat, hogy a készlet használata nem nyújt előnyt.

A következő funkciók valószínűleg nem hasznosak:

  • Delta-gyorsítótárazás, mivel az adatok újraolvasása nem várható.
  • Az automatikus leállításra valószínűleg nincs szükség, mivel ezek valószínűleg ütemezett feladatok.
  • Az automatikus skálázás nem ajánlott, mivel a számítási és tárolási beállításokat előre konfigurálni kell a használati esethez.
  • A magas párhuzamosságú fürtök több felhasználó számára készültek, és nem előnyösek egyetlen feladatot futtató fürtök számára.

Összetett köteg ETL

Az összetettebb ETL-feladatok, például a több tábla egyesítéseit és illesztéseit igénylő feldolgozás valószínűleg akkor működnek a legjobban, ha minimalizálni tudja az elegyített adatok mennyiségét. Mivel a fürtök feldolgozóinak számának csökkentése segít minimalizálni az elegyedéseket, érdemes megfontolni egy kisebb fürtöt, például az A fürtöt az alábbi ábrán egy nagyobb fürtre, például a D fürtre.

Összetett ETL-fürtméretezés

Az összetett átalakítások nagy számítási igényűek lehetnek, ezért egyes számítási feladatokhoz, amelyek optimális számú magot érnek el, további csomópontokat kell hozzáadni a fürthöz.

Az egyszerű ETL-feladatokhoz hasonlóan a számításoptimalizált feldolgozótípusok használata ajánlott; ezek olcsóbbak lesznek, és ezek a számítási feladatok valószínűleg nem igényelnek jelentős memóriát vagy tárterületet. Az egyszerű ETL-feladatokhoz hasonlóan a fő fürtfunkció, amelyet figyelembe kell venni, a készletek csökkentik a fürt indítási idejét, és csökkentik a teljes futásidőt a feladatfolyamatok futtatásakor.

A következő funkciók valószínűleg nem hasznosak:

  • Delta-gyorsítótárazás, mivel az adatok újraolvasása nem várható.
  • Az automatikus leállításra valószínűleg nincs szükség, mivel ezek valószínűleg ütemezett feladatok.
  • Az automatikus skálázás nem ajánlott, mivel a számítási és tárolási beállításokat előre konfigurálni kell a használati esethez.
  • A magas párhuzamosságú fürtök több felhasználó számára készültek, és nem előnyösek egyetlen feladatot futtató fürtök számára.

Gépi tanulási modellek betanítása

Mivel a gépi tanulási modellek betanításának kezdeti iterációi gyakran kísérleti jellegűek, jó választás egy kisebb fürt, például az A fürt. A kisebb fürtök csökkentik az elosztás hatását is.

Ha a stabilitás aggodalomra ad okot, vagy fejlettebb szakaszok esetén egy nagyobb fürt, például a B vagy a C fürt jó választás lehet.

A nagy méretű fürtök, például a D fürt nem ajánlottak a csomópontok közötti adatelkülönítettség miatt.

Gépi tanulási fürt méretezése

Az ajánlott feldolgozótípusok a Delta-gyorsítótárazással optimalizált tárolók, amelyek lehetővé teszik ugyanazon adatok ismételt olvasását és a betanítási adatok gyorsítótárazását. Ha a tárhelyoptimalizált csomópontok által biztosított számítási és tárolási lehetőségek nem elegendőek, fontolja meg a GPU-optimalizált csomópontokat. Ennek egyik lehetséges hátránya az, hogy nem támogatja a Delta-gyorsítótárazást ezekkel a csomópontokkal.

Az elemzési számítási feladatokhoz ajánlott további funkciók a következők:

  • Engedélyezze az automatikus leállítást annak biztosításához, hogy a fürtök inaktivitás után leálljanak.
  • Fontolja meg az automatikus skálázás engedélyezését az elemző tipikus számítási feladatai alapján.
  • Használjon készleteket, amelyek lehetővé teszik a fürtök előre jóváhagyott példánytípusokra való korlátozását és a konzisztens fürtkonfigurációk biztosítását.

Olyan funkciók, amelyek valószínűleg nem hasznosak:

  • Automatikus skálázás, mivel a gyorsítótárazott adatok elveszhetnek a csomópontok eltávolításakor a fürt vertikális leskálázása során. Emellett a tipikus gépi tanulási feladatok gyakran az összes elérhető csomópontot felhasználják, ami esetben az automatikus skálázás nem nyújt előnyt.
  • A tárterület automatikus skálázása, mivel ez a felhasználó valószínűleg nem fog sok adatot előállítani.
  • Magas párhuzamosságú fürtök, mivel ez a fürt egyetlen felhasználó számára készült, és a magas párhuzamosságú fürtök a legjobbak a megosztott használathoz.

Gyakori forgatókönyvek

Az alábbi szakaszok további javaslatokat nyújtanak a fürtök általános fürthasználati mintákhoz való konfigurálásához:

  • Több felhasználó futtat adatelemzést és alkalmi feldolgozást.
  • Speciális használati esetek, például gépi tanulás.
  • Ütemezett kötegelt feladatok támogatása.

Többfelhasználós fürtök

Forgatókönyv

Több felhasználónak kell hozzáférést biztosítania az adatokhoz az adatelemzés és az alkalmi lekérdezések futtatásához. A fürthasználat idővel ingadozhat, és a legtöbb feladat nem túl erőforrás-igényes. A felhasználók többnyire csak olvasási hozzáférést igényelnek az adatokhoz, és elemzéseket szeretnének végezni, vagy irányítópultokat szeretnének létrehozni egy egyszerű felhasználói felületen keresztül.

A fürtkiépítés ajánlott megközelítése egy hibrid megközelítés a csomópontok üzembe helyezéséhez a fürtben az automatikus skálázás mellett. A hibrid megközelítés magában foglalja az igény szerinti példányok és a kihasználatlan példányok számának meghatározását a fürthöz, valamint az automatikus skálázás engedélyezését a minimális és a maximális példányszám között.

Többfelhasználós forgatókönyv

Ez a fürt alapértelmezés szerint mindig elérhető és megosztott a csoporthoz tartozó felhasználók számára. Az automatikus skálázás engedélyezése lehetővé teszi, hogy a fürt a terheléstől függően vertikálisan fel- és leskálázható legyen.

A felhasználók nem rendelkeznek hozzáféréssel a fürt elindításához/leállításához, de a kezdeti igény szerinti példányok azonnal elérhetők a felhasználói lekérdezésekre való válaszadáshoz. Ha a felhasználói lekérdezés több kapacitást igényel, az automatikus skálázás automatikusan több csomópontot (többnyire kihasználatlan példányokat) helyez üzembe a számítási feladatnak megfelelően.

Az Azure Databricks más funkciókkal is rendelkezik a több-bérlős használati esetek további javításához:

Ez a megközelítés a teljes költséget a következő módon tartja vissza:

  • Megosztott fürtmodell használata.
  • Igény szerinti és kihasználatlan példányok kombinációjának használata.
  • Automatikus skálázás használata az alacsony kihasználtságú fürtök kifizetésének elkerülése érdekében.

Speciális számítási feladatok

Forgatókönyv

Fürtöket kell biztosítania a szervezeten belüli speciális használati esetekhez vagy csapatokhoz, például összetett adatfeltárási és gépi tanulási algoritmusokat futtató adatelemzők számára. Jellemző minta, hogy a felhasználónak rövid időre szüksége van egy fürtre az elemzés futtatásához.

Az ilyen típusú számítási feladatokhoz a legjobb módszer a fürtszabályzatok létrehozása az alapértelmezett, rögzített és beállítási tartományok előre meghatározott konfigurációival. Ezek a beállítások tartalmazhatják a példányok számát, a példánytípusokat, a kihasználatlan és az igény szerinti példányokat, a szerepköröket, a telepíteni kívánt kódtárakat stb. A fürtszabályzatok használatával a fejlettebb követelményekkel rendelkező felhasználók gyorsan elindíthatják azokat a fürtöket, amelyeket szükség szerint konfigurálhatnak a használati esetükhöz, és kikényszeríthetik a költségeket és a szabályzatoknak való megfelelést.

Specializált tevékenységprofilok

Ez a megközelítés nagyobb ellenőrzést biztosít a felhasználók számára, miközben a fürtkonfigurációk előre definiálásával kézben tarthatja a költségeket. Ez lehetővé teszi fürtök konfigurálását is különböző felhasználói csoportok számára, amelyek különböző adatkészletekhez való hozzáférésre vonatkozó engedélyekkel rendelkezik.

Ennek a megközelítésnek az egyik hátránya, hogy a felhasználóknak rendszergazdákkal kell együttműködnie a fürtök bármilyen módosításához, például a konfigurációhoz, a telepített kódtárakhoz stb.

Batch számítási feladatok

Forgatókönyv

Fürtöket kell biztosítania az ütemezett kötegelt feladatokhoz, például az adatok előkészítését végző éles ETL-feladatokhoz. A javasolt ajánlott eljárás egy új fürt indítása minden feladatfuttatáshoz. Az egyes feladatok új fürtön való futtatása segít elkerülni a megosztott fürtön futó egyéb számítási feladatok által okozott hibákat és kihagyott SLA-kat. A feladat kritikussági szintjétől függően az összes igény szerinti példányt használhatja az SLA-k teljesítésére, vagy a kihasználatlan és az igény szerinti példányok közötti egyensúlyra a költségmegtakarítás érdekében.

Ütemezett kötegelt számítási feladatok