Ajánlott eljárások: Fürtkonfiguráció
Az Azure Databricks számos lehetőséget kínál a fürtök létrehozásakor és konfigurálásakor, hogy a lehető legjobb teljesítményt érhesse el a legalacsonyabb költséggel. Ez a rugalmasság azonban kihívást jelenthet, amikor a számítási feladatok optimális konfigurációit próbálja meghatározni. Ha alaposan mérlegeli, hogy a felhasználók hogyan fogják használni a fürtöket, útmutatást nyújtanak a konfigurációs beállításokhoz, amikor új fürtöket hoz létre, vagy meglévő fürtöket konfigurál. A konfigurációs beállítások meghatározásakor megfontolandó szempontok a következők:
- Milyen típusú felhasználó fogja használni a fürtöt? Az adatelemzők különböző feladattípusokat futtathatnak más követelményekkel, mint egy adatmérnök vagy adatelemző.
- Milyen típusú számítási feladatokat futtatnak a felhasználók a fürtön? A kötegelt kinyerési, átalakítási és betöltési (ETL) feladatok például valószínűleg eltérő követelményekkel rendelkeznek, mint az elemzési számítási feladatok.
- Milyen szolgáltatásiszint-szerződésnek (SLA) kell megfelelnie?
- Milyen költségvetési korlátozások vannak?
Ez a cikk a különböző forgatókönyvekhez nyújt fürtkonfigurációs javaslatokat ezen szempontok alapján. Ez a cikk az Azure Databricks-fürtök egyes funkcióit és az ezeket a funkciókat szem előtt tartva megfontolandó szempontokat is ismerteti.
A konfigurációs döntésekhez kompromisszumra van szükség a költségek és a teljesítmény között. A fürt elsődleges költsége magában foglalja a fürt által felhasznált Databricks-egységeket (DBU-kat), valamint a fürt futtatásához szükséges mögöttes erőforrások költségeit. Ami nem feltétlenül nyilvánvaló, az olyan másodlagos költségek, mint például az, hogy a vállalkozása nem felel meg az SLA-nak, csökkent az alkalmazotti hatékonyság, vagy az erőforrások elpazarlása a gyenge ellenőrzések miatt.
Fürtfunkciók
Mielőtt részletesebb fürtkonfigurációs forgatókönyveket beszélnénk meg, fontos tisztában lenni az Azure Databricks-fürtök egyes funkcióival, és hogy ezek hogyan használhatók a legjobban.
Minden célra szolgáló fürtök és feladatfürtök
Fürt létrehozásakor kiválaszt egy fürttípust: egy teljes körű fürtöt vagy egy feladatfürtöt. A teljes körű fürtöket több felhasználó is megoszthatja, és a legalkalmasabbak alkalmi elemzések, adatfeltárások vagy fejlesztés elvégzésére. Ha befejezte a feldolgozás implementálását, és készen áll a kód üzembe helyezésére, váltson arra, hogy egy feladatfürtön futtassa. A feladatfürtök a feladat befejeződésekor leállnak, csökkentve az erőforrás-használatot és a költségeket.
Fürt mód
Megjegyzés
Ez a cikk az örökölt fürtök felhasználói felületét ismerteti. Az előzetes verziójú felhasználói felület részleteiért lásd: Fürt létrehozása. Ebbe beletartozik a fürthozzáférés típusainak és módjainak néhány terminológiai változása. Az új és örökölt fürttípusok összehasonlításáért lásd: Fürtök felhasználói felületének változásai és fürthozzáférés módjai. Az előzetes verzió felhasználói felületén:
- A standard módú fürtöket mostantól nincs elkülönítési megosztott hozzáférési módú fürtnek nevezzük.
- A Táblák ACL-ekkel való magas egyidejűség mostantól megosztott hozzáférési módú fürtöknek nevezik.
Az Azure Databricks három fürtmódot támogat: Standard, High Concurrency és Single Node. A normál felhasználók többsége standard vagy egycsomópontos fürtöket használ.
Figyelmeztetés
A standard módú fürtöket (más néven Nincs elkülönítési megosztott fürtöt) több felhasználó is megoszthatja, a felhasználók közötti elkülönítés nélkül. Ha a Magas párhuzamosságú fürt üzemmódot további biztonsági beállítások, például tábla ACL-ek vagy hitelesítő adatok átengedése nélkül használja, ugyanazokat a beállításokat használja standard módú fürtökként. A fiókadminisztrátor megakadályozhatja, hogy az ilyen típusú fürtökön a Databricks-munkaterület rendszergazdái automatikusan létrehozzák a belső hitelesítő adatokat . A biztonságosabb lehetőségek érdekében a Databricks olyan alternatív megoldásokat javasol, mint a nagy párhuzamosságú fürtök tábla ACL-ekkel.
- A standard fürtök használata csak az egyes felhasználók számára ajánlott. A standard fürtök Pythonban, SQL-ben, R-ben és Scalában fejlesztett számítási feladatokat futtathatnak.
- Az egycsomópontos fürtök olyan feladatokhoz készültek, amelyek kis mennyiségű adatot vagy nem elosztott számítási feladatot, például egycsomópontos gépi tanulási kódtárakat használnak.
- A magas párhuzamosságú fürtök ideálisak olyan felhasználói csoportok számára, akiknek erőforrásokat kell megosztaniuk vagy alkalmi feladatokat kell futtatniuk. A rendszergazdák általában magas párhuzamosságú fürtöket hoznak létre. A Databricks javasolja az automatikus skálázás engedélyezését a magas párhuzamosságú fürtök esetében.
Igény szerinti és kihasználatlan példányok
A költségek megtakarítása érdekében az Azure Databricks támogatja a fürtök létrehozását igény szerinti és kihasználatlan példányok kombinációjával. Kihasználhatja a kihasználatlan azure-beli kapacitás előnyeit kihasználva az alkalmazások futtatásának költségeit, növelheti az alkalmazás számítási kapacitását, és növelheti az átviteli sebességet.
Automatikus skálázás
Az automatikus skálázás lehetővé teszi, hogy a fürtök a számítási feladatok alapján automatikusan átméreteződjenek. Az automatikus skálázás számos használati esetet és forgatókönyvet kihasználhat költség- és teljesítmény szempontjából, de nehéz lehet megérteni, hogy mikor és hogyan kell automatikus skálázást használni. Az alábbiakban néhány szempontot figyelembe kell venni annak meghatározásához, hogy az automatikus skálázást kell-e használni, és hogyan lehet a legnagyobb előnyt elérni:
- Az automatikus skálázás általában csökkenti a költségeket a rögzített méretű fürthöz képest.
- Az automatikus skálázási számítási feladatok gyorsabban futhatnak, mint egy nem kiépített rögzített méretű fürt.
- Egyes számítási feladatok nem kompatibilisek az automatikus skálázási fürtekkel, beleértve a spark-submit feladatokat és néhány Python-csomagot.
- Az egyfelhasználós, teljes körű fürtök esetében előfordulhat, hogy az automatikus skálázás lelassítja a fejlesztést vagy az elemzést, ha a feldolgozók minimális száma túl alacsony. Ennek az az oka, hogy az általuk futtatott parancsok vagy lekérdezések gyakran néhány perc távolságra vannak egymástól, és a fürt tétlen, és leskálázható a költségek csökkentése érdekében. A következő parancs végrehajtásakor a fürtkezelő megkísérli a vertikális felskálázást, ami eltarthat néhány percig, amíg lekérte a példányokat a felhőszolgáltatótól. Ez idő alatt előfordulhat, hogy a feladatok nem elegendő erőforrással futnak, ami lelassítja az eredmények lekérésének idejét. Miközben a munkavállalók minimális számának növelése segít, a költségeket is növeli. Ez egy másik példa arra, hogy a költségeket és a teljesítményt egyensúlyba kell hozni.
- Ha Delta-gyorsítótárazást használ, fontos megjegyezni, hogy a csomópont gyorsítótárazott adatai elvesznek a csomópont leállása esetén. Ha a gyorsítótárazott adatok megőrzése fontos a számítási feladathoz, fontolja meg egy rögzített méretű fürt használatát.
- Ha ETL számítási feladatot futtató feladatfürtje van, néha a finomhangoláskor megfelelően méretezheti a fürtöt, ha tudja, hogy a feladat valószínűleg nem fog változni. Az automatikus skálázás azonban rugalmasságot biztosít, ha az adatok mérete nő. Azt is érdemes megjegyezni, hogy az optimalizált automatikus skálázás csökkentheti a hosszú ideig futó feladatok költségeit, ha a fürt kihasználatlan, vagy egy másik folyamat eredményeire vár. Előfordulhat azonban, hogy a feladat kisebb késéseket tapasztal, amikor a fürt a megfelelő vertikális felskálázást kísérli meg. Ha szoros SLA-kkal rendelkezik egy feladathoz, egy rögzített méretű fürt jobb választás lehet, vagy fontolja meg egy Azure Databricks-készlet használatát a fürt kezdési idejének csökkentése érdekében.
Az Azure Databricks támogatja a helyi tároló automatikus skálázását is. A helyi tároló automatikus skálázásával az Azure Databricks figyeli a fürt Spark-feldolgozóiban rendelkezésre álló szabad lemezterület mennyiségét. Ha egy feldolgozó elkezd alacsony lemezterületen futni, az Azure Databricks automatikusan egy új felügyelt kötetet csatol a feldolgozóhoz, mielőtt elfogyna a lemezterület.
Medencék
A készletek a rendelkezésre álló, használatra kész példányok fenntartásával csökkentik a fürtök indítási és vertikális felskálázási idejét. A Databricks azt javasolja, hogy használja ki a készletek előnyeit a feldolgozási idő javítása és a költségek minimalizálása érdekében.
Databricks Runtime-verziók
A Databricks a Legújabb Databricks Runtime-verzió használatát javasolja a teljes körű fürtökhöz. A legújabb verzió használata biztosítja a legújabb optimalizálást és a legújabb kompatibilitást a kód és az előre betöltött csomagok között.
Az operatív számítási feladatokat futtató feladatfürtök esetében fontolja meg a Hosszú távú támogatás (LTS) Databricks Runtime-verzió használatát. Az LTS-verzió használata biztosítja, hogy ne ütközjön kompatibilitási problémákba, és a frissítés előtt alaposan tesztelje a számítási feladatokat. Ha a gépi tanulás speciális használati esettel rendelkezik, fontolja meg a Databricks Runtime speciális verzióját.
Fürtszabályzatok
Az Azure Databricks-fürtszabályzatok lehetővé teszik a rendszergazdák számára a fürtök létrehozásának és konfigurálásának szabályozását. A Databricks a fürtszabályzatok használatát javasolja az útmutatóban ismertetett javaslatok alkalmazásához. A fürtszabályzatokról további információt a fürtszabályzatok ajánlott eljárásokat ismertető útmutatójában talál.
Automatikus leállítás
Sok felhasználó nem fogja tudni leállíteni a fürtöket, ha már használatba veszi őket. Szerencsére a fürtök egy megadott időszak után automatikusan leállnak, alapértelmezett értéke 120 perc.
A rendszergazdák ezt az alapértelmezett beállítást módosíthatják fürtszabályzatok létrehozásakor. Ennek a beállításnak a csökkentése csökkentheti a költségeket azáltal, hogy csökkenti a fürtök üresjárati idejét. Fontos megjegyezni, hogy egy fürt leállásakor az összes állapot elvész, beleértve az összes változót, ideiglenes táblát, gyorsítótárat, függvényt, objektumot stb. Ezt az állapotot a fürt újraindulásakor vissza kell állítani. Ha egy fejlesztő kijelentkezik egy 30 perces ebédszünetre, felesleges lenne ugyanazt az időt töltenie, hogy a jegyzetfüzetet a korábbi állapotba helyezze vissza.
Fontos
A tétlen fürtök továbbra is halmoznak fel DBU- és felhőpéldány-díjakat a leállítás előtti inaktivitási időszakban.
Szemétgyűjtés
Bár ez kevésbé nyilvánvaló, mint a cikkben tárgyalt egyéb szempontok, a szemétgyűjtésre való odafigyelés segíthet optimalizálni a feladatok teljesítményét a fürtökön. A nagy mennyiségű RAM biztosítása segíthet a feladatok hatékonyabb végrehajtásában, de késésekhez is vezethet a szemétgyűjtés során.
A hosszú szemétgyűjtési takarítások hatásának minimalizálása érdekében kerülje az egyes példányokhoz konfigurált nagy mennyiségű RAM-mal rendelkező fürtök üzembe helyezését. Ha több RAM van lefoglalva a végrehajtó számára, az hosszabb szemétgyűjtési időt eredményez. Ehelyett konfiguráljon kisebb RAM-méretű példányokat, és helyezzen üzembe több példányt, ha több memóriára van szüksége a feladatokhoz. Vannak azonban olyan esetek, amikor kevesebb, több RAM-mal rendelkező csomópont ajánlott, például olyan számítási feladatok, amelyek sok elosztást igényelnek, a fürtméretezéssel kapcsolatos szempontokat ismertető szakaszban leírtak szerint.
Fürthozzáférés-vezérlés
Kétféle fürtengedélyt konfigurálhat:
- A Fürtlétrehozás engedélyezése engedély szabályozza, hogy a felhasználók hogyan hozhatnak létre fürtöket.
- A fürtszintű engedélyek egy adott fürt használatát és módosítását szabályozzák.
A fürtengedélyek konfigurálásával kapcsolatos további információkért lásd: fürthozzáférés-vezérlés.
Fürtöt akkor hozhat létre, ha rendelkezik fürtlétrehozási engedélyekkel vagy hozzáféréssel egy fürtszabályzathoz, amely lehetővé teszi, hogy bármilyen fürtöt hozzon létre a szabályzat specifikációiban. A fürt létrehozója a tulajdonos, és rendelkezik a Kezelés engedéllyel, amely lehetővé teszi számukra, hogy megoszthassák bármely más felhasználóval a fürt adathozzáférési engedélyeinek korlátain belül.
A fürtengedélyek és a fürtszabályzatok ismerete fontos a gyakori forgatókönyvek fürtkonfigurációinak kiválasztásakor.
Fürtcímkék
A fürtcímkék lehetővé teszik a szervezet különböző csoportjai által használt felhőerőforrások költségeinek egyszerű monitorozását. A fürtök létrehozásakor kulcs-érték sztringként adhat meg címkéket, és az Azure Databricks ezeket a címkéket a felhőbeli erőforrásokra, például példányokra és EBS-kötetekre alkalmazza. A címkekényszerítésről további információt a fürtszabályzatok ajánlott eljárásainak útmutatójában talál.
Fürtméretezési szempontok
Az Azure Databricks egy végrehajtót futtat munkavégző csomópontonként. Ezért a végrehajtó és a feldolgozó kifejezés felcserélhető az Azure Databricks-architektúra kontextusában. A fürtök méretét általában a feldolgozók száma alapján állapítják meg, de más fontos tényezőket is figyelembe kell venni:
- Összes végrehajtó magja (számítás): Az összes végrehajtó magjainak teljes száma. Ez határozza meg a fürt maximális párhuzamosságát.
- Teljes végrehajtói memória: Az összes végrehajtó ram-jának teljes mennyisége. Ez határozza meg, hogy mennyi adat tárolható a memóriában, mielőtt a lemezre kerül.
- Végrehajtó helyi tárolója: A helyi lemezterület típusa és mennyisége. A helyi lemezt elsősorban a shuffles és a gyorsítótárazás során előforduló kiömlések esetén használják.
További szempontok közé tartozik a feldolgozópéldány típusa és mérete, amelyek a fenti tényezőket is befolyásolják. A fürt méretezése során fontolja meg a következőket:
- Mennyi adatot fog használni a számítási feladat?
- Mi a számítási feladat számítási összetettsége?
- Honnan olvas adatokat?
- Hogyan particionálják az adatokat külső tárolóban?
- Mennyi párhuzamosságra van szüksége?
Ezeknek a kérdéseknek a megválaszolása segít meghatározni az optimális fürtkonfigurációkat a számítási feladatok alapján. Olyan egyszerű ETL-stílusú számítási feladatok esetében, amelyek csak keskeny átalakításokat használnak (olyan átalakítások esetében, amelyekben minden bemeneti partíció csak egy kimeneti partícióhoz járul hozzá), a számításoptimalizált konfigurációra kell összpontosítani. Ha sok elosztásra számít, akkor a memória mennyisége is fontos, valamint a tárterület, amely figyelembe veszi az adatkiömléseket. Kevesebb nagy példány csökkentheti a hálózati I/O-t, ha a nagy számítási feladatok során adatokat továbbít a gépek között.
A feldolgozók száma és a feldolgozópéldány-típusok mérete között kiegyensúlyozási művelet áll fenn. Egy két feldolgozóval rendelkező, egyenként 40 maggal és 100 GB RAM-mal rendelkező fürt számítása és memóriája megegyezik egy 10 maggal és 25 GB RAM-mal rendelkező nyolc feldolgozófürttel.
Ha ugyanannak az adatnak a sok újraolvasására számít, akkor a számítási feladatok számára előnyös lehet a gyorsítótárazás. Fontolja meg a tárolóoptimalizált konfigurációt a Delta Cache használatával.
Példák fürtméretezésre
Az alábbi példák a fürtjavaslatokat mutatják be adott számítási feladatok típusai alapján. Ezek a példák olyan konfigurációkat is tartalmaznak, amelyek elkerülhetők, és hogy ezek a konfigurációk miért nem megfelelőek a számítási feladatok típusaihoz.
Adatelemzés
Az adatelemzők általában több partícióból származó adatokat igénylő feldolgozást végeznek, ami számos elosztási művelethez vezet. A kisebb számú csomóponttal rendelkező fürtök csökkenthetik az átrendezések végrehajtásához szükséges hálózatot és lemez I/O-t. Az alábbi ábrán látható A fürt valószínűleg a legjobb választás, különösen az egyetlen elemzőt támogató fürtök esetében.
A D fürt valószínűleg a legrosszabb teljesítményt nyújtja, mivel nagyobb számú, kevesebb memóriával és tárhellyel rendelkező csomóponthoz több adatelosztásra van szükség a feldolgozás befejezéséhez.
Az elemzési számítási feladatokhoz valószínűleg újra és újra be kell olvasni ugyanazokat az adatokat, ezért az ajánlott feldolgozótípusok a Delta Cache-t engedélyezve vannak optimalizálva.
Az elemzési számítási feladatokhoz ajánlott további funkciók a következők:
- Engedélyezze az automatikus leállítást annak biztosításához, hogy a fürtök inaktivitás után leálljanak.
- Fontolja meg az automatikus skálázás engedélyezését az elemző tipikus számítási feladatai alapján.
- Fontolja meg a készletek használatát, amely lehetővé teszi a fürtök előre jóváhagyott példánytípusokra való korlátozását és a konzisztens fürtkonfigurációk biztosítását.
Olyan funkciók, amelyek valószínűleg nem hasznosak:
- A tárterület automatikus skálázása, mivel ez a felhasználó valószínűleg nem fog sok adatot előállítani.
- Magas párhuzamosságú fürtök, mivel ez a fürt egyetlen felhasználó számára készült, és a magas párhuzamosságú fürtök a legjobbak a megosztott használathoz.
Alapszintű köteg ETL
Az egyszerű kötegelt ETL-feladatok, amelyek nem igényelnek széles körű átalakításokat, például illesztéseket vagy összesítéseket, általában a számításoptimalizált fürtök előnyeit élvezik. Az ilyen típusú számítási feladatok esetében az alábbi ábrán szereplő fürtök bármelyike valószínűleg elfogadható.
A számításoptimalizált feldolgozótípusok használata ajánlott; ezek olcsóbbak lesznek, és ezek a számítási feladatok valószínűleg nem igényelnek jelentős memóriát vagy tárterületet.
A készlet használata előnyös lehet az egyszerű ETL-feladatokat támogató fürtök számára, mivel csökkenti a fürtindítási időt, és csökkenti a teljes futásidőt a feladatfolyamatok futtatásakor. Mivel azonban az ilyen típusú számítási feladatok általában ütemezett feladatokként futnak, ahol a fürt csak elég ideig fut a feladat befejezéséhez, előfordulhat, hogy a készlet használata nem nyújt előnyt.
A következő funkciók valószínűleg nem hasznosak:
- Delta-gyorsítótárazás, mivel az adatok újraolvasása nem várható.
- Az automatikus leállításra valószínűleg nincs szükség, mivel ezek valószínűleg ütemezett feladatok.
- Az automatikus skálázás nem ajánlott, mivel a számítási és tárolási beállításokat előre konfigurálni kell a használati esethez.
- A magas párhuzamosságú fürtök több felhasználó számára készültek, és nem előnyösek egyetlen feladatot futtató fürtök számára.
Összetett köteg ETL
Az összetettebb ETL-feladatok, például a több tábla egyesítéseit és illesztéseit igénylő feldolgozás valószínűleg akkor működnek a legjobban, ha minimalizálni tudja az elegyített adatok mennyiségét. Mivel a fürtök feldolgozóinak számának csökkentése segít minimalizálni az elegyedéseket, érdemes megfontolni egy kisebb fürtöt, például az A fürtöt az alábbi ábrán egy nagyobb fürtre, például a D fürtre.
Az összetett átalakítások nagy számítási igényűek lehetnek, ezért egyes számítási feladatokhoz, amelyek optimális számú magot érnek el, további csomópontokat kell hozzáadni a fürthöz.
Az egyszerű ETL-feladatokhoz hasonlóan a számításoptimalizált feldolgozótípusok használata ajánlott; ezek olcsóbbak lesznek, és ezek a számítási feladatok valószínűleg nem igényelnek jelentős memóriát vagy tárterületet. Az egyszerű ETL-feladatokhoz hasonlóan a fő fürtfunkció, amelyet figyelembe kell venni, a készletek csökkentik a fürt indítási idejét, és csökkentik a teljes futásidőt a feladatfolyamatok futtatásakor.
A következő funkciók valószínűleg nem hasznosak:
- Delta-gyorsítótárazás, mivel az adatok újraolvasása nem várható.
- Az automatikus leállításra valószínűleg nincs szükség, mivel ezek valószínűleg ütemezett feladatok.
- Az automatikus skálázás nem ajánlott, mivel a számítási és tárolási beállításokat előre konfigurálni kell a használati esethez.
- A magas párhuzamosságú fürtök több felhasználó számára készültek, és nem előnyösek egyetlen feladatot futtató fürtök számára.
Gépi tanulási modellek betanítása
Mivel a gépi tanulási modellek betanításának kezdeti iterációi gyakran kísérleti jellegűek, jó választás egy kisebb fürt, például az A fürt. A kisebb fürtök csökkentik az elosztás hatását is.
Ha a stabilitás aggodalomra ad okot, vagy fejlettebb szakaszok esetén egy nagyobb fürt, például a B vagy a C fürt jó választás lehet.
A nagy méretű fürtök, például a D fürt nem ajánlottak a csomópontok közötti adatelkülönítettség miatt.
Az ajánlott feldolgozótípusok a Delta-gyorsítótárazással optimalizált tárolók, amelyek lehetővé teszik ugyanazon adatok ismételt olvasását és a betanítási adatok gyorsítótárazását. Ha a tárhelyoptimalizált csomópontok által biztosított számítási és tárolási lehetőségek nem elegendőek, fontolja meg a GPU-optimalizált csomópontokat. Ennek egyik lehetséges hátránya az, hogy nem támogatja a Delta-gyorsítótárazást ezekkel a csomópontokkal.
Az elemzési számítási feladatokhoz ajánlott további funkciók a következők:
- Engedélyezze az automatikus leállítást annak biztosításához, hogy a fürtök inaktivitás után leálljanak.
- Fontolja meg az automatikus skálázás engedélyezését az elemző tipikus számítási feladatai alapján.
- Használjon készleteket, amelyek lehetővé teszik a fürtök előre jóváhagyott példánytípusokra való korlátozását és a konzisztens fürtkonfigurációk biztosítását.
Olyan funkciók, amelyek valószínűleg nem hasznosak:
- Automatikus skálázás, mivel a gyorsítótárazott adatok elveszhetnek a csomópontok eltávolításakor a fürt vertikális leskálázása során. Emellett a tipikus gépi tanulási feladatok gyakran az összes elérhető csomópontot felhasználják, ami esetben az automatikus skálázás nem nyújt előnyt.
- A tárterület automatikus skálázása, mivel ez a felhasználó valószínűleg nem fog sok adatot előállítani.
- Magas párhuzamosságú fürtök, mivel ez a fürt egyetlen felhasználó számára készült, és a magas párhuzamosságú fürtök a legjobbak a megosztott használathoz.
Gyakori forgatókönyvek
Az alábbi szakaszok további javaslatokat nyújtanak a fürtök általános fürthasználati mintákhoz való konfigurálásához:
- Több felhasználó futtat adatelemzést és alkalmi feldolgozást.
- Speciális használati esetek, például gépi tanulás.
- Ütemezett kötegelt feladatok támogatása.
Többfelhasználós fürtök
Forgatókönyv
Több felhasználónak kell hozzáférést biztosítania az adatokhoz az adatelemzés és az alkalmi lekérdezések futtatásához. A fürthasználat idővel ingadozhat, és a legtöbb feladat nem túl erőforrás-igényes. A felhasználók többnyire csak olvasási hozzáférést igényelnek az adatokhoz, és elemzéseket szeretnének végezni, vagy irányítópultokat szeretnének létrehozni egy egyszerű felhasználói felületen keresztül.
A fürtkiépítés ajánlott megközelítése egy hibrid megközelítés a csomópontok üzembe helyezéséhez a fürtben az automatikus skálázás mellett. A hibrid megközelítés magában foglalja az igény szerinti példányok és a kihasználatlan példányok számának meghatározását a fürthöz, valamint az automatikus skálázás engedélyezését a minimális és a maximális példányszám között.
Ez a fürt alapértelmezés szerint mindig elérhető és megosztott a csoporthoz tartozó felhasználók számára. Az automatikus skálázás engedélyezése lehetővé teszi, hogy a fürt a terheléstől függően vertikálisan fel- és leskálázható legyen.
A felhasználók nem rendelkeznek hozzáféréssel a fürt elindításához/leállításához, de a kezdeti igény szerinti példányok azonnal elérhetők a felhasználói lekérdezésekre való válaszadáshoz. Ha a felhasználói lekérdezés több kapacitást igényel, az automatikus skálázás automatikusan több csomópontot (többnyire kihasználatlan példányokat) helyez üzembe a számítási feladatnak megfelelően.
Az Azure Databricks más funkciókkal is rendelkezik a több-bérlős használati esetek további javításához:
- A nagy méretű lekérdezések interaktív munkafolyamatokban való kezelése egy olyan folyamatot ír le, amely automatikusan kezeli a soha nem befejeződő lekérdezéseket.
- A feladatelőzmények javítják a hosszú ideig futó és a rövidebb feladatok együttes működését.
- A helyi tároló automatikus skálázása segít megakadályozni, hogy több-bérlős környezetben elfogyjon a tárterület.
Ez a megközelítés a teljes költséget a következő módon tartja vissza:
- Megosztott fürtmodell használata.
- Igény szerinti és kihasználatlan példányok kombinációjának használata.
- Automatikus skálázás használata az alacsony kihasználtságú fürtök kifizetésének elkerülése érdekében.
Speciális számítási feladatok
Forgatókönyv
Fürtöket kell biztosítania a szervezeten belüli speciális használati esetekhez vagy csapatokhoz, például összetett adatfeltárási és gépi tanulási algoritmusokat futtató adatelemzők számára. Jellemző minta, hogy a felhasználónak rövid időre szüksége van egy fürtre az elemzés futtatásához.
Az ilyen típusú számítási feladatokhoz a legjobb módszer a fürtszabályzatok létrehozása az alapértelmezett, rögzített és beállítási tartományok előre meghatározott konfigurációival. Ezek a beállítások tartalmazhatják a példányok számát, a példánytípusokat, a kihasználatlan és az igény szerinti példányokat, a szerepköröket, a telepíteni kívánt kódtárakat stb. A fürtszabályzatok használatával a fejlettebb követelményekkel rendelkező felhasználók gyorsan elindíthatják azokat a fürtöket, amelyeket szükség szerint konfigurálhatnak a használati esetükhöz, és kikényszeríthetik a költségeket és a szabályzatoknak való megfelelést.
Ez a megközelítés nagyobb ellenőrzést biztosít a felhasználók számára, miközben a fürtkonfigurációk előre definiálásával kézben tarthatja a költségeket. Ez lehetővé teszi fürtök konfigurálását is különböző felhasználói csoportok számára, amelyek különböző adatkészletekhez való hozzáférésre vonatkozó engedélyekkel rendelkezik.
Ennek a megközelítésnek az egyik hátránya, hogy a felhasználóknak rendszergazdákkal kell együttműködnie a fürtök bármilyen módosításához, például a konfigurációhoz, a telepített kódtárakhoz stb.
Batch számítási feladatok
Forgatókönyv
Fürtöket kell biztosítania az ütemezett kötegelt feladatokhoz, például az adatok előkészítését végző éles ETL-feladatokhoz. A javasolt ajánlott eljárás egy új fürt indítása minden feladatfuttatáshoz. Az egyes feladatok új fürtön való futtatása segít elkerülni a megosztott fürtön futó egyéb számítási feladatok által okozott hibákat és kihagyott SLA-kat. A feladat kritikussági szintjétől függően az összes igény szerinti példányt használhatja az SLA-k teljesítésére, vagy a kihasználatlan és az igény szerinti példányok közötti egyensúlyra a költségmegtakarítás érdekében.