Számítási konfigurációs javaslatok
Ez a cikk a számítási konfigurációval kapcsolatos javaslatokat és ajánlott eljárásokat tartalmazza.
Ha a számítási feladat támogatott, a Databricks a saját számítási erőforrás konfigurálása helyett a kiszolgáló nélküli számítás használatát javasolja. A kiszolgáló nélküli számítás a legegyszerűbb és legmegbízhatóbb számítási lehetőség. Nincs szükség konfigurálásra, mindig elérhető, és a számítási feladatnak megfelelően méretezhető. A kiszolgáló nélküli számítás jegyzetfüzetekhez, feladatokhoz és Delta Live Table-táblákhoz érhető el. Lásd: Csatlakozás kiszolgáló nélküli számításhoz.
Emellett az adatelemzők kiszolgáló nélküli SQL-tárolókkal is lekérdezhetik és megvizsgálhatják a Databricks adatait. Lásd: Mik azok a kiszolgáló nélküli SQL-tárolók?.
Számítási szabályzatok használata
Ha új számítást hoz létre az alapoktól, a Databricks számítási szabályzatok használatát javasolja. A számítási szabályzatokkal előre konfigurált, meghatározott célokra tervezett számítási erőforrásokat hozhat létre, például személyes számításokat, megosztott számításokat, energiafelhasználókat és feladatokat. A szabályzatok korlátozzák a számítási beállítások konfigurálásakor szükséges döntéseket.
Ha nem rendelkezik hozzáféréssel a szabályzatokhoz, forduljon a munkaterület rendszergazdájához. Lásd: Alapértelmezett házirendek és házirendcsaládok.
Számítási méretezési szempontok
Feljegyzés
Az alábbi javaslatok feltételezik, hogy korlátlan fürtlétrehozás áll rendelkezésére. A munkaterület rendszergazdáinak ezt a jogosultságot csak a speciális felhasználók számára kell biztosítaniuk.
Az emberek gyakran gondolnak a számítási méretre a dolgozók száma tekintetében, de vannak más fontos tényezők is:
- Összes végrehajtó mag (számítás): Az összes végrehajtó magjainak teljes száma. Ez határozza meg a számítás maximális párhuzamosságát.
- Teljes végrehajtói memória: A RAM teljes mennyisége az összes végrehajtóban. Ez határozza meg, hogy mennyi adat tárolható a memóriában, mielőtt a lemezre ömlik.
- Végrehajtó helyi tárhelye: A helyi lemezterület típusa és mennyisége. A helyi lemezt elsősorban a shuffles és a gyorsítótárazás során előforduló kiömlések esetén használják.
További szempontok közé tartozik a feldolgozópéldány típusa és mérete, ami a fenti tényezőket is befolyásolja. A számítás méretezése során fontolja meg a következő szempontokat:
- Mennyi adatot használ fel a számítási feladat?
- Mi a számítási feladat számítási összetettsége?
- Honnan olvas adatokat?
- Hogyan particionálják az adatokat külső tárolóban?
- Mennyi párhuzamosságra van szüksége?
Ezeknek a kérdéseknek a megválaszolásával meghatározhatja a számítási feladatok alapján optimális számítási konfigurációkat.
A feldolgozók száma és a feldolgozópéldány-típusok mérete között van egy kiegyensúlyozó művelet. A számítás konfigurálása két feldolgozóval, amelyek mindegyike 16 maggal és 128 GB RAM-mal rendelkezik, ugyanazzal a számítási és memóriával rendelkezik, mint a számítás konfigurálása 8 feldolgozóval, amelyek mindegyike 4 maggal és 32 GB RAM-mal rendelkezik.
Számítási konfigurációs példák
Az alábbi példák a számítási feladatok adott típusain alapuló számítási javaslatokat mutatnak be. Ezek a példák olyan konfigurációkat is tartalmaznak, amelyek elkerülhetők, és hogy ezek a konfigurációk miért nem megfelelőek a számítási feladatok típusaihoz.
Feljegyzés
Az ebben a szakaszban szereplő összes példa (a gépi tanulás betanítása mellett) hasznos lehet a kiszolgáló nélküli számítás használata ahelyett, hogy új számítási erőforrást hozna létre. Ha a számítási feladat nem támogatott kiszolgáló nélküli eszközökön, az alábbi javaslatok segítségével konfigurálhatja a számítási erőforrást.
Adatelemzés
Az adatelemzők általában olyan feldolgozást végeznek, amely több partícióból származó adatokat igényel, ami sok shuffle-művelethez vezet. A kisebb számú nagyobb csomóponttal rendelkező számítási erőforrások csökkenthetik a hálózat és a lemez I/O-ját, amely a shuffles végrehajtásához szükséges.
A nagy virtuálisgép-típussal rendelkező egycsomópontos számítás valószínűleg a legjobb választás, különösen egyetlen elemző számára.
Az elemzési számítási feladatokhoz valószínűleg ugyanazokat az adatokat kell majd többször beolvasni, ezért az ajánlott csomóponttípusok a lemezgyorsítótár-kompatibilis tárolóval vagy a helyi tárolóval rendelkező példányokkal optimalizált tárolók.
Az elemzési számítási feladatokhoz ajánlott további funkciók:
- Engedélyezze az automatikus leállítást annak biztosításához, hogy a számítás leálljon egy inaktivitási időszak után.
- Fontolja meg az automatikus skálázás engedélyezését az elemző tipikus számítási feladatai alapján.
Alapszintű köteg ETL
Az egyszerű kötegelt ETL-feladatok, amelyek nem igényelnek széles körű átalakításokat, például illesztéseket vagy összesítéseket, általában a Photon előnyeit élvezhetik. Válasszon tehát egy általános célú példányt, amely támogatja a Photont.
Az alacsonyabb memória- és tárolási követelményekkel rendelkező példányok költségmegtakarítást eredményezhetnek más feldolgozótípusoknál.
Összetett köteg ETL
Egy összetett ETL-feladathoz, például egy olyanhoz, amely több táblán való összeillesztést igényel, a Databricks azt javasolja, hogy kevesebb feldolgozót használjon az elfojtott adatok mennyiségének csökkentéséhez. Ha kompenzálni szeretné a kevesebb dolgozót, növelje a példányok méretét.
Az összetett átalakítások nagy számítási igényűek lehetnek. Ha jelentős kiömlött lemez- vagy OOM-hibákat észlel, növelje a példányokon rendelkezésre álló memória mennyiségét.
A készletek használatával csökkentheti a számítási indítási időket, és csökkentheti a teljes futásidőt a feladatfolyamatok futtatásakor.
Gépi tanulási modellek betanítása
A gépi tanulási modellek betanítása érdekében a Databricks azt javasolja, hogy hozzon létre egy számítási erőforrást a Személyes számítási szabályzat használatával.
A gépi tanulási modellek betanításához egyetlen csomópontos számítást kell használnia nagy csomóponttípussal. A kevesebb csomópont csökkenti a shuffles hatását.
A további feldolgozók hozzáadása segíthet a stabilitásban, de kerülnie kell a túl sok feldolgozó hozzáadását az adatok átrendezésének többletterhelése miatt.
Az ajánlott feldolgozótípusok a lemez gyorsítótárazásával optimalizált tárolók, vagy olyan példányok, amelyek helyi tárolóval vannak elszámolva ugyanazon adatok ismételt olvasásához és a betanítási adatok gyorsítótárazásához.
A gépi tanulási számítási feladatokhoz ajánlott további funkciók a következők:
- Engedélyezze az automatikus leállítást annak biztosításához, hogy a számítás leálljon egy inaktivitási időszak után.
- Használjon készleteket, amelyek lehetővé teszik a számítás előre jóváhagyott példánytípusra való korlátozását.
- Konzisztens számítási konfigurációk biztosítása szabályzatokkal.