Megosztás a következőn keresztül:


Számítási konfigurációs javaslatok

Ez a cikk a számítási konfigurációval kapcsolatos javaslatokat és ajánlott eljárásokat tartalmazza.

Ha a számítási feladat támogatott, a Databricks a saját számítási erőforrás konfigurálása helyett a kiszolgáló nélküli számítás használatát javasolja. A kiszolgáló nélküli számítás a legegyszerűbb és legmegbízhatóbb számítási lehetőség. Nincs szükség konfigurálásra, mindig elérhető, és a számítási feladatnak megfelelően méretezhető. A kiszolgáló nélküli számítás jegyzetfüzetekhez, feladatokhoz és Delta Live Table-táblákhoz érhető el. Lásd: Csatlakozás kiszolgáló nélküli számításhoz.

Emellett az adatelemzők kiszolgáló nélküli SQL-tárolókkal is lekérdezhetik és megvizsgálhatják a Databricks adatait. Lásd: Mik azok a kiszolgáló nélküli SQL-tárolók?.

Számítási szabályzatok használata

Ha új számítást hoz létre az alapoktól, a Databricks számítási szabályzatok használatát javasolja. A számítási szabályzatokkal előre konfigurált, meghatározott célokra tervezett számítási erőforrásokat hozhat létre, például személyes számításokat, megosztott számításokat, energiafelhasználókat és feladatokat. A szabályzatok korlátozzák a számítási beállítások konfigurálásakor szükséges döntéseket.

Ha nem rendelkezik hozzáféréssel a szabályzatokhoz, forduljon a munkaterület rendszergazdájához. Lásd: Alapértelmezett házirendek és házirendcsaládok.

Számítási méretezési szempontok

Feljegyzés

Az alábbi javaslatok feltételezik, hogy korlátlan fürtlétrehozás áll rendelkezésére. A munkaterület rendszergazdáinak ezt a jogosultságot csak a speciális felhasználók számára kell biztosítaniuk.

Az emberek gyakran gondolnak a számítási méretre a dolgozók száma tekintetében, de vannak más fontos tényezők is:

  • Összes végrehajtó mag (számítás): Az összes végrehajtó magjainak teljes száma. Ez határozza meg a számítás maximális párhuzamosságát.
  • Teljes végrehajtói memória: A RAM teljes mennyisége az összes végrehajtóban. Ez határozza meg, hogy mennyi adat tárolható a memóriában, mielőtt a lemezre ömlik.
  • Végrehajtó helyi tárhelye: A helyi lemezterület típusa és mennyisége. A helyi lemezt elsősorban a shuffles és a gyorsítótárazás során előforduló kiömlések esetén használják.

További szempontok közé tartozik a feldolgozópéldány típusa és mérete, ami a fenti tényezőket is befolyásolja. A számítás méretezése során fontolja meg a következő szempontokat:

  • Mennyi adatot használ fel a számítási feladat?
  • Mi a számítási feladat számítási összetettsége?
  • Honnan olvas adatokat?
  • Hogyan particionálják az adatokat külső tárolóban?
  • Mennyi párhuzamosságra van szüksége?

Ezeknek a kérdéseknek a megválaszolásával meghatározhatja a számítási feladatok alapján optimális számítási konfigurációkat.

A feldolgozók száma és a feldolgozópéldány-típusok mérete között van egy kiegyensúlyozó művelet. A számítás konfigurálása két feldolgozóval, amelyek mindegyike 16 maggal és 128 GB RAM-mal rendelkezik, ugyanazzal a számítási és memóriával rendelkezik, mint a számítás konfigurálása 8 feldolgozóval, amelyek mindegyike 4 maggal és 32 GB RAM-mal rendelkezik.

Számítási konfigurációs példák

Az alábbi példák a számítási feladatok adott típusain alapuló számítási javaslatokat mutatnak be. Ezek a példák olyan konfigurációkat is tartalmaznak, amelyek elkerülhetők, és hogy ezek a konfigurációk miért nem megfelelőek a számítási feladatok típusaihoz.

Feljegyzés

Az ebben a szakaszban szereplő összes példa (a gépi tanulás betanítása mellett) hasznos lehet a kiszolgáló nélküli számítás használata ahelyett, hogy új számítási erőforrást hozna létre. Ha a számítási feladat nem támogatott kiszolgáló nélküli eszközökön, az alábbi javaslatok segítségével konfigurálhatja a számítási erőforrást.

Adatelemzés

Az adatelemzők általában olyan feldolgozást végeznek, amely több partícióból származó adatokat igényel, ami sok shuffle-művelethez vezet. A kisebb számú nagyobb csomóponttal rendelkező számítási erőforrások csökkenthetik a hálózat és a lemez I/O-ját, amely a shuffles végrehajtásához szükséges.

A nagy virtuálisgép-típussal rendelkező egycsomópontos számítás valószínűleg a legjobb választás, különösen egyetlen elemző számára.

Az elemzési számítási feladatokhoz valószínűleg ugyanazokat az adatokat kell majd többször beolvasni, ezért az ajánlott csomóponttípusok a lemezgyorsítótár-kompatibilis tárolóval vagy a helyi tárolóval rendelkező példányokkal optimalizált tárolók.

Az elemzési számítási feladatokhoz ajánlott további funkciók:

  • Engedélyezze az automatikus leállítást annak biztosításához, hogy a számítás leálljon egy inaktivitási időszak után.
  • Fontolja meg az automatikus skálázás engedélyezését az elemző tipikus számítási feladatai alapján.

Alapszintű köteg ETL

Az egyszerű kötegelt ETL-feladatok, amelyek nem igényelnek széles körű átalakításokat, például illesztéseket vagy összesítéseket, általában a Photon előnyeit élvezhetik. Válasszon tehát egy általános célú példányt, amely támogatja a Photont.

Az alacsonyabb memória- és tárolási követelményekkel rendelkező példányok költségmegtakarítást eredményezhetnek más feldolgozótípusoknál.

Összetett köteg ETL

Egy összetett ETL-feladathoz, például egy olyanhoz, amely több táblán való összeillesztést igényel, a Databricks azt javasolja, hogy kevesebb feldolgozót használjon az elfojtott adatok mennyiségének csökkentéséhez. Ha kompenzálni szeretné a kevesebb dolgozót, növelje a példányok méretét.

Az összetett átalakítások nagy számítási igényűek lehetnek. Ha jelentős kiömlött lemez- vagy OOM-hibákat észlel, növelje a példányokon rendelkezésre álló memória mennyiségét.

A készletek használatával csökkentheti a számítási indítási időket, és csökkentheti a teljes futásidőt a feladatfolyamatok futtatásakor.

Gépi tanulási modellek betanítása

A gépi tanulási modellek betanítása érdekében a Databricks azt javasolja, hogy hozzon létre egy számítási erőforrást a Személyes számítási szabályzat használatával.

A gépi tanulási modellek betanításához egyetlen csomópontos számítást kell használnia nagy csomóponttípussal. A kevesebb csomópont csökkenti a shuffles hatását.

A további feldolgozók hozzáadása segíthet a stabilitásban, de kerülnie kell a túl sok feldolgozó hozzáadását az adatok átrendezésének többletterhelése miatt.

Az ajánlott feldolgozótípusok a lemez gyorsítótárazásával optimalizált tárolók, vagy olyan példányok, amelyek helyi tárolóval vannak elszámolva ugyanazon adatok ismételt olvasásához és a betanítási adatok gyorsítótárazásához.

A gépi tanulási számítási feladatokhoz ajánlott további funkciók a következők:

  • Engedélyezze az automatikus leállítást annak biztosításához, hogy a számítás leálljon egy inaktivitási időszak után.
  • Használjon készleteket, amelyek lehetővé teszik a számítás előre jóváhagyott példánytípusra való korlátozását.
  • Konzisztens számítási konfigurációk biztosítása szabályzatokkal.