Számítási konfiguráció – ajánlott eljárások

Ez a cikk az opcionális számítási konfigurációk beállítására vonatkozó javaslatokat ismerteti. A konfigurációs döntések csökkentése érdekében az Azure Databricks azt javasolja, hogy kihasználják a kiszolgáló nélküli számítási és számítási szabályzatokat is.

  • A kiszolgáló nélküli számításhoz nincs szükség számítási beállítások konfigurálására. A kiszolgáló nélküli számítás mindig elérhető, és a számítási feladatnak megfelelően skálázható. Lásd a számítási típusokat.

  • A számítási szabályzatokkal előre konfigurált számításokat hozhat létre meghatározott használati esetekhez, például személyes számításhoz, megosztott számítási feladatokhoz, energiafelhasználókhoz és feladatokhoz. Ha nem fér hozzá a szabályzatokhoz, forduljon a munkaterület rendszergazdájához. Lásd: Alapértelmezett házirendek és házirendcsaládok.

Ha úgy dönt, hogy saját konfigurációkkal hoz létre számítást, az alábbi szakaszok javaslatokat nyújtanak a tipikus használati esetekre.

Feljegyzés

Ez a cikk azt feltételezi, hogy korlátlan fürtlétrehozás áll rendelkezésére. A munkaterület rendszergazdáinak ezt a jogosultságot csak a speciális felhasználók számára kell biztosítaniuk.

Számítási méretezési szempontok

Kapcsolatok gyakran a számítási méretre gondolnak a feldolgozók száma tekintetében, de más fontos tényezőket is figyelembe kell venni:

  • Összes végrehajtó mag (számítás): Az összes végrehajtó magjainak teljes száma. Ez határozza meg a számítás maximális párhuzamosságát.
  • Teljes végrehajtói memória: A RAM teljes mennyisége az összes végrehajtóban. Ez határozza meg, hogy mennyi adat tárolható a memóriában, mielőtt a lemezre ömlik.
  • Végrehajtó helyi tárhelye: A helyi lemezterület típusa és mennyisége. A helyi lemezt elsősorban a shuffles és a gyorsítótárazás során előforduló kiömlések esetén használják.

További szempontok közé tartozik a feldolgozópéldány típusa és mérete, ami a fenti tényezőket is befolyásolja. A számítás méretezése során fontolja meg a következő szempontokat:

  • Mennyi adatot használ fel a számítási feladat?
  • Mi a számítási feladat számítási összetettsége?
  • Honnan olvas adatokat?
  • Hogyan particionálják az adatokat külső tárolóban?
  • Mennyi párhuzamosságra van szüksége?

Ezeknek a kérdéseknek a megválaszolásával meghatározhatja a számítási feladatok alapján optimális számítási konfigurációkat.

A feldolgozók száma és a feldolgozópéldány-típusok mérete között van egy kiegyensúlyozó művelet. A számítás konfigurálása két feldolgozóval, egyenként 40 maggal és 100 GB RAM-mal ugyanazzal a számítási és memóriával rendelkezik, mint a 10 magos és 25 GB RAM-os számítás konfigurálása.

Számítási méretezési példák

Az alábbi példák a számítási feladatok adott típusain alapuló számítási javaslatokat mutatnak be. Ezek a példák olyan konfigurációkat is tartalmaznak, amelyek elkerülhetők, és hogy ezek a konfigurációk miért nem megfelelőek a számítási feladatok típusaihoz.

Adatelemzés

Az adatelemzők általában olyan feldolgozást végeznek, amely több partícióból származó adatokat igényel, ami sok shuffle-művelethez vezet. A kisebb számú csomóponttal végzett számítás csökkentheti a hálózat és a lemez I/O-jának számát, amely a shuffles végrehajtásához szükséges.

Ha csak SQL-t ír, az adatelemzéshez a legjobb megoldás egy kiszolgáló nélküli SQL Warehouse lesz.

Feljegyzés

Ha a munkaterület engedélyezve van a kiszolgáló nélküli számítási nyilvános előzetes verzióban, a kiszolgáló nélküli számítás használatával futtathat elemzést Pythonban vagy SQL-ben. Tekintse meg a jegyzetfüzetek kiszolgáló nélküli számítását.

Ha új számítást kell konfigurálnia, valószínűleg egy nagy virtuálisgép-típussal rendelkező egycsomópontos számítás a legjobb választás, különösen egyetlen elemző számára.

Az elemzési számítási feladatokhoz valószínűleg ugyanazokat az adatokat kell majd többször beolvasni, ezért az ajánlott csomóponttípusok a lemezgyorsítótár-kompatibilis tárolással vannak optimalizálva.

Az elemzési számítási feladatokhoz ajánlott további funkciók:

  • Engedélyezze az automatikus leállítást annak biztosításához, hogy a számítás leálljon egy inaktivitási időszak után.
  • Fontolja meg az automatikus skálázás engedélyezését az elemző tipikus számítási feladatai alapján.
  • Fontolja meg a készletek használatát, amelyek lehetővé teszik a számítás előre jóváhagyott példánytípusokra való korlátozását és a konzisztens számítási konfigurációk biztosítását.

Alapszintű köteg ETL

Feljegyzés

Ha a munkaterület engedélyezve van a munkafolyamatok kiszolgáló nélküli számításához (nyilvános előzetes verzió), kiszolgáló nélküli számításokkal futtathatja a feladatokat. Tekintse meg a jegyzetfüzetek kiszolgáló nélküli számítását.

Az egyszerű kötegelt ETL-feladatok, amelyek nem igényelnek széles körű átalakításokat, például illesztéseket vagy összesítéseket, általában a számításoptimalizált feldolgozótípusok előnyeit élvezhetik.

A számításoptimalizált feldolgozók alacsonyabb memória- és tárolási követelményeket támasztanak, és költségmegtakarítást eredményezhetnek más feldolgozótípusoknál.

Összetett köteg ETL

Feljegyzés

Ha a munkaterület engedélyezve van a munkafolyamatok kiszolgáló nélküli számításához (nyilvános előzetes verzió), kiszolgáló nélküli számításokkal futtathatja a feladatokat. Tekintse meg a jegyzetfüzetek kiszolgáló nélküli számítását.

Egy összetett ETL-feladathoz, például egy olyan feladathoz, amely több táblához való összeillesztést igényel, a Databricks azt javasolja, hogy csökkentse a feldolgozók számát az elkeveredett adatok mennyiségének csökkentése érdekében.

Az összetett átalakítások nagy számítási igényűek lehetnek. Ha jelentős kiömlést észlel a lemezre vagy az OOM-ra, további csomópontokat kell hozzáadnia.

A Databricks számításoptimalizált feldolgozótípusokat javasol. A számításoptimalizált feldolgozók alacsonyabb memória- és tárolási követelményeket támasztanak, és költségmegtakarítást eredményezhetnek más feldolgozótípusoknál. A készletek használatával csökkentheti a számítási indítási időket, és csökkentheti a teljes futásidőt a feladatfolyamatok futtatásakor.

Gépi tanulási modellek betanítása

A Databricks egy csomópontos számítást javasol nagy csomóponttípussal a gépi tanulási modellek betanításához. A kevesebb csomópont csökkenti a shuffles hatását.

A további feldolgozók hozzáadása segíthet a stabilitásban, de kerülnie kell a túl sok feldolgozó hozzáadását az adatok átrendezésének többletterhelése miatt.

Az ajánlott feldolgozótípusok a lemez gyorsítótárazásával optimalizált tárolók, amelyek lehetővé teszik ugyanazon adatok ismételt olvasásának figyelembe vételét és a betanítási adatok gyorsítótárazását. Ha a tárhelyoptimalizált csomópontok által biztosított számítási és tárolási lehetőségek nem elegendőek, fontolja meg a GPU-optimalizált csomópontokat. Lehetséges hátránya, hogy nincs lemez gyorsítótárazási támogatása ezekkel a csomópontokkal.

A gépi tanulási számítási feladatokhoz ajánlott további funkciók a következők:

  • Engedélyezze az automatikus leállítást annak biztosításához, hogy a számítás leálljon egy inaktivitási időszak után.
  • Használjon készleteket, amelyek lehetővé teszik a számítás előre jóváhagyott példánytípusokra való korlátozását és a konzisztens számítási konfigurációk biztosítását.