Megosztás a következőn keresztül:


Klasszikus számítási erőforrások konfigurálása adatfolyamokhoz

Ez a lap útmutatást tartalmaz a Lakeflow Spark Deklaratív folyamatok klasszikus számításának konfigurálásához. A JSON-sémára vonatkozó hivatkozásért tekintse meg a clustersPipeline API-referencia definícióját.

A klasszikus számításon futó folyamat létrehozásához a felhasználóknak először engedéllyel kell rendelkezniük a klasszikus számítás üzembe helyezéséhez, akár korlátlan létrehozási engedéllyel, akár számítási szabályzathoz való hozzáféréssel. A kiszolgáló nélküli folyamatok nem igényelnek számítási létrehozási engedélyeket. Alapértelmezés szerint minden munkaterület-felhasználó használhat kiszolgáló nélküli folyamatokat.

Megjegyzés:

Mivel a Lakeflow Spark Deklaratív folyamatok futtatókörnyezete kezeli a folyamatszámítás életciklusát, és a Databricks Runtime egyéni verzióját futtatja, nem állíthat be manuálisan néhány számítási beállítást egy folyamatkonfigurációban, például a Spark-verzióban vagy a fürtnevekben. Lásd klaszterattribútumokat, amelyek nem felhasználói állíthatóak.

A folyamat számítási adatainak kiválasztása

A Lakeflow Pipelines-szerkesztőből konfigurálhatja a folyamat klasszikus számítását:

  1. Kattintson a Beállítások gombra.
  2. A folyamatbeállítások Számítási szakaszában kattintson a Ceruza ikonra.
  3. Ha be van jelölve, törölje a jelet a Kiszolgáló nélküli jelölőnégyzetből.
  4. Módosítsa a számítási beállításokat, majd kattintson a Mentés gombra.

Ez konfigurálja a folyamatot a klasszikus számítás használatára, és lehetővé teszi a számítási beállítások szerkesztését az alábbiak szerint.

További információ a Lakeflow Pipelines-szerkesztőről: ETL-folyamatok fejlesztése és hibakeresése a Lakeflow Pipelines-szerkesztővel.

Számítási szabályzat kiválasztása

A munkaterület-rendszergazdák számítási szabályzatokat konfigurálhatnak, hogy hozzáférést biztosítsanak a felhasználóknak a folyamatok klasszikus számítási erőforrásaihoz. A számítási szabályzatok megadása nem kötelező. Forduljon a munkaterület rendszergazdájához, ha nem rendelkezik a szükséges számítási jogosultságokkal. Lásd : A Lakeflow Spark Deklaratív folyamatok számítási korlátainak meghatározása.

A Pipelines API használata esetén a számítási szabályzat alapértelmezett értékeinek helyes alkalmazása érdekében állítsa be "apply_policy_default_values": true a clusters definíciót:

{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}

Számítási címkék konfigurálása

Egyéni címkéket adhat hozzá a folyamat klasszikus számítási erőforrásaihoz. A címkék lehetővé teszik a szervezet különböző csoportjai által használt számítási erőforrások költségeinek monitorozását. A Databricks ezeket a címkéket a felhőbeli erőforrásokra és a használati rendszer tábláiban rögzített használati naplókra alkalmazza. Címkéket a Fürtcímkék felhasználói felület beállításával vagy a folyamat JSON-konfigurációjának szerkesztésével vehet fel.

Folyamat futtatásához válassza ki a példánytípusokat

Alapértelmezés szerint a Lakeflow Spark Deklaratív folyamatok a folyamat illesztőprogram- és feldolgozócsomópontjaihoz tartozó példánytípusokat választják ki. Igény szerint konfigurálhatja a példánytípusokat. Válassza ki például a példánytípusokat a folyamat teljesítményének javítása vagy a memóriaproblémák kezelése érdekében a folyamat futtatásakor.

Példánytípusok konfigurálása folyamat létrehozásakor vagy szerkesztésekor a Lakeflow Pipelines-szerkesztőben:

  1. Kattintson a Beállítások gombra.
  2. A folyamatbeállítások Számítás szakaszában kattintson a Ceruza ikonra.
  3. A Speciális beállítások szakaszban válassza ki a folyamat munkafeladattípus és illesztőprogram típus példánytípusait.

A frissítési és karbantartási fürtök külön beállításainak konfigurálása

Minden deklaratív folyamat két kapcsolódó számítási erőforrással rendelkezik: egy frissítési fürt, amely folyamatfrissítéseket dolgoz fel, és egy karbantartási fürt, amely napi karbantartási feladatokat futtat (beleértve a prediktív optimalizálást). Alapértelmezés szerint a számítási konfigurációk mindkét fürtre érvényesek. Mindkét fürt ugyanazon beállításainak használata javítja a karbantartási futtatások megbízhatóságát azáltal, hogy biztosítja a szükséges konfigurációkat, például a tárolóhely adatelérési hitelesítő adatait a karbantartási fürtre.

Ha csak a két fürt egyikére szeretne beállításokat alkalmazni, adja hozzá a label mezőt a beállítás JSON-objektumhoz. A mezőnek label három lehetséges értéke van:

  • maintenance: A beállítást csak a karbantartási fürtre alkalmazza.
  • updates: A beállítást csak a frissítési fürtre alkalmazza.
  • default: Alkalmazza a beállítást a frissítési és karbantartási fürtökre is. Ez az alapértelmezett érték, ha a label mező nincs megadva.

Ütköző beállítás esetén a címkével vagy updates címkével ellátott maintenance beállítás felülírja a default címkével definiált beállítást.

Megjegyzés:

A napi karbantartási fürt csak bizonyos esetekben használható:

  • A Hive metaadattárában tárolt folyamatok.
  • Olyan munkaterületeken lévő folyamatok, amelyek nem fogadták el a kiszolgáló nélküli számítási szolgáltatási feltételeket. Ha segítségre van szüksége a feltételek elfogadásához, forduljon a Databricks képviselőjéhez.

Példa: A frissítési fürt beállításának meghatározása

Az alábbi példa egy Spark-konfigurációs paramétert határoz meg, amely csak a updates-fürt konfigurációjába van hozzáadva:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

Példa: A frissítési fürt példánytípusainak konfigurálása

Annak érdekében, hogy ne rendeljen felesleges erőforrásokat a maintenance fürthöz, ez a példa a updates címkével állítja be csak a updates fürt példánytípusát.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

Számítási leállítás késleltetése

A fürtleállítási viselkedés szabályozásához használhat fejlesztési vagy éles módot, vagy használhatja a pipelines.clusterShutdown.delay beállítást a folyamatkonfigurációban. Az alábbi példa 60 másodpercre állítja a pipelines.clusterShutdown.delay értékét:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Ha production mód engedélyezve van, a pipelines.clusterShutdown.delay alapértelmezett értéke 0 seconds. Ha development mód engedélyezve van, az alapértelmezett érték 2 hours.

Megjegyzés:

Mivel a Lakeflow Spark Deklaratív folyamatok számítási erőforrása automatikusan leáll, ha nincs használatban, nem használhat olyan számítási szabályzatot, amely beállítja autotermination_minutes. Ez hibát eredményez.

Egyetlen csomópontos számítás létrehozása

Egyetlen csomópont számítása rendelkezik egy illesztőcsomópontgal, amely fő- és feldolgozóként is működik. Ez olyan számítási feladatokhoz készült, amelyek kis mennyiségű adatot használnak, vagy nem elosztottak.

Egycsomópontos számítás létrehozásához állítsa a 0 értéket num_workers . Például:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}