Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Ez a lap útmutatást tartalmaz a Lakeflow Spark Deklaratív folyamatok klasszikus számításának konfigurálásához. A JSON-sémára vonatkozó hivatkozásért tekintse meg a clustersPipeline API-referencia definícióját.
A klasszikus számításon futó folyamat létrehozásához a felhasználóknak először engedéllyel kell rendelkezniük a klasszikus számítás üzembe helyezéséhez, akár korlátlan létrehozási engedéllyel, akár számítási szabályzathoz való hozzáféréssel. A kiszolgáló nélküli folyamatok nem igényelnek számítási létrehozási engedélyeket. Alapértelmezés szerint minden munkaterület-felhasználó használhat kiszolgáló nélküli folyamatokat.
Megjegyzés:
Mivel a Lakeflow Spark Deklaratív folyamatok futtatókörnyezete kezeli a folyamatszámítás életciklusát, és a Databricks Runtime egyéni verzióját futtatja, nem állíthat be manuálisan néhány számítási beállítást egy folyamatkonfigurációban, például a Spark-verzióban vagy a fürtnevekben. Lásd klaszterattribútumokat, amelyek nem felhasználói állíthatóak.
A folyamat számítási adatainak kiválasztása
A Lakeflow Pipelines-szerkesztőből konfigurálhatja a folyamat klasszikus számítását:
- Kattintson a Beállítások gombra.
- A folyamatbeállítások Számítási szakaszában kattintson a
- Ha be van jelölve, törölje a jelet a Kiszolgáló nélküli jelölőnégyzetből.
- Módosítsa a számítási beállításokat, majd kattintson a Mentés gombra.
Ez konfigurálja a folyamatot a klasszikus számítás használatára, és lehetővé teszi a számítási beállítások szerkesztését az alábbiak szerint.
További információ a Lakeflow Pipelines-szerkesztőről: ETL-folyamatok fejlesztése és hibakeresése a Lakeflow Pipelines-szerkesztővel.
Számítási szabályzat kiválasztása
A munkaterület-rendszergazdák számítási szabályzatokat konfigurálhatnak, hogy hozzáférést biztosítsanak a felhasználóknak a folyamatok klasszikus számítási erőforrásaihoz. A számítási szabályzatok megadása nem kötelező. Forduljon a munkaterület rendszergazdájához, ha nem rendelkezik a szükséges számítási jogosultságokkal. Lásd : A Lakeflow Spark Deklaratív folyamatok számítási korlátainak meghatározása.
A Pipelines API használata esetén a számítási szabályzat alapértelmezett értékeinek helyes alkalmazása érdekében állítsa be "apply_policy_default_values": true a clusters definíciót:
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
Számítási címkék konfigurálása
Egyéni címkéket adhat hozzá a folyamat klasszikus számítási erőforrásaihoz. A címkék lehetővé teszik a szervezet különböző csoportjai által használt számítási erőforrások költségeinek monitorozását. A Databricks ezeket a címkéket a felhőbeli erőforrásokra és a használati rendszer tábláiban rögzített használati naplókra alkalmazza. Címkéket a Fürtcímkék felhasználói felület beállításával vagy a folyamat JSON-konfigurációjának szerkesztésével vehet fel.
Folyamat futtatásához válassza ki a példánytípusokat
Alapértelmezés szerint a Lakeflow Spark Deklaratív folyamatok a folyamat illesztőprogram- és feldolgozócsomópontjaihoz tartozó példánytípusokat választják ki. Igény szerint konfigurálhatja a példánytípusokat. Válassza ki például a példánytípusokat a folyamat teljesítményének javítása vagy a memóriaproblémák kezelése érdekében a folyamat futtatásakor.
Példánytípusok konfigurálása folyamat létrehozásakor vagy szerkesztésekor a Lakeflow Pipelines-szerkesztőben:
- Kattintson a Beállítások gombra.
- A folyamatbeállítások Számítás szakaszában kattintson a
- A Speciális beállítások szakaszban válassza ki a folyamat munkafeladattípus és illesztőprogram típus példánytípusait.
A frissítési és karbantartási fürtök külön beállításainak konfigurálása
Minden deklaratív folyamat két kapcsolódó számítási erőforrással rendelkezik: egy frissítési fürt, amely folyamatfrissítéseket dolgoz fel, és egy karbantartási fürt, amely napi karbantartási feladatokat futtat (beleértve a prediktív optimalizálást). Alapértelmezés szerint a számítási konfigurációk mindkét fürtre érvényesek. Mindkét fürt ugyanazon beállításainak használata javítja a karbantartási futtatások megbízhatóságát azáltal, hogy biztosítja a szükséges konfigurációkat, például a tárolóhely adatelérési hitelesítő adatait a karbantartási fürtre.
Ha csak a két fürt egyikére szeretne beállításokat alkalmazni, adja hozzá a label mezőt a beállítás JSON-objektumhoz. A mezőnek label három lehetséges értéke van:
-
maintenance: A beállítást csak a karbantartási fürtre alkalmazza. -
updates: A beállítást csak a frissítési fürtre alkalmazza. -
default: Alkalmazza a beállítást a frissítési és karbantartási fürtökre is. Ez az alapértelmezett érték, ha alabelmező nincs megadva.
Ütköző beállítás esetén a címkével vagy updates címkével ellátott maintenance beállítás felülírja a default címkével definiált beállítást.
Megjegyzés:
A napi karbantartási fürt csak bizonyos esetekben használható:
- A Hive metaadattárában tárolt folyamatok.
- Olyan munkaterületeken lévő folyamatok, amelyek nem fogadták el a kiszolgáló nélküli számítási szolgáltatási feltételeket. Ha segítségre van szüksége a feltételek elfogadásához, forduljon a Databricks képviselőjéhez.
- Olyan munkaterületeken lévő folyamatok, amelyek nem megfelelően konfigurálták a kiszolgáló nélküli magánhivatkozást.
Példa: A frissítési fürt beállításának meghatározása
Az alábbi példa egy Spark-konfigurációs paramétert határoz meg, amely csak a updates-fürt konfigurációjába van hozzáadva:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Példa: A frissítési fürt példánytípusainak konfigurálása
Annak érdekében, hogy ne rendeljen felesleges erőforrásokat a maintenance fürthöz, ez a példa a updates címkével állítja be csak a updates fürt példánytípusát.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"...": "..."
}
]
}
Számítási leállítás késleltetése
A fürtleállítási viselkedés szabályozásához használhat fejlesztési vagy éles módot, vagy használhatja a pipelines.clusterShutdown.delay beállítást a folyamatkonfigurációban. Az alábbi példa 60 másodpercre állítja a pipelines.clusterShutdown.delay értékét:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Ha production mód engedélyezve van, a pipelines.clusterShutdown.delay alapértelmezett értéke 0 seconds. Ha development mód engedélyezve van, az alapértelmezett érték 2 hours.
Megjegyzés:
Mivel a Lakeflow Spark Deklaratív folyamatok számítási erőforrása automatikusan leáll, ha nincs használatban, nem használhat olyan számítási szabályzatot, amely beállítja autotermination_minutes. Ez hibát eredményez.
Egyetlen csomópontos számítás létrehozása
Egyetlen csomópont számítása rendelkezik egy illesztőcsomópontgal, amely fő- és feldolgozóként is működik. Ez olyan számítási feladatokhoz készült, amelyek kis mennyiségű adatot használnak, vagy nem elosztottak.
Egycsomópontos számítás létrehozásához állítsa a 0 értéket num_workers . Például:
{
"clusters": [
{
"num_workers": 0
}
]
}