Sdílet prostřednictvím


Konfigurace klasických výpočetních prostředků pro potrubí

Tato stránka obsahuje pokyny pro konfiguraci klasických výpočetních prostředků pro deklarativní kanály Sparku Lakeflow. Pro referenční informace o schématu JSON si přečtěte definici v clusters.

Pokud chcete vytvořit kanál, který běží na klasických výpočetních prostředcích, musí mít uživatelé nejprve oprávnění k nasazení klasických výpočetních prostředků, a to buď neomezené oprávnění k vytvoření, nebo přístup k výpočetním zásadám. Bezserverové kanály nevyžadují oprávnění k vytváření výpočetních prostředků. Ve výchozím nastavení můžou všichni uživatelé pracovního prostoru používat bezserverové kanály.

Poznámka:

Vzhledem k tomu, že Lakeflow Spark Declarative Pipelines runtime spravuje životní cyklus výpočetních prostředků pipeline a spouští vlastní verzi Databricks Runtime, nemůžete v konfiguraci pipeline nastavit některá výpočetní nastavení, jako například verzi Sparku nebo názvy clusterů. Viz atributy clusteru, které nejsou nastaveny uživatelem.

Vyberte výpočetní prostředky pro váš pipeline

Konfigurace klasického výpočetního prostředí pro váš kanál z Editoru kanálů Lakeflow:

  1. Klikněte na Nastavení.
  2. V části Výpočty nastavení kanálu klikněte na ikonu Tužka. Upravte ji.
  3. Pokud je zaškrtnuté, zrušte zaškrtnutí políčka Bezserverová.
  4. Proveďte jakékoli další změny nastavení výpočetních prostředků a potom klikněte na Uložit.

Tím se kanál nakonfiguruje tak, aby používal klasický výpočetní výkon, a umožňuje upravit nastavení výpočetních prostředků, jak je popsáno níže.

Další informace o editoru kanálů Lakeflow najdete v tématu Vývoj a ladění kanálů ETL pomocí Editoru kanálů Lakeflow.

Vyberte zásadu výpočtů

Správci pracovního prostoru můžou nakonfigurovat zásady výpočetního nasazení pro zajištění uživatelského přístupu ke klasickým výpočetním prostředkům pro pipeline procesy. Výpočetní zásady jsou volitelné. Pokud nemáte požadovaná výpočetní oprávnění, obraťte se na správce pracovního prostoru. Viz Určení limitů pro výpočetní kapacitu deklarativních kanálů Lakeflow Spark.

Pokud používáte Pipelines API, ujistěte se, že se správně použijí výchozí hodnoty výpočetních zásad, nastavte "apply_policy_default_values": true v definici clusters.

{
  "clusters": [
    {
      "label": "default",
      "policy_id": "<policy-id>",
      "apply_policy_default_values": true
    }
  ]
}

Konfigurace výpočetních značek

Můžete přidat vlastní značky ke klasické výpočetní prostředky vaší pipeline. Značky umožňují monitorovat náklady na výpočetní prostředky používané různými skupinami ve vaší organizaci. Databricks tyto značky použije na cloudové prostředky a na protokoly využití zaznamenané v tabulkách systému využití. Značky můžete přidat pomocí nastavení uživatelského rozhraní značek clusteru nebo úpravou konfigurace JSON kanálu.

Výběr typů instancí pro spuštění kanálu

Ve výchozím nastavení deklarativní kanály Lakeflow Sparku vyberou typy instancí pro ovladače kanálu a pracovní uzly. Volitelně můžete nakonfigurovat typy instancí. Vyberte například typy instancí, abyste zlepšili výkon kanálu nebo vyřešili problémy s pamětí při spuštění kanálu.

Konfigurace typů instancí při vytváření nebo úpravě kanálu v Editoru kanálů Lakeflow:

  1. Klikněte na tlačítko Nastavení.
  2. V části Výpočty nastavení potrubí klikněte na ikonu tužka.
  3. V části Upřesnit nastavení vyberte typ pracovníka a typ instance ovladače pro potrubí.

Konfigurace samostatných nastavení pro clustery aktualizací a údržby

Každý deklarativní kanál má dva přidružené výpočetní prostředky: aktualizační cluster, který zpracovává aktualizace kanálu a cluster údržby, který spouští každodenní úlohy údržby (včetně prediktivní optimalizace). Ve výchozím nastavení se vaše výpočetní konfigurace vztahují na oba tyto clustery. Použití stejného nastavení pro oba clustery zlepšuje spolehlivost údržbových operací tím, že se zajistí, že požadované konfigurace, jako jsou přístupové údaje k datům ve skladovacích umístěních, jsou aplikovány na údržbový cluster.

Pokud chcete použít nastavení jenom na jeden ze dvou clusterů, přidejte label pole do objektu JSON nastavení. Pole má tři možné hodnoty label :

  • maintenance: Použije nastavení pouze pro cluster údržby.
  • updates: Použije nastavení pouze na aktualizační cluster.
  • default: Použije nastavení pro clustery aktualizací i údržby. Toto je výchozí hodnota, pokud label je pole vynecháno.

Pokud existuje konfliktní nastavení, nastavení s updates popiskem nebo maintenance popiskem přepíše nastavení definované popiskem default .

Poznámka:

Cluster denní údržby se používá pouze v určitých případech:

  • Kanály uložené v metastoru Hive
  • Kanály v pracovních prostorech, které nepřijaly bezserverové výpočetní podmínky služby. Pokud potřebujete pomoc s přijetím podmínek, obraťte se na zástupce Databricks.

Příklad: Definování nastavení pro aktualizační cluster

Následující příklad definuje parametr konfigurace Sparku, který se přidá pouze do konfigurace pro cluster updates:

{
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    },
    {
      "label": "updates",
      "spark_conf": {
        "key": "value"
      }
    }
  ]
}

Příklad: Konfigurace typů instancí pro aktualizační cluster

Aby se zabránilo přiřazování nepotřebných prostředků ke clusteru maintenance, použije tento příklad popisek updates k nastavení typů instancí pouze pro cluster updates.

{
  "clusters": [
    {
      "label": "updates",
      "node_type_id": "Standard_D12_v2",
      "driver_node_type_id": "Standard_D3_v2",
      "...": "..."
    }
  ]
}

Zpoždění vypnutí výpočetních prostředků

Pokud chcete řídit chování vypnutí clusteru, můžete využít vývojový nebo produkční režim, či nastavení pipelines.clusterShutdown.delay v konfiguraci pipeline. Následující příklad nastaví hodnotu pipelines.clusterShutdown.delay na 60 sekund:

{
  "configuration": {
    "pipelines.clusterShutdown.delay": "60s"
  }
}

Pokud je povolen režim production, výchozí hodnota pro pipelines.clusterShutdown.delay je 0 seconds. Pokud je povolen režim development, výchozí hodnota je 2 hours.

Poznámka:

Vzhledem k tomu, že prostředky deklarativních kanálů Lakeflow Spark se automaticky vypnou, když se nepoužívají, nemůžete použít výpočetní zásady, které nastavují autotermination_minutes. Výsledkem je chyba.

Vytvořte výpočetní uzel s jedním uzlem

Jednouzlový výpočet má řídicí uzel, který funguje jako hlavní i pracovní. Tato možnost je určená pro úlohy, které používají malé objemy dat nebo nejsou distribuovány.

Pokud chcete vytvořit jednounodový výpočetní uzel, nastavte num_workers na 0. Například:

{
  "clusters": [
    {
      "num_workers": 0
    }
  ]
}