Optimalizace využití clusteru kanálů Delta Live Tables s využitím rozšířeného automatického škálování

Vylepšené automatické škálování Databricks optimalizuje využití clusteru automatickým přidělováním prostředků clusteru na základě svazku úloh s minimálním dopadem na latenci zpracování dat vašich kanálů.

Vylepšené automatické škálování vylepšuje funkce automatického škálování clusteru Azure Databricks s následujícími funkcemi :

  • Vylepšené automatické škálování implementuje optimalizaci úloh streamování a přidává vylepšení pro zlepšení výkonu dávkových úloh. Vylepšené automatické škálování optimalizuje náklady přidáním nebo odebráním počítačů při změnách úloh.
  • Vylepšené automatické škálování proaktivně vypne nevyužité uzly a zaručuje, že během vypínání nejsou žádné neúspěšné úlohy. Stávající funkce automatického škálování clusteru vertikálně navyšuje kapacitu uzlů pouze v případě, že je uzel nečinný.

Vylepšené automatické škálování je výchozí režim automatického škálování při vytváření nového kanálu v uživatelském rozhraní Delta Live Tables. Rozšířené automatické škálování pro existující kanály můžete povolit úpravou nastavení kanálu v uživatelském rozhraní. Rozšířené automatické škálování můžete povolit také při vytváření nebo úpravách kanálů pomocí rozhraní Delta Live Tables API.

Povolení rozšířeného automatického škálování

Poznámka:

Vzhledem k tomu, že výpočetní prostředky jsou automaticky optimalizované pro bezserverové kanály, nejsou nastavení rozšířeného automatického škálování Databricks k dispozici, když pro kanál vyberete bezserverovou verzi (Public Preview).

Pokud chcete zjistit, jak povolit bezserverové kanály DLT, obraťte se na tým účtů Azure Databricks.

Pokud chcete použít rozšířené automatické škálování, udělejte jednu z těchto věcí:

  • Při vytváření kanálu nebo úpravě kanálu v uživatelském rozhraní Delta Live Tables nastavte režim clusteru na rozšířené automatické škálování .
  • autoscale Přidejte nastavení do konfigurace clusteru kanálu a nastavte mode pole na ENHANCED. Viz Konfigurace nastavení výpočetních prostředků.

Při konfiguraci rozšířeného automatického škálování pro produkční kanály použijte následující pokyny:

  • Min workers Ponechte nastavení ve výchozím nastavení.
  • Max workers Nastavte nastavení na hodnotu na základě priority rozpočtu a kanálu.

Následující příklad nakonfiguruje cluster s rozšířeným automatickým škálováním s minimálně 5 pracovními procesy a maximálně 10 pracovních procesů. max_workers musí být větší než nebo rovno min_workers.

Poznámka:

  • Rozšířené automatické škálování je dostupné jenom pro updates clustery. Stávající funkce automatického škálování se používá pro maintenance clustery.
  • Konfigurace autoscale má dva režimy:
{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

Kanál se po změně konfigurace automatického škálování automaticky restartuje, pokud je kanál nakonfigurovaný pro průběžné spouštění. Po restartování očekáváme krátkou dobu zvýšené latence. Po tomto krátkém období zvýšené latence by se měla aktualizovat velikost clusteru na základě vaší autoscale konfigurace a latence kanálu vrácená do předchozích charakteristik latence.

Monitorování kanálů s povoleným rozšířeným automatickým škálováním

Pomocí protokolu událostí v uživatelském rozhraní Delta Live Tables můžete monitorovat metriky rozšířeného automatického škálování. Rozšířené události automatického autoscale škálování mají typ události. Následuje příklad událostí:

Událost Zpráva
Žádost o změnu velikosti clusteru se spustila. Scaling [up or down] to <y> executors from current cluster size of <x>
Žádost o změnu velikosti clusteru byla úspěšná. Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED
Žádost o částečně úspěšnou změnu velikosti clusteru Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED
Žádost o změnu velikosti clusteru se nezdařila. Achieved cluster size <x> for cluster <cluster-id> with status FAILED

Rozšířené události automatického škálování můžete zobrazit také přímo dotazováním protokolu událostí: