Optimalizace využití clusteru kanálů Delta Live Tables s využitím rozšířeného automatického škálování

Článek
07/12/2024

Vylepšené automatické škálování Databricks optimalizuje využití clusteru automatickým přidělováním prostředků clusteru na základě svazku úloh s minimálním dopadem na latenci zpracování dat vašich kanálů.

Vylepšené automatické škálování vylepšuje funkce automatického škálování clusteru Azure Databricks s následujícími funkcemi :

Vylepšené automatické škálování implementuje optimalizaci úloh streamování a přidává vylepšení pro zlepšení výkonu dávkových úloh. Vylepšené automatické škálování optimalizuje náklady přidáním nebo odebráním počítačů při změnách úloh.
Vylepšené automatické škálování proaktivně vypne nevyužité uzly a zaručuje, že během vypínání nejsou žádné neúspěšné úlohy. Stávající funkce automatického škálování clusteru vertikálně navyšuje kapacitu uzlů pouze v případě, že je uzel nečinný.

Vylepšené automatické škálování je výchozí režim automatického škálování při vytváření nového kanálu v uživatelském rozhraní Delta Live Tables. Rozšířené automatické škálování pro existující kanály můžete povolit úpravou nastavení kanálu v uživatelském rozhraní. Rozšířené automatické škálování můžete povolit také při vytváření nebo úpravách kanálů pomocí rozhraní Delta Live Tables API.

Povolení rozšířeného automatického škálování

Poznámka:

Vzhledem k tomu, že výpočetní prostředky jsou automaticky optimalizované pro kanály bezserverových kanálů DLT, nejsou nastavení rozšířeného automatického škálování Databricks k dispozici, když pro kanál vyberete bezserverové .

Pokud chcete zjistit, jak povolit bezserverové kanály DLT, obraťte se na tým účtů Azure Databricks.

Pokud chcete použít rozšířené automatické škálování, udělejte jednu z těchto věcí:

Při vytváření kanálu nebo úpravě kanálu v uživatelském rozhraní Delta Live Tables nastavte režim clusteru na rozšířené automatické škálování .
autoscale Přidejte nastavení do konfigurace clusteru kanálu a nastavte mode pole na ENHANCED. Viz Konfigurace nastavení výpočetních prostředků.

Při konfiguraci rozšířeného automatického škálování pro produkční kanály použijte následující pokyny:

Min workers Ponechte nastavení ve výchozím nastavení.
Max workers Nastavte nastavení na hodnotu na základě priority rozpočtu a kanálu.

Následující příklad nakonfiguruje cluster s rozšířeným automatickým škálováním s minimálně 5 pracovními procesy a maximálně 10 pracovních procesů. max_workers musí být větší než nebo rovno min_workers.

Poznámka:

Rozšířené automatické škálování je dostupné jenom pro updates clustery. Stávající funkce automatického škálování se používá pro maintenance clustery.
Konfigurace autoscale má dva režimy:
- LEGACY: Použijte automatické škálování clusteru.
- ENHANCED: Použijte rozšířené automatické škálování.

{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

Kanál se po změně konfigurace automatického škálování automaticky restartuje, pokud je kanál nakonfigurovaný pro průběžné spouštění. Po restartování očekáváme krátkou dobu zvýšené latence. Po tomto krátkém období zvýšené latence by se měla aktualizovat velikost clusteru na základě vaší autoscale konfigurace a latence kanálu vrácená do předchozích charakteristik latence.

Monitorování kanálů s povoleným rozšířeným automatickým škálováním

Pomocí protokolu událostí v uživatelském rozhraní Delta Live Tables můžete monitorovat metriky rozšířeného automatického škálování. Rozšířené události automatického autoscale škálování mají typ události. Následuje příklad událostí:

Událost	Zpráva
Žádost o změnu velikosti clusteru se spustila.	`Scaling [up or down] to <y> executors from current cluster size of <x>`
Žádost o změnu velikosti clusteru byla úspěšná.	`Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED`
Žádost o částečně úspěšnou změnu velikosti clusteru	`Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED`
Žádost o změnu velikosti clusteru se nezdařila.	`Achieved cluster size <x> for cluster <cluster-id> with status FAILED`

Rozšířené události automatického škálování můžete zobrazit také přímo dotazováním protokolu událostí:

Pokud chcete dotazovat protokol událostí na metriky backlogu, přečtěte si téma Monitorování backlogu dat dotazováním protokolu událostí.
Pokud chcete monitorovat změny velikosti clusteru a odpovědi během rozšířených operací automatického škálování, přečtěte si téma Monitorování událostí rozšířeného automatického škálování z protokolu událostí.

Sdílet prostřednictvím

Optimalizace využití clusteru kanálů Delta Live Tables s využitím rozšířeného automatického škálování

Povolení rozšířeného automatického škálování

Monitorování kanálů s povoleným rozšířeným automatickým škálováním

Váš názor

Další materiály