Adaptivní zpracování dotazů

Článek
03/01/2024

Adaptivní provádění dotazů (AQE) představuje opětovnou optimalizaci dotazů, ke které dochází během provádění dotazů.

Motivací k opětovné optimalizaci modulu runtime je, že Azure Databricks má na konci výměny náhodného a všesměrového vysílání nejaktuálnější statistiku (označovanou jako fáze dotazu v AQE). V důsledku toho může Azure Databricks zvolit lepší fyzickou strategii, vybrat optimální velikost a číslo oddílu po náhodném prohazování nebo provést optimalizace, které se používají k vyžadování tipů, například zpracování nerovnoměrné distribuce spojení.

To může být velmi užitečné, když shromažďování statistik není zapnuté nebo když jsou statistiky zastaralé. Je také užitečná na místech, kde staticky odvozené statistiky nejsou přesné, například uprostřed složitého dotazu nebo po výskytu nerovnoměrné distribuce dat.

Funkce

Funkce AQE je ve výchozím nastavení povolená. Má 4 hlavní funkce:

Dynamicky se mění sloučení spojení sloučení do spojení hash všesměrových přenosů.
Dynamicky slučuje oddíly (kombinují malé oddíly do oddílů s rozumnou velikostí) po výměně náhodného prohazování. Velmi malé úlohy mají horší propustnost vstupně-výstupních operací a mají tendenci mít větší nároky na plánování režie a nastavení úloh. Kombinace malých úloh šetří prostředky a zlepšuje propustnost clusteru.
Dynamicky zpracovává nerovnoměrnou distribuci spojení sloučení řazení a shuffle hash spojení rozdělením (a replikací v případě potřeby) nerovnoměrnou distribuci úkolů do zhruba rovnoměrně velkých úkolů.
Dynamicky rozpoznává a šíří prázdné relace.

Aplikace

AQE se vztahuje na všechny dotazy, které jsou:

Bez streamování
Obsahují aspoň jednu výměnu (obvykle v případě spojení, agregace nebo okna), jednoho dílčího dotazu nebo obojího.

Ne všechny dotazy použité na AQE jsou nutně znovu optimalizované. Opětovná optimalizace může nebo nemusí přijít s jiným plánem dotazu, než je plán dotazu staticky zkompilovaný. Pokud chcete zjistit, jestli plán dotazu AQE změnil, přečtěte si následující část Plány dotazů.

Plány dotazů

Tato část popisuje, jak můžete prozkoumat plány dotazů různými způsoby.

Uživatelské rozhraní Sparku

Uzel `AdaptiveSparkPlan`

Použité dotazy AQE obsahují jeden nebo více AdaptiveSparkPlan uzlů, obvykle jako kořenový uzel každého hlavního dotazu nebo dílčího dotazu. Před spuštěním dotazu nebo jeho spuštěním isFinalPlan se příznak odpovídajícího AdaptiveSparkPlan uzlu zobrazí jako false; po dokončení provádění dotazu se isFinalPlan příznak změní na true.

Vývojový plán

Diagram plánu dotazu se vyvíjí s průběhem provádění a odráží nejaktuálnější plán, který se provádí. Uzly, které už byly spuštěny (ve kterých jsou k dispozici metriky), se nezmění, ale ty, které se v průběhu času nemůžou v důsledku opětovné optimalizace změnit.

Následuje příklad diagramu plánu dotazu:

Query plan diagram

`DataFrame.explain()`

Uzel `AdaptiveSparkPlan`

Použité dotazy AQE obsahují jeden nebo více AdaptiveSparkPlan uzlů, obvykle jako kořenový uzel každého hlavního dotazu nebo dílčího dotazu. Před spuštěním dotazu nebo při jeho spuštění isFinalPlan se příznak odpovídajícího AdaptiveSparkPlan uzlu zobrazí jako false; po dokončení provádění dotazu se isFinalPlan příznak změní na true.

Aktuální a počáteční plán

Pod každým AdaptiveSparkPlan uzlem bude počáteční plán (plán před použitím optimalizace AQE) i aktuální nebo konečný plán v závislosti na tom, jestli se provádění dokončilo. Aktuální plán se bude vyvíjet v průběhu provádění.

Statistika modulu runtime

Každá fáze náhodného prohazování a všesměrového vysílání obsahuje statistiky dat.

Před spuštěním fáze nebo při spuštění fáze jsou statistiky odhady času kompilace a příznak isRuntime je falsenapříklad: Statistics(sizeInBytes=1024.0 KiB, rowCount=4, isRuntime=false);

Po dokončení provádění fáze se statistiky shromažďují za běhu a příznak isRuntime se stane truenapříklad: Statistics(sizeInBytes=658.1 KiB, rowCount=2.81E+4, isRuntime=true)

DataFrame.explain Následuje příklad:

Před provedením
Během provádění
Po provedení

`SQL EXPLAIN`

Uzel `AdaptiveSparkPlan`

Použité dotazy AQE obsahují jeden nebo více uzlů AdaptiveSparkPlan, obvykle jako kořenový uzel každého hlavního dotazu nebo dílčího dotazu.

Žádný aktuální plán

Vzhledem k tomu SQL EXPLAIN , že dotaz nespustí, aktuální plán je vždy stejný jako počáteční plán a neodráží, co by nakonec provedl AQE.

Následuje příklad vysvětlení SQL:

SQL explain

Účinnost

Plán dotazu se změní, pokud se projeví jedna nebo více optimalizací AQE. Účinek těchto optimalizací AQE je demonstrován rozdílem mezi aktuálními a konečnými plány a počátečním plánem a konkrétními uzly plánu v aktuálních a konečných plánech.

Dynamická změna sloučení spojení sloučení do spojení hash všesměrového vysílání: různé fyzické spojovací uzly mezi aktuálním/konečným plánem a počátečním plánem
Dynamicky shodovat oddíly: uzel CustomShuffleReader s vlastností Coalesced
Dynamicky zpracovává nerovnoměrné spojení: uzel SortMergeJoin s polem isSkew jako true.
Dynamicky rozpozná a šíří prázdné relace: část (nebo celý) plán se nahradí uzlem LocalTableScan s relačním polem jako prázdné.