Sdílet prostřednictvím


Optimalizace výkonu připojení v Azure Databricks

Pomocí Azure Databricks můžete vytvářet spojení napříč dávkovými nebo streamovanými tabulkami. Některá spojení můžou být nákladná. Následující informace vám můžou pomoct optimalizovat spojení.

Další informace o spojeních najdete v tématu Práce s spojeními v Azure Databricks.

Výpočty s povoleným Photonem vždy vyberou nejlepší typ spojení. Podívejte se, co je Photon? Použití nedávné verze Databricks Runtime s povoleným Photon obecně poskytuje dobrý výkon při spojování, ale měli byste také zvážit následující doporučení:

  • Křížová připojení jsou velmi drahá. Odeberte křížová spojení z úloh a dotazů, které vyžadují nízkou latenci nebo časté výpočty.

  • Pořadí připojení je důležité. Při provádění více spojení vždy nejprve spojte nejmenší tabulky a pak spojte výsledek s většími tabulkami.

  • Optimalizátor může mít potíže s dotazy s mnoha spojeními a agregacemi. Ukládání zprostředkujících výsledků může urychlit plánování dotazů a výpočet výsledků.

  • Udržujte nové statistiky pro zlepšení výkonu. Prediktivní optimalizace se automaticky aktualizuje a udržuje statistiky. Viz prediktivní optimalizaci pro spravované tabulky v katalogu Unity .

    Dotaz ANALYZE TABLE table_name COMPUTE STATISTICS můžete také spustit k aktualizaci statistik v plánovači dotazů.

Poznámka:

Ve službě Databricks Runtime 14.3 LTS a vyšší můžete upravit sloupce, u kterých Delta Lake shromažďuje statistiky pro urychlení zpracování dat, a pak přepočítat existující statistiky v protokolu Delta. Viz Určení sloupců statistiky Delta.