Megosztás:


Illesztési teljesítmény optimalizálása az Azure Databricksben

Az Azure Databricks segítségével összekapcsolásokat hajthat végre a kötegelt vagy folyamatosan frissülő táblák között. Egyes csatlakozások költségesek lehetnek. Az alábbiak segíthetnek az illesztések optimalizálásában.

Az illesztésekkel kapcsolatos további információkért lásd: Csatlakozások használata az Azure Databricksben.

A Photon-kompatibilis számítás mindig a legjobb illesztéstípust választja. Lásd Mi az a Photon?. A Databricks runtime legújabb verziójának Photon-kompatibilis használata általában jó illesztési teljesítményt nyújt, de érdemes megfontolni a következő javaslatokat is:

  • A keresztcsatlakozások nagyon drágák. Távolítsa el a keresztcsatlakozásokat az alacsony késést vagy gyakori újraszámítást igénylő számítási feladatokból és lekérdezésekből.

  • A csatlakozási sorrend számít. Több illesztés végrehajtásakor mindig először a legkisebb táblákat csatlakoztassa, majd csatlakozzon az eredményhez nagyobb táblákkal.

  • Az optimalizáló számos illesztéssel és aggregációval rendelkező lekérdezésekkel is küzdhet. A köztes eredmények mentése felgyorsíthatja a lekérdezéstervezést és a számítási eredményeket.

  • A teljesítmény javítása érdekében őrizze meg a friss statisztikákat. A prediktív optimalizálás automatikusan frissíti és karbantartja a statisztikákat. Lásd: A Unity Catalog által felügyelt táblák prediktív optimalizálása.

    A lekérdezéstervező statisztikáinak frissítéséhez a lekérdezési ANALYZE TABLE table_name COMPUTE STATISTICS is futtatható.

Megjegyzés

A Databricks Runtime 14.3 LTS-ben és újabb verziókban módosíthatja azokat az oszlopokat, amelyekről a Delta Lake statisztikákat gyűjt az adatok kihagyása céljából, majd újraszámíthatja a meglévő statisztikákat a Delta-naplóban. Lásd: Statisztikai oszlopok megadása.