Az Azure Databricks optimalizálási javaslatai

Azure Databricks számos optimalizálást biztosít, amelyek számos számítási feladatot támogatnak a lakehouse-ban, a nagy léptékű ETL-feldolgozástól az alkalmi, interaktív lekérdezésekig. Ezen optimalizálások közül sok automatikusan történik. Az előnyöket egyszerűen Azure Databricks használatával érheti el. Emellett a Databricks Runtime legtöbb funkciója megköveteli a Delta Lake-t, amely az alapértelmezett formátum, amellyel táblákat hozhat létre Azure Databricks.

Azure Databricks a legtöbb számítási feladatot optimalizáló alapértelmezett értékeket konfigurálja. Bizonyos esetekben azonban a konfigurációs beállítások módosítása javítja a teljesítményt.

A Databricks runtime teljesítménybeli fejlesztései

Megjegyzés

A legújabb Databricks Runtime használatával kihasználhatja a legújabb teljesítménybeli fejlesztéseket. Az itt dokumentált összes viselkedés alapértelmezés szerint engedélyezve van a Databricks Runtime 10.4 LTS és újabb verziókban.

A lemezgyorsítótár felgyorsítja a Parquet-adatfájlok ismételt olvasását azáltal, hogy adatokat tölt be a számítási csomópontokhoz csatlakoztatott lemezkötetekbe.
A dinamikus fájlmetszet azáltal javítja a lekérdezés teljesítményét, hogy kihagyja azokat a könyvtárakat, amelyek nem tartalmaznak olyan adatfájlokat, amelyek megfelelnek a lekérdezési predikátumoknak.
Az alacsony keverési egyesítés csökkenti a MERGE műveletek által újraírt adatfájlok számát, és mérsékli a OPTIMIZE újrafuttatásának szükségességét az egyesítések után.
Az Apache Spark 3.0 adaptív lekérdezés-végrehajtást vezetett be, amely több művelethez is jobb teljesítményt nyújt.

A Databricks javaslatai a jobb teljesítmény érdekében

A Azure Databricks clone tábláit a forrásadatkészletek részletes vagy sekély másolatának készítéséhez használhatja.
A költségalapú optimalizáló a táblastatisztikák használatával felgyorsítja a lekérdezési teljesítményt.
A Spark SQL-t használva dolgozhat JSON-sztringekkel anélkül, hogy elemezné azokat.
A magasabb rendű függvények beépített, optimalizált teljesítményt biztosítanak számos olyan művelethez, amely nem rendelkezik közös Spark-operátorok használatával. A magasabb rendű függvények teljesítménybeli előnyt biztosítanak a felhasználó által definiált függvényekkel szemben.
Azure Databricks számos beépített operátort és speciális szintaxist biztosít a komplex adattípusok kezeléséhez, beleértve a tömböket, a szerkezeteket és a JSON-sztringeket.
A tartományillesztések beállításait manuálisan is finomhangolhatja. Lásd: Tartományillesztés optimalizálása.

Bejelentkezési viselkedések

Azure Databricks alapértelmezés szerint egy írható szerializálható elkülönítési garanciát biztosít; a azsolációs szint szerializálhatóra történő módosítása csökkentheti az egyidejű műveletek átviteli sebességét, de szükség lehet az olvasási szerializálhatóságra.
Azure Databricks elavult bloom szűrőindexeket. Használjon inkább prediktív I/O - vagy folyékony fürtözést .

Visszajelzés

Hasznosnak találta ezt az oldalt?

Last updated on 2026-04-11