Az Azure Databricks optimalizálási javaslatai

Azure Databricks számos optimalizálást biztosít, amelyek számos számítási feladatot támogatnak a lakehouse-ban, a nagy léptékű ETL-feldolgozástól az alkalmi, interaktív lekérdezésekig. Ezen optimalizálások közül sok automatikusan történik. Az előnyöket egyszerűen Azure Databricks használatával érheti el. Emellett a Databricks Runtime legtöbb funkciója megköveteli a Delta Lake-t, amely az alapértelmezett formátum, amellyel táblákat hozhat létre Azure Databricks.

Azure Databricks a legtöbb számítási feladatot optimalizáló alapértelmezett értékeket konfigurálja. Bizonyos esetekben azonban a konfigurációs beállítások módosítása javítja a teljesítményt.

A Databricks runtime teljesítménybeli fejlesztései

Megjegyzés

A legújabb Databricks Runtime használatával kihasználhatja a legújabb teljesítménybeli fejlesztéseket. Az itt dokumentált összes viselkedés alapértelmezés szerint engedélyezve van a Databricks Runtime 10.4 LTS és újabb verziókban.

  • A lemezgyorsítótár felgyorsítja a Parquet-adatfájlok ismételt olvasását azáltal, hogy adatokat tölt be a számítási csomópontokhoz csatlakoztatott lemezkötetekbe.
  • A dinamikus fájlmetszet azáltal javítja a lekérdezés teljesítményét, hogy kihagyja azokat a könyvtárakat, amelyek nem tartalmaznak olyan adatfájlokat, amelyek megfelelnek a lekérdezési predikátumoknak.
  • Az alacsony keverési egyesítés csökkenti a MERGE műveletek által újraírt adatfájlok számát, és mérsékli a OPTIMIZE újrafuttatásának szükségességét az egyesítések után.
  • Az Apache Spark 3.0 adaptív lekérdezés-végrehajtást vezetett be, amely több művelethez is jobb teljesítményt nyújt.

A Databricks javaslatai a jobb teljesítmény érdekében

  • A Azure Databricks clone tábláit a forrásadatkészletek részletes vagy sekély másolatának készítéséhez használhatja.
  • A költségalapú optimalizáló a táblastatisztikák használatával felgyorsítja a lekérdezési teljesítményt.
  • A Spark SQL-t használva dolgozhat JSON-sztringekkel anélkül, hogy elemezné azokat.
  • A magasabb rendű függvények beépített, optimalizált teljesítményt biztosítanak számos olyan művelethez, amely nem rendelkezik közös Spark-operátorok használatával. A magasabb rendű függvények teljesítménybeli előnyt biztosítanak a felhasználó által definiált függvényekkel szemben.
  • Azure Databricks számos beépített operátort és speciális szintaxist biztosít a komplex adattípusok kezeléséhez, beleértve a tömböket, a szerkezeteket és a JSON-sztringeket.
  • A tartományillesztések beállításait manuálisan is finomhangolhatja. Lásd: Tartományillesztés optimalizálása.

Bejelentkezési viselkedések