Megjegyzés
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhat bejelentkezni vagy módosítani a címtárat.
Az oldalhoz való hozzáféréshez engedély szükséges. Megpróbálhatja módosítani a címtárat.
Azure Databricks számos optimalizálást biztosít, amelyek számos számítási feladatot támogatnak a lakehouse-ban, a nagy léptékű ETL-feldolgozástól az alkalmi, interaktív lekérdezésekig. Ezen optimalizálások közül sok automatikusan történik. Az előnyöket egyszerűen Azure Databricks használatával érheti el. Emellett a Databricks Runtime legtöbb funkciója megköveteli a Delta Lake-t, amely az alapértelmezett formátum, amellyel táblákat hozhat létre Azure Databricks.
Azure Databricks a legtöbb számítási feladatot optimalizáló alapértelmezett értékeket konfigurálja. Bizonyos esetekben azonban a konfigurációs beállítások módosítása javítja a teljesítményt.
A Databricks runtime teljesítménybeli fejlesztései
Megjegyzés
A legújabb Databricks Runtime használatával kihasználhatja a legújabb teljesítménybeli fejlesztéseket. Az itt dokumentált összes viselkedés alapértelmezés szerint engedélyezve van a Databricks Runtime 10.4 LTS és újabb verziókban.
- A lemezgyorsítótár felgyorsítja a Parquet-adatfájlok ismételt olvasását azáltal, hogy adatokat tölt be a számítási csomópontokhoz csatlakoztatott lemezkötetekbe.
- A dinamikus fájlmetszet azáltal javítja a lekérdezés teljesítményét, hogy kihagyja azokat a könyvtárakat, amelyek nem tartalmaznak olyan adatfájlokat, amelyek megfelelnek a lekérdezési predikátumoknak.
-
Az alacsony keverési egyesítés csökkenti a
MERGEműveletek által újraírt adatfájlok számát, és mérsékli aOPTIMIZEújrafuttatásának szükségességét az egyesítések után. - Az Apache Spark 3.0 adaptív lekérdezés-végrehajtást vezetett be, amely több művelethez is jobb teljesítményt nyújt.
A Databricks javaslatai a jobb teljesítmény érdekében
- A Azure Databricks clone tábláit a forrásadatkészletek részletes vagy sekély másolatának készítéséhez használhatja.
- A költségalapú optimalizáló a táblastatisztikák használatával felgyorsítja a lekérdezési teljesítményt.
- A Spark SQL-t használva dolgozhat JSON-sztringekkel anélkül, hogy elemezné azokat.
- A magasabb rendű függvények beépített, optimalizált teljesítményt biztosítanak számos olyan művelethez, amely nem rendelkezik közös Spark-operátorok használatával. A magasabb rendű függvények teljesítménybeli előnyt biztosítanak a felhasználó által definiált függvényekkel szemben.
- Azure Databricks számos beépített operátort és speciális szintaxist biztosít a komplex adattípusok kezeléséhez, beleértve a tömböket, a szerkezeteket és a JSON-sztringeket.
- A tartományillesztések beállításait manuálisan is finomhangolhatja. Lásd: Tartományillesztés optimalizálása.
Bejelentkezési viselkedések
- Azure Databricks alapértelmezés szerint egy írható szerializálható elkülönítési garanciát biztosít; a azsolációs szint szerializálhatóra történő módosítása csökkentheti az egyidejű műveletek átviteli sebességét, de szükség lehet az olvasási szerializálhatóságra.
- Azure Databricks elavult bloom szűrőindexeket. Használjon inkább prediktív I/O - vagy folyékony fürtözést .