Optimeringsrekommendationer för Azure Databricks

Azure Databricks tillhandahåller många optimeringar som stöder en mängd olika arbetsbelastningar på lakehouse, allt från storskalig ETL-bearbetning till ad hoc-interaktiva frågor. Många av dessa optimeringar sker automatiskt. Du får deras fördelar genom att använda Azure Databricks. Dessutom kräver de flesta Databricks Runtime-funktioner Delta Lake, standardformatet som används för att skapa tabeller i Azure Databricks.

Azure Databricks konfigurerar standardvärden som optimerar de flesta arbetsbelastningar. Men i vissa fall förbättrar ändrade konfigurationsinställningar prestanda.

Prestandaförbättringar för Databricks Runtime

Kommentar

Använd den senaste Databricks Runtime för att utnyttja de senaste prestandaförbättringarna. Alla beteenden som dokumenteras här är aktiverade som standard i Databricks Runtime 10.4 LTS och senare.

Diskcache påskyndar upprepade läsningar från Parquet-datafiler genom att ladda data till diskvolymer som är anslutna till beräkningskluster.
Dynamisk filrensning förbättrar frågeprestanda genom att hoppa över kataloger som inte innehåller datafiler som matchar frågepredikat.
Låg shuffle-sammanslagning minskar antalet datafiler som skrivs om av de operationer och minskar behovet av att beräkna om MERGE kluster.
Apache Spark 3.0 introducerade anpassningsbar frågekörning, vilket ger bättre prestanda för många åtgärder.

Databricks-rekommendationer för förbättrad prestanda

Du kan klona tabeller i Azure Databricks för att göra djupa eller grunda kopior av källdatauppsättningar.
Den kostnadsbaserade optimeraren påskyndar frågeprestanda genom att använda tabellstatistik.
Du kan använda Spark SQL för att interagera med JSON-strängar utan att parsa strängar.
Funktioner med högre ordning ger inbyggda, optimerade prestanda för många åtgärder som inte har vanliga Spark-operatorer. Funktioner med högre ordning ger en prestandafördel jämfört med användardefinierade funktioner.
Azure Databricks innehåller ett antal inbyggda operatorer och särskild syntax för att arbeta med komplexa datatyper, inklusive matriser, structs och JSON-strängar.
Du kan manuellt justera inställningarna för räckviddsanslutningar. Se Range join-optimering.

samtyckesbeteenden

Azure Databricks tillhandahåller som standard en serialiserbar isoleringsgaranti för skrivningar. Att ändra isoleringsnivån till serialiserbar kan minska genomströmningen för samtidiga åtgärder men kan vara nödvändigt när serialiserbarhet vid läsning krävs.
Du kan använda bloom-filterindex för att minska sannolikheten för genomsökning av datafiler som inte innehåller poster som matchar ett visst villkor.

Feedback

Var den här sidan hjälpsam?

Last updated on 2025-03-29