Cheatsheet voor gegevensvoorbereiding

High-end BI-prestaties zijn afhankelijk van hoe effectief gegevens worden voorbereid en geleverd vanuit Lakehouse. Door architectuurpatronen te gebruiken, een semantische structuur toe te passen en gerichte optimalisaties te gebruiken, kunt u de complexiteit van query's verminderen, de reactiesnelheid van het dashboard verbeteren en de rekenkosten verlagen.

De volgende tabel bevat een overzicht van aanbevolen procedures, de verwachte impact, gerelateerde documentatie en bijbehorende actie-items. Deze inhoud is bedoeld voor data engineers, BI-ontwikkelaars en dashboardauteurs die analyseworkloads ontwerpen, optimaliseren en onderhouden in Lakehouse.

Gegevensvoorbereiding

Best practice	Impact	Docs	Actiepunten
Neem een medaillonarchitectuur aan	Versnelt het omzetten van onbewerkte gegevens in kant-en-klare, betrouwbare gegevensproducten voor eenvoudig gebruik.	Medallion Architecture Woordenlijst Medalillon Architecture Concepten van data-warehousing	Medallayer-lagen controleren en implementeren
Liquid clustering gebruiken	Verbetert de queryprestaties met het overslaan van bestanden en gegevens.	Liquid clustering	Toepassen op grote tabellen met filterpatronen
Beheerde tabellen gebruiken	Azure Databricks beheert en optimaliseert automatisch de opslaglaag en queryprestaties.	Beheerde tabellen in Unity Catalog in Azure Databricks	Beheerde tabellen voor uw gegevens maken
Voorspellende optimalisatie gebruiken of tabellen handmatig optimaliseren	Maakt betere queryprestaties mogelijk door de bestandsgrootte en indeling te optimaliseren, oude bestanden te verwijderen en statistieken bij te werken.	Voorspellende optimalisatie Bestandsindeling optimaliseren Metrische gegevens voor tabelopslag analyseren	Inschakelen voor productietabellen of regelmatige optimalisatie plannen en tabellen analyseren nadat gegevens zijn gewijzigd
Modelgegevens in een stervormig schemapatroon	Hiermee kunt u eenvoudig query's uitvoeren op de gegevens en deze gebruiken.	Woordenlijst voor stervormige schema's Vijf eenvoudige stappen voor het implementeren van een stervormig schema	Dimensie- en feitentabellen ontwerpen
Vermijd brede gegevenstypen en kolommen met hoge kardinaliteit	Optimaliseert de grootte en het geheugenverbruik van het gegevensmodel en verbetert de efficiëntie van query's.	Handleiding voor het optimaliseren van gegevensworkloads	Gegevenstypen en kardinaliteit controleren
Primaire en vreemde sleutels declareren (met RELY)	Optimaliseert query's door onnodige joins en aggregaties te elimineren.	Queryoptimalisatie met beperkingen	Sleutels definiëren voor feiten- en dimensietabellen
Automatisch gegenereerde kolommen gebruiken	Vermindert de noodzaak om waarden te berekenen tijdens het uitvoeren van query's.	Gegenereerde kolommen	Veelgebruikte berekende velden identificeren
Gerealiseerde weergaven en persistente tabellen gebruiken	Verbetert de prestaties door gegevens vooraf samen te aggregatie voor de meest voorkomende en resource-intensieve query's.	Tables gematerialiseerde weergaven Gerealiseerde weergaven gebruiken in Databricks SQL	Geaggregeerde weergaven maken voor algemene query's

Feedback

Is deze pagina nuttig?

Last updated on 2026-02-21

Delen via

Cheatsheet voor gegevensvoorbereiding

Gegevensvoorbereiding

Feedback

Aanvullende resources