Forstå grundlæggende oplysninger om data warehouse

Fuldført

Processen med at bygge et moderne data warehouse består typisk af:

  • Dataindtagelse – flytning af data fra kildesystemer til et data warehouse.
  • Datalager – lagring af dataene i et format, der er optimeret til analyse.
  • Databehandling – transformering af dataene til et format, der er klar til forbrug af analyseværktøjer.
  • Dataanalyse og -levering – analyse af dataene for at få indsigt og levere denne indsigt til virksomheden.

Microsoft Fabric gør det muligt for datateknikere og -analytikere at indtage, gemme, transformere og visualisere data i ét værktøj med både lav kode og traditionel oplevelse.

Forstå Fabric's data warehouse-oplevelse

Fabrics data warehouse er et relationsdata warehouse, der understøtter alle de T-SQL-transaktionsfunktioner, du ville forvente fra et virksomhedsdata warehouse. Det er et fuldt administreret, skalerbart og yderst tilgængeligt data warehouse, der kan bruges til at gemme og forespørge om data i Lakehouse. Ved hjælp af data warehouse har du fuld kontrol over, hvordan du opretter tabeller, indlæser, transformerer og forespørger om data ved hjælp af enten Fabric-portalen eller T-SQL-kommandoer. Du kan bruge SQL til at forespørge på og analysere dataene eller bruge Spark til at behandle dataene og oprette modeller til maskinel indlæring.

Data warehouses i Fabric faciliterer samarbejde mellem datateknikere og dataanalytikere og arbejder sammen i den samme oplevelse. Datateknikere bygger et relationslag oven på data i Lakehouse, hvor analytikere kan bruge T-SQL og Power BI til at udforske dataene.

Design et data warehouse

På samme måde som alle relationsdatabaser indeholder Fabrics data warehouse tabeller, hvor du kan gemme dine data til analyse senere. Disse tabeller er oftest organiseret i et skema, der er optimeret til flerdimensionel modellering. I denne fremgangsmåde grupperes numeriske data, der er relateret til hændelser (f.eks. salgsordrer), efter forskellige attributter (f.eks. dato, kunde, butik). Du kan f.eks. analysere det samlede beløb, der er betalt for salgsordrer, der er indtruffet på en bestemt dato eller i en bestemt butik.

Tabeller i et data warehouse

Tabeller i et data warehouse er typisk organiseret på en måde, der understøtter effektiv analyse af store mængder data. Denne organisation kaldes ofte dimensionel modellering, hvilket omfatter strukturering af tabeller i faktatabeller og dimensionstabeller.

Faktatabeller indeholder de numeriske data, du vil analysere. Faktatabeller har typisk et stort antal rækker og er den primære datakilde til analyse. En faktatabel kan f.eks. indeholde det samlede beløb, der er betalt for salgsordrer, der indtraf på en bestemt dato eller i en bestemt butik.

Dimensionstabeller indeholder beskrivende oplysninger om dataene i faktatabellerne. Dimensionstabeller har typisk et lille antal rækker og bruges til at angive kontekst for dataene i faktatabellerne. En dimensionstabel kan f.eks. indeholde oplysninger om de kunder, der har afgivet salgsordrer.

Ud over attributkolonner indeholder en dimensionstabel en entydig nøglekolonne, der entydigt identificerer hver række i tabellen. Det er faktisk almindeligt, at en dimensionstabel indeholder to nøglekolonner:

  • En surrogatnøgle er et entydigt id for hver række i dimensionstabellen. Det er ofte et heltal, der genereres automatisk af databasestyringssystemet, når der indsættes en ny række i tabellen.
  • En alternativ nøgle er ofte en naturlig nøgle eller forretningsnøgle, der identificerer en bestemt forekomst af en enhed i transaktionskildesystemet , f.eks. en produktkode eller et kunde-id.

Du skal bruge både surrogatnøgler og alternative nøgler i et data warehouse, fordi de tjener forskellige formål. Surrogatnøgler er specifikke for data warehouse og hjælper med at sikre ensartethed og nøjagtighed i dataene. Alternative nøgler er derimod specifikke for kildesystemet og hjælper med at bevare sporingen mellem data warehouse og kildesystemet.

Særlige typer dimensionstabeller

Særlige dimensionstyper giver yderligere kontekst og muliggør mere omfattende dataanalyser.

Tidsdimensioner indeholder oplysninger om den tidsperiode, hvor en hændelse fandt sted. Denne tabel gør det muligt for dataanalytikere at aggregere data over tidsmæssige intervaller. En tidsdimension kan f.eks. indeholde kolonner for det år, det kvartal, den måned og den dag, hvor en salgsordre blev afgivet.

Dimensioner, der langsomt ændres , er dimensionstabeller, der sporer ændringer af dimensionsattributter over tid, f.eks. ændringer af en kundes adresse eller et produkts pris. De er vigtige i et data warehouse, fordi de gør det muligt for brugerne at analysere og forstå ændringer af data over tid. Dimensioner, der langsomt ændrer sig, sikrer, at data forbliver up-to-dato og nøjagtige, hvilket er afgørende for at træffe gode forretningsbeslutninger.

Skemadesign for data warehouse

I de fleste transaktionsdatabaser, der bruges i virksomhedsprogrammer, normaliseres dataene for at reducere duplikering. I et data warehouse fjernes dimensionsdataene dog generelt for at reducere antallet af joinforbindelser, der kræves for at forespørge dataene.

Et data warehouse er ofte organiseret som et stjerneskema, hvor en faktatabel er direkte relateret til dimensionstabellerne, som vist i dette eksempel:

Diagram over et stjerneskemadesign, der viser en FactSales-tabel med fem dimensioner, der udgør en stjernes form.

Du kan bruge attributterne for noget til at gruppere tal i faktatabellen på forskellige niveauer. Du kan f.eks. finde den samlede salgsindtægt for et helt område eller kun for én kunde. Oplysningerne for hvert niveau kan gemmes i den samme dimensionstabel.

Drikkepenge

Se Hvad er et stjerneskema? Du kan få flere oplysninger om design af stjerneskemaer til Fabric.

Hvis der er mange niveauer, eller nogle oplysninger deles af forskellige ting, kan det give mening at bruge et snowflake-skema i stedet. Her er et eksempel:

Diagram over et snowflake-skemadesign, der viser flere dimensioner.

I dette tilfælde er tabellen DimProduct blevet opdelt (normaliseret) for at oprette separate dimensionstabeller for produktkategorier og leverandører.

  • Hver række i tabellen DimProduct indeholder nøgleværdier for de tilsvarende rækker i tabellerne DimCategory og DimSupplier.

Der er tilføjet en DimGeography-tabel , der indeholder oplysninger om, hvor kunder og butikker er placeret.

  • Hver række i tabellerne DimCustomer og DimStore indeholder en nøgleværdi for den tilsvarende række i tabellen DimGeography .