Beskriva grundläggande begrepp inom datamodellering
Med analysmodeller kan du strukturera data som stöd för analys. Modellerna baseras på relaterade datatabeller och definierar de numeriska värden som du vill analysera eller rapportera (kallas mått) och de entiteter som du vill aggregera dem med (kallas för dimensioner). En modell kan till exempel innehålla en tabell som innehåller numeriska mått för försäljning (till exempel intäkter eller kvantitet) och dimensioner för produkter, kunder och tid. På så sätt kan du aggregera försäljningsmått över en eller flera dimensioner (till exempel för att identifiera totala intäkter per kund eller totalt antal artiklar som säljs per produkt per månad). Konceptuellt utgör modellen en flerdimensionell struktur, som ofta kallas för en kub, där varje punkt där dimensionerna korsar varandra representerar ett aggregerat mått för dessa dimensioner.)
Kommentar
Även om vi ofta refererar till en analysmodell som en kub kan det finnas fler (eller färre) än tre dimensioner – det är helt enkelt inte lätt för oss att visualisera mer än tre!
Tabeller och schema
Dimensionstabeller representerar de entiteter som du vill aggregera numeriska mått med, till exempel produkt eller kund. Varje entitet representeras av en rad med ett unikt nyckelvärde. De återstående kolumnerna representerar attribut för en entitet – till exempel har produkter namn och kategorier och kunder har adresser och städer. Det är vanligt i de flesta analysmodeller att inkludera en tidsdimension så att du kan aggregera numeriska mått som är associerade med händelser över tid.
De numeriska mått som ska aggregeras av de olika dimensionerna i modellen lagras i faktatabeller . Varje rad i en faktatabell representerar en inspelad händelse som har numeriska mått associerade med den. Tabellen Försäljning i schemat nedan representerar till exempel försäljningstransaktioner för enskilda objekt och innehåller numeriska värden för såld kvantitet och intäkter.
Den här typen av schema, där en faktatabell är relaterad till en eller flera dimensionstabeller, kallas för ett stjärnschema (anta att det finns fem dimensioner relaterade till en enda faktatabell – schemat skulle bilda en femuddig stjärna!). Du kan också definiera ett mer komplext schema där dimensionstabeller är relaterade till ytterligare tabeller som innehåller mer information (du kan till exempel representera attribut för produktkategorier i en separat kategoritabell som är relaterad till tabellen Produkt – i så fall kallas designen för ett snowflake-schema. Schemat för fakta- och dimensionstabeller används för att skapa en analysmodell, där måttsammansättningar för alla dimensioner beräknas i förväg. göra prestanda för analys- och rapporteringsaktiviteter mycket snabbare än att beräkna aggregeringarna varje gång.)
Attributhierarkier
En sista sak att tänka på när det gäller analysmodeller är att skapa attributhierarkier som gör att du snabbt kan öka detaljnivån eller öka detaljnivån för att hitta aggregerade värden på olika nivåer i en hierarkisk dimension. Tänk till exempel på attributen i de dimensionstabeller som vi har diskuterat hittills. I tabellen Produkt kan du skapa en hierarki där varje kategori kan innehålla flera namngivna produkter. På samma sätt kan en hierarki skapas i tabellen Kund för att representera flera namngivna kunder i varje stad. Slutligen kan du i tabellen Tid skapa en hierarki med år, månad och dag. Modellen kan skapas med föraggregerade värden för varje nivå i en hierarki, vilket gör att du snabbt kan ändra omfattningen för din analys – till exempel genom att visa total försäljning per år och sedan öka detaljnivån för att se en mer detaljerad uppdelning av den totala försäljningen per månad.
Analysmodellering i Microsoft Power BI
Du kan använda Power BI för att definiera en analysmodell från datatabeller som kan importeras från en eller flera datakällor. Du kan sedan använda datamodelleringsgränssnittet på fliken Modell i Power BI Desktop för att definiera din analysmodell genom att skapa relationer mellan fakta- och dimensionstabeller, definiera hierarkier, ange datatyper och visningsformat för fält i tabellerna och hantera andra egenskaper för dina data som hjälper dig att definiera en omfattande modell för analys.