Freigeben über


Bewährte Methoden zum Erstellen eines dimensionalen Modells mithilfe von Datenflüssen

Das Entwerfen eines dimensionalen Modells ist eine der am häufigsten verwendeten Aufgaben, die Sie mit einem Datenfluss ausführen können. In diesem Artikel werden einige der bewährten Methoden zum Erstellen eines dimensionalen Modells mithilfe eines Datenflusses erläutert.

Staging von Datenflüssen

Einer der wichtigsten Punkte in jedem Datenintegrationssystem besteht darin, die Anzahl der Lesevorgänge aus dem Quellbetriebssystem zu reduzieren. In der herkömmlichen Datenintegrationsarchitektur wird diese Reduzierung durch Erstellen einer neuen Datenbank, die als Stagingdatenbank bezeichnet wird, durchgeführt. Der Zweck der Stagingdatenbank besteht darin, Daten unverändert aus der Datenquelle regelmäßig in die Stagingdatenbank zu laden.

Der Rest der Datenintegration verwendet dann die Stagingdatenbank als Quelle für die weitere Transformation und konvertiert sie in die dimensionale Modellstruktur.

Es wird empfohlen, denselben Ansatz mithilfe von Datenflüssen zu verfolgen. Erstellen Sie eine Reihe von Datenflüssen, die nur für das Laden von Daten as-is aus dem Quellsystem (und nur für die benötigten Tabellen) verantwortlich sind. Das Ergebnis wird dann in der Speicherstruktur des Datenflusses (entweder Azure Data Lake Storage oder Dataverse) gespeichert. Diese Änderung stellt sicher, dass der Lesevorgang aus dem Quellsystem minimal ist.

Als Nächstes können Sie andere Datenflüsse erstellen, die ihre Daten aus Stagingdatenflüssen beziehen. Zu den Vorteilen dieses Ansatzes gehören:

  • Verringern der Anzahl der Lesevorgänge aus dem Quellsystem und Verringern der Auslastung des Quellsystems als Ergebnis.
  • Verringern der Auslastung von Datengateways, wenn eine lokale Datenquelle verwendet wird.
  • Eine zwischengeschaltete Kopie der Daten für Abstimmungszwecke bereithalten, falls sich die Quellsystemdaten ändern.
  • Erstellung von transformationsunabhängigen Datenflüssen.

Diagramm, das den Fluss zeigt, wenn Sie Datenflüsse stufen.

Diagramm, das das Staging von Datenflüssen und Staging-Speicher hervorhebt. Das Diagramm zeigt, wie über den Staging-Datenfluss auf die Daten der Datenquelle zugegriffen wird und wie Tabellen entweder in [Cadavers] oder Azure Data Lake Storage gespeichert werden. Die Tabellen werden dann zusammen mit anderen Datenflüssen transformiert, die anschließend als Abfragen gesendet werden.

Transformationsdatenflüsse

Wenn Sie Die Transformationsdatenflüsse von den Stagingdatenflüssen trennen, ist die Transformation unabhängig von der Quelle. Diese Trennung hilft, wenn Sie das Quellsystem zu einem neuen System migrieren. In diesem Fall müssen Sie lediglich die Stagingdatenflüsse ändern. Die Transformationsdatenflüsse funktionieren wahrscheinlich ohne Probleme, da sie nur aus den Stagingdatenflüssen stammen.

Diese Trennung hilft auch, falls die Quellsystemverbindung langsam ist. Der Transformationsdatenfluss muss nicht lange warten, bis Datensätze über eine langsame Verbindung aus dem Quellsystem abgerufen werden. Der Stagingdatenfluss hat diesen Teil bereits ausgeführt, und die Daten sind für die Transformationsebene bereit.

Diagramm ähnlich wie das vorherige Bild, jedoch mit hervorgehobenen Transformationen, und die Daten werden an das Data Warehouse gesendet.

Schichtenarchitektur

Eine Ebenenarchitektur ist eine Architektur, in der Sie Aktionen in separaten Ebenen ausführen. Die Staging- und Transformationsdatenflüsse können zwei Ebenen einer mehrschichtigen Datenflussarchitektur sein. Durch den Versuch, Aktionen in Ebenen auszuführen, wird sichergestellt, dass die minimale Wartung erforderlich ist. Wenn Sie etwas ändern möchten, müssen Sie sie nur in der Ebene ändern, in der sie sich befindet. Die anderen Ebenen sollten alle weiterhin einwandfrei funktionieren.

Die folgende Abbildung zeigt eine mehrschichtige Architektur für Datenflüsse, in denen ihre Tabellen dann in Power BI-Semantikmodellen verwendet werden.

Diagramm mit einer mehrschichtigen Architektur, bei der Staging-Datenflüsse und Transformationsdatenflüsse in getrennten Schichten liegen.

Verwenden einer berechneten Tabelle so viel wie möglich

Wenn Sie das Ergebnis eines Datenflusses in einem anderen Datenfluss verwenden, verwenden Sie das Konzept der berechneten Tabelle, was bedeutet, dass Daten aus einer "bereits verarbeiteten und gespeicherten" Tabelle abgerufen werden. Dasselbe kann innerhalb eines Datenflusses geschehen. Wenn Sie auf eine Tabelle aus einer anderen Tabelle verweisen, können Sie die berechnete Tabelle verwenden. Diese Methode ist hilfreich, wenn Sie über eine Reihe von Transformationen verfügen, die in mehreren Tabellen ausgeführt werden müssen, die als allgemeine Transformationen bezeichnet werden.

Diagramm mit der berechneten Tabelle, die aus einer Datenquelle stammt, die zum Verarbeiten allgemeiner Transformationen verwendet wird.

In der vorherigen Abbildung ruft die berechnete Tabelle die Daten direkt aus der Quelle ab. In der Architektur von Staging- und Transformationsdatenflüssen ist es jedoch wahrscheinlich, dass die berechneten Tabellen aus den Stagingdatenflüssen stammen.

Diagramm mit einer berechneten Tabelle, die aus Datenflüssen stammt, die zum Verarbeiten allgemeiner Transformationen verwendet werden.

Erstellung eines Sternschemas

Das beste dimensionale Modell ist ein Sternschemamodell mit Dimensionen und Faktentabellen, die so konzipiert sind, dass die Zeit zum Abfragen der Daten aus dem Modell minimiert wird. Ein Sternschemamodell erleichtert auch das Verständnis für den Datenvisualisierer.

Es ist nicht ideal, Daten im selben Layout des Betriebssystems in ein BI-System zu bringen. Die Datentabellen sollten umgestaltet werden. Einige der Tabellen sollten in Form einer Dimensionstabelle verwendet werden, die die beschreibenden Informationen enthält. Einige der Tabellen sollten in Form einer Faktentabelle verwendet werden, um die aggregatierbaren Daten beizubehalten. Das beste Layout für Faktentabellen und Dimensionstabellen ist ein Sternenschema. Weitere Informationen hierzu erfahren Sie unter "Grundlegendes zum Sternschema" und zur Wichtigkeit für Power BI.

Diagramm eines Sternschemas mit einer Faktentabelle, die von Bemaßungstabellen umgeben ist, in Form eines fünfzackigen Sterns.

Verwenden eines eindeutigen Schlüsselwerts für Dimensionen

Stellen Sie beim Erstellen von Bemaßungstabellen sicher, dass Sie jeweils über einen Schlüssel verfügen. Dieser Schlüssel stellt sicher, dass zwischen Dimensionen keine m:n- oder anders gesagt, schwache Beziehungen vorhanden sind. Sie können den Schlüssel erstellen, indem Sie eine Transformation anwenden, um sicherzustellen, dass eine Spalte oder eine Kombination von Spalten eindeutige Zeilen in der Dimension zurückgibt. Anschließend kann diese Kombination von Spalten als Schlüssel in der Tabelle im Datenfluss markiert werden.

Screenshot des Power Query-Transformations-Tabs mit der Option

Durchführen einer inkrementellen Aktualisierung für große Faktentabellen

Faktentabellen sind immer die größten Tabellen im dimensionalen Modell. Es wird empfohlen, die Anzahl der zeilen, die für diese Tabellen übertragen werden, zu verringern. Wenn Sie über eine sehr große Faktentabelle verfügen, stellen Sie sicher, dass Sie die inkrementelle Aktualisierung für diese Tabelle verwenden. Eine inkrementelle Aktualisierung kann im Power BI-Semantikmodell und auch in den Datenflusstabellen erfolgen.

Sie können die inkrementelle Aktualisierung verwenden, um nur einen Teil der Daten, den geänderten Teil, zu aktualisieren. Es gibt mehrere Optionen, um auszuwählen, welcher Teil der Zu aktualisierenden Daten und welcher Teil beibehalten werden soll. Weitere Informationen hierzu erfahren Sie unter Verwenden der inkrementellen Aktualisierung mit Power BI-Datenflüssen.

Screenshot des Dialogfelds für die inkrementelle Aktualisierungseinstellung für Datenflüsse.

Verweise zum Erstellen von Dimensionen und Faktentabellen

Im Quellsystem verfügen Sie häufig über eine Tabelle, die Sie zum Generieren von Fakten- und Dimensionstabellen im Data Warehouse verwenden. Diese Tabellen sind gute Kandidaten für berechnete Tabellen und auch Zwischendatenflüsse. Der allgemeine Teil des Prozesses , z. B. Datenreinigung und Entfernen zusätzlicher Zeilen und Spalten, kann einmal ausgeführt werden. Mithilfe eines Verweises aus der Ausgabe dieser Aktionen können Sie die Dimensions- und Faktentabellen erstellen. Bei diesem Ansatz wird die berechnete Tabelle für die gemeinsamen Transformationen verwendet.

Screenshot einer Bestellungen-Abfrage mit der Referenzoption, die zum Erstellen einer neuen Abfrage namens