Power BI-Verwendungsszenarien: Self-Service-Datenaufbereitung

Hinweis

Dieser Artikel ist Teil der Artikelreihe zur Power BI-Implementierungsplanung. Diese Reihe konzentriert sich hauptsächlich auf den Power BI-Workload innerhalb von Microsoft Fabric. Eine Einführung in die Artikelreihe finden Sie unter Power BI-Implementierungsplanung.

Die Datenaufbereitung (manchmal als ETL bezeichnet, ein Akronym für Extrahieren, Transformieren und Laden) ist abhängig von der Qualität und Struktur der Quelldaten häufig mit einem erheblichen Aufwand verbunden. Das Verwendungsszenario Self-Service-Datenaufbereitung konzentriert sich auf die Wiederverwendbarkeit von Datenaufbereitungsaktivitäten durch Geschäftsanalysten. Dieses Ziel der Wiederverwendbarkeit wird dadurch erreicht, dass der Datenaufbereitungsaufwand von Power Query (innerhalb einzelner Power BI Desktop-Dateien) auf Power Query Online (unter Verwendung eines Power BI-Dataflows) verlagert wird. Die Zentralisierung der Logik hilft dabei, eine einzige verlässliche Quelle zu schaffen und den erforderlichen Aufwand anderer Inhaltsersteller zu reduzieren.

Dataflows werden mithilfe von Power Query Online in einem der folgenden Tools erstellt: Power BI-Dienst, Power Apps oder Dynamics 365 Customer Insights. Ein in Power BI erstellter Dataflow wird als analytischer Dataflow bezeichnet. Dataflows, die in Power Apps erstellt werden, können einen von zwei Typen aufweisen: Standard oder analytisch. In diesem Szenario wird nur die Verwendung eines Power BI-Dataflows behandelt, der im Power BI-Dienst erstellt und verwaltet wird.

Hinweis

Das Szenario zur Self-Service-Datenaufbereitung ist eines der Self-Service-BI-Szenarien. Eine vollständige Liste der Self-Service-Szenarien finden Sie im Artikel zu Power BI-Verwendungsszenarien.

Einige Aspekte, die in den Szenarios für die inhaltsorientierte Zusammenarbeit und Übermittlung von Inhalten beschrieben sind, werden der Kürze halber in diesem Artikel nicht behandelt. Lesen Sie für vollständige Informationen zuerst diese Artikel.

Szenariodiagramm

Das folgende Diagramm enthält eine allgemeine Übersicht über die am häufigsten verwendeten Benutzeraktionen und Power BI-Komponenten, die die Self-Service-Datenaufbereitung unterstützen. Der Hauptfokus liegt auf dem Erstellen eines Dataflows in Power Query Online, der zu einer Datenquelle für mehrere Semantikmodelle (früher als Datasets bezeichnet) wird. Das Ziel besteht darin, dass viele Semantikmodelle die aufbereiteten Daten nutzen, die vom Dataflow erstellt wurden.

Diagram shows self-service data preparation, which is about dataflows for centralizing data cleansing and transformation work. Items in the diagram are described in the table below.

Tipp

Wir empfehlen Ihnen, das Szenariodiagramm herunterzuladen, wenn Sie es in Ihre Präsentation, Dokumentation oder Ihren Blogbeitrag einbinden oder als Wandposter ausdrucken möchten. Da es sich um ein SVG-Bild (Scalable Vector Graphics) handeln kann, können Sie es ohne Qualitätsverlust nach oben oder unten skalieren.

Das Szenariodiagramm veranschaulicht die folgenden Benutzeraktionen, Tools und Features:

Element Beschreibung
Item 1. Der Dataflowersteller entwickelt mehrere Tabellen in einem Power BI-Dataflow. Für einen Dataflow, der für die Wiederverwendung vorgesehen ist, gehört der Ersteller üblicherweise (aber nicht notwendigerweise) zu einem zentralen Team, das Benutzer über Organisationsgrenzen hinweg unterstützt (z. B. IT, Unternehmens-BI oder Center of Excellence).
Item 2. Der Dataflow stellt eine Verbindung zu Daten in mindestens einer Datenquelle her.
Item 3. Für einige Datenquellen ist möglicherweise ein lokales Datengateway oder ein VNet-Gateway für die Datenaktualisierung erforderlich, z. B. solche, die sich in einem privaten Organisationsnetzwerk befinden. Diese Gateways werden sowohl zum Erstellen des Dataflows in Power Query Online verwendet, bei dem es sich um eine webbasierte Version von Power Query handelt, als auch zum Aktualisieren des Dataflows.
Item 4. Dataflows werden mithilfe von Power Query Online entwickelt. Die vertraute Power Query-Oberfläche in Power Query Online erleichtert den Übergang von Power BI Desktop.
Item 5. Der Dataflow wird als Element in einem dedizierten Arbeitsbereich zum Speichern und Sichern von Dataflows gespeichert. Damit die Daten aktuell bleiben, ist ein Aktualisierungszeitplan für Dataflows erforderlich(nicht im Szenariodiagramm dargestellt).
Item 6. Der Dataflow kann von Inhaltserstellern als Datenquelle und von anderen semantischen Modellen wiederverwendet werden, die sich in verschiedenen Arbeitsbereichen befinden könnten.
Item 7. Semantikmodellersteller*innen entwickeln mit Power BI Desktop ein neues Datenmodell. Die Semantikmodellersteller*innen können sämtliche Funktionen von Power Query in Power BI Desktop verwenden. Er kann ggf. andere Abfrageschritte anwenden, um die Dataflowdaten weiter zu transformieren oder die Dataflowausgabe zusammenzuführen.
Item 8. Nachdem dies erledigt ist, veröffentlichen die Semantikmodellersteller*innen die Power BI Desktop-Datei (PBIX), die das Datenmodell enthält, im Power BI-Dienst. Die Aktualisierung des Semantikmodells wird getrennt vom Dataflow verwaltet (nicht im Szenariodiagramm dargestellt).
Item 9. Andere Self-Service-Ersteller*innen von Semantikmodellen können den Dataflow in Power BI Desktop als Datenquelle verwenden, um neue Datenmodelle zu erstellen.
Item 10. Im Verwaltungsportal können Power BI-Administratoren Azure-Verbindungen so einrichten, dass Dataflowdaten in ihrem Azure Data Lake Storage Gen2 (ADLS Gen2)-Konto gespeichert werden. Die Einstellungen umfassen das Zuweisen eines Speicherkontos auf Mandantenebene und das Aktivieren von Speicherberechtigungen auf Arbeitsbereichsebene.
Item 11. Power BI-Administratoren verwalten Einstellungen im Verwaltungsportal.
Item 12. Standardmäßig speichern Dataflows Daten im internen Speicher, der vom Power BI-Dienst verwaltet wird. Optional kann die Datenausgabe des Dataflows im ADLS Gen2-Konto der Organisation gespeichert werden. Dieser Speichertyp wird manchmal als Bring Your Own Data Lake (BYODL) bezeichnet. Ein Vorteil des Speicherns von Dataflowdaten im Data Lake besteht darin, dass sie von anderen BI-Tools abgerufen und genutzt werden können.
Item 13. Dataflowdaten in ADLS Gen2 werden in einem Power BI-spezifischen Container gespeichert, der als Dateisystem bezeichnet wird. In diesem Container ist für jeden Arbeitsbereich ein Ordner vorhanden. Für jeden Dataflow sowie für jede Tabelle wird ein Unterordner erstellt. Power BI generiert bei jeder Aktualisierung der Dataflowdaten eine Momentaufnahme. Momentaufnahmen sind selbstbeschreibend und umfassen Metadaten sowie Datendateien.
Item 14. Azure-Administratoren verwalten Berechtigungen für das ADLS Gen2-Konto der Organisation.
Item 15. Power BI-Administratoren beaufsichtigen und überwachen Aktivitäten im Power BI-Dienst.

Tipp

Es wird empfohlen, auch das Verwendungsszenario Erweiterte Datenaufbereitung durchzulesen. Es baut auf den Konzepten auf, die in diesem Szenario vorgestellt werden.

Wesentliche Punkte

Nachstehend sind einige wichtige Punkte aufgeführt, auf die im Self-Service-Datenaufbereitungsszenario besonders hingewiesen werden muss.

Dataflows

Ein Dataflow umfasst mehrere Tabellen (auch als Entitäten bezeichnet). Alle Arbeiten zum Erstellen eines Dataflows werden in Power Query Online ausgeführt. Sie können Dataflows in mehreren Produkten erstellen, z. B. Power Apps, Dynamics 365 Customer Insights und Power BI.

Hinweis

Sie können keine Dataflows in einem persönlichen Arbeitsbereich im Power BI-Dienst erstellen.

Unterstützen von Semantikmodellersteller*innen

Das Szenariodiagramm veranschaulicht die Verwendung eines Power BI-Dataflows, um anderen Self-Service-Semantikmodellersteller*innen aufbereitete Daten bereitzustellen.

Hinweis

Das Semantikmodell verwendet den Dataflow als Datenquelle. Ein Bericht kann nicht direkt eine Verbindung zu einem Dataflow herstellen.

Nachfolgend sind einige Vorteile der Verwendung von Power BI-Dataflows aufgeführt:

  • Semantikmodellersteller*innen verwenden dieselbe vertraute Power Query-Oberfläche wie in Power BI Desktop.
  • Die durch einen Dataflow definierte Datenaufbereitungs- und Datentransformationslogik kann aufgrund der Zentralisierung mehrmals wiederverwendet werden.
  • Wenn im Dataflow Änderungen der Datenaufbereitungslogik vorgenommen werden, müssen abhängige Datenmodelle u. U. nicht aktualisiert werden. Beim Entfernen oder Umbenennen von Spalten oder Ändern der Datentypen von Spalten müssen abhängige Datenmodelle aktualisiert werden.
  • Vorab aufbereitete Daten können Power BI-Semantikmodellersteller*innen einfach zur Verfügung gestellt werden. Die Wiederverwendung ist besonders hilfreich für häufig verwendete Tabellen – insbesondere Dimensionstabellen wie Datum, Kunde und Produkt.
  • Der erforderliche Aufwand wird für Semantikmodellersteller*innen reduziert, da die Datenaufbereitung von der Datenmodellierung entkoppelt wurde.
  • Weniger Semantikmodellersteller benötigen direkten Zugriff auf Quellsysteme. Die Abfragen für Quellsysteme können komplex sein, sodass möglicherweise spezielle Zugriffsberechtigungen für die Quellsysteme erforderlich sind.
  • Die Anzahl der Aktualisierungen, die für Quellsysteme ausgeführt werden, wird reduziert, da das Semantikmodell die Verbindung mit Dataflows und nicht mit Quellsystemen aktualisiert, aus denen Dataflows extrahiert werden.
  • Dataflowdaten stellen eine zeitliche Momentaufnahme dar und erhöhen die Konsistenz, wenn sie von vielen Semantikmodellen verwendet werden.
  • Die Entkoppelung der Datenaufbereitungslogik in Dataflows kann dazu beitragen, den Erfolg der Semantikmodellaktualisierung zu verbessern. Wenn eine Dataflowaktualisierung zu Fehlern führt, werden Semantikmodelle unter Verwendung des letzten erfolgreichen Dataflowupdates aktualisiert.

Tipp

Wenden Sie beim Erstellen von Dataflowtabellen die Sternschema-Entwurfsprinzipien an. Ein Sternschemaentwurf eignet sich gut für die Erstellung von Power BI-Semantikmodellen. Verfeinern Sie außerdem die Dataflowausgabe, das verständliche Namen und konkrete Datentypen verwendet werden. Diese Techniken fördern die Konsistenz in abhängigen Semantikmodellen und helfen dabei, den Aufwand zu verringern, den Semantikmodellersteller*innen leisten müssen.

Flexibilität für Semantikmodellersteller*innen

Wenn Semantikmodellersteller*innen in Power BI Desktop eine Verbindung mit einem Dataflow herstellen, sind sie nicht auf die Verwendung der exakten Dataflowausgabe beschränkt. Die volle Funktionalität von Power Query steht weiterhin zur Verfügung. Diese Funktionalität ist nützlich, wenn zusätzliche Datenaufbereitungsarbeiten erforderlich sind oder die Daten weiter transformiert werden müssen.

Erweiterte Features für Dataflows

Es gibt viele Entwurfstechniken, Muster und bewährte Methoden für Dataflows, die vom Self-Service bis hin zu unternehmensweiten Lösungen reichen. Dataflows in einem Arbeitsbereich, dessen Lizenzmodus auf Premium-Einzelbenutzer oder Premium-Kapazität festgelegt ist, können von erweiterten Features profitieren.

Hinweis

Ein erweitertes Feature ist die inkrementelle Aktualisierung für Dataflows. Während es sich bei der inkrementellen Aktualisierung für Semantikmodelle um ein Power BI Pro-Feature handelt, ist die inkrementelle Aktualisierung für Dataflows ein Premium-Feature.

Weitere Informationen zu erweiterten Features für Dataflows finden Sie im Szenario Erweiterte Datenaufbereitung.

Aktualisieren von Dataflow und Semantikmodell

Wie bereits erwähnt, ist ein Dataflow eine Datenquelle für Semantikmodelle. In den meisten Fällen sind mehrere Datenaktualisierungszeitpläne beteiligt: einer für den Dataflow und einer für die einzelnen Semantikmodelle. Alternativ ist es möglich, das Premium-Feature DirectQuery vom Semantikmodell zum Dataflow zu verwenden (nicht im Szenariodiagramm dargestellt).

Azure Data Lake Storage Gen2

In Microsoft Azure ist ein ADLS Gen2-Konto ein bestimmter Azure Storage-Kontotyp, für den der hierarchische Namespace aktiviert ist. ADLS Gen2 verfügt über Leistungs-, Verwaltungs- und Sicherheitsvorteile für die Verarbeitung analytischer Workloads. Standardmäßig verwenden Power BI-Dataflows internen Speicher, d. h. ein integriertes Data Lake-Konto, das vom Power BI-Dienst verwaltet wird. Optional können Organisationen ihren eigenen Data Lake verwenden, indem sie eine Verbindung zum ADLS Gen2-Konto ihrer Organisation herstellen.

Nachstehend sind einige Vorteile der Verwendung des Data Lake-Kontos der Organisation aufgeführt:

  • Andere Benutzer oder Prozessen können (ggf.) im Data Lake auf die von einem Power BI-Dataflow gespeicherten Daten zugreifen. Das ist hilfreich, wenn der Dataflow über Power BI hinaus wiederverwendet wird. Auf die Daten kann beispielsweise in Azure Data Factory zugegriffen werden.
  • Die Daten im Data Lake können (ggf.) von anderen Tools oder Systemen verwaltet werden. In diesem Fall kann Power BI die Daten nutzen, aber nicht verwalten (nicht im Szenariodiagramm dargestellt).

Speicherung auf Mandantenebene

Der Abschnitt Azure-Verbindungen des Verwaltungsportals enthält eine Einstellung zum Konfigurieren einer Verbindung zu einem ADLS Gen2-Konto. Durch Konfigurieren dieser Einstellung können Sie einen eigenen Data Lake verwenden. Nach der Einrichtung können Sie Arbeitsbereiche so einstellen, dass dieses Data Lake-Konto verwendet wird.

Wichtig

Das Einrichten von Azure-Verbindungen bedeutet nicht, dass alle Dataflows im Power BI-Mandanten standardmäßig in diesem Konto gespeichert werden. Um ein explizites Speicherkonto (anstelle des internen Speichers) zu verwenden, muss jeder Arbeitsbereich eigens verbunden werden.

Die Azure-Verbindungen des Arbeitsbereichs müssen unbedingt eingerichtet werden, bevor Dataflows im Arbeitsbereich erstellt werden. Dasselbe Azure Storage-Konto wird für Power BI-Semantikmodellsicherungen verwendet.

Speicherung auf Arbeitsbereichsebene

Ein Power BI-Administrator kann eine Einstellung konfigurieren, um Speicherberechtigungen auf Arbeitsbereichsebene zu erlauben (im Abschnitt für Azure-Verbindungen des Verwaltungsportals). Wenn diese Einstellung aktiviert ist, können Arbeitsbereichsadministratoren ein anderes Speicherkonto verwenden als das Speicherkonto, das auf Mandantenebene definiert wurde. Die Aktivierung dieser Einstellung ist besonders hilfreich für dezentrale Geschäftseinheiten, die einen eigenen Data Lake in Azure verwalten.

Hinweis

Die Speicherberechtigung auf Arbeitsbereichsebene im Verwaltungsportal gilt für alle Arbeitsbereiche im Power BI-Mandanten.

Common Data Model-Format

Die Daten in einem ADLS Gen2-Konto werden in der CDM-Struktur (Common Data Model) gespeichert. Die CDM-Struktur ist ein Metadatenformat, das vorschreibt, wie das selbstbeschreibende Schema sowie die Daten gespeichert werden. Die CDM-Struktur ermöglicht semantische Konsistenz in einem Format, das für die Freigabe von Daten in zahlreichen Anwendungen standardisiert ist (nicht im Szenariodiagramm dargestellt).

Veröffentlichen in separaten Arbeitsbereichen

Die Veröffentlichung eines Dataflows in einem Arbeitsbereich, der von dem Arbeitsbereich getrennt ist, in dem die abhängigen Semantikmodelle gespeichert sind, bietet einige Vorteile. Ein Vorteil besteht darin, dass klar definiert ist, wer für die Verwaltung welcher Inhalte verantwortlich ist (wenn verschiedene Personen mit unterschiedlichen Verantwortlichkeiten vorhanden sind). Ein weiterer Vorteil ist, dass bestimmte Arbeitsbereichsberechtigungen für die einzelnen Inhaltstypen zugewiesen werden können.

Hinweis

Sie können keine Dataflows in einem persönlichen Arbeitsbereich im Power BI-Dienst erstellen.

Das Verwendungsszenario Erweiterte Datenaufbereitung beschreibt, wie mehrere Arbeitsbereiche eingerichtet werden, um die Flexibilität bei der Unterstützung von Self-Service-Erstellern auf Unternehmensebene zu verbessern.

Gatewaysetup

Zum Herstellen einer Verbindung zu Datenquellen, die sich in einem privaten Organisationsnetzwerk oder in einem virtuellen Netzwerk befinden, ist normalerweise ein lokales Datengateway erforderlich.

Ein Datengateway ist in folgenden Fällen erforderlich:

  • Erstellen eines Dataflows in Power Query Online, der eine Verbindung zu privaten Organisationsdaten herstellt.
  • Aktualisieren eines Dataflows, der eine Verbindung zu privaten Organisationsdaten herstellt.

Tipp

Dataflows benötigen ein zentrales Datengateway im Standardmodus. Ein Gateway im persönlichen Modus wird bei der Verwendung von Dataflows nicht unterstützt.

Systemüberwachung

Das Aktivitätsprotokoll erfasst Benutzeraktivitäten, die im Power BI-Dienst stattfinden. Power BI-Administratoren können die erfassten Aktivitätsprotokolldaten für Auditzwecke verwenden, um Nutzungsmuster und Akzeptanz zu verstehen. Das Aktivitätsprotokoll ist auch für die Unterstützung von Governancebemühungen, Sicherheitsüberprüfungen und Complianceanforderungen von Nutzen. In einem Self-Service-Datenaufbereitungsszenario ist es besonders hilfreich, um die Verwendung von Dataflows nachzuverfolgen.

Im nächsten Artikel in der Reihe erfahren Sie mehr über das Verwendungsszenario Erweiterte Datenaufbereitung.