Power BI-Verwendungsszenarien: Self-Service-Datenaufbereitung

Hinweis

Dieser Artikel ist Teil der Artikelreihe zur Power BI-Implementierungsplanung. Eine Einführung in die Artikelreihe finden Sie unter Power BI-Implementierungsplanung.

Die Datenaufbereitung (manchmal als ETL bezeichnet, ein Akronym für Extrahieren, Transformieren und Laden) ist abhängig von der Qualität und Struktur der Quelldaten häufig mit einem erheblichen Aufwand verbunden. Das Verwendungsszenario Self-Service-Datenaufbereitung konzentriert sich auf die Wiederverwendbarkeit von Datenaufbereitungsaktivitäten durch Geschäftsanalysten. Dieses Ziel der Wiederverwendbarkeit wird dadurch erreicht, dass der Datenaufbereitungsaufwand von Power Query (innerhalb einzelner Power BI Desktop-Dateien) auf Power Query Online (unter Verwendung eines Power BI-Dataflows) verlagert wird. Die Zentralisierung der Logik hilft dabei, eine einzige verlässliche Quelle zu schaffen und den erforderlichen Aufwand anderer Inhaltsersteller zu reduzieren.

Dataflows werden mithilfe von Power Query Online in einem der folgenden Tools erstellt: Power BI-Dienst, Power Apps oder Dynamics 365 Customer Insights. Ein in Power BI erstellter Dataflow wird als analytischer Dataflow bezeichnet. Dataflows, die in Power Apps erstellt werden, können einen von zwei Typen aufweisen: Standard oder analytisch. In diesem Szenario wird nur die Verwendung eines Power BI-Dataflows behandelt, der im Power BI-Dienst erstellt und verwaltet wird.

Hinweis

Das Szenario zur Self-Service-Datenaufbereitung ist eines der Self-Service-BI-Szenarien. Eine vollständige Liste der Self-Service-Szenarien finden Sie im Artikel zu Power BI-Verwendungsszenarien.

Einige Aspekte, die in den Szenarien für die inhaltsorientierte Zusammenarbeit und Übermittlung von Inhalten beschrieben sind, werden der Kürze halber in diesem Artikel nicht behandelt. Lesen Sie für vollständige Informationen zuerst diese Artikel.

Szenariodiagramm

Das folgende Diagramm enthält eine allgemeine Übersicht über die am häufigsten verwendeten Benutzeraktionen und Power BI-Komponenten, die die Self-Service-Datenaufbereitung unterstützen. Der Hauptfokus liegt auf dem Erstellen eines Dataflows in Power Query Online, der zu einer Datenquelle für mehrere Datasets wird. Das Ziel besteht darin, dass viele Datasets die aufbereiteten Daten nutzen, die vom Dataflow erstellt wurden.

Diagramm der Self-Service-Datenaufbereitung, bei der Dataflows zum Zentralisieren der Datenbereinigung und -transformation verwendet werden. Die Elemente im Diagramm werden in der folgenden Tabelle beschrieben.

Das Szenariodiagramm veranschaulicht die folgenden Benutzeraktionen, Tools und Features:

Element Beschreibung
Element 1 Der Dataflowersteller entwickelt mehrere Tabellen in einem Power BI-Dataflow. Für einen Dataflow, der für die Wiederverwendung vorgesehen ist, gehört der Ersteller üblicherweise (aber nicht notwendigerweise) zu einem zentralen Team, das Benutzer über Organisationsgrenzen hinweg unterstützt (z. B. IT, Unternehmens-BI oder Center of Excellence).
Element 2 Der Dataflow stellt eine Verbindung zu Daten in mindestens einer Datenquelle her.
Element 3 Dataflows werden mithilfe von Power Query Online entwickelt, eine webbasierte Version von Power Query. Die vertraute Power Query-Oberfläche in Power Query Online erleichtert den Übergang von Power BI Desktop.
Element 4 Der Dataflow wird als Element in einem dedizierten Arbeitsbereich zum Speichern und Sichern von Dataflows gespeichert. Damit die Daten aktuell bleiben, ist ein Aktualisierungszeitplan für Dataflows erforderlich(nicht im Szenariodiagramm dargestellt).
Element 5 Der Datasetersteller entwickelt mit Power BI Desktop ein neues Datenmodell.
Element 6 Der Dataflow ist eine Datenquelle für das neue Datenmodell.
Element 7 Der Datasetersteller kann die vollständigen Funktionen von Power Query in Power BI Desktop verwenden. Er kann ggf. zusätzliche Abfrageschritte anwenden, um die Dataflowdaten weiter zu transformieren oder die Dataflowausgabe zusammenzuführen.
Element 8 Nachdem dies erledigt ist, veröffentlicht der Datasetersteller die Power BI Desktop-Datei (PBIX), die das Datenmodell enthält, im Power BI-Dienst. Die Aktualisierung des Datasets wird getrennt vom Dataflow verwaltet (nicht im Szenariodiagramm dargestellt).
Element 9 Der Dataflow kann von anderen Datasets, die sich in anderen Arbeitsbereichen befinden, als Datenquelle wiederverwendet werden.
Element 10 Power BI-Administratoren verwalten Einstellungen im Verwaltungsportal.
Element 11 Im Verwaltungsportal können Power BI-Administratoren Azure-Verbindungen so konfigurieren, dass Dataflowdaten in ihrem Azure Data Lake Storage Gen2-Konto (ADLS Gen2) gespeichert werden. Die Einstellungen umfassen das Zuweisen eines Speicherkontos auf Mandantenebene und das Aktivieren von Speicherberechtigungen auf Arbeitsbereichsebene.
Element 12 Standardmäßig speichern Dataflows Daten im internen Speicher, der vom Power BI-Dienst verwaltet wird. Optional kann die Datenausgabe des Dataflows im ADLS Gen2-Konto der Organisation gespeichert werden. Dieser Speichertyp wird manchmal als Bring Your Own Data Lake (BYODL) bezeichnet. Ein Vorteil des Speicherns von Dataflowdaten im Data Lake besteht darin, dass sie von anderen BI-Tools abgerufen und genutzt werden können.
Element 13 Dataflowdaten in ADLS Gen2 werden in einem Power BI-spezifischen Container gespeichert, der als Dateisystem bezeichnet wird. In diesem Container ist für jeden Arbeitsbereich ein Ordner vorhanden. Für jeden Dataflow sowie für jede Tabelle wird ein Unterordner erstellt. Power BI generiert bei jeder Aktualisierung der Dataflowdaten eine Momentaufnahme. Momentaufnahmen sind selbstbeschreibend und umfassen Metadaten sowie Datendateien.
Element 14 Andere Self-Service-Datasetersteller können den Dataflow in Power BI Desktop als Datenquelle verwenden, um neue Datenmodelle zu erstellen.
Element 15 Azure-Administratoren verwalten Berechtigungen für das ADLS Gen2-Konto der Organisation.
Element 16 Zum Herstellen einer Verbindung zu Datenquellen, die sich in einem privaten Organisationsnetzwerk befinden, ist ein lokales Datengateway für die Datenaktualisierung erforderlich.
Element 17 Power BI-Administratoren beaufsichtigen und überwachen Aktivitäten im Power BI-Dienst.

Tipp

Es wird empfohlen, auch das Verwendungsszenario Erweiterte Datenaufbereitung durchzulesen. Es baut auf den Konzepten auf, die in diesem Szenario vorgestellt werden.

Wesentliche Punkte

Nachstehend sind einige wichtige Punkte aufgeführt, auf die im Self-Service-Datenaufbereitungsszenario besonders hingewiesen werden muss.

Dataflows

Ein Dataflow umfasst mehrere Tabellen (auch als Entitäten bezeichnet). Alle Arbeiten zum Erstellen eines Dataflows werden in Power Query Online ausgeführt. Sie können Dataflows in mehreren Produkten erstellen, z. B. Power Apps, Dynamics 365 Customer Insights und Power BI.

Hinweis

Sie können keine Dataflows in einem persönlichen Arbeitsbereich im Power BI-Dienst erstellen.

Unterstützung von Dataseterstellern

Das Szenariodiagramm veranschaulicht die Verwendung eines Power BI-Dataflows, um anderen Self-Service-Dataseterstellern aufbereitete Daten bereitzustellen.

Hinweis

Datasets verwenden den Dataflow als Datenquelle. Ein Bericht kann nicht direkt eine Verbindung zu einem Dataflow herstellen.

Nachfolgend sind einige Vorteile der Verwendung von Power BI-Dataflows aufgeführt:

  • Datasetersteller verwenden dieselbe vertraute Power Query-Oberfläche wie in Power BI Desktop.
  • Die durch einen Dataflow definierte Datenaufbereitungs- und Datentransformationslogik kann aufgrund der Zentralisierung mehrmals wiederverwendet werden.
  • Wenn im Dataflow Änderungen der Datenaufbereitungslogik vorgenommen werden, müssen abhängige Datenmodelle u. U. nicht aktualisiert werden. Beim Entfernen oder Umbenennen von Spalten oder Ändern der Datentypen von Spalten müssen abhängige Datenmodelle aktualisiert werden.
  • Vorab aufbereitete Daten können Power BI-Dataseterstellern einfach zur Verfügung gestellt werden. Die Wiederverwendung ist besonders hilfreich für häufig verwendete Tabellen – insbesondere Dimensionstabellen wie Datum, Kunde und Produkt.
  • Der erforderliche Aufwand von Dataseterstellern wird reduziert, da die Datenaufbereitung von der Datenmodellierung entkoppelt wurde.
  • Weniger Datasetersteller benötigen direkten Zugriff auf Quellsysteme. Die Abfragen für Quellsysteme können komplex sein, sodass möglicherweise spezielle Zugriffsberechtigungen für die Quellsysteme erforderlich sind.
  • Die Anzahl der Aktualisierungen, die für Quellsysteme ausgeführt werden, wird reduziert, da das Dataset die Verbindung zu Dataflows und nicht zu Quellsystemen aktualisiert, aus denen Dataflows extrahiert werden.
  • Dataflowdaten stellen eine zeitliche Momentaufnahme dar und erhöhen die Konsistenz, wenn sie von vielen Datasets verwendet werden.
  • Die Entkoppelung der Datenaufbereitungslogik in Dataflows kann dazu beitragen, den Erfolg der Datasetaktualisierung zu verbessern. Wenn eine Dataflowaktualisierung fehlschlägt, werden Datasets unter Verwendung der letzten erfolgreichen Dataflowaktualisierung aktualisiert.

Tipp

Wenden Sie beim Erstellen von Dataflowtabellen die Sternschema-Entwurfsprinzipien an. Ein Sternschemaentwurf ist gut für die Erstellung von Power BI-Datasets geeignet. Verfeinern Sie außerdem die Dataflowausgabe, das verständliche Namen und konkrete Datentypen verwendet werden. Diese Techniken fördern die Konsistenz in abhängigen Datasets und helfen dabei, den Aufwand zu verringern, den Datasetersteller leisten müssen.

Flexibilität von Dataseterstellern

Wenn ein Datasetersteller in Power BI Desktop eine Verbindung zu einem Dataflow herstellt, ist der Ersteller nicht auf die Verwendung der exakten Dataflowausgabe beschränkt. Die volle Funktionalität von Power Query steht weiterhin zur Verfügung. Diese Funktionalität ist nützlich, wenn zusätzliche Datenaufbereitungsarbeiten erforderlich sind oder die Daten weiter transformiert werden müssen.

Erweiterte Features für Dataflows

Es gibt viele Entwurfstechniken, Muster und bewährte Methoden für Dataflows, die vom Self-Service bis hin zu unternehmensweiten Lösungen reichen. Dataflows in einem Arbeitsbereich, dessen Lizenzmodus auf Premium-Einzelbenutzer oder Premium-Kapazität festgelegt ist, können von erweiterten Features profitieren.

Hinweis

Ein erweitertes Feature ist die inkrementelle Aktualisierung für Dataflows. Während es sich bei der inkrementellen Aktualisierung für Datasets um ein Power BI Pro-Feature handelt, ist die inkrementelle Aktualisierung für Dataflows ein Premium-Feature.

Weitere Informationen zu erweiterten Features für Dataflows finden Sie im Szenario Erweiterte Datenaufbereitung.

Dataflow- und Datasetaktualisierung

Wie bereits erwähnt, ist ein Dataflow eine Datenquelle für Datasets. In den meisten Fällen sind mehrere Datenaktualisierungszeitpläne beteiligt: einer für den Dataflow und einer für die einzelnen Datasets. Alternativ ist es möglich, das Premium-Feature DirectQuery vom Dataset zum Dataflow zu verwenden (nicht im Szenariodiagramm dargestellt).

Azure Data Lake Storage Gen2

In Microsoft Azure ist ein ADLS Gen2-Konto ein bestimmter Azure Storage-Kontotyp, für den der hierarchische Namespace aktiviert ist. ADLS Gen2 verfügt über Leistungs-, Verwaltungs- und Sicherheitsvorteile für die Verarbeitung analytischer Workloads. Standardmäßig verwenden Power BI-Dataflows internen Speicher, d. h. ein integriertes Data Lake-Konto, das vom Power BI-Dienst verwaltet wird. Optional können Organisationen ihren eigenen Data Lake verwenden, indem sie eine Verbindung zum ADLS Gen2-Konto ihrer Organisation herstellen.

Nachstehend sind einige Vorteile der Verwendung des Data Lake-Kontos der Organisation aufgeführt:

  • Andere Benutzer oder Prozessen können (ggf.) im Data Lake auf die von einem Power BI-Dataflow gespeicherten Daten zugreifen. Das ist hilfreich, wenn der Dataflow über Power BI hinaus wiederverwendet wird. Auf die Daten kann beispielsweise in Azure Data Factory zugegriffen werden.
  • Die Daten im Data Lake können (ggf.) von anderen Tools oder Systemen verwaltet werden. In diesem Fall kann Power BI die Daten nutzen, aber nicht verwalten (nicht im Szenariodiagramm dargestellt).

Speicherung auf Mandantenebene

Der Abschnitt Azure-Verbindungen des Verwaltungsportals enthält eine Einstellung zum Konfigurieren einer Verbindung zu einem ADLS Gen2-Konto. Durch Konfigurieren dieser Einstellung können Sie einen eigenen Data Lake verwenden. Nach der Konfiguration können Sie Arbeitsbereiche so einrichten, dass dieses Data Lake-Konto verwendet wird.

Wichtig

Das Einrichten von Azure-Verbindungen bedeutet nicht, dass alle Dataflows im Power BI-Mandanten standardmäßig in diesem Konto gespeichert werden. Um ein explizites Speicherkonto (anstelle des internen Speichers) zu verwenden, muss jeder Arbeitsbereich eigens verbunden werden.

Die Azure-Verbindungen des Arbeitsbereichs müssen unbedingt eingerichtet werden, bevor Dataflows im Arbeitsbereich erstellt werden. Das gleiche Azure-Speicherkonto wird für Power BI-Datasetsicherungen verwendet.

Speicherung auf Arbeitsbereichsebene

Ein Power BI-Administrator kann eine Einstellung konfigurieren, um Speicherberechtigungen auf Arbeitsbereichsebene zu erlauben (im Abschnitt für Azure-Verbindungen des Verwaltungsportals). Wenn diese Einstellung aktiviert ist, können Arbeitsbereichsadministratoren ein anderes Speicherkonto verwenden als das Speicherkonto, das auf Mandantenebene definiert wurde. Die Aktivierung dieser Einstellung ist besonders hilfreich für dezentrale Geschäftseinheiten, die einen eigenen Data Lake in Azure verwalten.

Hinweis

Die Speicherberechtigung auf Arbeitsbereichsebene im Verwaltungsportal gilt für alle Arbeitsbereiche im Power BI-Mandanten.

Common Data Model-Format

Die Daten in einem ADLS Gen2-Konto werden in der CDM-Struktur (Common Data Model) gespeichert. Die CDM-Struktur ist ein Metadatenformat, das vorschreibt, wie das selbstbeschreibende Schema sowie die Daten gespeichert werden. Die CDM-Struktur ermöglicht semantische Konsistenz in einem Format, das für die Freigabe von Daten in zahlreichen Anwendungen standardisiert ist (nicht im Szenariodiagramm dargestellt).

Veröffentlichen in separaten Arbeitsbereichen

Es gibt mehrere Vorteile für die Veröffentlichung eines Dataflows in einem Arbeitsbereich, der von dem Arbeitsbereich getrennt ist, in dem die abhängigen Datasets gespeichert sind. Ein Vorteil besteht darin, dass klar definiert ist, wer für die Verwaltung welcher Inhalte verantwortlich ist (wenn verschiedene Personen mit unterschiedlichen Verantwortlichkeiten vorhanden sind). Ein weiterer Vorteil ist, dass bestimmte Arbeitsbereichsberechtigungen für die einzelnen Inhaltstypen zugewiesen werden können.

Hinweis

Sie können keine Dataflows in einem persönlichen Arbeitsbereich im Power BI-Dienst erstellen.

Das Verwendungsszenario Erweiterte Datenaufbereitung beschreibt, wie mehrere Arbeitsbereiche eingerichtet werden, um die Flexibilität bei der Unterstützung von Self-Service-Erstellern auf Unternehmensebene zu verbessern.

Gatewaysetup

Zum Herstellen einer Verbindung zu Datenquellen, die sich in einem privaten Organisationsnetzwerk oder in einem virtuellen Netzwerk befinden, ist normalerweise ein lokales Datengateway erforderlich.

Ein Datengateway ist in folgenden Fällen erforderlich:

  • Erstellen eines Dataflows in Power Query Online, der eine Verbindung zu privaten Organisationsdaten herstellt.
  • Aktualisieren eines Dataflows, der eine Verbindung zu privaten Organisationsdaten herstellt.

Tipp

Dataflows benötigen ein zentrales Datengateway im Standardmodus. Ein Gateway im persönlichen Modus wird bei der Verwendung von Dataflows nicht unterstützt.

Systemüberwachung

Das Aktivitätsprotokoll erfasst Benutzeraktivitäten, die im Power BI-Dienst stattfinden. Power BI-Administratoren können die erfassten Aktivitätsprotokolldaten für Auditzwecke verwenden, um Nutzungsmuster und Akzeptanz zu verstehen. Das Aktivitätsprotokoll ist auch für die Unterstützung von Governancebemühungen, Sicherheitsüberprüfungen und Complianceanforderungen von Nutzen. In einem Self-Service-Datenaufbereitungsszenario ist es besonders hilfreich, um die Verwendung von Dataflows nachzuverfolgen.

Nächste Schritte

Im nächsten Artikel in der Reihe erfahren Sie mehr über das Verwendungsszenario Erweiterte Datenaufbereitung.