Profilen von Daten in Power BI

Abgeschlossen

Beim Profilen werden die Eigenheiten von Daten untersucht: Es werden Anomalien bestimmt, die zugrunde liegenden Datenstrukturen untersucht und entwickelt und Datenstatistiken wie die Zeilenanzahl, Werteverteilungen, Mindest- und Höchstwerte, Durchschnittswerte usw. abgefragt. Dieses Konzept ist wichtig, denn durch Profiling können Sie Daten so strukturieren und organisieren, dass Sie unkompliziert damit interagieren und die Verteilung schnell ermitteln können. Profiling ist daher eine Schlüsselkomponente, mit sich Berichtselemente nahezu mühelos mithilfe von Daten im Front-End entwickeln lassen.

Angenommen, Sie entwickeln Berichte für die Vertriebsabteilung Ihrer Organisation.  Sie sind sich nicht sicher, wie die Daten strukturiert und auf Tabellen aufgeteilt sind. Aus diesem Grund sollte ein Profil für die Daten unter der Haube erstellt werden, bevor Sie mit der Entwicklung der Visuals beginnen.  Power BI verfügt über native Funktionen, die diese Aufgaben benutzerfreundlich und unkompliziert machen.

Untersuchen von Datenstrukturen

Bevor Sie damit beginnen, die Daten im Power Query-Editor zu untersuchen, sollten Sie sich über die zugrunde liegenden Datenstrukturen informieren, in denen die Daten vorliegen. Sie können das aktuelle semantische Modell in Power BI Desktop auf der Registerkarte Modell anzeigen.

Beispiel für eine Datenstruktur und Menüband

Auf der Registerkarte Modell können Sie bestimmte Spalten- und Tabelleneigenschaften bearbeiten, indem Sie eine Tabelle oder Spalten auswählen. Außerdem haben Sie die Möglichkeit, die Daten zu transformieren. Klicken Sie dazu auf die Schaltfläche Daten transformieren, und der Power Query-Editor wird geöffnet. Zudem können Sie über Beziehungen verwalten die Beziehungen zwischen verschiedenen Tabellen verwalten, erstellen, bearbeiten und löschen. Diese Schaltfläche befindet sich im Menüband.

Suchen von Datenanomalien und -statistiken

Nachdem Sie eine Verbindung mit einer Datenquelle hergestellt und auf Daten transformieren geklickt haben, wird der Power Query-Editor geöffnet. Dort können Sie ermitteln, ob Ihre Daten Anomalien aufweisen.  Als Anomalien werden Ausreißer innerhalb der Daten bezeichnet. Indem Sie diese Anomalien bestimmen, können Sie ermitteln, wie die Normalverteilung Ihrer Daten aussieht und ob bestimmte Datenpunkte vorhanden sind, die weiter untersucht werden müssen. Im Power Query-Editor werden Datenanomalien mithilfe des Features Spaltenverteilung ermittelt.

Klicken Sie auf das Menüband Sicht. Unter Datenvorschau stehen einige Optionen zur Auswahl. Wenn Sie die Datenanomalien und -statistiken näher verstehen möchten, müssen Sie die Optionen Spaltenverteilung, Spaltenqualität und Spaltenprofil auswählen.  In der folgenden Abbildung sind die im Power Query-Editor angezeigten Statistiken zu sehen.

Spaltenqualität und Spaltenverteilung werden in den Diagrammen oberhalb der Datenspalten angezeigt. Spaltenqualität zeigt die Prozentsätze der Daten an, die gültig, fehlerhaft und leer sind. Idealerweise sollten 100 % der Daten gültig sein.

Anomalien und Datenstatistiken zu Datenspalten

Hinweis

Standardmäßig untersucht Power Query die ersten 1.000 Zeilen Ihres Datasets. Um dies zu ändern, wählen Sie auf der Statusleiste den Profilerstellungsstatus und dann Spaltenprofilerstellung basierend auf gesamtem Dataset aus. ]

Das Feature Spaltenverteilung zeigt die Verteilung der Daten innerhalb der Spalte sowie die Anzahl der unterschiedlichen und eindeutigen Werte an. Beide Werte können Ihnen Aufschluss über die Datenmengen geben. Als verschiedene Werte werden alle Werte in einer Spalte bezeichnet, einschließlich der Duplikate und NULL-Werte, während eindeutige Werte die Duplikate und NULL-Werte ausschließen. Deshalb sagt die Anzahl der unterschiedlichen Werte in dieser Tabelle aus, wie viele Werte insgesamt vorhanden sind, während die eindeutigen Werte angeben, wie viele dieser Werte nur ein Mal vorkommen.

Spaltenprofil ermöglicht Ihnen einen tieferen Einblick in die Statistiken innerhalb der Spalten für die ersten 1.000 Datenzeilen. Diese Spalte enthält mehrere verschiedene Werte, einschließlich der Zeilenanzahl. Diese ist wichtig, um zu überprüfen, ob der Datenimport erfolgreich war. Wenn die ursprüngliche Datenbank z. B. 100 Zeilen enthielt, können Sie mit der Zeilenanzahl überprüfen, ob die 100 Zeilen tatsächlich korrekt importiert wurden. Für diese Zeilenanzahl wird außerdem angegeben, wie viele Zeilen in Power BI als Ausreißer gelten, wie viele Zeilen und Zeichenfolgen leer sind und welche Zeilen den kleinsten und größten Wert in einer Spalte enthalten. Diese Unterscheidung ist vor allem bei numerischen Daten wichtig, da sie Sie sofort darauf hinweist, wenn Sie einen Maximalwert haben, der über das hinausgeht, was Ihr Unternehmen als „Maximum“ identifiziert. Dieser Wert macht Sie auf diese Werte aufmerksam, was bedeutet, dass Sie Ihre Bemühungen darauf konzentrieren können, wenn Sie die Daten genauer untersuchen.  Wenn Daten wie in der vorherigen Abbildung aus der Textspalte stammen, wird zunächst der Mindestwert und anschließend der Maximalwert genannt, wenn dies der alphabetischen Reihenfolge entspricht.

Zudem gibt der Graph Wertverteilung Aufschluss über die Anzahl der einzelnen eindeutigen Werte in der jeweiligen Spalte. Beachten Sie im Graphen im vorherigen Screenshot, dass „Anthony Grosse“ laut der Wertverteilung am häufigsten innerhalb der Spalte SalesPerson genannt wird und „Lily Code“ am seltensten. Dies ist besonders wichtig, da diese Werte Ausreißer darstellen.  Wenn ein Wert deutlich öfter als andere innerhalb einer Spalte auftaucht, bietet Ihnen das Feature Wertverteilung einen Ausgangspunkt für die Ursachenforschung.

Für numerische Spalten gibt die Spaltenstatistik auch die Anzahl der Nullen und NULL-Werte, den Durchschnittswert der Spalte, die Standardabweichung der Spaltenwerte und der Anzahl der geraden und ungeraden Spaltenwerte wieder. Diese Informationen helfen Ihnen, sich ein Bild von der Verteilung der Daten innerhalb der Spalte zu machen. Sie sind wichtig, weil sie die Spaltendaten zusammenfassen und als Ausgangspunkt für die Bestimmung von Ausreißern dienen.

Wenn Sie sich beispielsweise die Rechnungsdaten ansehen, werden Sie bemerken, dass einige Vertriebsmitarbeiter*innen aus der Spalte SalesPerson laut dem Graphen Wertverteilung gleich oft in den Daten vorkommen. Sie stellen dasselbe in der Spalte Profit und einigen anderen Tabellen fest. Bei Ihren Untersuchungen bemerken Sie, dass die verwendeten Daten mangelhaft waren und aktualisiert werden müssen. Sie führen die Aktualisierung umgehend durch. Ohne diesen Graphen wäre Ihnen dieser Fehler möglicherweise nicht so schnell aufgefallen. Aus genau diesem Grund ist die Wertverteilung so elementar.

Wenn Sie Ihre Änderungen im Power Query-Editor vorgenommen haben und mit dem Erstellen von Visuals beginnen können, müssen Sie zur Registerkarte Start im Menüband des Power Query-Editors zurückkehren. Klicken Sie auf Schließen und übernehmen. Dadurch gelangen Sie zurück zu Power BI Desktop, und alle Spaltenänderungen/-transformationen werden übernommen.

Sie haben nun die Elemente des Datenprofilings in Power BI kennengelernt, zu denen das Laden von Daten in Power BI, das Abfragen von Spalteneigenschaften zum Untersuchen und weiteren Bearbeiten des Typs und des Formats von Spaltendaten, das Suchen von Datenanomalien und das Aufrufen von Datenstatistiken im Power Query-Editor zählen. Dies bedeutet, dass Sie sich eine weitere wichtige Fachkompetenz angeeignet haben: das effiziente und effektive Untersuchen von Daten.