Tutorial: Analysieren von Apache Spark-Daten mithilfe von Power BI in HDInsight
In diesem Tutorial erfahren Sie, wie Sie mit Microsoft Power BI Daten in einem Apache Spark-Cluster in Azure HDInsight visualisieren.
In diesem Tutorial lernen Sie Folgendes:
- Visualisieren von Spark-Daten mithilfe von Power BI
Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
Voraussetzungen
Lesen Sie den Artikel Tutorial: Laden von Daten und Ausführen von Abfragen auf einem Apache Spark-Cluster in Azure HDInsight.
Optional: Power BI-Testabonnement.
Überprüfen der Daten
Das im vorherigen Tutorial erstellte Jupyter Notebook enthält Code zum Erstellen einer hvac
-Tabelle. Diese Tabelle basiert auf der CSV-Datei, die in allen HDInsight Spark-Clustern unter \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv
verfügbar ist. Gehen Sie folgendermaßen vor, um die Daten zu überprüfen.
Fügen Sie im Jupyter Notebook den folgenden Code ein, und drücken Sie UMSCHALT+EINGABETASTE. Der Code überprüft das Vorhandensein der Tabellen.
%%sql SHOW TABLES
Die Ausgabe sieht wie folgt aus:
Wenn Sie das Notebook vor dem Starten dieses Tutorials geschlossen haben, wird
hvactemptable
bereinigt und ist daher nicht in der Ausgabe enthalten. Nur Hive-Tabellen, die im Metastore gespeichert werden (angegeben durch False in der Spalte isTemporary), sind für die BI-Tools zugänglich. In diesem Tutorial stellen Sie eine Verbindung mit der erstellten Tabelle hvac her.Fügen Sie den folgenden Code in eine leere Zelle ein, und drücken Sie UMSCHALT+EINGABETASTE. Der Code überprüft die Daten in der Tabelle.
%%sql SELECT * FROM hvac LIMIT 10
Die Ausgabe sieht wie folgt aus:
Wählen Sie im Menü Datei des Notebooks die Option Schließen und Anhalten aus. Fahren Sie das Notebook herunter, um die Ressourcen freizugeben.
Visualisieren der Daten
In diesem Abschnitt verwenden Sie Power BI, um Visualisierungen, Berichte und Dashboards aus den Daten im Spark-Cluster zu erstellen.
Erstellen eines Berichts in Power BI Desktop
Die ersten Schritte bei der Verwendung von Spark bestehen darin, eine Verbindung mit dem Cluster in Power BI Desktop herzustellen, Daten aus dem Cluster zu laden und eine grundlegende Visualisierung auf der Grundlage dieser Daten zu erstellen.
Öffnen Sie Power BI Desktop. Schließen Sie den Begrüßungsbildschirm, wenn er geöffnet ist.
Navigieren Sie auf der Registerkarte Home zu Daten abrufen>Mehr.. .
Geben Sie
Spark
in das Suchfeld ein, wählen Sie Azure HDInsight Spark aus, und wählen Sie dann Verbinden aus.Geben Sie Ihre Cluster-URL (in der Form
mysparkcluster.azurehdinsight.net
) in das Textfeld Server ein.Wählen Sie unter Datenverbindungsmodus: die Option DirectQuery aus. Klicken Sie anschließend auf OK.
Sie können mit Spark beide Datenkonnektivitätsmodi verwenden. Wenn Sie „DirectQuery“ verwenden, werden Änderungen in Berichten ohne Aktualisierung des gesamten Datasets wiedergegeben. Wenn Sie Daten importieren, müssen Sie das Dataset aktualisieren, um die Änderungen zu sehen. Weitere Informationen dazu, wie und wann Sie „DirectQuery“ verwenden, finden Sie unter Verwenden von DirectQuery mit Power BI.
Geben Sie die Kontoinformationen für die HDInsight-Anmeldung ein, und wählen Sie dann Verbinden aus. Der Standardkontoname lautet admin.
Wählen Sie die Tabelle
hvac
aus, warten Sie, um eine Vorschau der Daten anzuzeigen, und wählen Sie dann Laden aus.Power BI Desktop verfügt nun über alle Informationen, die zum Herstellen einer Verbindung mit dem Spark-Cluster und zum Laden von Daten aus der Tabelle
hvac
erforderlich sind. Die Tabelle und ihre Spalten werden im Bereich Felder angezeigt.Visualisieren Sie die Abweichung zwischen Zieltemperatur und Ist-Temperatur für jedes Gebäude:
Wählen Sie im Bereich VISUALISIERUNGEN die Option Flächendiagramm aus.
Ziehen Sie das Feld BuildingID unter Achse und die Felder ActualTemp und TargetTemp unter Wert.
Das Diagramm sieht wie folgt aus:
Standardmäßig werden in der Visualisierung die Summen für ActualTemp und TargetTemp angezeigt. Wählen Sie den Pfeil nach unten neben ActualTemp und TargetTemp im Bereich „Visualisierungen“ aus. Sie sehen, dass Summe ausgewählt ist.
Wählen Sie den Pfeil nach unten neben ActualTemp und TargetTemp im Bereich „Visualisierungen“ aus, wählen Sie Durchschnitt aus, um den Durchschnittswert zwischen tatsächlicher und Zieltemperatur für jedes Gebäude zu erhalten.
Ihre Datenvisualisierung sollte ähnlich dem Screenshot aussehen. Bewegen Sie den Cursor über die Visualisierung, um QuickInfos mit relevanten Daten abzurufen.
Navigieren Sie zu Datei>Speichern, geben Sie den Namen
BuildingTemperature
für die Datei ein, und wählen Sie dann Speichern aus.
Veröffentlichen des Berichts im Power BI-Dienst (optional)
Mit dem Power BI-Dienst können Sie Berichte und Dashboards in Ihrer Organisation freigeben. In diesem Abschnitt veröffentlichen Sie zunächst das DataSet und den Bericht. Dann heften Sie den Bericht an ein Dashboard an. Dashboards werden üblicherweise dazu verwendet, sich auf eine Teilmenge der Daten in einem Bericht zu konzentrieren. Ihr Bericht enthält zwar nur eine Visualisierung, es ist aber dennoch hilfreich, die Schritte durchzugehen.
Öffnen Sie Power BI Desktop.
Klicken Sie auf der Registerkarte Start auf Veröffentlichen.
Wählen Sie einen Arbeitsbereich für die Veröffentlichung des Datasets und des Berichts aus, und wählen Sie dann Auswählen. In der folgenden Abbildung wird die Standardoption My Workspace (Mein Arbeitsbereich) ausgewählt.
Nachdem die Veröffentlichung abgeschlossen ist, wählen Sie Open „BuildingTemperature.pbix“ in Power BI („BuildingTemperature.pbix“ in Power BI öffnen).
Wählen Sie im Power BI-Dienst Anmeldeinformationen eingeben.
Wählen Sie Anmeldeinformationen bearbeiten.
Geben Sie die Kontoinformationen für die HDInsight-Anmeldung ein, und wählen Sie Anmelden. Der Standardkontoname lautet admin.
Navigieren Sie im linken Bereich zu Arbeitsbereiche>Mein Arbeitsbereich>BERICHTE, und wählen Sie BuildingTemperature.
Im linken Bereich sollte unter DATASETS außerdem BuildingTemperature aufgeführt sein.
Das in Power BI Desktop erstellte visuelle Element ist nun im Power BI-Dienst verfügbar.
Zeigen Sie mit der Maus auf die Visualisierung, und wählen Sie dann das Symbol zum Anheften in der rechten oberen Ecke.
Wählen Sie „Neues Dashboard“, geben Sie den Namen
Building temperature
ein, und wählen Sie dann Anheften.Wählen Sie im Bericht Zu Dashboard wechseln.
Ihr visuelles Element wird an das Dashboard angeheftet. Sie können weitere visuelle Elemente zum Bericht hinzufügen und sie ans gleiche Dashboard anheften. Weitere Informationen zu Berichten und Dashboards finden Sie unter Berichte in Power BI und Einführung in Dashboards für Power BI-Designer.
Bereinigen von Ressourcen
Nach Abschluss des Tutorials kann es ratsam sein, den Cluster zu löschen. Mit HDInsight werden Ihre Daten in Azure Storage gespeichert, sodass Sie einen Cluster problemlos löschen können, wenn er nicht verwendet wird. Für einen HDInsight-Cluster fallen auch dann Gebühren an, wenn er nicht verwendet wird. Da die Gebühren für den Cluster erheblich höher sind als die Kosten für den Speicher, ist es sinnvoll, nicht verwendete Cluster zu löschen.
Informationen zum Löschen eines Clusters finden Sie unter Löschen eines HDInsight-Clusters mit Ihrem Browser, PowerShell oder der Azure CLI.
Nächste Schritte
In diesem Tutorial haben Sie erfahren, wie Sie mit Microsoft Power BI Daten in einem Apache Spark-Cluster in Azure HDInsight visualisieren. Fahren Sie mit dem nächsten Artikel fort, um zu erfahren, wie Sie eine Anwendung für maschinelles Lernen erstellen.