Samouczek: analizowanie danych platformy Apache Spark przy użyciu usługi Power BI w usłudze HDInsight
Z tego samouczka dowiesz się, jak za pomocą usługi Microsoft Power BI wizualizować dane w klastrze Apache Spark w usłudze Azure HDInsight.
Z tego samouczka dowiesz się, jak wykonywać następujące czynności:
- wizualizowanie danych platformy Spark przy użyciu usługi Power BI
Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.
Wymagania wstępne
Ukończ artykuł Samouczek: ładowanie danych i uruchamianie zapytań w klastrze Apache Spark w usłudze Azure HDInsight.
Opcjonalnie: subskrypcja wersji próbnej usługi Power BI.
Weryfikowanie danych
Notes Jupyter utworzony w ramach poprzedniego samouczka zawiera kod do utworzenia tabeli hvac
. Ta tabela jest oparta na pliku CSV dostępnym we wszystkich klastrach Spark usługi HDInsight pod adresem \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv
. Postępuj zgodnie z następującą procedurą, aby sprawdzić dane.
W notesie Jupyter Notebook wklej następujący kod, a następnie naciśnij klawisze SHIFT + ENTER. Kod sprawdza obecność tabel.
%%sql SHOW TABLES
Dane wyjściowe wyglądają następująco:
Jeśli notes został zamknięty przed rozpoczęciem tego samouczka, tabela
hvactemptable
jest wyczyszczona, więc nie znajduje się w danych wyjściowych. Z poziomu narzędzi do analizy biznesowej można uzyskać dostęp tylko do tabel Hive przechowywanych w magazynie metadanych (wskazywanych przez wartość False w kolumnie isTemporary). W tym samouczku nawiążesz połączenie z utworzoną tabelą hvac.Wklej następujący kod do pustej komórki, a następnie naciśnij klawisze SHIFT + ENTER. Kod sprawdza dane w tabeli.
%%sql SELECT * FROM hvac LIMIT 10
Dane wyjściowe wyglądają następująco:
W menu File (Plik) w notesie wybierz pozycję Close and Halt (Zamknij i zatrzymaj). Zamknij notes, aby zwolnić zasoby.
Wizualizacja danych
W tej sekcji użyjemy usługi Power BI do utworzenia wizualizacji, raportów i pulpitów nawigacyjnych na podstawie danych klastra platformy Spark.
Tworzenie raportu w programie Power BI Desktop
Pierwsze kroki podczas pracy z platformą Spark obejmują połączenie się z klastrem w programie Power BI Desktop, załadowanie danych z klastra i utworzenie podstawowej wizualizacji na podstawie tych danych.
Otwórz Power BI Desktop. Zamknij ekran powitalny uruchamiania, jeśli zostanie otwarty.
Na karcie Narzędzia główne przejdź do pozycji Pobierz dane>Więcej...
W
Spark
polu wyszukiwania wybierz pozycję Azure HDInsight Spark, a następnie wybierz pozycję Połączenie.Wprowadź adres URL klastra (w formularzu
mysparkcluster.azurehdinsight.net
) w polu tekstowym Serwer .W obszarze Tryb łączności danych wybierz pozycję DirectQuery. Następnie wybierz opcję OK.
Platforma Spark umożliwia wykorzystanie dowolnego trybu łączności danych. Jeśli używasz zapytania bezpośredniego, zmiany są uwzględniane w raportach bez odświeżania całego zestawu danych. W przypadku importowania danych należy odświeżyć zestaw danych, aby zobaczyć zmiany. Aby uzyskać więcej informacji o tym, jak i kiedy korzystać z zapytania bezpośredniego, zobacz Używanie zapytania bezpośredniego w usłudze Power BI.
Wprowadź informacje o koncie logowania usługi HDInsight, a następnie wybierz pozycję Połączenie. Domyślna nazwa konta to admin.
Wybierz tabelę, poczekaj
hvac
, aby wyświetlić podgląd danych, a następnie wybierz pozycję Załaduj.Program Power BI Desktop posiada informacje niezbędne do połączenia się z klastrem Spark i załadowania danych z tabeli
hvac
. Tabela i jej kolumny zostaną wyświetlone w okienku Pola.Wizualizuj różnicę między temperaturą docelową i temperaturą rzeczywistą każdego budynku:
W okienku WIZUALIZACJE wybierz pozycję Wykres warstwowy.
Przeciągnij pole BuildingID do obszaru Oś i przeciągnij pola ActualTemp i TargetTemp do obszaru Wartość.
Diagram wygląda następująco:
Domyślnie wizualizacja pokazuję sumę wartości ActualTemp i TargetTemp. Wybierz strzałkę w dół obok pozycji ActualTemp i TragetTemp w okienku Wizualizacje. Zostanie wyświetlona opcja Suma.
Wybierz strzałki w dół obok pozycji ActualTemp i TragetTemp w okienku Wizualizacje, wybierz pozycję Średnia, aby uzyskać średnią rzeczywistych i docelowych temperatur dla każdego budynku.
Twoja wizualizacja danych będzie podobna do przedstawionej na zrzucie ekranu. Przesuń kursor nad wizualizację, aby wyświetlić etykietki narzędzi z odpowiednimi danymi.
Przejdź do pozycji Zapisz plik>, wprowadź nazwę
BuildingTemperature
pliku, a następnie wybierz pozycję Zapisz.
Publikowanie raportu w usłudze Power BI (opcjonalnie)
Usługa Power BI umożliwia udostępnianie raportów i pulpitów nawigacyjnych w ramach organizacji. W tej sekcji opublikuj najpierw zestaw danych i raport. Następnie przypnij raport do pulpitu nawigacyjnego. Pulpity nawigacyjne są zwykle używane do skupienia się na podzestawie danych w raporcie. Masz tylko jedną wizualizację w raporcie, ale nadal warto wykonać kroki.
Otwórz Power BI Desktop.
Na karcie Narzędzia główne wybierz opcję Publikuj.
Wybierz obszar roboczy, w celu opublikowania zestawu danych i raportu, a następnie wybierz pozycję Wybierz. Na poniższej ilustracji domyślnie wybrany jest Mój obszar roboczy.
Po pomyślnych zakończeniu publikowania wybierz pozycję Otwórz plik "BuildingTemperature.pbix" w usłudze Power BI.
W usługa Power BI wybierz pozycję Wprowadź poświadczenia.
Wybierz pozycję Edytuj poświadczenia.
Wprowadź informacje o koncie logowania usługi HDInsight, a następnie wybierz pozycję Zaloguj. Domyślna nazwa konta to admin.
W okienku po lewej stronie przejdź do pozycji Obszary robocze>Moje RAPORTY obszaru roboczego>, a następnie wybierz pozycję BuildingTemperature.
Pozycja BuildingTemperature powinna również zostać wyświetlona w obszarze ZESTAWY DANYCH w okienku po lewej stronie.
Wizualizacja utworzona w programie Power BI Desktop jest teraz dostępna w usłudze Power BI.
Umieść kursor nad wizualizacją, a następnie wybierz ikonę pinezki w prawym górnym rogu.
Wybierz pozycję "Nowy pulpit nawigacyjny", wprowadź nazwę
Building temperature
, a następnie wybierz pozycję Przypnij.W raporcie wybierz pozycję Przejdź do pulpitu nawigacyjnego.
Wizualizacja zostanie przypięta do pulpitu nawigacyjnego — możesz dodać inne wizualizacje do raportu i przypiąć je do tego samego pulpitu nawigacyjnego. Aby uzyskać więcej informacji na temat raportów i pulpitów nawigacyjnych, zobacz Raporty w usłudze Power BI i Pulpity nawigacyjne w usłudze Power BI.
Czyszczenie zasobów
Po ukończeniu korzystania z samouczka warto usunąć klaster. W usłudze HDInsight dane są przechowywane w usłudze Azure Storage, dzięki czemu można bezpiecznie usunąć klaster, gdy nie jest używany. Opłaty są również naliczane za klaster usługi HDInsight, nawet jeśli nie jest używany. Ponieważ opłaty za klaster są wielokrotnie większe niż opłaty za magazyn, warto usunąć klastry, gdy nie są używane.
Aby usunąć klaster, zobacz Usuwanie klastra usługi HDInsight przy użyciu przeglądarki, programu PowerShell lub interfejsu wiersza polecenia platformy Azure.
Następne kroki
W tym samouczku przedstawiono sposób używania usługi Microsoft Power BI do wizualizacji danych w klastrze Apache Spark w usłudze Azure HDInsight. Przejdź do następnego artykułu, aby zobaczyć, jak utworzyć aplikację uczenia maszynowego.