Samouczek: analizowanie danych platformy Apache Spark przy użyciu usługi Power BI w usłudze HDInsight

Z tego samouczka dowiesz się, jak za pomocą usługi Microsoft Power BI wizualizować dane w klastrze Apache Spark w usłudze Azure HDInsight.

Z tego samouczka dowiesz się, jak wykonywać następujące czynności:

  • wizualizowanie danych platformy Spark przy użyciu usługi Power BI

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Wymagania wstępne

Weryfikowanie danych

Notes Jupyter utworzony w ramach poprzedniego samouczka zawiera kod do utworzenia tabeli hvac. Ta tabela jest oparta na pliku CSV dostępnym we wszystkich klastrach Spark usługi HDInsight pod adresem \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Postępuj zgodnie z następującą procedurą, aby sprawdzić dane.

  1. W notesie Jupyter Notebook wklej następujący kod, a następnie naciśnij klawisze SHIFT + ENTER. Kod sprawdza obecność tabel.

    %%sql
    SHOW TABLES
    

    Dane wyjściowe wyglądają następująco:

    Zrzut ekranu przedstawiający tabele na platformie Spark.

    Jeśli notes został zamknięty przed rozpoczęciem tego samouczka, tabela hvactemptable jest wyczyszczona, więc nie znajduje się w danych wyjściowych. Z poziomu narzędzi do analizy biznesowej można uzyskać dostęp tylko do tabel Hive przechowywanych w magazynie metadanych (wskazywanych przez wartość False w kolumnie isTemporary). W tym samouczku nawiążesz połączenie z utworzoną tabelą hvac.

  2. Wklej następujący kod do pustej komórki, a następnie naciśnij klawisze SHIFT + ENTER. Kod sprawdza dane w tabeli.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Dane wyjściowe wyglądają następująco:

    Zrzut ekranu przedstawiający wiersze z tabeli hvac na platformie Spark.

  3. W menu File (Plik) w notesie wybierz pozycję Close and Halt (Zamknij i zatrzymaj). Zamknij notes, aby zwolnić zasoby.

Wizualizacja danych

W tej sekcji użyjemy usługi Power BI do utworzenia wizualizacji, raportów i pulpitów nawigacyjnych na podstawie danych klastra platformy Spark.

Tworzenie raportu w programie Power BI Desktop

Pierwsze kroki podczas pracy z platformą Spark obejmują połączenie się z klastrem w programie Power BI Desktop, załadowanie danych z klastra i utworzenie podstawowej wizualizacji na podstawie tych danych.

  1. Otwórz Power BI Desktop. Zamknij ekran powitalny uruchamiania, jeśli zostanie otwarty.

  2. Na karcie Narzędzia główne przejdź do pozycji Pobierz dane>Więcej...

    Zrzut ekranu przedstawiający pobieranie danych do programu Power BI Desktop z usługi HDInsight Apache Spark.

  3. W Spark polu wyszukiwania wybierz pozycję Azure HDInsight Spark, a następnie wybierz pozycję Połączenie.

    Zrzut ekranu przedstawiający pobieranie danych do usługi Power BI z usługi Apache Spark BI.

  4. Wprowadź adres URL klastra (w formularzu mysparkcluster.azurehdinsight.net) w polu tekstowym Serwer .

  5. W obszarze Tryb łączności danych wybierz pozycję DirectQuery. Następnie wybierz opcję OK.

    Platforma Spark umożliwia wykorzystanie dowolnego trybu łączności danych. Jeśli używasz zapytania bezpośredniego, zmiany są uwzględniane w raportach bez odświeżania całego zestawu danych. W przypadku importowania danych należy odświeżyć zestaw danych, aby zobaczyć zmiany. Aby uzyskać więcej informacji o tym, jak i kiedy korzystać z zapytania bezpośredniego, zobacz Używanie zapytania bezpośredniego w usłudze Power BI.

  6. Wprowadź informacje o koncie logowania usługi HDInsight, a następnie wybierz pozycję Połączenie. Domyślna nazwa konta to admin.

  7. Wybierz tabelę, poczekaj hvac , aby wyświetlić podgląd danych, a następnie wybierz pozycję Załaduj.

    Zrzut ekranu przedstawiający nazwę użytkownika i hasło klastra Spark.

    Program Power BI Desktop posiada informacje niezbędne do połączenia się z klastrem Spark i załadowania danych z tabeli hvac. Tabela i jej kolumny zostaną wyświetlone w okienku Pola.

  8. Wizualizuj różnicę między temperaturą docelową i temperaturą rzeczywistą każdego budynku:

    1. W okienku WIZUALIZACJE wybierz pozycję Wykres warstwowy.

    2. Przeciągnij pole BuildingID do obszaru i przeciągnij pola ActualTemp i TargetTemp do obszaru Wartość.

      Zrzut ekranu przedstawiający kolumny dodawania wartości.

      Diagram wygląda następująco:

      Zrzut ekranu przedstawiający sumę wykresu warstwowego.

      Domyślnie wizualizacja pokazuję sumę wartości ActualTemp i TargetTemp. Wybierz strzałkę w dół obok pozycji ActualTemp i TragetTemp w okienku Wizualizacje. Zostanie wyświetlona opcja Suma.

    3. Wybierz strzałki w dół obok pozycji ActualTemp i TragetTemp w okienku Wizualizacje, wybierz pozycję Średnia, aby uzyskać średnią rzeczywistych i docelowych temperatur dla każdego budynku.

      Zrzut ekranu przedstawiający średnią wartości.

      Twoja wizualizacja danych będzie podobna do przedstawionej na zrzucie ekranu. Przesuń kursor nad wizualizację, aby wyświetlić etykietki narzędzi z odpowiednimi danymi.

      Zrzut ekranu przedstawiający wykres warstwowy

  9. Przejdź do pozycji Zapisz plik>, wprowadź nazwę BuildingTemperature pliku, a następnie wybierz pozycję Zapisz.

Publikowanie raportu w usłudze Power BI (opcjonalnie)

Usługa Power BI umożliwia udostępnianie raportów i pulpitów nawigacyjnych w ramach organizacji. W tej sekcji opublikuj najpierw zestaw danych i raport. Następnie przypnij raport do pulpitu nawigacyjnego. Pulpity nawigacyjne są zwykle używane do skupienia się na podzestawie danych w raporcie. Masz tylko jedną wizualizację w raporcie, ale nadal warto wykonać kroki.

  1. Otwórz Power BI Desktop.

  2. Na karcie Narzędzia główne wybierz opcję Publikuj.

    Zrzut ekranu przedstawiający publikowanie z programu Power BI Desktop.

  3. Wybierz obszar roboczy, w celu opublikowania zestawu danych i raportu, a następnie wybierz pozycję Wybierz. Na poniższej ilustracji domyślnie wybrany jest Mój obszar roboczy.

    Zrzut ekranu przedstawiający wybieranie obszaru roboczego do publikowania zestawu danych i raportu.

  4. Po pomyślnych zakończeniu publikowania wybierz pozycję Otwórz plik "BuildingTemperature.pbix" w usłudze Power BI.

    Zrzut ekranu przedstawiający powodzenie publikowania, kliknij, aby wprowadzić poświadczenia.

  5. W usługa Power BI wybierz pozycję Wprowadź poświadczenia.

    Zrzut ekranu przedstawiający sposób wprowadzania poświadczeń w usługa Power BI.

  6. Wybierz pozycję Edytuj poświadczenia.

    Zrzut ekranu przedstawiający edytowanie poświadczeń w usługa Power BI.

  7. Wprowadź informacje o koncie logowania usługi HDInsight, a następnie wybierz pozycję Zaloguj. Domyślna nazwa konta to admin.

    Zrzut ekranu przedstawiający logowanie do klastra Spark.

  8. W okienku po lewej stronie przejdź do pozycji Obszary robocze>Moje RAPORTY obszaru roboczego>, a następnie wybierz pozycję BuildingTemperature.

    Zrzut ekranu przedstawiający raport wyświetlany w obszarze raportów w okienku po lewej stronie.

    Pozycja BuildingTemperature powinna również zostać wyświetlona w obszarze ZESTAWY DANYCH w okienku po lewej stronie.

    Wizualizacja utworzona w programie Power BI Desktop jest teraz dostępna w usłudze Power BI.

  9. Umieść kursor nad wizualizacją, a następnie wybierz ikonę pinezki w prawym górnym rogu.

    Zrzut ekranu przedstawiający raport w usługa Power BI.

  10. Wybierz pozycję "Nowy pulpit nawigacyjny", wprowadź nazwę Building temperature, a następnie wybierz pozycję Przypnij.

    Zrzut ekranu przedstawiający przypinanie do nowego pulpitu nawigacyjnego.

  11. W raporcie wybierz pozycję Przejdź do pulpitu nawigacyjnego.

Wizualizacja zostanie przypięta do pulpitu nawigacyjnego — możesz dodać inne wizualizacje do raportu i przypiąć je do tego samego pulpitu nawigacyjnego. Aby uzyskać więcej informacji na temat raportów i pulpitów nawigacyjnych, zobacz Raporty w usłudze Power BI i Pulpity nawigacyjne w usłudze Power BI.

Czyszczenie zasobów

Po ukończeniu korzystania z samouczka warto usunąć klaster. W usłudze HDInsight dane są przechowywane w usłudze Azure Storage, dzięki czemu można bezpiecznie usunąć klaster, gdy nie jest używany. Opłaty są również naliczane za klaster usługi HDInsight, nawet jeśli nie jest używany. Ponieważ opłaty za klaster są wielokrotnie większe niż opłaty za magazyn, warto usunąć klastry, gdy nie są używane.

Aby usunąć klaster, zobacz Usuwanie klastra usługi HDInsight przy użyciu przeglądarki, programu PowerShell lub interfejsu wiersza polecenia platformy Azure.

Następne kroki

W tym samouczku przedstawiono sposób używania usługi Microsoft Power BI do wizualizacji danych w klastrze Apache Spark w usłudze Azure HDInsight. Przejdź do następnego artykułu, aby zobaczyć, jak utworzyć aplikację uczenia maszynowego.