Oktatóanyag: Apache Spark-adatok elemzése a POWER BI használatával a HDInsightban

Ebben az oktatóanyagban megtudhatja, hogyan jeleníthet meg adatokat egy Apache Spark-fürtben az Azure HDInsightban a Microsoft Power BI használatával.

Ebben az oktatóanyagban az alábbiakkal fog megismerkedni:

  • Spark-adatok vizualizációja a Power BI használatával

Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.

Előfeltételek

Az adatok ellenőrzése

Az előző oktatóanyagban létrehozott Jupyter-jegyzetfüzet tartalmaz egy hvac tábla létrehozására szolgáló kódot. Ez a táblázat az összes HDInsight Spark-fürtön elérhető CSV-fájlon alapul.\HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv Az adatok ellenőrzéséhez kövesse az alábbi eljárást.

  1. A Jupyter Notebookban illessze be a következő kódot, majd nyomja le a SHIFT + ENTER billentyűkombinációt. A kód segítségével a táblák meglétét ellenőrizhetjük.

    %%sql
    SHOW TABLES
    

    A kimenet a következőképpen fog kinézni:

    Képernyőkép a Spark tábláiról.

    Ha az oktatóanyag elindítása előtt már bezárta a notebookot, a hvactemptable törlődik, így az nem szerepel a kimenetben. A BI-eszközökkel csak a metaadattárban tárolt Hive-táblákhoz (ezeket Hamis érték jelzi az isTemporary oszlopban) lehet hozzáférni. Ebben az oktatóanyagban kapcsolatot létesít az Ön által létrehozott HVAC-táblával.

  2. Illessze be a következő kódot egy üres cellába, majd nyomja le a SHIFT + ENTER billentyűkombinációt. A kód elvégzi a tábla adatainak ellenőrzését.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    A kimenet a következőképpen fog kinézni:

    Képernyőkép a Spark hvac táblájából származó sorokról.

  3. A notebook File (Fájl) menüjében kattintson a Close and Halt (Bezárás és leállítás) elemre. Állítsa le a notebookot az erőforrások felszabadításához.

Az adatok vizualizációja

Ebben a szakaszban a Power BI-t fogja használni a vizualizációk, jelentések és irányítópultok a Spark-fürt adataiból való létrehozásához.

Jelentés készítése a Power BI Desktopban

A Spark használatba vételének első lépései a csatlakozás a fürthöz a Power BI Desktopban, az adatok betöltése a fürtből, és az ezen adatokon alapuló, alapszintű vizualizáció létrehozása.

  1. Nyissa meg a Power BI Desktopot. Ha megnyílik, zárja be az indítási kezdőképernyőt.

  2. A Kezdőlap lapon navigáljon az Adatok>lekérése tovább...

    A HDInsight Apache Sparkból származó adatok Power BI Desktopba való beolvasását bemutató képernyőkép.

  3. Írja be Spark a keresőmezőbe, válassza az Azure HDInsight Sparkot, majd válassza a Csatlakozás.

    Képernyőkép az Apache Spark BI-ból származó adatok Power BI-ba való beolvasásáról.

  4. Írja be a fürt URL-címét (az űrlapon mysparkcluster.azurehdinsight.net) a Kiszolgáló szövegmezőbe.

  5. Az Adatkapcsolati módban válassza a DirectQuery lehetőséget. Ezután válassza az OK gombra.

    A Sparkkal bármelyik adatkapcsolati módot használhatja. A DirectQuery használatakor a módosítások anélkül jelennek meg a jelentésekben, hogy a teljes adatkészletet frissíteni kellene. Ha importálja az adatokat, a módosítások megtekintéséhez frissítenie kell az adatkészletet. További információ a DirectQuery használatának módjáról és idejéről: DirectQuery használata a Power BI-ban.

  6. Adja meg a HDInsight bejelentkezési fiók adatait, majd válassza a Csatlakozás. Az alapértelmezett fióknév az admin.

  7. Jelölje ki a tábláthvac, várja meg az adatok előnézetének megtekintését, majd válassza a Betöltés lehetőséget.

    Képernyőkép a Spark-fürt felhasználónévről és jelszóról.

    A Power BI Desktop rendelkezik a Spark-fürthöz való csatlakozáshoz és adatok a hvac-táblából való letöltéséhez szükséges információkkal. A tábla és annak oszlopai a Mezők panelen jelennek meg.

  8. A célhőmérséklet és a tényleges hőmérséklet közötti eltérés vizualizációja az egyes épületek esetén:

    1. A VIZUALIZÁCIÓK panelen válassza a Területdiagram lehetőséget.

    2. Húzza a BuildingID mezőt a Tengely területre, az ActualTemp és a TargetTemp mezőket pedig az Érték területre.

      Értékoszlopok hozzáadását bemutató képernyőkép.

      A diagram a következőképpen fog kinézni:

      Képernyőkép a területdiagram összegről.

      Alapértelmezés szerint a vizualizáció az ActualTemp és a TargetTemp mezők összegét jeleníti meg. A Vizualizációk panelen válassza az ActualTemp és a TragetTemp melletti lefelé mutató nyilat, és láthatja, hogy az Összeg ki van jelölve.

    3. A Vizualizációk panelen válassza az ActualTemp és a TragetTemp melletti lefelé mutató nyilakat, majd az Átlag lehetőséget az egyes épületek tényleges és célhőmérsékletének átlagának lekéréséhez.

      Képernyőkép az értékek átlagáról.

      Az adatok vizualizációjának a képernyőképen láthatóhoz hasonlóan kell kinéznie. Ha az egérmutatót a vizualizáció fölé viszi, megtekintheti a kapcsolódó adatokhoz tartozó eszköztippeket.

      Képernyőkép a területdiagramról

  9. Lépjen a Fájl>mentése elemre, írja be a fájl nevétBuildingTemperature, majd válassza a Mentés lehetőséget.

A jelentés közzététele a Power BI szolgáltatásban (opcionális)

A Power BI szolgáltatás segítségével jelentéseket és irányítópultokat oszthat meg a vállalaton belül. Ebben a szakaszban először az adatkészlet és a jelentés közzétételét végezzük el. Ezután rögzíteni fogjuk a jelentést egy irányítópulton. Az irányítópultok általában a jelentésekben lévő adatok egy részhalmazára összpontosítanak. A jelentésben csak egy vizualizáció szerepel, de még mindig hasznos végighaladni a lépéseken.

  1. Nyissa meg a Power BI Desktopot.

  2. A Kezdőlap lapon válassza a Közzététel lehetőséget.

    Képernyőkép a Power BI Desktopból való közzétételről.

  3. Válasszon ki egy munkaterületet, amelyben közzé szeretné tenni az adathalmazt és a jelentést, majd válassza a Kiválasztás lehetőséget. A következő képen az alapértelmezett Saját munkaterület mező van kiválasztva.

    Képernyőkép az adathalmaz és a jelentés közzétételére kijelölt munkaterületről.

  4. A közzététel sikeres végrehajtása után válassza a "BuildingTemperature.pbix" megnyitása lehetőséget a Power BI-ban.

    A sikeres közzététel képernyőképe, a hitelesítő adatok megadásához kattintson ide.

  5. A Power BI szolgáltatás válassza az Enter Credentials (Hitelesítő adatok megadása) lehetőséget.

    Képernyőkép a hitelesítő adatok Power BI szolgáltatás való megadásáról.

  6. Válassza a Hitelesítő adatok szerkesztése lehetőséget.

    Képernyőkép a hitelesítő adatok szerkesztése Power BI szolgáltatás.

  7. Adja meg a HDInsight bejelentkezési fiók adatait, majd válassza a Bejelentkezés lehetőséget. Az alapértelmezett fióknév az admin.

    Képernyőkép a Spark-fürtbe való bejelentkezésről.

  8. A bal oldali panelen nyissa meg a Munkaterületek saját munkaterület>jelentéseit>, majd válassza a BuildingTemperature lehetőséget.

    Képernyőkép a jelentések alatt a bal oldali panelen látható jelentésről.

    A BuildingTemperature elemnek a bal oldali ablaktábla ADATKÉSZLETEK területén is meg kell jelennie.

    A Power BI Desktopban létrehozott vizualizáció mostantól a Power BI szolgáltatásban is elérhető.

  9. Vigye a kurzort a vizualizáció fölé, majd válassza a jobb felső sarokban lévő kitűző ikont.

    Képernyőkép a jelentésről a Power BI szolgáltatás.

  10. Válassza az "Új irányítópult" lehetőséget, írja be a nevet Building temperature, majd válassza a Rögzítés lehetőséget.

    Képernyőkép az új irányítópulton való rögzítésről.

  11. A jelentésben válassza az Ugrás az irányítópultra lehetőséget.

Ezzel rögzítette a vizualizációt az irányítópulton – felvehet további vizualizációkat is a jelentésbe, amelyeket ugyanezen az irányítópulton rögzíthet. A jelentésekről és irányítópultokról további információt a Power BI-jelentések és a Power BI irányítópultjai című témakörben talál.

Az erőforrások eltávolítása

Az oktatóanyag befejezése után érdemes törölni a fürtöt. A HDInsight használatával az adatok az Azure Storage-ban lesznek tárolva, így biztonságosan törölheti a fürtöt, ha nincs használatban. A HDInsight-fürtökért is díjat számítunk fel, még akkor is, ha nincs használatban. Mivel a fürt díjai sokszor nagyobbak, mint a tárolási díjak, érdemes törölni a fürtöket, ha nincsenek használatban.

A fürtök törléséről a HDInsight-fürt törlése a böngésző, a PowerShell vagy az Azure CLI használatával című témakörben olvashat.

Következő lépések

Ebben az oktatóanyagban megtanulta, hogyan jeleníthet meg adatokat egy Apache Spark-fürtben az Azure HDInsightban a Microsoft Power BI használatával. A következő cikkből megtudhatja, hogy létrehozhat egy gépi tanulási alkalmazást.