Oktatóanyag: Apache Spark-adatok elemzése a POWER BI használatával a HDInsightban
Ebben az oktatóanyagban megtudhatja, hogyan jeleníthet meg adatokat egy Apache Spark-fürtben az Azure HDInsightban a Microsoft Power BI használatával.
Ebben az oktatóanyagban az alábbiakkal fog megismerkedni:
- Spark-adatok vizualizációja a Power BI használatával
Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
Előfeltételek
Végezze el az oktatóanyagot: Adatok betöltése és lekérdezések futtatása Apache Spark-fürtön az Azure HDInsightban.
Nem kötelező: Power BI próbaverziós előfizetés.
Az adatok ellenőrzése
Az előző oktatóanyagban létrehozott Jupyter-jegyzetfüzet tartalmaz egy hvac
tábla létrehozására szolgáló kódot. Ez a táblázat az összes HDInsight Spark-fürtön elérhető CSV-fájlon alapul.\HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv
Az adatok ellenőrzéséhez kövesse az alábbi eljárást.
A Jupyter Notebookban illessze be a következő kódot, majd nyomja le a SHIFT + ENTER billentyűkombinációt. A kód segítségével a táblák meglétét ellenőrizhetjük.
%%sql SHOW TABLES
A kimenet a következőképpen fog kinézni:
Ha az oktatóanyag elindítása előtt már bezárta a notebookot, a
hvactemptable
törlődik, így az nem szerepel a kimenetben. A BI-eszközökkel csak a metaadattárban tárolt Hive-táblákhoz (ezeket Hamis érték jelzi az isTemporary oszlopban) lehet hozzáférni. Ebben az oktatóanyagban kapcsolatot létesít az Ön által létrehozott HVAC-táblával.Illessze be a következő kódot egy üres cellába, majd nyomja le a SHIFT + ENTER billentyűkombinációt. A kód elvégzi a tábla adatainak ellenőrzését.
%%sql SELECT * FROM hvac LIMIT 10
A kimenet a következőképpen fog kinézni:
A notebook File (Fájl) menüjében kattintson a Close and Halt (Bezárás és leállítás) elemre. Állítsa le a notebookot az erőforrások felszabadításához.
Az adatok vizualizációja
Ebben a szakaszban a Power BI-t fogja használni a vizualizációk, jelentések és irányítópultok a Spark-fürt adataiból való létrehozásához.
Jelentés készítése a Power BI Desktopban
A Spark használatba vételének első lépései a csatlakozás a fürthöz a Power BI Desktopban, az adatok betöltése a fürtből, és az ezen adatokon alapuló, alapszintű vizualizáció létrehozása.
Nyissa meg a Power BI Desktopot. Ha megnyílik, zárja be az indítási kezdőképernyőt.
A Kezdőlap lapon navigáljon az Adatok>lekérése tovább...
Írja be
Spark
a keresőmezőbe, válassza az Azure HDInsight Sparkot, majd válassza a Csatlakozás.Írja be a fürt URL-címét (az űrlapon
mysparkcluster.azurehdinsight.net
) a Kiszolgáló szövegmezőbe.Az Adatkapcsolati módban válassza a DirectQuery lehetőséget. Ezután válassza az OK gombra.
A Sparkkal bármelyik adatkapcsolati módot használhatja. A DirectQuery használatakor a módosítások anélkül jelennek meg a jelentésekben, hogy a teljes adatkészletet frissíteni kellene. Ha importálja az adatokat, a módosítások megtekintéséhez frissítenie kell az adatkészletet. További információ a DirectQuery használatának módjáról és idejéről: DirectQuery használata a Power BI-ban.
Adja meg a HDInsight bejelentkezési fiók adatait, majd válassza a Csatlakozás. Az alapértelmezett fióknév az admin.
Jelölje ki a táblát
hvac
, várja meg az adatok előnézetének megtekintését, majd válassza a Betöltés lehetőséget.A Power BI Desktop rendelkezik a Spark-fürthöz való csatlakozáshoz és adatok a
hvac
-táblából való letöltéséhez szükséges információkkal. A tábla és annak oszlopai a Mezők panelen jelennek meg.A célhőmérséklet és a tényleges hőmérséklet közötti eltérés vizualizációja az egyes épületek esetén:
A VIZUALIZÁCIÓK panelen válassza a Területdiagram lehetőséget.
Húzza a BuildingID mezőt a Tengely területre, az ActualTemp és a TargetTemp mezőket pedig az Érték területre.
A diagram a következőképpen fog kinézni:
Alapértelmezés szerint a vizualizáció az ActualTemp és a TargetTemp mezők összegét jeleníti meg. A Vizualizációk panelen válassza az ActualTemp és a TragetTemp melletti lefelé mutató nyilat, és láthatja, hogy az Összeg ki van jelölve.
A Vizualizációk panelen válassza az ActualTemp és a TragetTemp melletti lefelé mutató nyilakat, majd az Átlag lehetőséget az egyes épületek tényleges és célhőmérsékletének átlagának lekéréséhez.
Az adatok vizualizációjának a képernyőképen láthatóhoz hasonlóan kell kinéznie. Ha az egérmutatót a vizualizáció fölé viszi, megtekintheti a kapcsolódó adatokhoz tartozó eszköztippeket.
Lépjen a Fájl>mentése elemre, írja be a fájl nevét
BuildingTemperature
, majd válassza a Mentés lehetőséget.
A jelentés közzététele a Power BI szolgáltatásban (opcionális)
A Power BI szolgáltatás segítségével jelentéseket és irányítópultokat oszthat meg a vállalaton belül. Ebben a szakaszban először az adatkészlet és a jelentés közzétételét végezzük el. Ezután rögzíteni fogjuk a jelentést egy irányítópulton. Az irányítópultok általában a jelentésekben lévő adatok egy részhalmazára összpontosítanak. A jelentésben csak egy vizualizáció szerepel, de még mindig hasznos végighaladni a lépéseken.
Nyissa meg a Power BI Desktopot.
A Kezdőlap lapon válassza a Közzététel lehetőséget.
Válasszon ki egy munkaterületet, amelyben közzé szeretné tenni az adathalmazt és a jelentést, majd válassza a Kiválasztás lehetőséget. A következő képen az alapértelmezett Saját munkaterület mező van kiválasztva.
A közzététel sikeres végrehajtása után válassza a "BuildingTemperature.pbix" megnyitása lehetőséget a Power BI-ban.
A Power BI szolgáltatás válassza az Enter Credentials (Hitelesítő adatok megadása) lehetőséget.
Válassza a Hitelesítő adatok szerkesztése lehetőséget.
Adja meg a HDInsight bejelentkezési fiók adatait, majd válassza a Bejelentkezés lehetőséget. Az alapértelmezett fióknév az admin.
A bal oldali panelen nyissa meg a Munkaterületek saját munkaterület>jelentéseit>, majd válassza a BuildingTemperature lehetőséget.
A BuildingTemperature elemnek a bal oldali ablaktábla ADATKÉSZLETEK területén is meg kell jelennie.
A Power BI Desktopban létrehozott vizualizáció mostantól a Power BI szolgáltatásban is elérhető.
Vigye a kurzort a vizualizáció fölé, majd válassza a jobb felső sarokban lévő kitűző ikont.
Válassza az "Új irányítópult" lehetőséget, írja be a nevet
Building temperature
, majd válassza a Rögzítés lehetőséget.A jelentésben válassza az Ugrás az irányítópultra lehetőséget.
Ezzel rögzítette a vizualizációt az irányítópulton – felvehet további vizualizációkat is a jelentésbe, amelyeket ugyanezen az irányítópulton rögzíthet. A jelentésekről és irányítópultokról további információt a Power BI-jelentések és a Power BI irányítópultjai című témakörben talál.
Az erőforrások eltávolítása
Az oktatóanyag befejezése után érdemes törölni a fürtöt. A HDInsight használatával az adatok az Azure Storage-ban lesznek tárolva, így biztonságosan törölheti a fürtöt, ha nincs használatban. A HDInsight-fürtökért is díjat számítunk fel, még akkor is, ha nincs használatban. Mivel a fürt díjai sokszor nagyobbak, mint a tárolási díjak, érdemes törölni a fürtöket, ha nincsenek használatban.
A fürtök törléséről a HDInsight-fürt törlése a böngésző, a PowerShell vagy az Azure CLI használatával című témakörben olvashat.
Következő lépések
Ebben az oktatóanyagban megtanulta, hogyan jeleníthet meg adatokat egy Apache Spark-fürtben az Azure HDInsightban a Microsoft Power BI használatával. A következő cikkből megtudhatja, hogy létrehozhat egy gépi tanulási alkalmazást.