Adatok profilkészítése a Power BI-ban

Befejeződött

Az adatok profilkészítésének célja az adatok apró részleteinek tanulmányozása: a rendellenességek meghatározása, a mögöttes adatstruktúrák vizsgálata és fejlesztése, valamint az olyan adatstatisztikák lekérdezése, mint például a sorszámok, az értékek eloszlásai, a minimális és maximális értékek, az átlagok és egyebek. Ez a koncepció azért fontos, mert lehetővé teszi az adatok olyan alakítását és rendszerezését, ami egyszerűvé teszi az adatok kezelését és az adatok eloszlásának meghatározását, így biztosítva, hogy szinte minden erőfeszítés nélkül használhassa az adatokat az előtérben jelentéselemek fejlesztéséhez.

Tegyük fel, hogy a szervezet értékesítési csapata számára fejleszt jelentéseket.  Nem biztos benne, hogy milyen az adatok szerkezete és hogyan vannak tárolva a táblákban, ezért a vizualizációk fejlesztése profilt szeretne készíteni az adatokról a színfalak mögött.  A Power BI olyan beépített funkciókat tartalmaz, amelyekkel ezek a feladatok felhasználóbarát módon és egyszerűen elvégezhetők.

Az adatstruktúrák vizsgálata

Mielőtt megkezdené az adatok vizsgálatát a Power Query-szerkesztőben, először ismerkedjen meg a mögöttes adatstruktúrákkal, amelyekben az adatok el vannak rendezve. Az aktuális szemantikai modellt a Modell lapon tekintheti meg a Power BI Desktop.

példa az adatstruktúrára és a menüszalag sávjára

A Modell lapon egy tábla vagy oszlop kiválasztásával szerkesztheti az adott oszlop- és táblatulajdonságokat, és az Adatok átalakítása gombbal átalakíthatja az adatokat, így Power Query-szerkesztő. Emellett a menüszalagon található Kapcsolatok kezelése használatával kezelheti, hozhatja létre, szerkesztheti és törölheti a különböző táblák közötti kapcsolatokat.

Az adatok rendellenességeinek és statisztikáinak keresése

Miután létrehozott egy kapcsolatot egy adatforrással, és az Adatok átalakítása lehetőséget választotta, megnyílik a Power Query-szerkesztő, amelyben meghatározhatja, hogy vannak-e rendellenességek az adatokban.  Az adatrendellenességek az adatokban található kiugró értékek. Ha meghatározza, hogy mik ezek a rendellenességek, az segíthet meghatározni az adatok normál eloszlásának tulajdonságait, illetve hogy vannak-e olyan konkrét adatpontok, amelyeket tovább kell vizsgálni. Power Query-szerkesztő az oszlopterjesztési funkcióval határozza meg az adatanomáliákat.

Válassza a Nézet lehetőséget a menüszalagon, és az Adatok előnézete területen néhány lehetőség közül választhat. Az adatanomáliák és statisztikák megismeréséhez válassza az Oszlopterjesztés, az Oszlopminőség és az Oszlopprofil lehetőséget.  Az alábbi ábrán a megjelenő statisztikák láthatók.

Az oszlopminőség és az oszlopeloszlás az adatoszlopok fölötti grafikonokon jelenik meg. Az oszlopminőség az érvényes, hibás és üres adatok százalékos arányát mutatja. Ideális esetben azt szeretné, hogy az adatok 100%-a érvényes legyen.

egy adatoszlop rendellenességei és adatstatisztikái

Megjegyzés

Alapértelmezés szerint Power Query megvizsgálja az adathalmaz első 1000 sorát. Ha ezt módosítani szeretné, az állapotsorban válassza a profilkészítési állapotot, és válassza az Oszlopprofil-készítés a teljes adatkészlet alapján lehetőséget. ]

Az Oszlop eloszlása az oszlop adatainak eloszlását, valamint a különböző és az egyedi értékek darabszámát jeleníti meg; mindkettőből megtudhat részleteket az adatok mennyiségeiről. A különböző értékek az oszlopokban szereplő összes különböző érték, beleértve az ismétlődéseket és a null értékeket is, míg az egyedi értékek nem tartalmaznak duplikált vagy null értékeket. Ezért ebben a táblázatban a különböző értékek azt jelzik, hogy hány érték van jelen, míg az egyedi azt jelzi, hogy ezek közül hány csak egyszer jelenik meg.

Az oszlopprofil részletesebb betekintést nyújt az első 1000 adatsor oszlopainak statisztikáiba. Ez az oszlop számos különböző értéket tartalmaz, beleértve a sorok számát is, amely fontos annak ellenőrzéséhez, hogy az adatok importálása sikerült-e. Ha például az eredeti adatbázis 100 sort tartalmazott, akkor ezen sorszám alapján ellenőrizheti, hogy a rendszer valóban helyesen importált-e 100 sort. Emellett ez a sorszám megmutatja, hogy a Power BI hány sort tekint kiugró értéknek, üres sorokat és sztringeket, valamint a minimális és a maximális értéket, amely megmutatja az oszlop legkisebb és legnagyobb értékét. Ez a különbségtétel különösen fontos a numerikus adatok esetében, mert azonnal értesíti Önt, ha olyan maximális értékkel rendelkezik, amely meghaladja azt, amit a vállalkozása "maximumként" azonosít. Ez az érték felhívja a figyelmet ezekre az értékekre, ami azt jelenti, hogy az adatok mélyebb felezésekor összpontosíthatja erőfeszítéseit.  Abban az esetben, ha az adatok egy szöveges oszlopban szerepeltek, ahogy az előző képen is látható, a minimális érték az első érték, a maximális érték pedig az utolsó érték, ha betűrendben vannak.

Emellett az Értékelosztási grafikonon az adott oszlopban lévő különböző értékek száma is látható. Az előző képen látható gráfot vizsgálva figyelje meg, hogy az értékeloszlás azt jelzi, hogy az "Anthony Gross" a Legnagyobb számú alkalommal jelenik meg a SalesPerson oszlopban, és hogy a "Lily Code" a legkevesebb alkalommal jelenik meg. Ezek az információk különösen fontosak, mivel azonosítja a kiugró értékeket.  Ha egy érték jóval többször szerepel egy oszlopban, mint más értékek, az Értékek eloszlása funkcióval pontosan meghatározhat egy helyet, ahonnan kiindulva megkezdheti annak kivizsgálását, hogy ez miért van így.

A numerikus oszlopok oszlopstatisztikái azt is tartalmazzák, hogy hány nulla és null érték létezik, valamint az oszlopban lévő átlagérték, az oszlop értékeinek szórása, valamint hogy hány páros és páratlan érték található az oszlopban. Ezek a statisztikai adatok megmutatják az oszlopban szereplő adatok eloszlását, és azért fontosak, mert összefoglalják az oszlopban lévő adatokat, és kiindulási pontként szolgálnak a kiugró értékek meghatározásához.

Például a számlaadatok áttekintésével megfigyelheti, hogy az Értékterjesztési grafikonon látható, hogy a SalesPerson oszlopban néhány üzletkötő ugyanannyiszor jelenik meg az adatokon belül. Azt is láthatja, hogy ugyanez a helyzet a Profit oszlopban és néhány más táblában is előfordult. A kivizsgálás során felfedezi, hogy az Ön által használt adatok hibásak voltak, és frissítenie kellett őket, így azonnal elvégzi a frissítést. Ha nem tekintette volna meg a diagramot, előfordulhat, hogy nem vette volna észre ilyen gyorsan ezt a hibát, ezért az értékek eloszlása alapvető fontosságú.

Miután befejezte a szerkesztéseket a Power Query-szerkesztő, és készen áll a vizualizációk készítésére, térjen vissza a kezdőlapra a Power Query-szerkesztő menüszalagon. Válassza a Bezárás & Alkalmaz lehetőséget, amely visszaadja a Power BI Desktop, és minden oszlop szerkesztése/átalakítása is alkalmazva lesz.

Most már meghatározta azokat az elemeket, amelyek profilkészítési adatokat alkotnak a Power BI-ban, amelyek magukban foglalják az adatok Betöltését a Power BI-ban, az oszloptulajdonságok lekérdezését, az oszlopokban lévő adatok típusának és formátumának további szerkesztését, az adatanomáliák keresését és az adatstatisztikák megtekintését Power Query-szerkesztő. Ezen ismeretekkel felveheti az eszközkészletébe az adatok hatékony és hatásos vizsgálatának képességét.