Elemzések alkalmazása a Power BI-ban annak felderítéséhez, hogy hol változnak a disztribúciók

A KÖVETKEZŐKRE VONATKOZIK: Power BI Desktop Power BI szolgáltatás

A vizualizációkban gyakran megjelenik egy adatpont, és felmerül a kérdés, hogy az eloszlás azonos lenne-e a különböző kategóriák esetében. A Power BIelemzéseivel mindössze néhány kattintással kiderítheti.

Vegye figyelembe a következő vizualizációt, amely a TotalSales by CountryName (Összes értékesítés országnév szerint) értéket jeleníti meg. A legtöbb értékesítés a Egyesült Államok származik, amely az összes értékesítés 57%-át tette ki, kisebb hozzájárulással más országokból/régiókból. Az ilyen esetekben gyakran érdekes annak vizsgálata, hogy ez az eloszlás látható-e a különböző alpopulációk esetében. Vajon ugyanezt az eredményt látnánk minden év, minden értékesítési csatorna, és minden termékkategória esetében is? Bár különböző szűrőket alkalmazhat, és vizuálisan összehasonlíthatja az eredményeket, ez időigényes és hibalehetőséget jelenthet. Képernyőkép egy nagy eloszlású diagramról.

A Power BI-nak megadhatja, hogy hol különbözik egy disztribúció, és gyors, automatizált és részletes elemzést kapjon az adatairól. Kattintson a jobb gombbal egy adatpontra, és válassza a Keresés elemzése>,ahol ez a disztribúció eltérő, és a rendszer egy könnyen használható ablakban ad vissza egy megállapítást.

Képernyőkép egy megállapításról, amely egy másik disztribúciót mutat be.

Ebben a példában az automatizált elemzés azt mutatja, hogy a túrakerékpárok értékesítésének aránya a Egyesült Államok és Kanada esetében alacsonyabb, mint a többi országból/régióból származó arány.

Elemzések használata

Ha elemzéseket szeretne használni a diagramokon látható eloszlások eltérő helyének megkereséséhez, egyszerűen kattintson a jobb gombbal bármelyik adatpontra vagy a vizualizáció egészére. Ezután válassza a Keresés elemzése>, ahol ez a disztribúció eltérő.

Képernyőkép egy oszlopdiagramról, amelyen a jobb gombbal kattintva megjelenő menü látható.

A Power BI az adatokon futtatja gépi tanulási algoritmusait. Ezután feltölt egy ablakot egy vizualizációval, valamint annak leírásával, hogy mely kategóriák (oszlopok) és a kategóriák mely értékei eredményezik a legkülönbözőbb eloszlást. Az elemzések oszlopdiagramként érhetők el, ahogy az alábbi képen is látható:

Képernyőkép egy oszlopdiagramról és egy megállapításról.

A kiválasztott szűrővel rendelkező értékek alapértelmezett színnel rendelkeznek. Az összesített értékek, ahogyan az eredeti kezdő vizualizáción láthatjuk, szürkén jelennek meg. Ebben a példában legfeljebb három különböző szűrő szerepelhet (a túrakerékpárok, a hegyikerékpárok és a közúti kerékpárok ), és különböző szűrők választhatók ki egy adatpont kiválasztásával, vagy a ctrl billentyűt lenyomva tartva kijelölhet több szűrőt.

Egyszerű additív mértékek esetében (például az Összes értékesítés) az összehasonlítás a relatív, és nem az abszolút értékeken alapul. A túrakerékpárok értékesítése alacsonyabb, mint az összes kategória teljes értékesítése; A vizualizáció azonban alapértelmezés szerint kettős tengelyt használ a különböző országok/régiók közötti értékesítések arányának összehasonlításához. Ez a túrakerékpárok és a kerékpárok összes kategóriája esetében használható. A vizualizáció alatti váltógombbal a két érték ugyanabban a tengelyen jeleníthető meg, így az abszolút értékek egyszerűen összehasonlíthatók az alábbi képen látható módon:

Képernyőkép egy megállapítást tartalmazó vizualizációról.

A leíró szöveg azt a fontossági szintet is jelzi, amely egy szűrőértékhez csatolható, figyelembe véve a szűrőnek megfelelő rekordok számát. Ebben a példában láthatja, hogy bár a Túrakerékpárok eloszlása eltérő lehet, a rekordoknak csak 16,6%-át teszik ki.

A felfelé éslefelé mutató hüvelykujj ikonok az oldal tetején találhatók, így visszajelzést küldhet a vizualizációról és a funkcióról. Ezzel azonban nem tanítja be az algoritmust, hogy befolyásolja a funkció következő használatakor visszaadott eredményeket.

Fontos, hogy a + vizualizáció tetején található gomb lehetővé teszi, hogy a kijelölt vizualizációt úgy adja hozzá a jelentéshez, mintha manuálisan hozta volna létre a vizualizációt. Ezután ugyanúgy formázhatja vagy módosíthatja a hozzáadott vizualizációt, mint a jelentés többi vizualizációját. Csak akkor adhat hozzá egy kijelölt elemzési vizualizációt, ha jelentést szerkeszt a Power BI-ban.

Elemzéseket akkor használhat, ha a jelentés olvasási vagy szerkesztési módban van. Ez sokoldalúvá teszi mind az adatok elemzését, mind a jelentésekhez hozzáadható vizualizációk létrehozását.

A kapott eredmények részletei

Az algoritmus úgy képzelhető el, hogy a modell összes többi oszlopát veszi fel, és ezen oszlopok összes értéke esetében szűrőkként alkalmazza őket az eredeti vizualizációra. Az algoritmus ezután megállapítja, hogy ezek közül a szűrőértékek közül melyik állítja elő a legkülönbözőbb eredményt az eredetitől.

Most biztos azon gondolkodik, mit is jelent az, hogy eltérő. Tegyük fel például, hogy az USA és Kanada közötti értékesítések teljes felosztása a következő:

Ország/régió Értékesítés (millió USD)
USA 15
Kanada 5

Ezután a "Road Bike" termék egy adott kategóriájában az értékesítések felosztása a következő lehet:

Ország/régió Értékesítés (millió USD)
USA 3
Kanada 1

Bár az egyes táblázatokban eltérőek a számok, az USA és Kanada közötti relatív értékek megegyeznek: 75% és 25% összességében, valamint a közúti kerékpárok esetében. Ezért ezek nem tekinthetők eltérőnek. Az ilyen egyszerű additív mértékek esetében az algoritmus a relatív érték különbségeit keresi.

Ezzel szemben érdemes megfontolni egy olyan mértéket, mint a nyereség /költség. Ha az USA és Kanada összesített árrései a következők voltak:

Ország/régió Árrés (%)
USA 15
Kanada 5

Ezután a "Road Bike" termék egy adott kategóriájában az értékesítések felosztása a következő lehet:

Ország/régió Árrés (%)
USA 3
Kanada 1

Az ilyen intézkedések természetéből adódóan ez érdekesen eltérő. Az olyan nem additív mértékek esetében, mint ez a margó, az algoritmus az abszolút érték különbségeit keresi.

A megjelenített vizualizációk így az eredeti vizualizációban látható teljes eloszlás és az adott szűrővel alkalmazott érték közötti különbségeket hivatottak megjeleníteni.

Az additív mértékek, például az előző példában szereplő Értékesítések esetében oszlop- és vonaldiagramot használunk. Itt a kettős tengely megfelelő méretezéssel való használata olyan, hogy a relatív értékek összehasonlíthatók legyenek. Az oszlopok a szűrőt tartalmazó értéket, a sort pedig a teljes értéket jelenítik meg. Az oszloptengely a bal oldalon van, a vonaltengely pedig a szokásos módon a jobb oldalon van. A vonal lépcsőzetes stílusban jelenik meg, egy szürkével kitöltött szaggatott vonalként. Az előző példához visszatérve, ha az oszloptengely maximális értéke 4, a vonaltengelyé pedig 20, akkor könnyen összehasonlíthatók az Egyesült Államok és Kanada relatív értékei a szűrt és az összesített értékek esetén is.

Hasonlóképpen, a nem additív mértékek esetében, mint az előző példában a margó, egy oszlop- és vonaldiagramot használunk, ahol egyetlen tengely használata azt jelenti, hogy az abszolút értékek egyszerűen összehasonlíthatók. A szürke színnel kitöltött vonal a teljes értéket jeleníti meg. Akár a tényleges, akár a relatív számokat hasonlítjuk össze, a két eloszlás különbségi fokának meghatározása nem csupán az értékek különbségének kiszámításán múlik. Például:

  • A populáció méretének figyelembe vételekor a különbség statisztikailag kevésbé jelentős és kevésbé érdekes, ha a teljes népesség kisebb hányadára vonatkozik. Az értékesítések országok/régiók közötti eloszlása például eltérő lehet egy adott termék esetében. Ez nem lenne érdekes, ha több ezer termék lenne, így az adott termék a teljes értékesítésnek csak kis százalékát tette ki.

  • Azoknak a kategóriáknak a különbségeit, amelyekben az eredeti értékek magasak vagy nullához közeliek voltak, nagyobb súlyozásúak, mint mások. Ha például egy ország vagy régió összességében csak az értékesítés 1%-át adja, de egy adott terméktípus esetében ez 6%-kal járul hozzá, az statisztikailag lényegesebb, és ezért érdekesebb, mint egy olyan ország vagy régió, amelynek hozzájárulása 50%-ról 55%-ra változott.

  • A különböző heurisztika a legérthetőbb eredményeket választja ki, például az adatok közötti egyéb kapcsolatok figyelembe vételével.

A különböző oszlopok és az egyes oszlopok értékeinek vizsgálata után a rendszer a legnagyobb különbségeket eredményező értékkészletet választja ki. A könnyebb megértés érdekében ezek a kimenetek oszlop szerint vannak csoportosítva, és az oszlop, amelynek értékei a legnagyobb különbséget adják a listán. Oszloponként legfeljebb három érték jelenhet meg, ez azonban lehet kevesebb is, ha háromnál kevesebb érték bír nagy jelentőséggel, vagy ha egyes értékek nagyobb hatással voltak a végeredményre, mint mások.

Nem feltétlenül az a helyzet, hogy a modell összes oszlopa a rendelkezésre álló idő alatt lesz megvizsgálva, így nem garantált, hogy a leghatásosabb oszlopok és értékek jelennek meg. A különböző heurisztikus módszerek azonban biztosítják, hogy először a legvalószínűbb oszlopokat vizsgálja meg a rendszer. Tegyük fel például, hogy az összes oszlop vizsgálata után a rendszer azt állapítja meg, hogy a következő oszlopok/értékek a legnagyobb hatással vannak az eloszlásra, a legnagyobb hatástól a legkisebbig:

Subcategory = Touring Bikes
Channel = Direct
Subcategory = Mountain Bikes
Subcategory = Road Bikes
Subcategory = Kids Bikes
Channel = Store

Ezek a következő sorrendben jelennének meg oszlopokként:

  • Alkategória: Touring Bikes, Mountain Bikes, Road Bikes (csak három van felsorolva, a „...többek között” szöveg pedig azt jelzi, hogy háromnál több is jelentősen befolyásolja az eredményt)

  • Channel = Direct (csak a Direct szerepel a listán, ha hatásszintje nagyobb volt, mint a Store)

Megfontolandó szempontok és korlátozások

A következő lista az elemzések jelenleg nem támogatott forgatókönyveit tartalmazza:

  • Legjobb N szűrők
  • Mérték szűrők
  • Nem numerikus mértékek
  • Az „Érték megjelenítési módja” funkció használata
  • Szűrt mértékek – a szűrt mértékek olyan vizualizációszintű számítások, amelyek egy adott szűrőt alkalmaznak, például a Teljes értékesítés Franciaországra, és az elemzési funkció által létrehozott vizualizációk némelyikén használatosak

Továbbá az elemzések esetében jelenleg nem támogatottak a következő modelltípusok és adatforrások:

  • DirectQuery
  • Élő kapcsolat
  • Helyszíni Reporting Services
  • Beágyazás

Következő lépések

További információkért lásd: