Megosztás a következőn keresztül:


Nagy sűrűségű sorok mintavételezése a Power BI-ban

A Power BI mintavételezési algoritmusa javítja a nagy sűrűségű adatokat mintavevő vizualizációkat. Létrehozhat például egy vonaldiagramot a kiskereskedelmi üzletek értékesítési eredményeiből, és minden áruházban évente több mint 10 000 értékesítési nyugta található. Az ilyen értékesítési információk vonaldiagramja az egyes tárolók adataiból mintaadatokat hozna létre, és létrehozna egy többsoros vonaldiagramot, amely így az alapul szolgáló adatokat jelöli. Győződjön meg arról, hogy az adatok értelmes ábrázolását választja ki, hogy bemutassa, hogyan változnak az értékesítések az idő függvényében. Ez a gyakorlat gyakori a nagy sűrűségű adatok vizualizációjában. A nagy sűrűségű adatmintavétel részleteit ebben a cikkben ismertetjük.

Screenshot of line charts, showing the high-density sampling data.

Feljegyzés

A cikkben ismertetett nagy sűrűségű mintavételezési algoritmus a Power BI Desktopban és a Power BI szolgáltatás is elérhető.

A nagy sűrűségű sorok mintavételezésének működése

Korábban a Power BI determinisztikus módon kiválasztotta a mintaadatpontok gyűjteményét a mögöttes adatok teljes körében. Ha például egy naptári évet felölelő vizualizáción nagy sűrűségű adatok találhatók, a vizualizációban 350 mintaadatpont jelenhet meg, amelyek mindegyike ki lett választva, hogy a vizualizációban teljes adattartomány jelenjen meg. Ennek megértéséhez képzelje el, hogy egy részvényárfolyamot ábrázol egy év alatt, és 365 adatpontot választ ki egy vonaldiagram-vizualizáció létrehozásához. Ez minden nap egy adatpont.

Ebben a helyzetben a részvényárfolyamok számos értéket tartalmaznak minden nap. Természetesen van egy napi magas és alacsony, de ezek fordulhatnak elő bármikor a nap folyamán, amikor a tőzsde nyitva van. Nagy sűrűségű sorok mintavételezése esetén, ha a mögöttes adatmintát minden nap 10:30-kor és 12:00-kor vették, akkor reprezentatív pillanatképet kap az alapul szolgáló adatokról, például a 10:30-as és a 12:00-s árról. Előfordulhat azonban, hogy a pillanatkép nem rögzíti az adott napon az adott reprezentatív adatpont részvényárfolyamának tényleges magas és alacsony értékét. Ebben a helyzetben és más esetekben a mintavétel a mögöttes adatokra jellemző, de nem mindig rögzíti a fontos pontokat, amelyek ebben az esetben a napi tőzsdei árfolyamok magasak és alacsonyak.

Definíció szerint a nagy sűrűségű adatok mintavételezésével ésszerűen gyorsan, az interaktivitásra reagáló vizualizációk hozhatók létre. A vizualizáció túl sok adatpontja ronthatja a képet, és ronthatja a trendek láthatóságát. Az adatok mintavételezésének az a célja, hogy a mintavételezési algoritmus a lehető legjobb vizualizációs élményt nyújtsa. A Power BI Desktopban az algoritmus a válaszképesség, a reprezentáció és a fontos pontok egyértelmű megőrzésének legjobb kombinációját biztosítja minden egyes időszeletben.

Az új vonalmintavételi algoritmus működése

A nagy sűrűségű vonalmintavételi algoritmus folyamatos X tengelyes vonaldiagram- és területdiagram-vizualizációkhoz érhető el.

A nagy sűrűségű vizualizációk esetében a Power BI intelligensen nagy felbontású adattömbökre szeleteli az adatokat, majd kiválasztja az egyes adattömbök megjelenítéséhez szükséges fontos pontokat. A nagy felbontású adatok szeletelésének folyamata úgy van hangolva, hogy az eredményül kapott diagram vizuálisan megkülönböztethetetlen legyen az összes mögöttes adatpont megjelenítésétől, de gyorsabb és interaktívabb legyen.

Nagy sűrűségű vonalvizualizációk minimális és maximális értékei

A vizualizációkra az alábbi korlátozások vonatkoznak:

  • A 3500 a legtöbb vizualizáción megjelenített adatpontok maximális száma, függetlenül az alapul szolgáló adatpontok vagy adatsorok számától, lásd az alábbi listában szereplő kivételeket. Ha például 10 adatsor 350 adatponttal rendelkezik, a vizualizáció elérte a maximális teljes adatpontkorlátot. Ha egy sorozattal rendelkezik, legfeljebb 3500 adatponttal rendelkezhet, ha az algoritmus úgy ítéli meg, hogy a legjobb mintavételezés az alapul szolgáló adatokhoz.

  • A vizualizációkhoz legfeljebb 60 sorozat használható. Ha több mint 60 adatsort használ, bontsa fel az adatokat, és hozzon létre több vizualizációt egyenként 60 vagy kevesebb sorozattal. Érdemes szeletelővel csak az adatok szegmenseit megjeleníteni, de csak bizonyos adatsorok esetén. Ha például az összes alkategóriát megjeleníti a jelmagyarázatban, egy szeletelővel szűrhet az adott jelentésoldal általános kategóriája alapján.

Az adatkorlátok maximális száma magasabb a következő vizualizációtípusok esetében, amelyek kivételt képeznek a 3500 adatpontkorlát alól:

  • Legfeljebb 150 000 adatpont R-vizualizációkhoz.
  • 30 000 adatpont az Azure Map-vizualizációkhoz.
  • 10 000 adatpont egyes pontdiagram-konfigurációkhoz (a pontdiagramok alapértelmezett értéke 3500).
  • 3500 a nagy sűrűségű mintavételezést használó összes többi vizualizáció esetében. Egyes vizualizációk több adatot jeleníthetnek meg, de nem használnak mintavételezést.

Ezek a paraméterek biztosítják, hogy a Power BI Desktop vizualizációi gyorsan rendereljenek, reagáljanak a felhasználókkal való interakcióra, és ne okozzanak indokolatlan számítási többletterhelést a vizualizációt megjelenítő számítógépen.

Reprezentatív adatpontok kiértékelése nagy sűrűségű vonalvizualizációkhoz

Ha a mögöttes adatpontok száma meghaladja a vizualizációban megjeleníthető maximális adatpontokat, megkezdődik a binning nevű folyamat. A binning az alapul szolgáló adatokat tárolóknak nevezett csoportokba alakítja, majd iteratív módon finomítja ezeket a tárolókat.

Az algoritmus a lehető legtöbb tárolót hozza létre a vizualizáció legnagyobb részletességének létrehozásához. Az algoritmus az egyes tárolókon belül megkeresi a minimális és maximális adatértéket, hogy a fontos és jelentős értékek, például a kiugró értékek rögzítve legyenek és megjelenjenek a vizualizációban. A Vizualizáció x tengelyének minimális felbontása az adatok Power BI-beli binningjének és későbbi kiértékelésének eredményei alapján a vizualizáció maximális részletességének biztosítása érdekében van meghatározva.

Ahogy korábban említettük, az egyes sorozatok minimális részletessége 350 pont, a legtöbb vizualizáció esetében pedig 3500. A kivételek az előző bekezdésekben vannak felsorolva.

Minden tárolót két adatpont jelöl, amelyek a vizualizációban a bin reprezentatív adatpontjaivá válnak. Az adatpontok a tároló magas és alacsony értéke. A magas és az alacsony érték kiválasztásával a binning folyamat biztosítja, hogy a vizualizációban rögzítve és megjelenítve legyen minden fontos magas vagy jelentős alacsony érték.

Ha ez sok elemzésnek hangzik, hogy az alkalmi kiugró érték rögzítve legyen, és megfelelően jelenjen meg a vizualizációban, akkor helyes. Ez az algoritmus és a tárolófolyamat pontos oka.

Elemleírások és nagy sűrűségű sorok mintavételezése

Fontos megjegyezni, hogy ez a binning folyamat, amely egy adott tároló minimális és maximális értékének rögzítését és megjelenítését eredményezi, hatással lehet arra, hogy az elemleírások hogyan jelenítik meg az adatokat, amikor az adatpontok fölé viszi az egérmutatót. Ha meg szeretné magyarázni, hogyan és miért történik ez, tekintsük át a tőzsdei árfolyamokkal kapcsolatos példánkat.

Tegyük fel, hogy egy részvényárfolyamon alapuló vizualizációt hoz létre, és két különböző készletet hasonlít össze, amelyek mindegyike nagy sűrűségű mintavételezést használ. Az egyes adatsorok alapjául szolgáló adatok számos adatponttal rendelkeznek. Előfordulhat például, hogy a nap minden másodpercében rögzíti a részvényárfolyamot. A nagy sűrűségű sorok mintavételezési algoritmusa az egyes sorozatokhoz a másiktól függetlenül végzi a dobozolást.

Most tegyük fel, hogy az első részvény 12:02-kor felugrik az árba, majd gyorsan visszalép 10 másodperccel később. Ez egy fontos adatpont. Ha az adott készletre történő feltöltés történik, a 12:02-nél megadott magas érték az adott raktárhely reprezentatív adatpontja.

A második részvény esetében azonban a 12:02 nem volt magas és nem is alacsony az abban az időben szereplő tárolóban. Lehet, hogy a 12:02-t tartalmazó tároló magas és alacsony száma három perccel később történt. Ebben a helyzetben, amikor a vonaldiagram létrejön, és 12:02 fölé viszi az egérmutatót, megjelenik egy érték az első részvény elemleírásában. Ennek az az oka, hogy 12:02-kor ugrott, és ez az érték lett kiválasztva a tároló magas adatpontjaként. A második részvény esetében azonban az elemleírásban nem jelenik meg érték 12:02-kor. Ennek az az oka, hogy a második készlet nem volt magas vagy alacsony a 12:02-t tartalmazó tárolóhoz. Ezért a második részvényre vonatkozóan 12:02-kor nincs megjelenítendő adat, így elemleírási adatok nem jelennek meg.

Ez a helyzet gyakran fordul elő elemleírásokkal. Egy adott tároló magas és alacsony értékei valószínűleg nem felelnek meg tökéletesen az egyenletesen skálázott x tengely értékpontjainak, és az elemleírás nem jeleníti meg az értéket.

A nagy sűrűségű sorok mintavételezésének bekapcsolása

Alapértelmezés szerint az algoritmus be van kapcsolva. A beállítás módosításához nyissa meg a Formázás panelt az Általános kártyán, alul pedig a nagy sűrűségű mintavételezési csúszkát. Jelölje ki a csúszkát a be- vagy kikapcsolásához.

Screenshot of a high-density line sampling, showing pointers to the Formatting pane, General, and High Density Sampling.

Szempontok és korlátozások

A nagy sűrűségű sorok mintavételezésének algoritmusa fontos előrelépés a Power BI-ban, de a nagy sűrűségű értékek és adatok használatakor érdemes figyelembe venni néhány szempontot.

  • A nagyobb részletesség és a binning folyamat miatt az elemleírások csak akkor jelenhetnek meg értéket, ha a reprezentatív adatok a kurzorhoz vannak igazítva. További információkért tekintse meg a cikk elemleírásait és nagy sűrűségű mintavételezési szakaszát.

  • Ha egy teljes adatforrás mérete túl nagy, az algoritmus kiküszöböli az adatsorokat (jelmagyarázatelemeket) az adatimportálás maximális korlátozásának megfelelően.

    • Ebben az esetben az algoritmus betűrendbe rendezi a jelmagyarázat-sorozatokat, a jelmagyarázatelemek listájának betűrendbe rendezve, amíg el nem éri az adatimportálási maximumot, és nem importál további adatsorokat.
  • Ha egy mögöttes adathalmaz több mint 60 adatsort tartalmaz, a sorozatok maximális száma, az algoritmus betűrendbe rendezi az adatsort, és a 60. betűrendben rendezett adatsoron túli sorozatokat is eltávolítja.

  • Ha az adatok értékei nem numerikus vagy dátum/idő típusúak, a Power BI nem használja az algoritmust, és visszaáll az előző, nem nagy sűrűségű mintavételezési algoritmusra.

  • Az algoritmus nem támogatja az adatbeállítás nélküli elemek megjelenítése beállítást.

  • Az algoritmus nem támogatott, ha élő kapcsolatot használ az SQL Server Analysis Services 2016-os vagy korábbi verziójában üzemeltetett modellhez. A Power BI-ban vagy az Azure Analysis Servicesben üzemeltetett modellek támogatják.