Adatok összegzése
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
Az Adatok összegzése összetevővel szabványos statisztikai mértékeket hozhat létre, amelyek a bemeneti tábla minden oszlopát leírják.
Az összefoglaló statisztikák akkor hasznosak, ha meg szeretné ismerni a teljes adathalmaz jellemzőit. Előfordulhat például, hogy tudnia kell:
- Hány hiányzó érték van az egyes oszlopokban?
- Hány egyedi érték található egy funkcióoszlopban?
- Mi az egyes oszlopok átlaga és szórása?
Az összetevő kiszámítja az egyes oszlopok fontos pontszámait, és a bemenetként megadott változók (adatoszlopok) összesítő statisztikáinak sorát adja vissza.
Adatok összegzésének konfigurálása
Adja hozzá az Adatok összegzése összetevőt a folyamathoz. Ezt az összetevőt a Tervező Statisztikai függvények kategóriájában találja.
Csatlakoztassa azt az adatkészletet, amelyhez jelentést szeretne létrehozni.
Ha csak néhány oszlopról szeretne jelentést készíteni, az Adathalmaz oszlopainak kijelölése összetevővel kivetítheti az oszlopok egy részhalmazát, amellyel dolgozhat.
Nincs szükség további paraméterekre. Alapértelmezés szerint az összetevő elemzi a bemenetként megadott összes oszlopot, és az oszlopokban lévő értékek típusától függően az Eredmények szakaszban ismertetett releváns statisztikai halmazt ad ki.
Küldje el a folyamatot.
Results (Eredmények)
Az összetevőből származó jelentés a következő statisztikákat tartalmazhatja.
Oszlop neve | Leírás |
---|---|
Szolgáltatás | Az oszlop neve |
Gróf | Az összes sor száma |
Egyedi értékszám | Egyedi értékek száma az oszlopban |
Hiányzó értékek száma | Egyedi értékek száma az oszlopban |
Min | Legalacsonyabb érték az oszlopban |
Max | Legmagasabb érték az oszlopban |
Jelent | Az összes oszlopérték középértéke |
Közép eltérés | Oszlopértékek átlagos eltérése |
1. Kvartilis | Érték az első kvartilisnél |
Súlyvonal | Medián oszlop értéke |
3. Kvartilis | Harmadik kvartilis értéke |
Üzemmód | Oszlopértékek módja |
Tartomány | A maximális és a minimális értékek közötti értékek számát jelölő egész szám |
Minta eltérése | Oszlop eltérése; lásd: Megjegyzés |
Szórásminta | Oszlop szórása; lásd: Megjegyzés |
Minta ferdeség | Oszlop ferdesége; lásd: Megjegyzés |
Kurtosis minta | Oszlop kurtózisa; lásd: Megjegyzés |
P0.5 | 0,5% percentilis |
P1 | 1% percentilis |
P5 | 5% percentilis |
P95 | 95%-os percentilis |
P99.5 | 99,5% percentilis |
Technikai megjegyzések
A nem numerikus oszlopok esetében csak a Darabszám, az Egyedi érték és a Hiányzó értékek számának értékei lesznek kiszámítva. Más statisztikák esetén a függvény null értéket ad vissza.
A logikai értékeket tartalmazó oszlopok feldolgozása az alábbi szabályokkal történik:
A Min kiszámításakor a rendszer egy logikai ÉS függvényt alkalmaz.
A Max kiszámításakor a rendszer egy logikai VAGY függvényt alkalmaz
A tartomány kiszámításakor az összetevő először ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.
A lebegőpontos számításokat igénylő statisztikák kiszámításakor az Igaz értékeket 1.0-ként, a Hamis értékeket pedig 0,0-ként kezeli a rendszer.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket.