Adatok összegzése
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
Az Adatok összegzése összetevővel szabványos statisztikai mértékeket hozhat létre, amelyek a bemeneti tábla minden oszlopát leírják.
Az összefoglaló statisztikák akkor hasznosak, ha meg szeretné ismerni a teljes adathalmaz jellemzőit. Előfordulhat például, hogy a következőket kell tudnia:
- Hány hiányzó érték van az egyes oszlopokban?
- Hány egyedi érték található egy funkcióoszlopban?
- Mi az egyes oszlopok átlaga és szórása?
Az összetevő kiszámítja az egyes oszlopok fontos pontszámait, és a bemenetként megadott változók (adatoszlopok) összesítő statisztikáinak sorát adja vissza.
Adatok összegzésének konfigurálása
Adja hozzá az Adatok összegzése összetevőt a folyamathoz. Ezt az összetevőt a Tervező Statisztikai függvények kategóriájában találja.
Csatlakoztassa azt az adatkészletet, amelyhez jelentést szeretne létrehozni.
Ha csak néhány oszlopról szeretne jelentést készíteni, az Adathalmaz oszlopainak kijelölése összetevővel kivetítheti az oszlopok egy részhalmazát, amellyel dolgozhat.
Nincs szükség további paraméterekre. Alapértelmezés szerint az összetevő a bemenetként megadott összes oszlopot elemzi, és az oszlopokban lévő értékek típusától függően az Eredmények szakaszban leírt megfelelő statisztikai halmazt ad ki.
Küldje el a folyamatot.
Results (Eredmények)
Az összetevőből származó jelentés az alábbi statisztikákat tartalmazhatja.
Oszlop neve | Leírás |
---|---|
Szolgáltatás | Az oszlop neve |
Számít | Az összes sor száma |
Egyedi értékszám | Egyedi értékek száma az oszlopban |
Hiányzó értékek száma | Egyedi értékek száma az oszlopban |
Min | Legalacsonyabb érték az oszlopban |
Max | Legmagasabb érték az oszlopban |
Jelent | Az összes oszlopérték középértéke |
Középeltérés | Oszlopértékek átlagos eltérése |
1. kvartilis | Érték az első kvartilisnél |
Medián | Medián oszlopérték |
3. Kvartilis | Érték a harmadik kvartilisben |
Mód | Oszlopértékek módja |
Tartomány | A maximális és a minimális értékek közötti értékek számát jelölő egész szám |
Minta eltérése | Oszlop eltérése; lásd: Megjegyzés |
Minta szórása | Oszlop szórása; lásd: Megjegyzés |
Minta ferdeség | Oszlop ferdesége; lásd: Megjegyzés |
Minta Kurtosis | Oszlop kurtózisa; lásd: Megjegyzés |
P0.5 | 0,5% percentilis |
P1 | 1% percentilis |
P5 | 5% percentilis |
P95 | 95%-os percentilis |
P99.5 | 99,5% percentilis |
Technikai megjegyzések
A nem numerikus oszlopok esetében csak a Darabszám, az Egyedi értékek száma és a Hiányzó értékek számának értékei lesznek kiszámítva. Más statisztikák esetén a függvény null értéket ad vissza.
A logikai értékeket tartalmazó oszlopok feldolgozása az alábbi szabályokkal történik:
A Min kiszámításakor a rendszer logikai ÉS függvényt alkalmaz.
A Max kiszámításakor egy logikai VAGY van alkalmazva
A Tartomány számítása során az összetevő először ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.
Lebegőpontos számításokat igénylő statisztikák kiszámításakor a Rendszer az Igaz értékeket 1,0-ként, a Hamis értékeket pedig 0,0-ként kezeli.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket .
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: