Megosztás a következőn keresztül:


Adatok összegzése

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Az Adatok összegzése összetevővel szabványos statisztikai mértékeket hozhat létre, amelyek a bemeneti tábla minden oszlopát leírják.

Az összefoglaló statisztikák akkor hasznosak, ha meg szeretné ismerni a teljes adathalmaz jellemzőit. Előfordulhat például, hogy tudnia kell:

  • Hány hiányzó érték van az egyes oszlopokban?
  • Hány egyedi érték található egy funkcióoszlopban?
  • Mi az egyes oszlopok átlaga és szórása?

Az összetevő kiszámítja az egyes oszlopok fontos pontszámait, és a bemenetként megadott változók (adatoszlopok) összesítő statisztikáinak sorát adja vissza.

Adatok összegzésének konfigurálása

  1. Adja hozzá az Adatok összegzése összetevőt a folyamathoz. Ezt az összetevőt a Tervező Statisztikai függvények kategóriájában találja.

  2. Csatlakoztassa azt az adatkészletet, amelyhez jelentést szeretne létrehozni.

    Ha csak néhány oszlopról szeretne jelentést készíteni, az Adathalmaz oszlopainak kijelölése összetevővel kivetítheti az oszlopok egy részhalmazát, amellyel dolgozhat.

  3. Nincs szükség további paraméterekre. Alapértelmezés szerint az összetevő elemzi a bemenetként megadott összes oszlopot, és az oszlopokban lévő értékek típusától függően az Eredmények szakaszban ismertetett releváns statisztikai halmazt ad ki.

  4. Küldje el a folyamatot.

Results (Eredmények)

Az összetevőből származó jelentés a következő statisztikákat tartalmazhatja.

Oszlop neve Leírás
Szolgáltatás Az oszlop neve
Gróf Az összes sor száma
Egyedi értékszám Egyedi értékek száma az oszlopban
Hiányzó értékek száma Egyedi értékek száma az oszlopban
Min Legalacsonyabb érték az oszlopban
Max Legmagasabb érték az oszlopban
Jelent Az összes oszlopérték középértéke
Közép eltérés Oszlopértékek átlagos eltérése
1. Kvartilis Érték az első kvartilisnél
Súlyvonal Medián oszlop értéke
3. Kvartilis Harmadik kvartilis értéke
Üzemmód Oszlopértékek módja
Tartomány A maximális és a minimális értékek közötti értékek számát jelölő egész szám
Minta eltérése Oszlop eltérése; lásd: Megjegyzés
Szórásminta Oszlop szórása; lásd: Megjegyzés
Minta ferdeség Oszlop ferdesége; lásd: Megjegyzés
Kurtosis minta Oszlop kurtózisa; lásd: Megjegyzés
P0.5 0,5% percentilis
P1 1% percentilis
P5 5% percentilis
P95 95%-os percentilis
P99.5 99,5% percentilis

Technikai megjegyzések

  • A nem numerikus oszlopok esetében csak a Darabszám, az Egyedi érték és a Hiányzó értékek számának értékei lesznek kiszámítva. Más statisztikák esetén a függvény null értéket ad vissza.

  • A logikai értékeket tartalmazó oszlopok feldolgozása az alábbi szabályokkal történik:

    • A Min kiszámításakor a rendszer egy logikai ÉS függvényt alkalmaz.

    • A Max kiszámításakor a rendszer egy logikai VAGY függvényt alkalmaz

    • A tartomány kiszámításakor az összetevő először ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.

    • A lebegőpontos számításokat igénylő statisztikák kiszámításakor az Igaz értékeket 1.0-ként, a Hamis értékeket pedig 0,0-ként kezeli a rendszer.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket.