Megosztás a következőn keresztül:


Adatok összegzése

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Az Adatok összegzése összetevővel szabványos statisztikai mértékeket hozhat létre, amelyek a bemeneti tábla minden oszlopát leírják.

Az összefoglaló statisztikák akkor hasznosak, ha meg szeretné ismerni a teljes adathalmaz jellemzőit. Előfordulhat például, hogy a következőket kell tudnia:

  • Hány hiányzó érték van az egyes oszlopokban?
  • Hány egyedi érték található egy funkcióoszlopban?
  • Mi az egyes oszlopok átlaga és szórása?

Az összetevő kiszámítja az egyes oszlopok fontos pontszámait, és a bemenetként megadott változók (adatoszlopok) összesítő statisztikáinak sorát adja vissza.

Adatok összegzésének konfigurálása

  1. Adja hozzá az Adatok összegzése összetevőt a folyamathoz. Ezt az összetevőt a Tervező Statisztikai függvények kategóriájában találja.

  2. Csatlakoztassa azt az adatkészletet, amelyhez jelentést szeretne létrehozni.

    Ha csak néhány oszlopról szeretne jelentést készíteni, az Adathalmaz oszlopainak kijelölése összetevővel kivetítheti az oszlopok egy részhalmazát, amellyel dolgozhat.

  3. Nincs szükség további paraméterekre. Alapértelmezés szerint az összetevő a bemenetként megadott összes oszlopot elemzi, és az oszlopokban lévő értékek típusától függően az Eredmények szakaszban leírt megfelelő statisztikai halmazt ad ki.

  4. Küldje el a folyamatot.

Results (Eredmények)

Az összetevőből származó jelentés az alábbi statisztikákat tartalmazhatja.

Oszlop neve Leírás
Szolgáltatás Az oszlop neve
Számít Az összes sor száma
Egyedi értékszám Egyedi értékek száma az oszlopban
Hiányzó értékek száma Egyedi értékek száma az oszlopban
Min Legalacsonyabb érték az oszlopban
Max Legmagasabb érték az oszlopban
Jelent Az összes oszlopérték középértéke
Középeltérés Oszlopértékek átlagos eltérése
1. kvartilis Érték az első kvartilisnél
Medián Medián oszlopérték
3. Kvartilis Érték a harmadik kvartilisben
Mód Oszlopértékek módja
Tartomány A maximális és a minimális értékek közötti értékek számát jelölő egész szám
Minta eltérése Oszlop eltérése; lásd: Megjegyzés
Minta szórása Oszlop szórása; lásd: Megjegyzés
Minta ferdeség Oszlop ferdesége; lásd: Megjegyzés
Minta Kurtosis Oszlop kurtózisa; lásd: Megjegyzés
P0.5 0,5% percentilis
P1 1% percentilis
P5 5% percentilis
P95 95%-os percentilis
P99.5 99,5% percentilis

Technikai megjegyzések

  • A nem numerikus oszlopok esetében csak a Darabszám, az Egyedi értékek száma és a Hiányzó értékek számának értékei lesznek kiszámítva. Más statisztikák esetén a függvény null értéket ad vissza.

  • A logikai értékeket tartalmazó oszlopok feldolgozása az alábbi szabályokkal történik:

    • A Min kiszámításakor a rendszer logikai ÉS függvényt alkalmaz.

    • A Max kiszámításakor egy logikai VAGY van alkalmazva

    • A Tartomány számítása során az összetevő először ellenőrzi, hogy az oszlopban lévő egyedi értékek száma 2-e.

    • Lebegőpontos számításokat igénylő statisztikák kiszámításakor a Rendszer az Igaz értékeket 1,0-ként, a Hamis értékeket pedig 0,0-ként kezeli.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .