Megosztás a következőn keresztül:


Adatösszetevő normalizálása

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Ezzel az összetevővel normalizálással alakíthat át egy adathalmazt.

A normalizálás olyan technika, amelyet gyakran alkalmaznak a gépi tanulásra való adat-előkészítés részeként. A normalizálás célja, hogy az adathalmaz numerikus oszlopainak értékeit úgy módosítsa, hogy közös skálát használjon, anélkül, hogy torzítaná az értéktartományok közötti különbségeket vagy elveszítené az információkat. Bizonyos algoritmusok esetében normalizálásra is szükség van az adatok helyes modellezéséhez.

Tegyük fel például, hogy a bemeneti adatkészlet egy oszlopot tartalmaz 0 és 1 közötti értékekkel, egy másikat pedig 10 000 és 100 000 közötti értékekkel. A számok skálájának nagy különbsége problémákat okozhat, amikor a modellezés során funkciókként próbálja egyesíteni az értékeket.

A normalizálás elkerüli ezeket a problémákat azáltal, hogy olyan új értékeket hoz létre, amelyek fenntartják a forrásadatok általános eloszlását és arányait, miközben a modellben használt összes numerikus oszlopra alkalmazott skálán belül tartják az értékeket.

Ez az összetevő számos lehetőséget kínál a numerikus adatok átalakítására:

  • Az összes értéket módosíthatja 0-1 skálára, vagy átalakíthatja az értékeket úgy, hogy abszolút értékek helyett percentilis rangként jelöli őket.
  • A normalizálást alkalmazhatja egyetlen oszlopra, vagy ugyanazon adathalmaz több oszlopára is.
  • Ha meg kell ismételnie a folyamatot, vagy ugyanazokat a normalizálási lépéseket kell alkalmaznia más adatokra, a lépéseket normalizálási átalakításként mentheti, és alkalmazhatja azokat az azonos sémával rendelkező többi adathalmazra.

Figyelmeztetés

Egyes algoritmusok megkövetelik az adatok normalizálását a modell betanítása előtt. Más algoritmusok saját adatskálázást vagy normalizálást hajtanak végre. Ezért amikor egy prediktív modell létrehozásához használni kívánt gépi tanulási algoritmust választ, mindenképpen tekintse át az algoritmus adatkövetelményét, mielőtt normalizálást alkalmaz a betanítási adatokra.

Adatok normalizálásának konfigurálása

Ezzel az összetevővel egyszerre csak egy normalizálási módszert alkalmazhat. Ezért ugyanazt a normalizálási módszert alkalmazza a rendszer az összes kiválasztott oszlopra. A különböző normalizálási módszerek használatához használja az Adatok normalizálása második példányát.

  1. Adja hozzá az Adatok normalizálása összetevőt a folyamathoz. Az Azure Machine Learningben az Adatátalakítás területen található összetevőt a Skálázás és csökkentés kategóriában találja.

  2. Olyan adatkészlet csatlakoztatása, amely az összes szám legalább egy oszlopát tartalmazza.

  3. Az Oszlopválasztóval válassza ki a normalizálni kívánt numerikus oszlopokat. Ha nem választ ki egyéni oszlopokat, alapértelmezés szerint a bemenet összes numerikus típusú oszlopa megjelenik, és ugyanaz a normalizálási folyamat lesz alkalmazva az összes kijelölt oszlopra.

    Ez furcsa eredményekhez vezethet, ha olyan numerikus oszlopokat tartalmaz, amelyeket nem szabad normalizálni! Mindig gondosan ellenőrizze az oszlopokat.

    Ha nem észlel numerikus oszlopokat, ellenőrizze az oszlop metaadatait annak ellenőrzéséhez, hogy az oszlop adattípusa támogatott numerikus típus-e.

    Tipp

    Ha meg szeretné győződni arról, hogy egy adott típusú oszlop bemenetként van megadva, próbálja meg használni az Adathalmaz oszlopainak kiválasztása összetevőt az Adatok normalizálása előtt.

  4. Ha bejelöli az állandó oszlopokat, használja a 0 értéket: Akkor válassza ezt a beállítást, ha bármely numerikus oszlop egyetlen változatlan értéket tartalmaz. Ez biztosítja, hogy az ilyen oszlopok ne legyenek használva a normalizálási műveletekben.

  5. Az Átalakítási módszer legördülő listában válasszon ki egyetlen matematikai függvényt, amely az összes kijelölt oszlopra alkalmazható.

    • Zscore: Az összes értéket z-pontszámmá alakítja.

      Az oszlop értékei a következő képlet használatával lesznek átalakítva:

      normalizálás z-score-okkal

      A középérték és a szórás az egyes oszlopokhoz külön lesz kiszámítva. A sokaság szórását használjuk.

    • MinMax: A min-max normalizáló lineárisan újraskáláz minden funkciót [0,1] intervallumra.

      A [0,1] intervallumra való átméretezés úgy történik, hogy az egyes funkciók értékeit úgy osztja el, hogy a minimális érték 0 legyen, majd osztva az új maximális értékkel (ami az eredeti maximális és minimális értékek különbsége).

      Az oszlop értékei a következő képlet használatával lesznek átalakítva:

      normalizálás a min-max függvény használatával

    • Logisztikai: Az oszlop értékei a következő képlet használatával lesznek átalakítva:

      AML_normalization logisztikai függvény szerinti normalizálás képlete

    • LogNormal: Ez a beállítás az összes értéket lognormális skálává alakítja.

      Az oszlop értékei a következő képlet használatával lesznek átalakítva:

      képletnapló-normál eloszlás

      Itt μ és σ az eloszlás paraméterei, amelyek empirikusan vannak kiszámítva az adatokból az egyes oszlopok legnagyobb valószínűségi becsléseként.

    • TanH: Minden érték hiperbolikus tangenssé lesz konvertálva.

      Az oszlop értékei a következő képlet használatával lesznek átalakítva:

      normalizálás a tanh függvénnyel

  6. Küldje el a folyamatot, vagy kattintson duplán az Adatok normalizálása összetevőre, és válassza a Kijelölt futtatása lehetőséget.

Results (Eredmények)

Az Adat normalizálása összetevő két kimenetet hoz létre:

  • Az átalakított értékek megtekintéséhez kattintson a jobb gombbal az összetevőre, és válassza a Vizualizáció lehetőséget.

    Alapértelmezés szerint az értékek a helyükön lesznek átalakítva. Ha össze szeretné hasonlítani az átalakított értékeket az eredeti értékekkel, az Oszlopok hozzáadása összetevővel újrakombinálhatja az adathalmazokat, és egymás mellett tekintheti meg az oszlopokat.

  • Ha menteni szeretné az átalakítást, hogy ugyanazt a normalizálási módszert alkalmazza egy másik adatkészletre, jelölje ki az összetevőt, és válassza az Adathalmaz regisztrálása lehetőséget a jobb oldali panel Kimenetek lapján.

    Ezután betöltheti a mentett átalakításokat a bal oldali navigációs ablak Átalakítások csoportjából, és alkalmazhatja azokat egy azonos sémával rendelkező adathalmazra az Átalakítás alkalmazásával.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .