Megosztás a következőn keresztül:


Csoportkategorikus értékek

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Több kategóriából származó adatokat egy új kategóriába sorol

Kategória: Adatátalakítás /-manipuláció

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Csoportos kategorikus értékek modul a Machine Learning Studio (klasszikus) használatával egy saját keresési tábla létrehozásához.

A kategorikus értékek csoportosításának jellemző használata több sztringérték egyetlen új szintbe egyesítése. Például egyes irányítószámokat rendelhet egy régióhoz egyetlen regionális kódhoz, vagy csoportosíthat több terméket egy kategóriában.

A modulhoz be kell gépelni a használni kívánt keresési értékeket, és leképezni kell a meglévő értékeket a helyettesítő értékekre. Csak kategorikus oszlopokhoz hozhat létre csoportosítást, numerikus típusú oszlopokhoz vagy címkékként vagy jellemzőkként megjelölt oszlopokhoz nem.

Az új szintre explicit módon nem leképezett oszlopértékek alapértelmezett szinthez vannak rendelve. Ha például nem leképezte az összes egyedi irányítószámot, akkor azok egy szint szerint lesznek csoportosítva a leképezetlen értékekhez, amelynek a neve Lehet, hogy Ismeretlen.

Megjegyzés

Legfeljebb 20 új szintet lehet létrehozni, beleértve az alapértelmezett szintet is. Ha több értékre van szüksége, vagy dinamikusan kell leképezéseket meghatároznia, javasoljuk, hogy egyéni R-szkriptet használjon az R-szkript végrehajtása modulban . Vagy használja a SQL utasításokat az Apply SQL Transformation (Átalakítás alkalmazása) modulban.

Csoportkategorikus értékek használata

Javasoljuk, hogy előre készítse elő a meglévő értékek és az új kategóriák listáját. Minden kategóriához elő kell készítenie egy új kategórianevet és egy vesszővel elválasztott értéklistát, amely a kategóriába tartozik.

  1. Adja hozzá a Group Categorical Values (Csoportkategorikus értékek) modult a kísérlethez. A modult az Adatátalakítás, -kezelés alatt találja.

  2. Csatlakozás egy adatkészletet, amely az átalakítani kívánt értékekkel rendelkezik.

  3. A Csoportkategorikus értékek Tulajdonságok panelén használja az Oszlopválasztót a csökkenteni kívánt szinteket tartalmazó oszlop kiválasztásához.

    • Javasoljuk, hogy a kezdéshez kattintson a BEGIN WITH (KEZDÉS) és a NO COLUMNS (NINCS OSZLOP) elemre, majd adja hozzá az oszlopokat név szerint. Ellenkező esetben előfordulhat, hogy túl sok oszlop lesz hozzáadva jelöltként, ami hibát jelez.

    • Az oszlopnak kategorikus oszlopnak kell lennie. Ha nem, adja hozzá a Metaadatok szerkesztése felfelé irányuló oszlopot, és módosítsa az oszlop típusát.

    • Mindenképpen távolítson el minden olyan oszlopot a bemenetből, amelyekre nem szabad sztringcserét alkalmazni.

  4. A Kimeneti mód beállításnál adja meg, hogy csak az új szinteket szeretné-e kihozni, vagy hozzáfűzni a módosításokat az eredeti oszlophoz úgy, hogy egymás mellett a cserék is láthatóak.

    Az alapértelmezett ResultOnly érték csak az új értékeket jeleníti meg. Az Inplace lehetőség lecseréli a meglévő oszlopértékeket az új szintekre.

  5. Az Alapértelmezett szint neve mezőben adjon meg egy sztringértéket, amely a nem explicit módon leképezett értékek helyettesítésére használható. Használhat például "Ismeretlen" vagy "Alapértelmezett" értéket.

    Megjegyzés

    Ez az alapértelmezett szintű érték minden olyan értékre vonatkozik, amely nem leképezhető. Ha véletlenül olyan oszlopokat ad meg, amelyek leképezése nem volt lehetséges, az érték az oszlopok összes értékére alkalmazva lesz. Ezért a feldolgozás előtt ellenőrizze, hogy az oszlop kiválasztása pontos-e.

  6. Az Új szintszám mezőben adjon meg egy számot, amely az új kategóriák (szintek) teljes számát jelzi, beleértve a leképezetlen értékek alapértelmezett szintjét is.

  7. Az 1. szint neveként adja meg az első kategória új csoportnevét.

  8. A közvetlenül következő szövegmezőbe írja be vagy illessze be az új szintre leképezni szükséges régi szintek vesszővel elválasztott listáját. Írja be vagy illessze be az új szintre leképezni szükséges értékek teljes listáját. Helyettesítő karakterek és reguláris kifejezések nem használhatók.

  9. Írja be az új szintneveket, és írja be vagy illessze be az új szintre leképezni szükséges értékeket.

    Javasoljuk, hogy munka közben mentse az értékek listáját egy külön fájlba. Ha módosítja a szintek számát, a korábban beírt összes sztring el lesz távolítva, és elölről kell kezdenie.

    Ha azonban egy korábban mentett modult szerkeszt, visszaállíthatja az eredeti beállításokat.

  10. Futtassa a kísérletet.

Results (Eredmények)

Az eredmények megtekintéséhez kattintson a jobb gombbal a Csoportkategorikus értékek modulra, válassza az Eredményadatkészlet lehetőséget, majd kattintson a Vizualizáció elemre.

Példák

A gépi tanulás gyakorlati példáiért lásd a Azure AI Gallery.

Ezt a modult kipróbálhatja saját maga is, ha egy kis adatkészletet használ néhány könnyen csoportosítható sztringváltozóval, például az Automobile price (Autóárak) adatkészletet, amelyet a Machine Learning Studio (klasszikus) tartalmaz.

Tegyük fel, hogy az Automobile price (Autóárak) adatkészletben a cilinderek számát használva szeretné csoportosítni az autókat. Számos különböző motorméret helyett az alábbi új szinteket fogja létrehozni: "big", "small" és "other":

  • Nagy motorok: hat vagy nagyobb henger
  • Kis motorok: két vagy négy henger
  • Egyéb: bármi más
  1. Adja hozzá az Adatkészlet oszlopainak kijelölése modult , és csak az oszlopot jelölje num-of-cylinders ki.
  2. Adja hozzá a Metaadatok szerkesztése modult, és módosítsa az num-of-cylinders oszlopot Kategorikusra.
  3. Adja hozzá a Csoportkategorikus értékek modult , és kösse össze a módosított adatkészletet.
  4. Az Alapértelmezett szint neve mezőbe írja be a következőt: other. Ehhez a szinthez nem kell értékeket adnia.
  5. Az Új 1. szint neve mezőbe írja be a következőt: big. Az 1. szintre leképezni szükséges régi szintek listájába illessze be a következőt: six, eight, twelve.
  6. Az Új 2. szint neve mezőbe írja be a következőt: small. A leképezett értékekhez illessze be a következőt: two, four.
  7. Futtassa a kísérletet.
  8. Amikor vizualizálja az eredményeket, felismeri, hogy az eredeti adatkészletnek vannak olyan páratlan motorméretei, amelyek nem voltak figyelembe véve, five például és three. Az összes ilyen elem a szintre van leképezve other .

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

  • Előfordulhat, hogy a "columnname<>" nevű oszlop nem egy engedélyezett kategóriában található.

    Ez az üzenet azt jelzi, hogy a kiválasztott oszlop nem kategorikus oszlop. Az oszlopot megjelölheti Categorical a következőként: Metaadatok szerkesztése, vagy kiválaszthat egy másik oszlopot, amely tartalmazza a megfelelő kategóriaértékeket.

Várt bemenetek

Név Típus Description
Adathalmaz Adattábla Csoportosított adatok

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Kijelölt oszlopok bármelyik ColumnSelection (Oszlopválasztás) CategoricalAll Válassza ki a csoportosított oszlopokat.
Kimeneti mód bármelyik OutputTo (Kimenet) ResultOnly (Eredmény csak) Adja meg, hogyan legyen a kategóriacímkék kimenete.
Alapértelmezett szint neve bármelyik Sztring Adja meg az alapértelmezett szintet, ha nincs egyező leképezés.
Szintek új száma Lista Csoportok száma Adja meg az értékek csoportosítása utáni szintek számát, beleértve az alapértelmezett szintet is.

Kimenet

Név Típus Description
Eredményadatkészlet Adattábla Csoportosított adatok

Lásd még

Manipuláció
Adatátalakítás
A-Z modullista