Megosztás a következőn keresztül:


Adatok felosztása összetevő

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Az Adatok felosztása összetevővel két különálló halmazra oszthat egy adathalmazt.

Ez az összetevő akkor hasznos, ha betanítási és tesztelési csoportokba kell különítenie az adatokat. Az adatok megosztásának módját is testreszabhatja. Egyes lehetőségek támogatják az adatok véletlenszerűsítését. Mások egy bizonyos adattípusra vagy modelltípusra vannak szabva.

Az összetevő konfigurálása

Tipp

Mielőtt kiválasztja a felosztási módot, olvassa el az összes lehetőséget a szükséges felosztás típusának meghatározásához. Ha módosítja a felosztási módot, előfordulhat, hogy az összes többi beállítás alaphelyzetbe áll.

  1. Adja hozzá az Adatok felosztása összetevőt a folyamathoz a tervezőben. Ezt az összetevőt az Adatátalakítás területen, a Minta és a Felosztás kategóriában találja.

  2. Felosztási mód: Válasszon az alábbi módok közül, attól függően, hogy milyen típusú adatokkal rendelkezik, és hogyan szeretné felosztani azokat. Minden felosztási módnak különböző lehetőségei vannak.

    • Sorok felosztása: Ezt a lehetőséget akkor használhatja, ha csak két részre szeretné osztani az adatokat. Megadhatja az egyes felosztásokban elhelyezendő adatok százalékos arányát. Alapértelmezés szerint az adatok 50/50-et osztanak.

      Az egyes csoportok sorainak kijelölését véletlenszerűen is megadhatja, és rétegzett mintavételezést is használhat. Rétegzett mintavételezés esetén egyetlen adatoszlopot kell kijelölnie, amelynek értékeit egyenlően szeretné felosztani a két eredményadatkészlet között.

    • Reguláris kifejezés felosztása: Akkor válassza ezt a lehetőséget, ha az adathalmazt egyetlen oszlop értékének tesztelésével szeretné megosztani.

      Ha például hangulatelemzést használ, ellenőrizheti, hogy egy adott terméknév szerepel-e egy szövegmezőben. Ezután az adathalmazt a céltermék neve és a céltermék neve nélküli sorokra oszthatja.

    • Relatív kifejezés felosztása: Ezt a beállítást akkor használja, ha egy feltételt számoszlopra szeretne alkalmazni. A szám lehet dátum/idő mező, kor- vagy dollárösszegeket tartalmazó oszlop, vagy akár százalék is. Előfordulhat például, hogy el szeretné osztani az adathalmazt az elemek költsége alapján, korcsoportok szerint csoportosítani a személyeket, vagy egy naptárdátum szerint különíteni az adatokat.

Sorok felosztása

  1. Adja hozzá az Adatok felosztása összetevőt a folyamathoz a tervezőben, és csatlakoztassa a felosztani kívánt adatkészletet.

  2. A Felosztási mód beállításnál válassza a Sorok felosztása lehetőséget.

  3. Az első kimeneti adatkészlet sorainak töredéke: Ezzel a beállítással meghatározhatja, hogy hány sor kerül az első (bal oldali) kimenetbe. Az összes többi sor a második (jobb oldali) kimenetbe kerül.

    Az arány az első kimeneti adatkészletbe küldött sorok százalékos arányát jelöli, ezért 0 és 1 közötti tizedesszámot kell megadnia.

    Ha például a 0,75 értéket adja meg értékként, az adathalmaz 75/25-ös felosztást kap. Ebben a felosztásban a sorok 75 százaléka lesz elküldve az első kimeneti adathalmazba. A fennmaradó 25 százalékot a rendszer elküldi a második kimeneti adatkészletnek.

  4. Válassza a Véletlenszerű felosztás lehetőséget, ha a két csoportba szeretné véletlenszerűvé tenni az adatok kijelölését. Ez az előnyben részesített beállítás betanítási és tesztelési adathalmazok létrehozásakor.

  5. Véletlenszerű mag: A rendszer figyelmen kívül hagyja ezt a paramétert, ha a véletlenszerű felosztás értéke hamis. Ellenkező esetben adjon meg egy nem negatív egész számot a használni kívánt példányok pseudorandom sorozatának elindításához. Ez az alapértelmezett mag minden olyan összetevőben használatos, amely véletlenszerű számokat hoz létre.

    A mag megadása reprodukálhatóvá teszi az eredményeket. Ha meg kell ismételnie egy felosztási művelet eredményeit, ugyanazt a kezdőszámot kell megadnia a véletlenszerű számgenerátorhoz.

  6. Rétegzett felosztás: Állítsa ezt a beállítást Igaz értékre, hogy a két kimeneti adathalmaz reprezentatív mintát tartalmazzon a strata oszlopban vagy a rétegzési kulcs oszlopában lévő értékekről.

    Rétegzett mintavételezés esetén az adatok úgy vannak elosztva, hogy az egyes kimeneti adathalmazok nagyjából az egyes célértékek százalékos arányát kapják. Előfordulhat például, hogy szeretné biztosítani, hogy a betanítási és tesztelési csoportok nagyjából kiegyensúlyozottak legyenek az eredmény vagy más oszlop (például a nem) tekintetében.

  7. Küldje el a folyamatot.

Reguláris kifejezés kiválasztása

  1. Adja hozzá az Adatok felosztása összetevőt a folyamathoz, és csatlakoztassa bemenetként a felosztani kívánt adatkészlethez.

  2. Felosztási mód esetén válassza a Reguláris kifejezés felosztása lehetőséget.

  3. A Reguláris kifejezés mezőbe írjon be egy érvényes reguláris kifejezést.

    A reguláris kifejezésnek a Normál kifejezések Python-szintaxisát kell követnie.

  4. Küldje el a folyamatot.

    A megadott reguláris kifejezés alapján az adathalmaz két sorra van osztva: a kifejezésnek megfelelő értékeket tartalmazó sorokra és az összes többi sorra.

Az alábbi példák bemutatják, hogyan oszthat el egy adathalmazt a Reguláris kifejezés lehetőséggel.

Egyetlen egész szó

Ez a példa az első adathalmazba helyezi az oszlopban Textlévő szöveget Gryphon tartalmazó összes sort. Más sorokat helyez az Adatok felosztása második kimenetébe.

    \"Text" Gryphon  

Substring

Ez a példa az adathalmaz második oszlopában található bármely pozícióban megkeresi a megadott sztringet. A pozíciót itt az 1 indexérték jelöli. A kis- és nagybetűk megkülönböztetése.

(\1) ^[a-f]

Az első eredményadatkészlet tartalmazza azokat a sorokat, ahol az indexoszlop a következő karakterek egyikével kezdődik: , , , , , fe. dcba Az összes többi sor a második kimenetre lesz irányítva.

Relatív kifejezés kiválasztása

  1. Adja hozzá az Adatok felosztása összetevőt a folyamathoz, és csatlakoztassa bemenetként a felosztani kívánt adatkészlethez.

  2. A Felosztási mód beállításnál válassza a Relatív kifejezés lehetőséget.

  3. A Relációs kifejezés mezőbe írjon be egy kifejezést, amely egyetlen oszlopban hajt végre összehasonlítási műveletet.

    Numerikus oszlop esetén:

    • Az oszlop bármilyen numerikus adattípust tartalmaz, beleértve a dátum- és időadattípusokat is.
    • A kifejezés legfeljebb egy oszlopnévre hivatkozhat.
    • Az AND művelethez használja az ampersand karaktert. & A vagy művelethez használja a cső karaktert |.
    • A következő operátorok támogatottak: <, >, <=, >=, ==, !=.
    • A és )a használatával ( nem csoportosíthatja a műveleteket.

    Sztringoszlop esetén:

    • A következő operátorok támogatottak: ==, !=.
  4. Küldje el a folyamatot.

    A kifejezés két sorkészletre osztja az adathalmazt: a feltételnek megfelelő értékeket tartalmazó sorokra és az összes többi sorra.

Az alábbi példák bemutatják, hogyan oszthat el egy adathalmazt az Adatok felosztása összetevő Relatív kifejezés lehetőségével.

Naptári év

Gyakori forgatókönyv az adathalmaz évek szerinti felosztása. Az alábbi kifejezés az összes olyan sort kijelöli, ahol az oszlop Year értékei nagyobbak, mint 2010.

\"Year" > 2010

A dátumkifejezésnek figyelembe kell vennie az adatoszlopban szereplő összes dátumrészt. Az adatoszlop dátumformátumának konzisztensnek kell lennie.

Például egy formátumot mmddyyyyhasználó dátumoszlopban a kifejezésnek a következőhöz hasonlónak kell lennie:

\"Date" > 1/1/2010

Oszlopindex

Az alábbi kifejezés bemutatja, hogyan használhatja az oszlopindexet az adathalmaz első oszlopában lévő összes olyan sor kijelölésére, amely 30-nál kisebb vagy egyenlő, de nem egyenlő 20 értéket tartalmaz.

(\0)<=30 & !=20

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .