Adatösszetevő felosztása

Cikk
09/01/2024

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Az Adatok felosztása összetevővel az adathalmazokat két különálló halmazra oszthatja.

Ez az összetevő akkor hasznos, ha az adatokat betanítási és tesztelési csoportokba kell különítenie. Testre is szabhatja az adatok megosztásának módját. Egyes lehetőségek támogatják az adatok véletlenszerűsítését. Mások egy bizonyos adattípushoz vagy modelltípushoz vannak igazítva.

Az összetevő konfigurálása

Tipp.

A felosztási mód kiválasztása előtt olvassa el az összes lehetőséget a szükséges felosztás típusának meghatározásához. Ha módosítja a felosztási módot, előfordulhat, hogy az összes többi beállítás alaphelyzetbe áll.

Adja hozzá az Adatok felosztása összetevőt a folyamathoz a tervezőben. Ezt az összetevőt az Adatátalakítás területen, a Minta és a Felosztás kategóriában találja.
Felosztási mód: Válasszon az alábbi módok közül a rendelkezésére álló adatok típusától és a felosztás módjától függően. Minden felosztási módnak különböző lehetőségei vannak.
- Sorok felosztása: Ha csak két részre szeretné osztani az adatokat, használja ezt a beállítást. Megadhatja az egyes felosztásokban elhelyezendő adatok százalékos arányát. Alapértelmezés szerint az adatok 50/50-ig vannak osztva.
  
  Véletlenszerűen is kijelölheti az egyes csoportok sorait, és rétegzett mintavételezést is használhat. Rétegzett mintavételezés esetén egyetlen adatoszlopot kell kiválasztania, amelynek értékeit egyenlően szeretné felosztani a két eredményadatkészlet között.
- Normál kifejezés felosztása: Akkor válassza ezt a lehetőséget, ha az adathalmazt egyetlen oszlop értékének tesztelésével szeretné megosztani.
  
  Ha például hangulatelemzést használ, ellenőrizheti, hogy egy adott terméknév szerepel-e egy szövegmezőben. Ezután az adathalmazt a céltermék neve és a céltermék neve nélküli sorokra oszthatja.
- Relatív kifejezés felosztása: Ezt a beállítást akkor használja, ha egy feltételt számoszlopra szeretne alkalmazni. A szám lehet dátum/idő mező, kor- vagy dollárösszegeket tartalmazó oszlop, vagy akár százalék is. Előfordulhat például, hogy meg szeretné osztani az adathalmazt az elemek költsége, a személyek kortartományok szerinti csoportosítása vagy az adatok naptárdátum szerinti elkülönítése alapján.

Sorok felosztása

Adja hozzá az Adatok felosztása összetevőt a folyamathoz a tervezőben, és csatlakoztassa a felosztani kívánt adathalmazt.
Felosztási mód esetén válassza a Sorok felosztása lehetőséget.
Sorok törtrésze az első kimeneti adatkészletben: Ezzel a beállítással meghatározhatja, hogy hány sor kerül az első (bal oldali) kimenetbe. Az összes többi sor a második (jobb oldali) kimenetbe kerül.

Az arány az első kimeneti adatkészletbe küldött sorok százalékos arányát jelöli, ezért 0 és 1 közötti tizedesjegyet kell megadnia.

Ha például a 0,75 értéket adja meg értékként, az adathalmaz 75/25-ös felosztást kap. Ebben a felosztásban a sorok 75 százaléka lesz elküldve az első kimeneti adathalmazba. A fennmaradó 25 százalékot a rendszer elküldi a második kimeneti adatkészletnek.
Válassza a Véletlenszerű felosztás lehetőséget, ha véletlenszerűen szeretné kijelölni az adatokat a két csoportba. Ez az előnyben részesített beállítás betanítási és tesztelési adathalmazok létrehozásakor.
Véletlenszerű mag: Ezt a paramétert a rendszer figyelmen kívül hagyja, ha a véletlenszerű felosztás értéke hamis. Ellenkező esetben adjon meg egy nem negatív egész számot a használni kívánt példányok pszeudorandom sorozatának elindításához. Ez az alapértelmezett mag minden olyan összetevőben használatos, amely véletlenszerű számokat hoz létre.

A vetőmag megadása reprodukálhatóvá teszi az eredményeket. Ha meg kell ismételnie egy felosztási művelet eredményeit, akkor ugyanazt a kezdőszámot kell megadnia a véletlenszerű számgenerátorhoz.
Rétegzett felosztás: Állítsa ezt a beállítást Igaz értékre, hogy a két kimeneti adathalmaz reprezentatív mintát tartalmazzon a strata oszlop vagy a rétegzőkulcs oszlop értékeiből.

Rétegzett mintavételezés esetén az adatok úgy vannak felosztva, hogy az egyes kimeneti adathalmazok az egyes célértékek nagyjából azonos százalékát kapják meg. Például érdemes lehet biztosítani, hogy a betanítási és tesztelési csoportok nagyjából kiegyensúlyozottak legyenek az eredmény vagy más oszlop (például a nem) tekintetében.
Küldje el a folyamatot.

Reguláris kifejezés kiválasztása

Adja hozzá az Adatok felosztása összetevőt a folyamathoz, és csatlakoztassa bemenetként a felosztani kívánt adatkészlethez.
Felosztási mód esetén válassza a Reguláris kifejezés felosztása lehetőséget.
A Reguláris kifejezés mezőbe írjon be egy érvényes reguláris kifejezést.

A reguláris kifejezésnek a Szokásos kifejezések Python-szintaxisát kell követnie.
Küldje el a folyamatot.

A megadott reguláris kifejezés alapján az adathalmaz két sorra van osztva: a kifejezésnek megfelelő értékeket tartalmazó sorokra és az összes többi sorra.

Az alábbi példák bemutatják, hogyan oszthat meg egy adathalmazt a Reguláris kifejezés beállítással.

Egyetlen egész szó

Ez a példa az első adathalmazba helyezi az összes sort, amely az oszlopban Textlévő szöveget Gryphon tartalmazza. A felosztási adatok második kimenetébe más sorokat helyez.

    \"Text" Gryphon

Substring

Ez a példa az adathalmaz második oszlopában lévő tetszőleges pozícióban keresi a megadott sztringet. A pozíciót itt az 1 index értéke jelöli. A kis- és nagybetűk megkülönböztetése.

(\1) ^[a-f]

Az első eredményadatkészlet tartalmazza azokat a sorokat, ahol az indexoszlop a következő karakterek egyikével kezdődik: a, , b, cd, ef. Az összes többi sor a második kimenetre lesz irányítva.

Relatív kifejezés kiválasztása

Adja hozzá az Adatok felosztása összetevőt a folyamathoz, és csatlakoztassa bemenetként a felosztani kívánt adatkészlethez.
Hasítási mód esetén válassza a Relatív kifejezés lehetőséget.
A Relációs kifejezés mezőbe írjon be egy olyan kifejezést, amely összehasonlítási műveletet hajt végre egyetlen oszlopon.

Numerikus oszlop esetén:
- Az oszlop számokat tartalmaz bármilyen numerikus adattípusból, beleértve a dátum- és időadattípusokat is.
- A kifejezés legfeljebb egy oszlopnévre hivatkozhat.
- Az AND művelethez használja az ampersand karaktert &. Használja a csőjelet az |OR művelethez.
- A következő operátorok támogatottak: <, >, <=, >=, ==. !=
- A műveletek nem csoportosíthatók a következő használatával ( : és ).
Sztringoszlop esetén:
- A következő operátorok támogatottak: ==, !=.
Küldje el a folyamatot.

A kifejezés két sorra osztja az adathalmazt: a feltételnek megfelelő értékeket tartalmazó sorokat és az összes többi sort.

Az alábbi példák bemutatják, hogyan oszthat meg egy adathalmazt az Adatok felosztása összetevő Relatív kifejezés lehetőségével.

Naptári év

Gyakori forgatókönyv az adathalmaz évek szerinti felosztása. Az alábbi kifejezés kijelöli azokat a sorokat, amelyekben az oszlop Year értékei nagyobbak, mint 2010a .

\"Year" > 2010

A dátumkifejezésnek figyelembe kell vennie az adatoszlopban szereplő összes dátumrészt. Az adatoszlop dátumformátumának konzisztensnek kell lennie.

Egy formátumot mmddyyyyhasználó dátumoszlopban például a kifejezésnek a következőhöz hasonlónak kell lennie:

\"Date" > 1/1/2010

Oszlopindex

Az alábbi kifejezés bemutatja, hogyan használhatja az oszlopindexet az adathalmaz első oszlopában lévő összes olyan sor kijelölésére, amely 30-nál kisebb vagy egyenlő értékeket tartalmaz, de nem egyenlő 20-zal.

(\0)<=30 & !=20

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket.

Megosztás a következőn keresztül: