Megosztás a következőn keresztül:


Adatok felosztása sorok felosztásával

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk a Machine Learning Studio (klasszikus) Adatok felosztása moduljában található Sorok felosztása lehetőség használatát ismerteti. Ez a lehetőség különösen akkor hasznos, ha a betanításhoz és teszteléshez használt adatkészleteket véletlenszerűen vagy valamilyen feltétel alapján kell elosztani.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A Sorok felosztása lehetőség a véletlenszerű és a rétegzett felosztást is támogatja. Megadhat például egy 70–30 felosztási értéket, vagy egy 10–90-es felosztást, amely a célváltozót egyenlően ábrázolja mindkét adatkészletben.

A gépi tanulási kísérletek adat particionálásának általános információiért lásd: Split Data and Partition and Split (Adatok felosztása és felosztása).

Az Adatok felosztása modul további lehetőségei az adatok felosztásának különböző módjait támogatják:

Adatkészlet felosztása két csoportra

  1. Adja hozzá az Adatok felosztása modult a (klasszikus) Studióban található kísérlethez, és kösse össze a felosztani kívánt adatkészletet.

  2. A Felosztási mód beállításban válassza a Sorok felosztása lehetőséget.

  3. Az első kimeneti adatkészlet sorainak törtrésze. Ezzel a beállítással meghatározhatja, hogy hány sor kerül az első (bal oldali) kimenetbe. Az összes többi sor a második (jobb oldali) kimenetre lesz ásva.

    Az arány az első kimeneti adatkészletnek küldött sorok százalékos arányát jelöli, ezért 0 és 1 közötti tizedes törtet kell megadnia.

    Ha például a 0,75 értéket adja meg, az adathalmaz felosztása 75:25 arány használatával történik, az első kimeneti adatkészletnek küldött sorok 75%-a, a második kimeneti adatkészlet pedig 25%.

  4. Válassza a Randomized Split (Véletlenszerű felosztás) lehetőséget, ha két csoportba szeretné véletlenszerűen kiválasztani a kiválasztott adatokat. Ez az előnyben részesített lehetőség a betanítás és a tesztelési adatkészletek létrehozásakor.

  5. Véletlenszerű kezdőérték: Írjon be egy nem negatív egész számot a használni szükséges példányok pszeudo-véletlen sorozatának inicializálására. Ez az alapértelmezett kezdőérték minden olyan modulban használatos, amely véletlenszerű számokat hoz létre.

    A magok megadásával az eredmények általában reprodukálhatóak. Ha meg kell ismételnie egy felosztási művelet eredményeit, meg kell adnia egy kezdő értéket a véletlenszám-generátorhoz. Ellenkező esetben a véletlenszerű kezdőérték alapértelmezés szerint 0-ra van állítva, ami azt jelenti, hogy a kezdeti kezdőérték a rendszerórából lesz lekért érték. Ennek eredményeképpen az adatok eloszlása kismértékben eltérhet a felosztás végrehajtásakor.

  6. Rétegzett felosztás: Állítsa ezt a beállítást True (Igaz)értékre, hogy a két kimeneti adatkészlet reprezentatív mintát tartalmaz a rétegzett oszlopban vagy a rétegzésikulcs-oszlopban lévő értékekből.

    A rétegzett mintavételezéssel az adatok úgy vannak elosztva, hogy minden kimeneti adatkészlet az egyes célértékek körülbelül azonos százalékában oszlik meg. Előfordulhat például, hogy biztosítani szeretné, hogy a betanítás és a tesztelési készlet nagyjából kiegyensúlyozott legyen az eredmény, vagy más oszlop, például a nem tekintetében.

  7. Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.

Példák

Az alábbi példák bemutatják, hogyan hajtható végre egyszerű felosztás a Sorok felosztása móddal .

Két egyenlő részre osztva

Adja hozzá az Adatok felosztása modult az adatkészlet után, további módosítások nélkül. Alapértelmezés szerint a modul két egyenlő részre osztja az adatkészletet. A páratlan számú sort tartalmazó adatok esetében a második kimenet a maradékot kapja meg.

Felosztva harmadikra

Tegyük fel, hogy az adatkészletet két részre szeretné felosztani, a betanításhoz használt adatok harmadával, a maradékot pedig teszteléshez vagy további felosztáshoz.

Ehhez adjon hozzá egy Adatok felosztása modult, és állítsa az első kimenet sorrészét 0,33-ra. A második kimenet a fennmaradó harmadot tartalmazza.

Ha a második kimenetet egyenlő részekre szeretne osztani, adja hozzá az Adatok felosztása modul egy másik példányát, és ezúttal használja az alapértelmezett 50–50 felosztási értéket.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

Megvalósítás részletei

  • Ebben a modulban az adatkészletnek legalább két sort kell tartalmaznia; ellenkező esetben hiba történik.

  • Ha a kívánt számú sort adja meg, akkor a megadott számnak pozitív egész számnak kell lennie, és a számnak kisebbnek kell lennie, mint az adathalmaz sorainak teljes száma.

  • Minden százalékos értéknek a 0 és az 1 tartományon belül kell lennie.

  • Ha egynél kisebb lebegőpontos számként ad meg számot vagy százalékot, és nem használja a százalékjelet (%), a rendszer arányos értékként értelmezi a számot.

További követelmények a rétegzett mintavételezéshez

  • A rétegoszlop csak névleges vagy kategorikus adatokat tartalmazhat. Ha az oszlop folyamatos numerikus adatokat tartalmaz, hibaüzenet jelenik meg.

  • A túl sok egyedi értéket tartalmazó oszlopok nem jó jelöltek a rétegzésre. Érdemes lehet egyes kategóriákat összecsukni, vagy előre csoportosítani az értékeket.

Lásd még

Minta ésSplitPartition és Minta