Adatok felosztása sorok felosztásával

Cikk
03/05/2020

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Ez a cikk a Machine Learning Studio (klasszikus) Adatok felosztása moduljában található Sorok felosztása lehetőség használatát ismerteti. Ez a lehetőség különösen akkor hasznos, ha a betanításhoz és teszteléshez használt adatkészleteket véletlenszerűen vagy valamilyen feltétel alapján kell elosztani.

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A Sorok felosztása lehetőség a véletlenszerű és a rétegzett felosztást is támogatja. Megadhat például egy 70–30 felosztási értéket, vagy egy 10–90-es felosztást, amely a célváltozót egyenlően ábrázolja mindkét adatkészletben.

A gépi tanulási kísérletek adat particionálásának általános információiért lásd: Split Data and Partition and Split (Adatok felosztása és felosztása).

Az Adatok felosztása modul további lehetőségei az adatok felosztásának különböző módjait támogatják:

Adatok felosztása reguláris kifejezésekkel: Reguláris kifejezés alkalmazása egyetlen szöveges oszlopra, és az adatkészlet felosztása az eredmények alapján.
Adatok felosztása relatív kifejezésekkel: Kifejezés alkalmazása numerikus oszlopra, és az adatkészlet felosztása az eredmények alapján
Ajánló-adatkészletek felosztása: A javaslati modellekben használt adatkészletek felosztása. Az adatkészletnek három oszlopból kell lennie: elemekből, felhasználókból és értékelésekből.

Adatkészlet felosztása két csoportra

Adja hozzá az Adatok felosztása modult a (klasszikus) Studióban található kísérlethez, és kösse össze a felosztani kívánt adatkészletet.
A Felosztási mód beállításban válassza a Sorok felosztása lehetőséget.
Az első kimeneti adatkészlet sorainak törtrésze. Ezzel a beállítással meghatározhatja, hogy hány sor kerül az első (bal oldali) kimenetbe. Az összes többi sor a második (jobb oldali) kimenetre lesz ásva.

Az arány az első kimeneti adatkészletnek küldött sorok százalékos arányát jelöli, ezért 0 és 1 közötti tizedes törtet kell megadnia.

Ha például a 0,75 értéket adja meg, az adathalmaz felosztása 75:25 arány használatával történik, az első kimeneti adatkészletnek küldött sorok 75%-a, a második kimeneti adatkészlet pedig 25%.
Válassza a Randomized Split (Véletlenszerű felosztás) lehetőséget, ha két csoportba szeretné véletlenszerűen kiválasztani a kiválasztott adatokat. Ez az előnyben részesített lehetőség a betanítás és a tesztelési adatkészletek létrehozásakor.
Véletlenszerű kezdőérték: Írjon be egy nem negatív egész számot a használni szükséges példányok pszeudo-véletlen sorozatának inicializálására. Ez az alapértelmezett kezdőérték minden olyan modulban használatos, amely véletlenszerű számokat hoz létre.

A magok megadásával az eredmények általában reprodukálhatóak. Ha meg kell ismételnie egy felosztási művelet eredményeit, meg kell adnia egy kezdő értéket a véletlenszám-generátorhoz. Ellenkező esetben a véletlenszerű kezdőérték alapértelmezés szerint 0-ra van állítva, ami azt jelenti, hogy a kezdeti kezdőérték a rendszerórából lesz lekért érték. Ennek eredményeképpen az adatok eloszlása kismértékben eltérhet a felosztás végrehajtásakor.
Rétegzett felosztás: Állítsa ezt a beállítást True (Igaz)értékre, hogy a két kimeneti adatkészlet reprezentatív mintát tartalmaz a rétegzett oszlopban vagy a rétegzésikulcs-oszlopban lévő értékekből.

A rétegzett mintavételezéssel az adatok úgy vannak elosztva, hogy minden kimeneti adatkészlet az egyes célértékek körülbelül azonos százalékában oszlik meg. Előfordulhat például, hogy biztosítani szeretné, hogy a betanítás és a tesztelési készlet nagyjából kiegyensúlyozott legyen az eredmény, vagy más oszlop, például a nem tekintetében.
Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.

Példák

Az alábbi példák bemutatják, hogyan hajtható végre egyszerű felosztás a Sorok felosztása móddal .

Két egyenlő részre osztva

Adja hozzá az Adatok felosztása modult az adatkészlet után, további módosítások nélkül. Alapértelmezés szerint a modul két egyenlő részre osztja az adatkészletet. A páratlan számú sort tartalmazó adatok esetében a második kimenet a maradékot kapja meg.

Felosztva harmadikra

Tegyük fel, hogy az adatkészletet két részre szeretné felosztani, a betanításhoz használt adatok harmadával, a maradékot pedig teszteléshez vagy további felosztáshoz.

Ehhez adjon hozzá egy Adatok felosztása modult, és állítsa az első kimenet sorrészét 0,33-ra. A második kimenet a fennmaradó harmadot tartalmazza.

Ha a második kimenetet egyenlő részekre szeretne osztani, adja hozzá az Adatok felosztása modul egy másik példányát, és ezúttal használja az alapértelmezett 50–50 felosztási értéket.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.

Megvalósítás részletei

Ebben a modulban az adatkészletnek legalább két sort kell tartalmaznia; ellenkező esetben hiba történik.
Ha a kívánt számú sort adja meg, akkor a megadott számnak pozitív egész számnak kell lennie, és a számnak kisebbnek kell lennie, mint az adathalmaz sorainak teljes száma.
Minden százalékos értéknek a 0 és az 1 tartományon belül kell lennie.
Ha egynél kisebb lebegőpontos számként ad meg számot vagy százalékot, és nem használja a százalékjelet (%), a rendszer arányos értékként értelmezi a számot.

További követelmények a rétegzett mintavételezéshez

A rétegoszlop csak névleges vagy kategorikus adatokat tartalmazhat. Ha az oszlop folyamatos numerikus adatokat tartalmaz, hibaüzenet jelenik meg.
A túl sok egyedi értéket tartalmazó oszlopok nem jó jelöltek a rétegzésre. Érdemes lehet egyes kategóriákat összecsukni, vagy előre csoportosítani az értékeket.

Lásd még

Minta és SplitPartition és Minta

Megosztás a következőn keresztül:

Adatok felosztása sorok felosztásával

Adatkészlet felosztása két csoportra

Példák

Két egyenlő részre osztva

Felosztva harmadikra

Technikai megjegyzések

Megvalósítás részletei

További követelmények a rétegzett mintavételezéshez

Lásd még

További források

Megosztás a következőn keresztül:

Adatok felosztása sorok felosztásával

Kapcsolódó feladatok

Adatkészlet felosztása két csoportra

Példák

Két egyenlő részre osztva

Felosztva harmadikra

Technikai megjegyzések

Megvalósítás részletei

További követelmények a rétegzett mintavételezéshez

Lásd még

További források