Adatok felosztása sorok felosztásával
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Ez a cikk a Machine Learning Studio (klasszikus) Adatok felosztása moduljában található Sorok felosztása lehetőség használatát ismerteti. Ez a lehetőség különösen akkor hasznos, ha a betanításhoz és teszteléshez használt adatkészleteket véletlenszerűen vagy valamilyen feltétel alapján kell elosztani.
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A Sorok felosztása lehetőség a véletlenszerű és a rétegzett felosztást is támogatja. Megadhat például egy 70–30 felosztási értéket, vagy egy 10–90-es felosztást, amely a célváltozót egyenlően ábrázolja mindkét adatkészletben.
A gépi tanulási kísérletek adat particionálásának általános információiért lásd: Split Data and Partition and Split (Adatok felosztása és felosztása).
Kapcsolódó feladatok
Az Adatok felosztása modul további lehetőségei az adatok felosztásának különböző módjait támogatják:
Adatok felosztása reguláris kifejezésekkel: Reguláris kifejezés alkalmazása egyetlen szöveges oszlopra, és az adatkészlet felosztása az eredmények alapján.
Adatok felosztása relatív kifejezésekkel: Kifejezés alkalmazása numerikus oszlopra, és az adatkészlet felosztása az eredmények alapján
Ajánló-adatkészletek felosztása: A javaslati modellekben használt adatkészletek felosztása. Az adatkészletnek három oszlopból kell lennie: elemekből, felhasználókból és értékelésekből.
Adatkészlet felosztása két csoportra
Adja hozzá az Adatok felosztása modult a (klasszikus) Studióban található kísérlethez, és kösse össze a felosztani kívánt adatkészletet.
A Felosztási mód beállításban válassza a Sorok felosztása lehetőséget.
Az első kimeneti adatkészlet sorainak törtrésze. Ezzel a beállítással meghatározhatja, hogy hány sor kerül az első (bal oldali) kimenetbe. Az összes többi sor a második (jobb oldali) kimenetre lesz ásva.
Az arány az első kimeneti adatkészletnek küldött sorok százalékos arányát jelöli, ezért 0 és 1 közötti tizedes törtet kell megadnia.
Ha például a 0,75 értéket adja meg, az adathalmaz felosztása 75:25 arány használatával történik, az első kimeneti adatkészletnek küldött sorok 75%-a, a második kimeneti adatkészlet pedig 25%.
Válassza a Randomized Split (Véletlenszerű felosztás) lehetőséget, ha két csoportba szeretné véletlenszerűen kiválasztani a kiválasztott adatokat. Ez az előnyben részesített lehetőség a betanítás és a tesztelési adatkészletek létrehozásakor.
Véletlenszerű kezdőérték: Írjon be egy nem negatív egész számot a használni szükséges példányok pszeudo-véletlen sorozatának inicializálására. Ez az alapértelmezett kezdőérték minden olyan modulban használatos, amely véletlenszerű számokat hoz létre.
A magok megadásával az eredmények általában reprodukálhatóak. Ha meg kell ismételnie egy felosztási művelet eredményeit, meg kell adnia egy kezdő értéket a véletlenszám-generátorhoz. Ellenkező esetben a véletlenszerű kezdőérték alapértelmezés szerint 0-ra van állítva, ami azt jelenti, hogy a kezdeti kezdőérték a rendszerórából lesz lekért érték. Ennek eredményeképpen az adatok eloszlása kismértékben eltérhet a felosztás végrehajtásakor.
Rétegzett felosztás: Állítsa ezt a beállítást True (Igaz)értékre, hogy a két kimeneti adatkészlet reprezentatív mintát tartalmaz a rétegzett oszlopban vagy a rétegzésikulcs-oszlopban lévő értékekből.
A rétegzett mintavételezéssel az adatok úgy vannak elosztva, hogy minden kimeneti adatkészlet az egyes célértékek körülbelül azonos százalékában oszlik meg. Előfordulhat például, hogy biztosítani szeretné, hogy a betanítás és a tesztelési készlet nagyjából kiegyensúlyozott legyen az eredmény, vagy más oszlop, például a nem tekintetében.
Futtassa a kísérletet, vagy kattintson a jobb gombbal a modulra, és válassza a Futtatás kiválasztva lehetőséget.
Példák
Az alábbi példák bemutatják, hogyan hajtható végre egyszerű felosztás a Sorok felosztása móddal .
Két egyenlő részre osztva
Adja hozzá az Adatok felosztása modult az adatkészlet után, további módosítások nélkül. Alapértelmezés szerint a modul két egyenlő részre osztja az adatkészletet. A páratlan számú sort tartalmazó adatok esetében a második kimenet a maradékot kapja meg.
Felosztva harmadikra
Tegyük fel, hogy az adatkészletet két részre szeretné felosztani, a betanításhoz használt adatok harmadával, a maradékot pedig teszteléshez vagy további felosztáshoz.
Ehhez adjon hozzá egy Adatok felosztása modult, és állítsa az első kimenet sorrészét 0,33-ra. A második kimenet a fennmaradó harmadot tartalmazza.
Ha a második kimenetet egyenlő részekre szeretne osztani, adja hozzá az Adatok felosztása modul egy másik példányát, és ezúttal használja az alapértelmezett 50–50 felosztási értéket.
Technikai megjegyzések
Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.
Megvalósítás részletei
Ebben a modulban az adatkészletnek legalább két sort kell tartalmaznia; ellenkező esetben hiba történik.
Ha a kívánt számú sort adja meg, akkor a megadott számnak pozitív egész számnak kell lennie, és a számnak kisebbnek kell lennie, mint az adathalmaz sorainak teljes száma.
Minden százalékos értéknek a 0 és az 1 tartományon belül kell lennie.
Ha egynél kisebb lebegőpontos számként ad meg számot vagy százalékot, és nem használja a százalékjelet (%), a rendszer arányos értékként értelmezi a számot.
További követelmények a rétegzett mintavételezéshez
A rétegoszlop csak névleges vagy kategorikus adatokat tartalmazhat. Ha az oszlop folyamatos numerikus adatokat tartalmaz, hibaüzenet jelenik meg.
A túl sok egyedi értéket tartalmazó oszlopok nem jó jelöltek a rétegzésre. Érdemes lehet egyes kategóriákat összecsukni, vagy előre csoportosítani az értékeket.