Partíció és mintaösszetevő
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
A Partíció és a Minta összetevővel mintavételezést végezhet egy adathalmazon, vagy partíciókat hozhat létre az adathalmazból.
A mintavételezés fontos eszköz a gépi tanulásban, mivel lehetővé teszi az adathalmazok méretének csökkentését, miközben megtartja az értékek azonos arányát. Ez az összetevő számos, a gépi tanulás szempontjából fontos feladatot támogat:
Az adatok több, azonos méretű alszakaszra osztása.
Használhatja a partíciókat keresztérvényesítésre, vagy az esetek véletlenszerű csoportokhoz való hozzárendelésére.
Adatok csoportosítása csoportokra, majd adatokkal való munka egy adott csoportból.
Miután véletlenszerűen hozzárendelte az eseteket különböző csoportokhoz, előfordulhat, hogy módosítania kell azokat a funkciókat, amelyek csak egy csoporthoz vannak társítva.
Mintavételi.
Kinyerheti az adatok egy százalékát, véletlenszerű mintavételezést alkalmazhat, vagy kiválaszthat egy oszlopot, amelyet az adathalmaz kiegyensúlyozásához és az értékein végzett rétegzett mintavételezéshez használhat.
Kisebb adatkészlet létrehozása teszteléshez.
Ha sok adattal rendelkezik, érdemes lehet csak az első n sorokat használni a folyamat beállításakor, majd a modell létrehozásakor váltson a teljes adatkészlet használatára. A mintavételezéssel kisebb adatkészletet is létrehozhat a fejlesztéshez.
Az összetevő konfigurálása
Ez az összetevő az alábbi módszereket támogatja az adatok partíciókra vagy mintavételezésre való felosztásához. Először válassza ki a metódust, majd adja meg a metódushoz szükséges további beállításokat.
- Head
- Mintavételezés
- Kiosztás hajtásokhoz
- Hajtás kiválasztása
TOP N sorok lekérése egy adatkészletből
Ezzel a móddal csak az első n sorokat szerezheti be. Ez a beállítás akkor hasznos, ha egy folyamatot kis számú sorban szeretne tesztelni, és nincs szüksége az adatok kiegyensúlyozottságára vagy mintavételére semmilyen módon.
Adja hozzá a partíció és a minta összetevőt a folyamathoz a felületen, és csatlakoztassa az adathalmazt.
Partíció vagy minta mód: Állítsa ezt a beállítást Head (Fej) értékre.
Kijelölendő sorok száma: Adja meg a visszaadni kívánt sorok számát.
A sorok számának nem negatív egész számnak kell lennie. Ha a kijelölt sorok száma nagyobb, mint az adathalmaz sorainak száma, a teljes adathalmaz lesz visszaadva.
Küldje el a folyamatot.
Az összetevő egyetlen adatkészletet ad ki, amely csak a megadott számú sort tartalmazza. A sorok mindig az adathalmaz tetejéről lesznek beolvasva.
Minta létrehozása adatokból
Ez a beállítás támogatja az egyszerű véletlenszerű mintavételezést vagy a rétegzett véletlenszerű mintavételezést. Hasznos, ha kisebb reprezentatív mintaadatkészletet szeretne létrehozni a teszteléshez.
Adja hozzá a Partíció és a Minta összetevőt a folyamathoz, és csatlakoztassa az adathalmazt.
Partíció vagy minta mód: Állítsa ezt a beállítást Mintavételezésre.
Mintavételi sebesség: Adjon meg egy 0 és 1 közötti értéket. Ez az érték a forrásadatkészletből származó sorok százalékos arányát adja meg, amelyet a kimeneti adatkészletnek tartalmaznia kell.
Ha például az eredeti adatkészletnek csak a felét szeretné, írja be
0.5
, hogy a mintavételezési arány 50 százalék legyen.A bemeneti adathalmaz sorai a megadott aránynak megfelelően el vannak válogatva és szelektíven kerülnek a kimeneti adathalmazba.
Véletlenszerű mag mintavételezéshez: Ha szeretné, adjon meg egy egész számot, amelyet magértékként szeretne használni.
Ez a beállítás akkor fontos, ha azt szeretné, hogy a sorok minden alkalommal ugyanúgy legyenek elosztva. Az alapértelmezett érték a 0, ami azt jelenti, hogy a rendszeróra alapján egy kezdőmag jön létre. Ez az érték a folyamat minden futtatásakor kissé eltérő eredményeket eredményezhet.
Rétegzett felosztás mintavételezéshez: Akkor válassza ezt a lehetőséget, ha fontos, hogy az adathalmaz sorait egyenletesen ossza el egy kulcsoszlop a mintavételezés előtt.
A mintavételezéshez használt Rétegzési kulcs oszlop esetében válasszon ki egyetlen strataoszlopot , amelyet az adathalmaz elosztva használ. Az adathalmaz sorai ezután az alábbiak szerint oszlanak meg:
Az összes bemeneti sort a megadott strata oszlop értékei csoportosítják (rétegzik).
A sorok az egyes csoportokon belül vannak elkeverve.
A rendszer minden csoportot szelektíven ad hozzá a kimeneti adathalmazhoz, hogy megfeleljen a megadott aránynak.
Küldje el a folyamatot.
Ezzel a beállítással az összetevő egyetlen adathalmazt ad ki, amely az adatok reprezentatív mintavételezését tartalmazza. Az adathalmaz fennmaradó, nem mintavételezett része nem kimenet.
Adatok felosztása partíciókra
Ezt a lehetőséget akkor használja, ha az adathalmazt az adatok részhalmazaira szeretné osztani. Ez a beállítás akkor is hasznos, ha egyéni számú redőt szeretne létrehozni keresztérvényesítéshez, vagy sorokat szeretne több csoportra felosztani.
Adja hozzá a Partíció és a Minta összetevőt a folyamathoz, és csatlakoztassa az adathalmazt.
Partíció vagy minta mód esetén válassza a Hozzárendelés a hajtásokhoz lehetőséget.
Csere használata a particionálásban: Válassza ezt a lehetőséget, ha azt szeretné, hogy a mintául szolgáló sor vissza legyen helyezve a sorok készletébe a lehetséges újrafelhasználás érdekében. Ennek eredményeképpen ugyanaz a sor több hajtáshoz is hozzárendelhető.
Ha nem használ csere (az alapértelmezett beállítás), a rendszer nem helyezi vissza a mintasort a sorok készletébe a lehetséges újrafelhasználás érdekében. Ennek eredményeképpen minden sor csak egy hajtáshoz rendelhető hozzá.
Véletlenszerű felosztás: Válassza ezt a lehetőséget, ha azt szeretné, hogy a sorok véletlenszerűen legyenek kiosztva a hajtásokhoz.
Ha nem választja ki ezt a beállítást, a sorokat a rendszer a ciklikus időszeleteléses módszerrel rendeli hozzá a hajtásokhoz.
Véletlenszerű mag: Ha szeretné, adjon meg egy egész számot, amelyet magértékként szeretne használni. Ez a beállítás akkor fontos, ha azt szeretné, hogy a sorok minden alkalommal ugyanúgy legyenek elosztva. Ellenkező esetben a 0 alapértelmezett értéke azt jelenti, hogy a rendszer véletlenszerű kezdőmagot használ.
Adja meg a particionáló metódust: Adja meg, hogyan szeretné az adatokat az egyes partíciókra felosztani az alábbi beállításokkal:
Particionálás egyenletesen: Ezzel a beállítással egyenlő számú sort helyezhet el az egyes partíciókban. A kimeneti partíciók számának megadásához írjon be egy egész számot az Egyenlően felosztandó hajtások számának megadása mezőbe.
Partíció testre szabott arányokkal: Ezzel a beállítással vesszővel elválasztott listaként megadhatja az egyes partíciók méretét.
Tegyük fel például, hogy három partíciót szeretne létrehozni. Az első partíció az adatok 50 százalékát tartalmazza. A fennmaradó két partíció az adatok 25 százalékát tartalmazza. A vesszővel elválasztott arányok listájában adja meg a következő számokat: .5, .25, .25.
Az összes partícióméret összegének pontosan 1-nek kell lennie.
Ha 1-nél kisebb számokat ad meg, a rendszer egy további partíciót hoz létre a többi sor tárolásához. Ha például a .2 és a .3 értékeket adja meg, a rendszer létrehoz egy harmadik partíciót, amely az összes sor fennmaradó 50 százalékát tárolja.
Ha 1-nél több számot ad meg, a folyamat futtatásakor hibaüzenet jelenik meg.
Rétegzett felosztás: Válassza ezt a lehetőséget, ha felosztáskor rétegzett sorokat szeretne, majd válassza ki a strata oszlopot.
Küldje el a folyamatot.
Ezzel a beállítással az összetevő több adathalmazt is kimenetel. Az adathalmazok a megadott szabályok szerint vannak particionálva.
Előre definiált partícióból származó adatok használata
Ezt a lehetőséget akkor használja, ha egy adathalmazt több partícióra osztott, és most az egyes partíciókat szeretné betölteni további elemzés vagy feldolgozás céljából.
Adja hozzá a Partíció és a Minta összetevőt a folyamathoz.
Csatlakoztassa az összetevőt a partíció és a minta egy korábbi példányának kimenetéhez. A példánynak a Kiosztás a foldokhoz beállítással kellett rendelkeznie néhány partíció létrehozásához.
Partíció vagy minta mód: Válassza a Pick Fold lehetőséget.
Adja meg, hogy melyik hajtásból szeretne mintát venni: Válassza ki a használni kívánt partíciót az index beírásával. A partícióindexek 1-alapúak. Ha például az adathalmazt három részre osztja, a partíciók 1, 2 és 3 indexekkel rendelkeznek.
Ha érvénytelen indexértéket ad meg, a rendszer tervezési időt jelző hibát jelez: "0018-os hiba: Az adathalmaz érvénytelen adatokat tartalmaz."
Amellett, hogy összecsukva csoportosítja az adathalmazt, két csoportra oszthatja az adathalmazt: egy célbehajtásra és minden másra. Ehhez adja meg az egyetlen hajtás indexét, majd válassza a Kiválasztott hajtás kiegészítésének kiválasztása lehetőséget, hogy a megadott hajtásban lévő adatokon kivegyen minden adatot.
Ha több partícióval dolgozik, az egyes partíciók kezeléséhez hozzá kell adnia a Partíció és a Minta összetevő további példányait.
A második sorban például a Partíció és a Minta összetevő a Hozzárendelés a hajtásokhoz, a harmadik sorban pedig a Pick Fold értékre van állítva.
Küldje el a folyamatot.
Ezzel a beállítással az összetevő egyetlen adatkészletet ad ki, amely csak az adott hajtáshoz rendelt sorokat tartalmazza.
Megjegyzés
A hajtásjelöléseket nem tekintheti meg közvetlenül. Ezek csak a metaadatokban vannak jelen.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket .
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: