Megosztás a következőn keresztül:


Partíció és mintaösszetevő

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

A Partíció és a Minta összetevővel mintavételezést végezhet egy adathalmazon, vagy partíciókat hozhat létre az adathalmazból.

A mintavételezés fontos eszköz a gépi tanulásban, mivel lehetővé teszi az adathalmazok méretének csökkentését, miközben megtartja az értékek azonos arányát. Ez az összetevő számos, a gépi tanulás szempontjából fontos feladatot támogat:

  • Az adatok több, azonos méretű alszakaszra osztása.

    Használhatja a partíciókat keresztérvényesítésre, vagy az esetek véletlenszerű csoportokhoz való hozzárendelésére.

  • Adatok csoportosítása csoportokra, majd adatokkal való munka egy adott csoportból.

    Miután véletlenszerűen hozzárendelte az eseteket különböző csoportokhoz, előfordulhat, hogy módosítania kell azokat a funkciókat, amelyek csak egy csoporthoz vannak társítva.

  • Mintavételi.

    Kinyerheti az adatok egy százalékát, véletlenszerű mintavételezést alkalmazhat, vagy kiválaszthat egy oszlopot, amelyet az adathalmaz kiegyensúlyozásához és az értékein végzett rétegzett mintavételezéshez használhat.

  • Kisebb adatkészlet létrehozása teszteléshez.

    Ha sok adattal rendelkezik, érdemes lehet csak az első n sorokat használni a folyamat beállításakor, majd a modell létrehozásakor váltson a teljes adatkészlet használatára. A mintavételezéssel kisebb adatkészletet is létrehozhat a fejlesztéshez.

Az összetevő konfigurálása

Ez az összetevő az alábbi módszereket támogatja az adatok partíciókra vagy mintavételezésre való felosztásához. Először válassza ki a metódust, majd adja meg a metódushoz szükséges további beállításokat.

  • Head
  • Mintavételezés
  • Kiosztás hajtásokhoz
  • Hajtás kiválasztása

TOP N sorok lekérése egy adatkészletből

Ezzel a móddal csak az első n sorokat szerezheti be. Ez a beállítás akkor hasznos, ha egy folyamatot kis számú sorban szeretne tesztelni, és nincs szüksége az adatok kiegyensúlyozottságára vagy mintavételére semmilyen módon.

  1. Adja hozzá a partíció és a minta összetevőt a folyamathoz a felületen, és csatlakoztassa az adathalmazt.

  2. Partíció vagy minta mód: Állítsa ezt a beállítást Head (Fej) értékre.

  3. Kijelölendő sorok száma: Adja meg a visszaadni kívánt sorok számát.

    A sorok számának nem negatív egész számnak kell lennie. Ha a kijelölt sorok száma nagyobb, mint az adathalmaz sorainak száma, a teljes adathalmaz lesz visszaadva.

  4. Küldje el a folyamatot.

Az összetevő egyetlen adatkészletet ad ki, amely csak a megadott számú sort tartalmazza. A sorok mindig az adathalmaz tetejéről lesznek beolvasva.

Minta létrehozása adatokból

Ez a beállítás támogatja az egyszerű véletlenszerű mintavételezést vagy a rétegzett véletlenszerű mintavételezést. Hasznos, ha kisebb reprezentatív mintaadatkészletet szeretne létrehozni a teszteléshez.

  1. Adja hozzá a Partíció és a Minta összetevőt a folyamathoz, és csatlakoztassa az adathalmazt.

  2. Partíció vagy minta mód: Állítsa ezt a beállítást Mintavételezésre.

  3. Mintavételi sebesség: Adjon meg egy 0 és 1 közötti értéket. Ez az érték a forrásadatkészletből származó sorok százalékos arányát adja meg, amelyet a kimeneti adatkészletnek tartalmaznia kell.

    Ha például az eredeti adatkészletnek csak a felét szeretné, írja be 0.5 , hogy a mintavételezési arány 50 százalék legyen.

    A bemeneti adathalmaz sorai a megadott aránynak megfelelően el vannak válogatva és szelektíven kerülnek a kimeneti adathalmazba.

  4. Véletlenszerű mag mintavételezéshez: Ha szeretné, adjon meg egy egész számot, amelyet magértékként szeretne használni.

    Ez a beállítás akkor fontos, ha azt szeretné, hogy a sorok minden alkalommal ugyanúgy legyenek elosztva. Az alapértelmezett érték a 0, ami azt jelenti, hogy a rendszeróra alapján egy kezdőmag jön létre. Ez az érték a folyamat minden futtatásakor kissé eltérő eredményeket eredményezhet.

  5. Rétegzett felosztás mintavételezéshez: Akkor válassza ezt a lehetőséget, ha fontos, hogy az adathalmaz sorait egyenletesen ossza el egy kulcsoszlop a mintavételezés előtt.

    A mintavételezéshez használt Rétegzési kulcs oszlop esetében válasszon ki egyetlen strataoszlopot , amelyet az adathalmaz elosztva használ. Az adathalmaz sorai ezután az alábbiak szerint oszlanak meg:

    1. Az összes bemeneti sort a megadott strata oszlop értékei csoportosítják (rétegzik).

    2. A sorok az egyes csoportokon belül vannak elkeverve.

    3. A rendszer minden csoportot szelektíven ad hozzá a kimeneti adathalmazhoz, hogy megfeleljen a megadott aránynak.

  6. Küldje el a folyamatot.

    Ezzel a beállítással az összetevő egyetlen adathalmazt ad ki, amely az adatok reprezentatív mintavételezését tartalmazza. Az adathalmaz fennmaradó, nem mintavételezett része nem kimenet.

Adatok felosztása partíciókra

Ezt a lehetőséget akkor használja, ha az adathalmazt az adatok részhalmazaira szeretné osztani. Ez a beállítás akkor is hasznos, ha egyéni számú redőt szeretne létrehozni keresztérvényesítéshez, vagy sorokat szeretne több csoportra felosztani.

  1. Adja hozzá a Partíció és a Minta összetevőt a folyamathoz, és csatlakoztassa az adathalmazt.

  2. Partíció vagy minta mód esetén válassza a Hozzárendelés a hajtásokhoz lehetőséget.

  3. Csere használata a particionálásban: Válassza ezt a lehetőséget, ha azt szeretné, hogy a mintául szolgáló sor vissza legyen helyezve a sorok készletébe a lehetséges újrafelhasználás érdekében. Ennek eredményeképpen ugyanaz a sor több hajtáshoz is hozzárendelhető.

    Ha nem használ csere (az alapértelmezett beállítás), a rendszer nem helyezi vissza a mintasort a sorok készletébe a lehetséges újrafelhasználás érdekében. Ennek eredményeképpen minden sor csak egy hajtáshoz rendelhető hozzá.

  4. Véletlenszerű felosztás: Válassza ezt a lehetőséget, ha azt szeretné, hogy a sorok véletlenszerűen legyenek kiosztva a hajtásokhoz.

    Ha nem választja ki ezt a beállítást, a sorokat a rendszer a ciklikus időszeleteléses módszerrel rendeli hozzá a hajtásokhoz.

  5. Véletlenszerű mag: Ha szeretné, adjon meg egy egész számot, amelyet magértékként szeretne használni. Ez a beállítás akkor fontos, ha azt szeretné, hogy a sorok minden alkalommal ugyanúgy legyenek elosztva. Ellenkező esetben a 0 alapértelmezett értéke azt jelenti, hogy a rendszer véletlenszerű kezdőmagot használ.

  6. Adja meg a particionáló metódust: Adja meg, hogyan szeretné az adatokat az egyes partíciókra felosztani az alábbi beállításokkal:

    • Particionálás egyenletesen: Ezzel a beállítással egyenlő számú sort helyezhet el az egyes partíciókban. A kimeneti partíciók számának megadásához írjon be egy egész számot az Egyenlően felosztandó hajtások számának megadása mezőbe.

    • Partíció testre szabott arányokkal: Ezzel a beállítással vesszővel elválasztott listaként megadhatja az egyes partíciók méretét.

      Tegyük fel például, hogy három partíciót szeretne létrehozni. Az első partíció az adatok 50 százalékát tartalmazza. A fennmaradó két partíció az adatok 25 százalékát tartalmazza. A vesszővel elválasztott arányok listájában adja meg a következő számokat: .5, .25, .25.

      Az összes partícióméret összegének pontosan 1-nek kell lennie.

      Ha 1-nél kisebb számokat ad meg, a rendszer egy további partíciót hoz létre a többi sor tárolásához. Ha például a .2 és a .3 értékeket adja meg, a rendszer létrehoz egy harmadik partíciót, amely az összes sor fennmaradó 50 százalékát tárolja.

      Ha 1-nél több számot ad meg, a folyamat futtatásakor hibaüzenet jelenik meg.

  7. Rétegzett felosztás: Válassza ezt a lehetőséget, ha felosztáskor rétegzett sorokat szeretne, majd válassza ki a strata oszlopot.

  8. Küldje el a folyamatot.

    Ezzel a beállítással az összetevő több adathalmazt is kimenetel. Az adathalmazok a megadott szabályok szerint vannak particionálva.

Előre definiált partícióból származó adatok használata

Ezt a lehetőséget akkor használja, ha egy adathalmazt több partícióra osztott, és most az egyes partíciókat szeretné betölteni további elemzés vagy feldolgozás céljából.

  1. Adja hozzá a Partíció és a Minta összetevőt a folyamathoz.

  2. Csatlakoztassa az összetevőt a partíció és a minta egy korábbi példányának kimenetéhez. A példánynak a Kiosztás a foldokhoz beállítással kellett rendelkeznie néhány partíció létrehozásához.

  3. Partíció vagy minta mód: Válassza a Pick Fold lehetőséget.

  4. Adja meg, hogy melyik hajtásból szeretne mintát venni: Válassza ki a használni kívánt partíciót az index beírásával. A partícióindexek 1-alapúak. Ha például az adathalmazt három részre osztja, a partíciók 1, 2 és 3 indexekkel rendelkeznek.

    Ha érvénytelen indexértéket ad meg, a rendszer tervezési időt jelző hibát jelez: "0018-os hiba: Az adathalmaz érvénytelen adatokat tartalmaz."

    Amellett, hogy összecsukva csoportosítja az adathalmazt, két csoportra oszthatja az adathalmazt: egy célbehajtásra és minden másra. Ehhez adja meg az egyetlen hajtás indexét, majd válassza a Kiválasztott hajtás kiegészítésének kiválasztása lehetőséget, hogy a megadott hajtásban lévő adatokon kivegyen minden adatot.

  5. Ha több partícióval dolgozik, az egyes partíciók kezeléséhez hozzá kell adnia a Partíció és a Minta összetevő további példányait.

    A második sorban például a Partíció és a Minta összetevő a Hozzárendelés a hajtásokhoz, a harmadik sorban pedig a Pick Fold értékre van állítva.

    Partíció és minta

  6. Küldje el a folyamatot.

    Ezzel a beállítással az összetevő egyetlen adatkészletet ad ki, amely csak az adott hajtáshoz rendelt sorokat tartalmazza.

Megjegyzés

A hajtásjelöléseket nem tekintheti meg közvetlenül. Ezek csak a metaadatokban vannak jelen.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .