Megosztás a következőn keresztül:


Ismétlődő sorok összetevő eltávolítása

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Ezzel az összetevővel eltávolíthatja a lehetséges duplikált elemeket egy adathalmazból.

Tegyük fel például, hogy az adatok a következőhöz hasonlóan néznek ki, és több rekordot jelölnek a betegek számára.

PatientID Kezdőbetűi Nem Kor Elismerte
0 F.M. H 53 jan.
2 F.A.M. H 53 jan.
3 F.A.M. H 24 jan.
3 F.M. H 24 feb.
4 F.M. H 23 feb.
F.M. H 23
5 F.A.M. H 53
6 F.A.M. H NaN
7 F.A.M. H NaN

Ez a példa egyértelműen több oszlopot tartalmaz, amelyek esetleg duplikált adatokat tartalmaznak. Az adatok ismeretétől függ, hogy valóban duplikáltak-e.

  • Előfordulhat például, hogy sok betegnek ugyanaz a neve. A duplikációkat nem szüntetné meg névoszlopok használatával, csak az azonosító oszlop használatával. Így csak a duplikált azonosítóértékeket tartalmazó sorok lesznek szűrve, függetlenül attól, hogy a betegek neve azonos-e vagy sem.

  • Másik lehetőségként dönthet úgy is, hogy engedélyezi a duplikált elemeket az Azonosító mezőben, és más fájlok kombinációjával egyedi rekordokat kereshet, például vezetéknevet, vezetéknevet, életkort és nemet.

Ha meg szeretné adni, hogy egy sor duplikált-e vagy sem, egyetlen oszlopot vagy kulcsként használandó oszlopkészletet kell megadnia. Két sor csak akkor tekinthető duplikáltnak, ha az összes kulcsoszlop értéke egyenlő. Ha bármelyik sornak hiányzik a kulcsok értéke, azokat nem tekintjük ismétlődő sornak. Ha például a nem és az életkor kulcsként van beállítva a fenti táblázatban, akkor a 6. és a 7. sor nem ismétlődik, mivel hiányzik az Életkor értékük.

Az összetevő futtatásakor létrehoz egy jelölt adatkészletet, és olyan sorkészletet ad vissza, amely nem tartalmaz ismétlődő elemeket a megadott oszlopok halmazában.

Fontos

A forrásadatkészlet nincs módosítva; ez az összetevő létrehoz egy új adatkészletet, amely a megadott feltételek alapján szűrve kizárja az ismétlődéseket.

Ismétlődő sorok eltávolítása

  1. Adja hozzá az összetevőt a folyamathoz. Az Ismétlődő sorok eltávolítása összetevőt az Adatátalakítás, kezelés területen találja.

  2. Csatlakoztassa az ismétlődő sorokat ellenőrizni kívánt adatkészletet.

  3. A Tulajdonságok panel kulcsoszlop-kijelölési szűrőkifejezése alatt kattintson az Oszlopkijelölő indítása elemre az ismétlődések azonosításához használandó oszlopok kiválasztásához.

    Ebben a kontextusban a kulcs nem jelent egyedi azonosítót. Az oszlopválasztóval kiválasztott összes oszlop kulcsoszlopként van kijelölve. A nem kijelölt oszlopok nem kulcsoszlopnak minősülnek. A kulcsként kiválasztott oszlopok kombinációja határozza meg a rekordok egyediségét. (Gondolj rá úgy, mint egy SQL-utasításra, amely több egyenlőségi illesztéseket használ.)

    Példák:

    • "Biztosítani szeretném, hogy az azonosítók egyediek legyenek": Csak az azonosító oszlopot válassza ki.
    • "Biztosítani szeretném, hogy az utónév, a vezetéknév és az azonosító kombinációja egyedi legyen": Jelölje ki mindhárom oszlopot.
  4. Az első ismétlődő sor megőrzése jelölőnégyzet bejelölésével jelezheti, hogy melyik sort adja vissza az ismétlődések keresésekor:

    • Ha ki van választva, az első sort adja vissza, a többit pedig elveti.
    • Ha törli a jelölőnégyzet jelölését, az utolsó ismétlődő sor megmarad az eredmények között, a többi pedig el lesz vetve.
  5. Küldje el a folyamatot.

  6. Az eredmények áttekintéséhez kattintson a jobb gombbal az összetevőre, és válassza a Vizualizáció lehetőséget.

Tipp.

Ha az eredmények nehezen érthetők, vagy ha ki szeretne zárni néhány oszlopot a megfontolásból, akkor az Adathalmaz oszlopainak kijelölése összetevővel eltávolíthatja az oszlopokat.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket.