Ismétlődő sorok összetevő eltávolítása
Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.
Ezzel az összetevővel eltávolíthatja a lehetséges duplikált elemeket egy adathalmazból.
Tegyük fel például, hogy az adatok a következőhöz hasonlóan néznek ki, és több rekordot jelölnek a betegek számára.
PatientID | Kezdőbetűi | Nem | Kor | Elismerte |
---|---|---|---|---|
0 | F.M. | H | 53 | jan. |
2 | F.A.M. | H | 53 | jan. |
3 | F.A.M. | H | 24 | jan. |
3 | F.M. | H | 24 | feb. |
4 | F.M. | H | 23 | feb. |
F.M. | H | 23 | ||
5 | F.A.M. | H | 53 | |
6 | F.A.M. | H | NaN | |
7 | F.A.M. | H | NaN |
Ez a példa egyértelműen több oszlopot tartalmaz, amelyek esetleg duplikált adatokat tartalmaznak. Az adatok ismeretétől függ, hogy valóban duplikáltak-e.
Előfordulhat például, hogy sok betegnek ugyanaz a neve. A duplikációkat nem szüntetné meg névoszlopok használatával, csak az azonosító oszlop használatával. Így csak a duplikált azonosítóértékeket tartalmazó sorok lesznek szűrve, függetlenül attól, hogy a betegek neve azonos-e vagy sem.
Másik lehetőségként dönthet úgy is, hogy engedélyezi a duplikált elemeket az Azonosító mezőben, és más fájlok kombinációjával egyedi rekordokat kereshet, például vezetéknevet, vezetéknevet, életkort és nemet.
Ha meg szeretné adni, hogy egy sor duplikált-e vagy sem, egyetlen oszlopot vagy kulcsként használandó oszlopkészletet kell megadnia. Két sor csak akkor tekinthető duplikáltnak, ha az összes kulcsoszlop értéke egyenlő. Ha bármelyik sornak hiányzik a kulcsok értéke, azokat nem tekintjük ismétlődő sornak. Ha például a nem és az életkor kulcsként van beállítva a fenti táblázatban, akkor a 6. és a 7. sor nem ismétlődik, mivel hiányzik az Életkor értékük.
Az összetevő futtatásakor létrehoz egy jelölt adatkészletet, és olyan sorkészletet ad vissza, amely nem tartalmaz ismétlődő elemeket a megadott oszlopok halmazában.
Fontos
A forrásadatkészlet nincs módosítva; ez az összetevő létrehoz egy új adatkészletet, amely a megadott feltételek alapján szűrve kizárja az ismétlődéseket.
Ismétlődő sorok eltávolítása
Adja hozzá az összetevőt a folyamathoz. Az Ismétlődő sorok eltávolítása összetevőt az Adatátalakítás, kezelés területen találja.
Csatlakoztassa az ismétlődő sorokat ellenőrizni kívánt adatkészletet.
A Tulajdonságok panel kulcsoszlop-kijelölési szűrőkifejezése alatt kattintson az Oszlopkijelölő indítása elemre az ismétlődések azonosításához használandó oszlopok kiválasztásához.
Ebben a kontextusban a kulcs nem jelent egyedi azonosítót. Az oszlopválasztóval kiválasztott összes oszlop kulcsoszlopként van kijelölve. A nem kijelölt oszlopok nem kulcsoszlopnak minősülnek. A kulcsként kiválasztott oszlopok kombinációja határozza meg a rekordok egyediségét. (Gondolj rá úgy, mint egy SQL-utasításra, amely több egyenlőségi illesztéseket használ.)
Példák:
- "Biztosítani szeretném, hogy az azonosítók egyediek legyenek": Csak az azonosító oszlopot válassza ki.
- "Biztosítani szeretném, hogy az utónév, a vezetéknév és az azonosító kombinációja egyedi legyen": Jelölje ki mindhárom oszlopot.
Az első ismétlődő sor megőrzése jelölőnégyzet bejelölésével jelezheti, hogy melyik sort adja vissza az ismétlődések keresésekor:
- Ha ki van választva, az első sort adja vissza, a többit pedig elveti.
- Ha törli a jelölőnégyzet jelölését, az utolsó ismétlődő sor megmarad az eredmények között, a többi pedig el lesz vetve.
Küldje el a folyamatot.
Az eredmények áttekintéséhez kattintson a jobb gombbal az összetevőre, és válassza a Vizualizáció lehetőséget.
Tipp.
Ha az eredmények nehezen érthetők, vagy ha ki szeretne zárni néhány oszlopot a megfontolásból, akkor az Adathalmaz oszlopainak kijelölése összetevővel eltávolíthatja az oszlopokat.
Következő lépések
Tekintse meg az Azure Machine Learning számára elérhető összetevőket.