Ismétlődő sorok összetevő eltávolítása

Cikk
09/01/2024

Ez a cikk az Azure Machine Learning designer egy összetevőjét ismerteti.

Ezzel az összetevővel eltávolíthatja a lehetséges duplikált elemeket egy adathalmazból.

Tegyük fel például, hogy az adatok a következőhöz hasonlóan néznek ki, és több rekordot jelölnek a betegek számára.

PatientID	Kezdőbetűi	Nem	Kor	Elismerte
0	F.M.	H	53	jan.
2	F.A.M.	H	53	jan.
3	F.A.M.	H	24	jan.
3	F.M.	H	24	feb.
4	F.M.	H	23	feb.
	F.M.	H	23
5	F.A.M.	H	53
6	F.A.M.	H	NaN
7	F.A.M.	H	NaN

Ez a példa egyértelműen több oszlopot tartalmaz, amelyek esetleg duplikált adatokat tartalmaznak. Az adatok ismeretétől függ, hogy valóban duplikáltak-e.

Előfordulhat például, hogy sok betegnek ugyanaz a neve. A duplikációkat nem szüntetné meg névoszlopok használatával, csak az azonosító oszlop használatával. Így csak a duplikált azonosítóértékeket tartalmazó sorok lesznek szűrve, függetlenül attól, hogy a betegek neve azonos-e vagy sem.
Másik lehetőségként dönthet úgy is, hogy engedélyezi a duplikált elemeket az Azonosító mezőben, és más fájlok kombinációjával egyedi rekordokat kereshet, például vezetéknevet, vezetéknevet, életkort és nemet.

Ha meg szeretné adni, hogy egy sor duplikált-e vagy sem, egyetlen oszlopot vagy kulcsként használandó oszlopkészletet kell megadnia. Két sor csak akkor tekinthető duplikáltnak, ha az összes kulcsoszlop értéke egyenlő. Ha bármelyik sornak hiányzik a kulcsok értéke, azokat nem tekintjük ismétlődő sornak. Ha például a nem és az életkor kulcsként van beállítva a fenti táblázatban, akkor a 6. és a 7. sor nem ismétlődik, mivel hiányzik az Életkor értékük.

Az összetevő futtatásakor létrehoz egy jelölt adatkészletet, és olyan sorkészletet ad vissza, amely nem tartalmaz ismétlődő elemeket a megadott oszlopok halmazában.

Fontos

A forrásadatkészlet nincs módosítva; ez az összetevő létrehoz egy új adatkészletet, amely a megadott feltételek alapján szűrve kizárja az ismétlődéseket.

Ismétlődő sorok eltávolítása

Adja hozzá az összetevőt a folyamathoz. Az Ismétlődő sorok eltávolítása összetevőt az Adatátalakítás, kezelés területen találja.
Csatlakoztassa az ismétlődő sorokat ellenőrizni kívánt adatkészletet.
A Tulajdonságok panel kulcsoszlop-kijelölési szűrőkifejezése alatt kattintson az Oszlopkijelölő indítása elemre az ismétlődések azonosításához használandó oszlopok kiválasztásához.

Ebben a kontextusban a kulcs nem jelent egyedi azonosítót. Az oszlopválasztóval kiválasztott összes oszlop kulcsoszlopként van kijelölve. A nem kijelölt oszlopok nem kulcsoszlopnak minősülnek. A kulcsként kiválasztott oszlopok kombinációja határozza meg a rekordok egyediségét. (Gondolj rá úgy, mint egy SQL-utasításra, amely több egyenlőségi illesztéseket használ.)

Példák:
- "Biztosítani szeretném, hogy az azonosítók egyediek legyenek": Csak az azonosító oszlopot válassza ki.
- "Biztosítani szeretném, hogy az utónév, a vezetéknév és az azonosító kombinációja egyedi legyen": Jelölje ki mindhárom oszlopot.
Az első ismétlődő sor megőrzése jelölőnégyzet bejelölésével jelezheti, hogy melyik sort adja vissza az ismétlődések keresésekor:
- Ha ki van választva, az első sort adja vissza, a többit pedig elveti.
- Ha törli a jelölőnégyzet jelölését, az utolsó ismétlődő sor megmarad az eredmények között, a többi pedig el lesz vetve.
Küldje el a folyamatot.
Az eredmények áttekintéséhez kattintson a jobb gombbal az összetevőre, és válassza a Vizualizáció lehetőséget.

Tipp.

Ha az eredmények nehezen érthetők, vagy ha ki szeretne zárni néhány oszlopot a megfontolásból, akkor az Adathalmaz oszlopainak kijelölése összetevővel eltávolíthatja az oszlopokat.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket.

Megosztás a következőn keresztül:

Ismétlődő sorok összetevő eltávolítása

Ismétlődő sorok eltávolítása

Következő lépések

Visszajelzés

További források