Ismétlődő sorok eltávolítása

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Eltávolítja a duplikált sorokat egy adatkészletből

Kategória: Adatátalakítás /-manipuláció

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Remove Duplicate Rows (Ismétlődő sorok eltávolítása) modulja az adathalmaz lehetséges ismétlődései eltávolításához.

Tegyük fel például, hogy az adatok az alábbihoz hasonlók, és a páciensek több rekordját jelölik.

PatientID (Betegazonosító)	Monogram	Nem	Életkor	Elismerte
1	F.M.	M	53	Jan
2	F.A.M.	M	53	Jan
3	F.A.M.	M	24	Jan
3	F.M.	M	24	Feb.
4	F.M.	M	23	Feb.
	F.M.	M	23
5	F.A.M.	M	53

Ez a példa egyértelműen több oszlopot tartalmaz, amelyek esetleg duplikált adatokat tartalmaznak. Az, hogy valóban duplikáltak-e, az ön adatismereteitől függ.

Előfordulhat például, hogy tudja, hogy sok páciensnek ugyanaz a neve. Az ismétlődéseket nem küszöbölné ki névoszlopok használatával, csak az azonosító oszlopot használva. Így a rendszer csak az ismétlődő azonosítóértékeket tartalmazó sorokat szűri ki, függetlenül attól, hogy a páciensek neve azonos-e.
Dönthet úgy is, hogy engedélyezi az ismétlődéseket az Azonosító mezőben, és a kérvények valamilyen más kombinációjával egyedi rekordokat keres, például vezetéknevet, vezetéknevet, életkort és nemet.

Annak megadásához, hogy egy sor duplikált-e vagy sem, egyetlen oszlopot vagy kulcsként használni kívánt oszlopkészletet kell megadnia. Két sor csak akkor minősül duplikáltnak, ha az összes kulcsoszlop értékei egyenlők.

A modul futtatásakor az létrehoz egy jelölt adathalmazt, és olyan sorokat ad vissza, amelyek nem tartalmaznak ismétlődéseket a megadott oszlopok között.

Fontos

A forrásadatkészlet nincs módosítva; Ez a modul létrehoz egy új adatkészletet, amely a megadott feltételek alapján szűrve kizárja az ismétlődéseket.

Az ismétlődő sorok eltávolítása használata

Adja hozzá a modult a kísérlethez. Az Ismétlődő sorok eltávolítása modulaz Adatátalakítás, -kezelés alatt található.
Csatlakozás ellenőrizni kívánt adatkészletet.
A Tulajdonságok panel kulcsoszlop-kiválasztási szűrőkifejezése alatt kattintson az Oszlopválasztó indítása elemre az ismétlődések azonosításához használni kívánt oszlopok kiválasztásához.

Ebben a kontextusban a Kulcs nem egyedi azonosítót jelent. Az Oszlopválasztóval kiválasztott összes oszlop kulcsoszlopként lesz ki jelölni. Az összes nem kijelölt oszlop nem kulcsoszlopnak minősül. A kulcsokként kiválasztott oszlopok kombinációja határozza meg a rekordok egyediségét. (Gondoljon rá úgy, mint egy SQL, amely több egyenlőségi illesztéseket használ.)

Példák:
- "Meg szeretném győződni arról, hogy az azonosítók egyediek": Csak az azonosító oszlopot válassza ki.
- "Meg szeretném győződni arról, hogy a vezetéknév, a vezetéknév és az azonosító kombinációja egyedi: Válassza ki mindhárom oszlopot.
Az Első duplikált sor megőrzése jelölőnégyzet be jelöli, hogy melyik sort adja vissza, ha ismétlődések találhatók:
- Ha be van jelölve, a rendszer az első sort visszaadja, a többit pedig elveti.
- Ha törli a jelölőnégyzet jelölését, a rendszer az utolsó duplikált sort is megtartja az eredmények között, a többit pedig elveti.
A kihagyott értékek kezelésére vonatkozó információkért tekintse meg a Műszaki megjegyzések szakaszt.
Futtassa a kísérletet, vagy kattintson a modulra, és válassza a Futtatás kiválasztva lehetőséget.
Az eredmények áttekintéséhez kattintson a jobb gombbal a modulra, válassza az Eredményadatkészlet lehetőséget, majd kattintson a Vizualizáció elemre.

Tipp

Ha az eredményeket nehéz megérteni, vagy ha ki szeretne zárni néhány oszlopot a megfontolásból, akkor az Adatkészlet oszlopainak kijelölése modullal távolíthat el oszlopokat.

Példák

A modul használatára a következő Azure AI Gallery:

Mellrák észlelése: Az ismétlődő sorok eltávolítása funkcióoszlopok hozzáadása után konszolidálja a betanítás és a tesztelés adatkészleteit.
Filmajátszmátás: Az Ismétlődő sorok eltávolítása funkcióval biztosítja, hogy filmenként csak egy felhasználói minősítés legyen.
Twitter-hangulatelemzés: Az Ismétlődő sorok eltávolítása csak az azonosító és a népszerűség oszlopra van alkalmazva, hogy filmenként csak egy sorrendi rangsorérték legyen. Más szóval egy film nem lehet egyszerre 1. és 3. is, így egyetlen érték lesz használva akkor is, ha a felhasználók másként rangsorolják a filmben.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Megvalósítás részletei

A modul úgy működik, hogy a bemeneti adatkészlet összes sorát végighurkolással járja. Egy jelölt kimeneti adatkészletbe gyűjti az összes olyan sort, ahol először jelenik meg a kulcsoszlop értékeinek egyedi kombinációja.

Az oszloptömbtípus a sorszűrés eredménytől függetlenül marad meg. Az érvénytelen értékek kiszűréseivel nem kényszerítheti a tömböt egy adott adattípusra; az oszlop tömbtípusa az oszlop összes értékére épül. Ez a korlátozás a hiányzó értékek szűrésére is vonatkozik.

Az adatértékek összehasonlítására használt algoritmus kivonat alapján van kényszerítve.

Hiányzó értékek

Előfordulhat, hogy a bemeneti adatkészlet nem kulcsoszlopaiból és kulcsoszlopaiból hiányoznak értékek. Ezek a szabályok a hiányzó értékekre vonatkoznak:

A hiányzó érték a kulcsoszlopok érvényes értéke. A hiányzó értékek mindkét kulcsban jelen lehet.
Egy ritka adatkészletben a hiányzó érték csak akkor számít egyenlőnek, ha megegyezik egy ritka érték alapértelmezett ábrázolás értékével.
A kulcsoszlopok hiányzó értékei más hiányzó értékekkel egyenlőnek minősülnek, de nem egyenlők a nem hiányzó értékekkel.

Várt bemenet

Név	Típus	Description
Adathalmaz	Adattábla	Bemeneti adatkészlet

Modulparaméterek

Name	Tartomány	Típus	Alapértelmezett	Description
Kulcsoszlop-kijelölés szűrőkifejezése	bármelyik	ColumnSelection (Oszlopválasztás)		Válassza ki az ismétlődések keresésekor használt kulcsoszlopokat.
Az első duplikált sor megőrzése	bármelyik	Logikai	true	Jelezze, hogy megtartja-e az ismétlődések halmazának első sorát, és elveti-e a többit. Ha Hamis, a rendszer megtartja az utolsó észlelt duplikált sort.

Kimenet

Név	Típus	Description
Eredményadatkészlet	Adattábla	Szűrt adatkészlet

Kivételek

Kivétel	Description
0003-as hiba	Kivétel történik, ha egy vagy több bemeneti adatkészlet null vagy üres.
0020-as hiba	Kivételt képez, ha a modulnak átadott egyes adatkészletek oszlopainak száma túl kicsi.
0017-es hiba	Kivétel történik, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.

Lásd még

Manipuláció
A–Z modullista

Megosztás a következőn keresztül: