Ismétlődő sorok eltávolítása
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Eltávolítja a duplikált sorokat egy adatkészletből
Kategória: Adatátalakítás /-manipuláció
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Remove Duplicate Rows (Ismétlődő sorok eltávolítása) modulja az adathalmaz lehetséges ismétlődései eltávolításához.
Tegyük fel például, hogy az adatok az alábbihoz hasonlók, és a páciensek több rekordját jelölik.
PatientID (Betegazonosító) | Monogram | Nem | Életkor | Elismerte |
---|---|---|---|---|
1 | F.M. | M | 53 | Jan |
2 | F.A.M. | M | 53 | Jan |
3 | F.A.M. | M | 24 | Jan |
3 | F.M. | M | 24 | Feb. |
4 | F.M. | M | 23 | Feb. |
F.M. | M | 23 | ||
5 | F.A.M. | M | 53 |
Ez a példa egyértelműen több oszlopot tartalmaz, amelyek esetleg duplikált adatokat tartalmaznak. Az, hogy valóban duplikáltak-e, az ön adatismereteitől függ.
Előfordulhat például, hogy tudja, hogy sok páciensnek ugyanaz a neve. Az ismétlődéseket nem küszöbölné ki névoszlopok használatával, csak az azonosító oszlopot használva. Így a rendszer csak az ismétlődő azonosítóértékeket tartalmazó sorokat szűri ki, függetlenül attól, hogy a páciensek neve azonos-e.
Dönthet úgy is, hogy engedélyezi az ismétlődéseket az Azonosító mezőben, és a kérvények valamilyen más kombinációjával egyedi rekordokat keres, például vezetéknevet, vezetéknevet, életkort és nemet.
Annak megadásához, hogy egy sor duplikált-e vagy sem, egyetlen oszlopot vagy kulcsként használni kívánt oszlopkészletet kell megadnia. Két sor csak akkor minősül duplikáltnak, ha az összes kulcsoszlop értékei egyenlők.
A modul futtatásakor az létrehoz egy jelölt adathalmazt, és olyan sorokat ad vissza, amelyek nem tartalmaznak ismétlődéseket a megadott oszlopok között.
Fontos
A forrásadatkészlet nincs módosítva; Ez a modul létrehoz egy új adatkészletet, amely a megadott feltételek alapján szűrve kizárja az ismétlődéseket.
Az ismétlődő sorok eltávolítása használata
Adja hozzá a modult a kísérlethez. Az Ismétlődő sorok eltávolítása modulaz Adatátalakítás, -kezelés alatt található.
Csatlakozás ellenőrizni kívánt adatkészletet.
A Tulajdonságok panel kulcsoszlop-kiválasztási szűrőkifejezése alatt kattintson az Oszlopválasztó indítása elemre az ismétlődések azonosításához használni kívánt oszlopok kiválasztásához.
Ebben a kontextusban a Kulcs nem egyedi azonosítót jelent. Az Oszlopválasztóval kiválasztott összes oszlop kulcsoszlopként lesz ki jelölni. Az összes nem kijelölt oszlop nem kulcsoszlopnak minősül. A kulcsokként kiválasztott oszlopok kombinációja határozza meg a rekordok egyediségét. (Gondoljon rá úgy, mint egy SQL, amely több egyenlőségi illesztéseket használ.)
Példák:
- "Meg szeretném győződni arról, hogy az azonosítók egyediek": Csak az azonosító oszlopot válassza ki.
- "Meg szeretném győződni arról, hogy a vezetéknév, a vezetéknév és az azonosító kombinációja egyedi: Válassza ki mindhárom oszlopot.
Az Első duplikált sor megőrzése jelölőnégyzet be jelöli, hogy melyik sort adja vissza, ha ismétlődések találhatók:
- Ha be van jelölve, a rendszer az első sort visszaadja, a többit pedig elveti.
- Ha törli a jelölőnégyzet jelölését, a rendszer az utolsó duplikált sort is megtartja az eredmények között, a többit pedig elveti.
A kihagyott értékek kezelésére vonatkozó információkért tekintse meg a Műszaki megjegyzések szakaszt.
Futtassa a kísérletet, vagy kattintson a modulra, és válassza a Futtatás kiválasztva lehetőséget.
Az eredmények áttekintéséhez kattintson a jobb gombbal a modulra, válassza az Eredményadatkészlet lehetőséget, majd kattintson a Vizualizáció elemre.
Tipp
Ha az eredményeket nehéz megérteni, vagy ha ki szeretne zárni néhány oszlopot a megfontolásból, akkor az Adatkészlet oszlopainak kijelölése modullal távolíthat el oszlopokat.
Példák
A modul használatára a következő Azure AI Gallery:
Mellrák észlelése: Az ismétlődő sorok eltávolítása funkcióoszlopok hozzáadása után konszolidálja a betanítás és a tesztelés adatkészleteit.
Filmajátszmátás: Az Ismétlődő sorok eltávolítása funkcióval biztosítja, hogy filmenként csak egy felhasználói minősítés legyen.
Twitter-hangulatelemzés: Az Ismétlődő sorok eltávolítása csak az azonosító és a népszerűség oszlopra van alkalmazva, hogy filmenként csak egy sorrendi rangsorérték legyen. Más szóval egy film nem lehet egyszerre 1. és 3. is, így egyetlen érték lesz használva akkor is, ha a felhasználók másként rangsorolják a filmben.
Technikai megjegyzések
Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.
Megvalósítás részletei
A modul úgy működik, hogy a bemeneti adatkészlet összes sorát végighurkolással járja. Egy jelölt kimeneti adatkészletbe gyűjti az összes olyan sort, ahol először jelenik meg a kulcsoszlop értékeinek egyedi kombinációja.
Az oszloptömbtípus a sorszűrés eredménytől függetlenül marad meg. Az érvénytelen értékek kiszűréseivel nem kényszerítheti a tömböt egy adott adattípusra; az oszlop tömbtípusa az oszlop összes értékére épül. Ez a korlátozás a hiányzó értékek szűrésére is vonatkozik.
Az adatértékek összehasonlítására használt algoritmus kivonat alapján van kényszerítve.
Hiányzó értékek
Előfordulhat, hogy a bemeneti adatkészlet nem kulcsoszlopaiból és kulcsoszlopaiból hiányoznak értékek. Ezek a szabályok a hiányzó értékekre vonatkoznak:
A hiányzó érték a kulcsoszlopok érvényes értéke. A hiányzó értékek mindkét kulcsban jelen lehet.
Egy ritka adatkészletben a hiányzó érték csak akkor számít egyenlőnek, ha megegyezik egy ritka érték alapértelmezett ábrázolás értékével.
A kulcsoszlopok hiányzó értékei más hiányzó értékekkel egyenlőnek minősülnek, de nem egyenlők a nem hiányzó értékekkel.
Várt bemenet
Név | Típus | Description |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Kulcsoszlop-kijelölés szűrőkifejezése | bármelyik | ColumnSelection (Oszlopválasztás) | Válassza ki az ismétlődések keresésekor használt kulcsoszlopokat. | |
Az első duplikált sor megőrzése | bármelyik | Logikai | true | Jelezze, hogy megtartja-e az ismétlődések halmazának első sorát, és elveti-e a többit. Ha Hamis, a rendszer megtartja az utolsó észlelt duplikált sort. |
Kimenet
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | Szűrt adatkészlet |
Kivételek
Kivétel | Description |
---|---|
0003-as hiba | Kivétel történik, ha egy vagy több bemeneti adatkészlet null vagy üres. |
0020-as hiba | Kivételt képez, ha a modulnak átadott egyes adatkészletek oszlopainak száma túl kicsi. |
0017-es hiba | Kivétel történik, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.