Megosztás a következőn keresztül:


Ismétlődő sorok eltávolítása

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Eltávolítja a duplikált sorokat egy adatkészletből

Kategória: Adatátalakítás /-manipuláció

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio (klasszikus) Remove Duplicate Rows (Ismétlődő sorok eltávolítása) modulja az adathalmaz lehetséges ismétlődései eltávolításához.

Tegyük fel például, hogy az adatok az alábbihoz hasonlók, és a páciensek több rekordját jelölik.

PatientID (Betegazonosító) Monogram Nem Életkor Elismerte
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb.
4 F.M. M 23 Feb.
F.M. M 23
5 F.A.M. M 53

Ez a példa egyértelműen több oszlopot tartalmaz, amelyek esetleg duplikált adatokat tartalmaznak. Az, hogy valóban duplikáltak-e, az ön adatismereteitől függ.

  • Előfordulhat például, hogy tudja, hogy sok páciensnek ugyanaz a neve. Az ismétlődéseket nem küszöbölné ki névoszlopok használatával, csak az azonosító oszlopot használva. Így a rendszer csak az ismétlődő azonosítóértékeket tartalmazó sorokat szűri ki, függetlenül attól, hogy a páciensek neve azonos-e.

  • Dönthet úgy is, hogy engedélyezi az ismétlődéseket az Azonosító mezőben, és a kérvények valamilyen más kombinációjával egyedi rekordokat keres, például vezetéknevet, vezetéknevet, életkort és nemet.

Annak megadásához, hogy egy sor duplikált-e vagy sem, egyetlen oszlopot vagy kulcsként használni kívánt oszlopkészletet kell megadnia. Két sor csak akkor minősül duplikáltnak, ha az összes kulcsoszlop értékei egyenlők.

A modul futtatásakor az létrehoz egy jelölt adathalmazt, és olyan sorokat ad vissza, amelyek nem tartalmaznak ismétlődéseket a megadott oszlopok között.

Fontos

A forrásadatkészlet nincs módosítva; Ez a modul létrehoz egy új adatkészletet, amely a megadott feltételek alapján szűrve kizárja az ismétlődéseket.

Az ismétlődő sorok eltávolítása használata

  1. Adja hozzá a modult a kísérlethez. Az Ismétlődő sorok eltávolítása modulaz Adatátalakítás, -kezelés alatt található.

  2. Csatlakozás ellenőrizni kívánt adatkészletet.

  3. A Tulajdonságok panel kulcsoszlop-kiválasztási szűrőkifejezése alatt kattintson az Oszlopválasztó indítása elemre az ismétlődések azonosításához használni kívánt oszlopok kiválasztásához.

    Ebben a kontextusban a Kulcs nem egyedi azonosítót jelent. Az Oszlopválasztóval kiválasztott összes oszlop kulcsoszlopként lesz ki jelölni. Az összes nem kijelölt oszlop nem kulcsoszlopnak minősül. A kulcsokként kiválasztott oszlopok kombinációja határozza meg a rekordok egyediségét. (Gondoljon rá úgy, mint egy SQL, amely több egyenlőségi illesztéseket használ.)

    Példák:

    • "Meg szeretném győződni arról, hogy az azonosítók egyediek": Csak az azonosító oszlopot válassza ki.
    • "Meg szeretném győződni arról, hogy a vezetéknév, a vezetéknév és az azonosító kombinációja egyedi: Válassza ki mindhárom oszlopot.
  4. Az Első duplikált sor megőrzése jelölőnégyzet be jelöli, hogy melyik sort adja vissza, ha ismétlődések találhatók:

    • Ha be van jelölve, a rendszer az első sort visszaadja, a többit pedig elveti.
    • Ha törli a jelölőnégyzet jelölését, a rendszer az utolsó duplikált sort is megtartja az eredmények között, a többit pedig elveti.

    A kihagyott értékek kezelésére vonatkozó információkért tekintse meg a Műszaki megjegyzések szakaszt.

  5. Futtassa a kísérletet, vagy kattintson a modulra, és válassza a Futtatás kiválasztva lehetőséget.

  6. Az eredmények áttekintéséhez kattintson a jobb gombbal a modulra, válassza az Eredményadatkészlet lehetőséget, majd kattintson a Vizualizáció elemre.

Tipp

Ha az eredményeket nehéz megérteni, vagy ha ki szeretne zárni néhány oszlopot a megfontolásból, akkor az Adatkészlet oszlopainak kijelölése modullal távolíthat el oszlopokat.

Példák

A modul használatára a következő Azure AI Gallery:

  • Mellrák észlelése: Az ismétlődő sorok eltávolítása funkcióoszlopok hozzáadása után konszolidálja a betanítás és a tesztelés adatkészleteit.

  • Filmajátszmátás: Az Ismétlődő sorok eltávolítása funkcióval biztosítja, hogy filmenként csak egy felhasználói minősítés legyen.

  • Twitter-hangulatelemzés: Az Ismétlődő sorok eltávolítása csak az azonosító és a népszerűség oszlopra van alkalmazva, hogy filmenként csak egy sorrendi rangsorérték legyen. Más szóval egy film nem lehet egyszerre 1. és 3. is, így egyetlen érték lesz használva akkor is, ha a felhasználók másként rangsorolják a filmben.

Technikai megjegyzések

Ez a szakasz az implementáció részleteit, a tippeket és a gyakori kérdésekre adott válaszokat tartalmazza.

Megvalósítás részletei

A modul úgy működik, hogy a bemeneti adatkészlet összes sorát végighurkolással járja. Egy jelölt kimeneti adatkészletbe gyűjti az összes olyan sort, ahol először jelenik meg a kulcsoszlop értékeinek egyedi kombinációja.

Az oszloptömbtípus a sorszűrés eredménytől függetlenül marad meg. Az érvénytelen értékek kiszűréseivel nem kényszerítheti a tömböt egy adott adattípusra; az oszlop tömbtípusa az oszlop összes értékére épül. Ez a korlátozás a hiányzó értékek szűrésére is vonatkozik.

Az adatértékek összehasonlítására használt algoritmus kivonat alapján van kényszerítve.

Hiányzó értékek

Előfordulhat, hogy a bemeneti adatkészlet nem kulcsoszlopaiból és kulcsoszlopaiból hiányoznak értékek. Ezek a szabályok a hiányzó értékekre vonatkoznak:

  • A hiányzó érték a kulcsoszlopok érvényes értéke. A hiányzó értékek mindkét kulcsban jelen lehet.

  • Egy ritka adatkészletben a hiányzó érték csak akkor számít egyenlőnek, ha megegyezik egy ritka érték alapértelmezett ábrázolás értékével.

  • A kulcsoszlopok hiányzó értékei más hiányzó értékekkel egyenlőnek minősülnek, de nem egyenlők a nem hiányzó értékekkel.

Várt bemenet

Név Típus Description
Adathalmaz Adattábla Bemeneti adatkészlet

Modulparaméterek

Name Tartomány Típus Alapértelmezett Description
Kulcsoszlop-kijelölés szűrőkifejezése bármelyik ColumnSelection (Oszlopválasztás) Válassza ki az ismétlődések keresésekor használt kulcsoszlopokat.
Az első duplikált sor megőrzése bármelyik Logikai true Jelezze, hogy megtartja-e az ismétlődések halmazának első sorát, és elveti-e a többit. Ha Hamis, a rendszer megtartja az utolsó észlelt duplikált sort.

Kimenet

Név Típus Description
Eredményadatkészlet Adattábla Szűrt adatkészlet

Kivételek

Kivétel Description
0003-as hiba Kivétel történik, ha egy vagy több bemeneti adatkészlet null vagy üres.
0020-as hiba Kivételt képez, ha a modulnak átadott egyes adatkészletek oszlopainak száma túl kicsi.
0017-es hiba Kivétel történik, ha egy vagy több megadott oszlop típusa az aktuális modul által nem támogatott.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listájáért tekintse meg a Machine Learning REST API hibakódokat.

Lásd még

Manipuláció
A–Z modullista