Dela via


Ta bort komponenten Duplicerade rader

I den här artikeln beskrivs en komponent i Azure Mašinsko učenje designer.

Använd den här komponenten för att ta bort potentiella dubbletter från en datauppsättning.

Anta till exempel att dina data ser ut så här och representerar flera poster för patienter.

PatientID Initials Kön Ålder Vedertagen
1 F.M. M 53 Jan
2 F.A.M. M 53 Jan
3 F.A.M. M 24 Jan
3 F.M. M 24 Feb
4 F.M. M 23 Feb
F.M. M 23
5 F.A.M. M 53
6 F.A.M. M NaN
7 F.A.M. M NaN

Det här exemplet har helt klart flera kolumner med potentiellt duplicerade data. Om de faktiskt är dubbletter beror på dina kunskaper om data.

  • Du kanske till exempel vet att många patienter har samma namn. Du skulle inte eliminera dubbletter med hjälp av namnkolumner, bara ID-kolumnen . På så sätt filtreras endast rader med dubbla ID-värden bort, oavsett om patienterna har samma namn eller inte.

  • Du kan också välja att tillåta dubbletter i ID-fältet och använda någon annan kombination av filer för att hitta unika poster, till exempel förnamn, efternamn, ålder och kön.

Om du vill ange villkor för om en rad är duplicerad eller inte anger du en enskild kolumn eller en uppsättning kolumner som ska användas som nycklar. Två rader betraktas endast som dubbletter när värdena i alla nyckelkolumner är lika. Om någon rad saknar värde för nycklar betraktas de inte som dubblettrader. Om till exempel Kön och Ålder anges som Nycklar i tabellen ovan, är rad 6 och 7 inte dubbletter av rader eftersom de saknar värde i Ålder.

När du kör komponenten skapar den en kandidatdatauppsättning och returnerar en uppsättning rader som inte har några dubbletter i den uppsättning kolumner som du har angett.

Viktigt!

Källdatauppsättningen ändras inte. Den här komponenten skapar en ny datauppsättning som filtreras för att exkludera dubbletter baserat på de kriterier som du anger.

Så här använder du ta bort dubblettrader

  1. Lägg till komponenten i pipelinen. Du hittar komponenten Ta bort dubblettrader under Datatransformering, Manipulation.

  2. Anslut den datauppsättning som du vill söka efter dubbletter av rader.

  3. Klicka på Starta kolumnväljare under Filteruttryck för nyckelkolumnmarkering i fönstret Egenskaper för att välja kolumner som ska användas för att identifiera dubbletter.

    I det här sammanhanget betyder nyckeln inte en unik identifierare. Alla kolumner som du väljer med kolumnväljaren är avsedda som nyckelkolumner. Alla omarkerade kolumner betraktas som icke-nyckelkolumner. Kombinationen av kolumner som du väljer som nycklar avgör posternas unika egenskaper. (Se det som en SQL-instruktion som använder flera likhetskopplingar.)

    Exempel:

    • "Jag vill se till att ID:na är unika": Välj endast ID-kolumnen.
    • "Jag vill se till att kombinationen av förnamn, efternamn och ID är unik": Markera alla tre kolumnerna.
  4. Använd kryssrutan Behåll den första dubblettraden för att ange vilken rad som ska returneras när dubbletter hittas:

    • Om den väljs returneras den första raden och andra ignoreras.
    • Om du avmarkerar det här alternativet sparas den sista dubblettraden i resultatet och andra ignoreras.
  5. Skicka pipelinen.

  6. Om du vill granska resultatet högerklickar du på komponenten och väljer Visualisera.

Dricks

Om resultaten är svåra att förstå, eller om du vill undanta vissa kolumner från övervägande, kan du ta bort kolumner med hjälp av komponenten Välj kolumner i datauppsättning .

Nästa steg

Se den uppsättning komponenter som är tillgängliga för Azure Mašinsko učenje.