Sdílet prostřednictvím


Odebrat komponentu Duplicitní řádky

Tento článek popisuje komponentu v návrháři služby Azure Machine Learning.

Tato komponenta slouží k odebrání potenciálních duplicit z datové sady.

Předpokládejme například, že vaše data vypadají takto a představují více záznamů pro pacienty.

ID pacienta Iniciály Pohlaví Věk Přijaty
0 F.M. M 53 led
2 F.A.M. M 53 led
3 F.A.M. M 24 led
3 F.M. M 24 Únor
4 F.M. M dvacet tři Únor
F.M. M dvacet tři
5 F.A.M. M 53
6 F.A.M. M Není číslo
7 F.A.M. M Není číslo

Tento příklad má jasně několik sloupců s potenciálně duplicitními daty. To, jestli jsou ve skutečnosti duplicitní, závisí na vašich znalostech dat.

  • Můžete například vědět, že mnohopacientůch Duplicitní položky byste neodstranily pomocí žádných sloupců názvů, pouze sloupce s ID . Tímto způsobem se vyfiltrují pouze řádky s duplicitními hodnotami ID bez ohledu na to, jestli mají pacienti stejný název nebo ne.

  • Případně se můžete rozhodnout povolit duplicity v poli ID a použít jinou kombinaci souborů k vyhledání jedinečných záznamů, jako je jméno, příjmení, věk a pohlaví.

Pokud chcete nastavit kritéria pro to, zda je řádek duplicitní nebo ne, zadáte jeden sloupec nebo sadu sloupců, které se mají použít jako klíče. Dva řádky se považují za duplicitní pouze v případech, kdy jsou hodnoty ve všech klíčových sloupcích stejné. Pokud některý řádek neobsahuje hodnotu pro klíče, nebudou považovány za duplicitní řádky. Pokud jsou například pohlaví a věk nastaveny jako Klíče v tabulce výše, řádek 6 a 7 nejsou duplicitní řádky, které mají chybějící hodnotu ve věku.

Když komponentu spustíte, vytvoří se datová sada kandidátských dat a vrátí sadu řádků, které nemají žádné duplicity v sadě sloupců, které jste zadali.

Důležité

Zdrojová datová sada není změněna; tato komponenta vytvoří novou datovou sadu, která se vyfiltruje tak, aby vyloučila duplicity na základě zadaných kritérií.

Jak používat odebrání duplicitních řádků

  1. Přidejte komponentu do kanálu. Součást Odebrat duplicitní řádky najdete v části Transformace dat a Manipulace.

  2. Připojte datovou sadu, u které chcete zkontrolovat duplicitní řádky.

  3. V podokně Vlastnosti klikněte ve výrazu filtru výběru klíčového sloupce na tlačítko Spustit selektor sloupců a zvolte sloupce, které se mají použít při identifikaci duplicit.

    V tomto kontextu klíč neznamená jedinečný identifikátor. Všechny sloupce, které vyberete pomocí selektoru sloupců, jsou označené jako klíčové sloupce. Všechny nevybrané sloupce se považují za neklíčové sloupce. Kombinace sloupců, které vyberete jako klíče, určuje jedinečnost záznamů. (Představte si ho jako příkaz SQL, který používá více spojení rovná se.)

    Příklady:

    • "Chci zajistit, aby ID byla jedinečná": Zvolte pouze sloupec ID.
    • "Chci zajistit, aby kombinace křestního jména, příjmení a ID byla jedinečná": Vyberte všechny tři sloupce.
  4. Pomocí zaškrtávacího políčka Zachovat první duplicitní řádek označte, který řádek se má vrátit při nalezení duplicit:

    • Pokud je tato možnost vybraná, vrátí se první řádek a ostatní se zahodí.
    • Pokud zrušíte zaškrtnutí této možnosti, zůstane ve výsledcích poslední duplicitní řádek a ostatní se zahodí.
  5. Odešlete kanál.

  6. Pokud chcete zkontrolovat výsledky, klikněte pravým tlačítkem na komponentu a vyberte Vizualizovat.

Návod

Pokud jsou výsledky obtížné pochopit nebo pokud chcete vyloučit některé sloupce z hlediska pozornosti, můžete sloupce odebrat pomocí komponenty Vybrat sloupce v datové sadě .

Další kroky

Podívejte se na sadu komponent dostupných pro Azure Machine Learning.