Odebrání duplicitních řádků

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Podívejte se na informace o přesunu projektů strojového učení z ML Studia (klasického) do Azure Machine Learning.
Další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Odebere duplicitní řádky z datové sady.

Kategorie: Transformace a manipulace s daty

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Přehled modulu

Tento článek popisuje, jak používat modul Odebrat duplicitní řádky v Machine Learning Studiu (klasickém) k odebrání potenciálních duplicit z datové sady.

Předpokládejme například, že vaše data vypadají následovně a představují více záznamů pro pacienty.

PatientID	Iniciály	Pohlaví	Věk	Přijaty
1	F.M.	M	53	Jan
2	F.A.M.	M	53	Jan
3	F.A.M.	M	24	Jan
3	F.M.	M	24	Feb
4	F.M.	M	23	Feb
	F.M.	M	23
5	F.A.M.	M	53

Je zřejmé, že tento příklad obsahuje více sloupců s potenciálně duplicitními daty. To, jestli jsou ve skutečnosti duplicitní, závisí na vašich znalostech dat.

Můžete například vědět, že mnoho pacientů má stejný název. Duplicity byste nelouhodně eliminují pomocí žádných sloupců s názvy, ale jenom sloupcem ID . Tímto způsobem se vyfiltruje pouze řádky s duplicitními hodnotami ID bez ohledu na to, jestli mají pacienti stejný název nebo ne.
Případně se můžete rozhodnout povolit duplicity v poli ID a použít jinou kombinaci souborových souborů k vyhledání jedinečných záznamů, jako je jméno, příjmení, věk a pohlaví.

Pokud chcete nastavit kritéria pro to, jestli je řádek duplicitní nebo ne, zadáte jeden sloupec nebo sadu sloupců, které se mají použít jako klíče. Dva řádky se považují za duplicitní, pouze pokud jsou hodnoty ve všech sloupcích klíčů stejné.

Když modul spustíte, vytvoří kandidátskou datovou sadu a vrátí sadu řádků, které nemají žádné duplikáty v sadě sloupců, které jste zadali.

Důležité

Zdrojová datová sada se nezmění. Tento modul vytvoří novou datovou sadu, která se vyfiltruje tak, aby se vyloučily duplicity na základě zadaných kritérií.

Jak používat odebrání duplicitních řádků

Přidejte modul do experimentu. Modul Odebrat duplicitní řádky najdete v části Transformace a manipulace sdaty.
Připojení datovou sadu, u které chcete zkontrolovat duplicitní řádky.
V podokně Vlastnosti v části Výraz filtru pro výběr klíčového sloupce klikněte na Spustit selektor sloupců a zvolte sloupce, které se mají použít k identifikaci duplicit.

V tomto kontextu klíč neznamená jedinečný identifikátor. Všechny sloupce, které vyberete pomocí selektoru sloupců, jsou označeny jako klíčové sloupce. Všechny nevy vybrané sloupce se považují za sloupce, které nejsou klíčové. Kombinace sloupců, které vyberete jako klíče, určuje jedinečnost záznamů. (Představte si ho jako SQL, který používá více spojení rovnosti.)

Příklady:
- "Chci zajistit, aby ID byla jedinečná": Zvolte pouze sloupec ID.
- "Chci zajistit, aby kombinace jména, příjmení a ID byla jedinečná": Vyberte všechny tři sloupce.
Pomocí zaškrtávacího políčka Zachovat první duplicitní řádek určete, který řádek se má vrátit, když jsou nalezeny duplicity:
- Pokud vyberete možnost , vrátí se první řádek a ostatní se zahodí.
- Pokud tuto možnost zrušíte, poslední duplicitní řádek se ve výsledcích zachová a ostatní se zahodí.
Informace o tom, jak se zpracovávají chybně zachytázené hodnoty, najdete v části Technické poznámky.
Spusťte experiment nebo klikněte na modul a vyberte Spustit vybrané.
Pokud chcete zkontrolovat výsledky, klikněte pravým tlačítkem na modul, vyberte Datová sada výsledků a klikněte na Vizualizovat.

Tip

Pokud jsou výsledky obtížně pochopitelné nebo pokud chcete některé sloupce vyloučit z úvahy, můžete sloupce odebrat pomocí modulu Vybrat sloupce v datové sadě.

Příklady

Příklady použití tohoto modulu najdete v Azure AI Gallery:

Detekce rakoviny obličeje: Odebrání duplicitních řádků se používá ke konsolidaci trénovací a testovací datové sady po přidání sloupců funkcí.
Doporučení k filmu: Pomocí funkce Odebrat duplicitní řádky zajistí, aby na film bylo jenom jedno hodnocení uživatele.
Analýza mínění na Twitteru: Odebrání duplicitních řádků se použije jenom u sloupců ID a oblíbenosti, aby se zajistilo, že na film existuje jenom jedna pořadová hodnota pořadí. Jinými slovy, film nemůže být jak první, tak třetí, takže se použije jedna hodnota, i když uživatelé tento film seřadí jinak.

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Podrobnosti o implementaci

Modul funguje tak, že prochází všechny řádky vstupní datové sady. Shromažďuje do kandidátské výstupní datové sady všechny řádky, ve kterých se poprvé objevuje jedinečná kombinace hodnot klíčových sloupců.

Typ pole sloupců se zachová nezávisle na výsledcích filtrování řádků. Filtrováním neplatných hodnot nemůžete vynutit pole na určitý datový typ. typ sloupcového pole je založen na všech hodnotách ve sloupci. Toto omezení platí také při filtrování chybějících hodnot.

Algoritmus použitý pro porovnávání hodnot dat je vynucený pomocí algoritmu hash.

Chybějící hodnoty

Vstupní datová sada možná neobsahuje hodnoty pro neklíčové sloupce a klíčové sloupce. Tato pravidla platí pro chybějící hodnoty:

Chybějící hodnota je považována za platnou hodnotu ve sloupcích klíčů. V obou klíčích se můžou vyskytovat chybějící hodnoty.
Ve zhuštěné datové sadě je chybějící hodnota považována za rovnou pouze v případě, že se rovná výchozí reprezentaci zhuštěné hodnoty.
V klíčových sloupcích je chybějící hodnota považována za rovnou jiným chybějícím hodnotám, ale není rovna hodnotám, které nejsou chybějící.

Očekávaný vstup

Název	Typ	Description
Datová sada	Tabulka dat	Vstupní datová sada

Parametry modulu

Name	Rozsah	Typ	Výchozí	Description
Výraz filtru výběru klíčového sloupce	Libovolný	ColumnSelection		Vyberte klíčové sloupce, které se použijí při hledání duplicitních hodnot.
Zachovat první duplicitní řádek	Libovolný	Logická hodnota	true	Určuje, zda má být první řádek sady duplicitních hodnot a jiné zahozeny. Pokud je nastaveno na false, zůstane poslední duplicitní řádek.

Výstup

Název	Typ	Description
Datová sada výsledků	Tabulka dat	Filtrovaná datová sada

Výjimky

Výjimka	Description
Chyba 0003	K výjimce dojde, pokud jedna nebo více vstupních datových sad je null nebo prázdné.
Chyba 0020	K výjimce dojde, pokud je počet sloupců v některých datových sadách předaných do modulu příliš malý.
Chyba 0017	K výjimce dojde v případě, že jeden nebo více zadaných sloupců má typ, který není podporovaný aktuálním modulem.

seznam chyb, které jsou specifické pro moduly studia (classic), najdete v článku kódy chyb Machine Learning.

seznam výjimek rozhraní API najdete v tématu Machine Learning REST API chybové kódy.

Viz také

Úkon
Seznam modulů a-Z

Last updated on 2019-05-06

Sdílet prostřednictvím