Výběr sloupců v datové sadě

Článek
05/06/2019

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

přečtěte si informace o přesunu projektů strojového učení z ML Studio (classic) do Azure Machine Learning.
přečtěte si další informace o Azure Machine Learning.

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Vybere sloupce, které se mají zahrnout nebo vyloučit z datové sady v operaci.

Kategorie: transformace nebo manipulace s daty

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Přehled modulu

tento článek popisuje, jak použít modul vybrat sloupce v datové sadě v Machine Learning studiu (classic) k výběru podmnožiny sloupců, které se mají použít v rámci navazujících operací. Modul neodebere fyzické sloupce ze zdrojové datové sady. místo toho vytvoří podmnožinu sloupců, podobně jako zobrazení nebo projekcedatabáze.

Tento modul je zvláště užitečný, pokud potřebujete omezit sloupce dostupné pro operaci pro příjem dat, nebo pokud chcete zmenšit velikost datové sady odebráním nepotřebných sloupců.

Sloupce v datové sadě jsou výstupy ve stejném pořadí jako v původních datech, a to i v případě, že je zadáte v jiném pořadí.

Jak používat výběr sloupců v datové sadě

Tento modul nemá žádné parametry. K výběru sloupců, které se mají zahrnout nebo vyloučit, použijte selektor sloupců.

Zvolit sloupce podle názvu

V modulu je více možností pro výběr sloupců podle názvu:

Filtrovat a Hledat

Klikněte na možnost podle názvu .

Pokud jste připojili datovou sadu, která je již naplněna, zobrazí se seznam dostupných sloupců. Pokud se nezobrazí žádné sloupce, může být nutné spustit moduly pro odesílání dat, aby se zobrazil seznam sloupců.

Chcete-li filtrovat seznam, zadejte do vyhledávacího pole. Pokud například zadáte písmeno w do vyhledávacího pole, seznam se vyfiltruje tak, aby zobrazoval názvy sloupců, které obsahují písmeno w .

Vyberte sloupce a kliknutím na tlačítko se šipkou doprava přesuňte vybrané sloupce do seznamu v pravém podokně.
- Chcete-li vybrat souvislý rozsah názvů sloupců, stiskněte klávesy SHIFT + kliknutí.
- Chcete-li přidat jednotlivé sloupce do výběru, stiskněte klávesy CTRL + kliknutí.
Kliknutím na tlačítko zaškrtnutí se uložte a zavřete.
Použití názvů v kombinaci s jinými pravidly

Klikněte na možnost s pravidly .

Vyberte pravidlo, jako je například zobrazení sloupců určitého datového typu.

Pak klikněte na jednotlivé sloupce daného typu podle názvu a přidejte je do seznamu výběru.
Zadejte nebo vložte čárkami oddělený seznam názvů sloupců.

Pokud je vaše datová sada hodně rozsáhlá, může být jednodušší použít indexy nebo vygenerované seznamy názvů místo výběru sloupců jednotlivě. Za předpokladu, že jste si seznam připravili předem:
1. Klikněte na možnost s pravidly .
2. Vyberte žádné sloupce, vyberte Zahrnouta pak klikněte do textového pole s červeným vykřičníkem.
3. Vložte nebo zadejte čárkami oddělený seznam dříve ověřených názvů sloupců. Modul nemůžete uložit, pokud má nějaký sloupec neplatný název, proto nezapomeňte zkontrolovat názvy předem.
Tuto metodu můžete také použít k určení seznamu sloupců pomocí jejich hodnot indexu. Tipy, jak pracovat s indexy sloupců, najdete v části s Příklady .

Zvolit podle typu

Použijete-li možnost with Rules , můžete pro výběr sloupců použít více podmínek. Například může být nutné získat pouze sloupce funkce číselného datového typu.

Možnost začít s určuje výchozí bod a je velmi důležitá pro porozumění výsledkům.

Pokud vyberete možnost všechny sloupce , do seznamu se přidají všechny sloupce. Pak je nutné pomocí možnosti vyloučitOdebrat sloupce, které splňují určité podmínky.

Můžete například začít se všemi sloupci a pak odebrat sloupce podle názvu nebo podle typu.
Pokud vyberete možnost žádné sloupce , seznam sloupců začne být prázdný. Pak zadáte podmínky pro Přidání sloupců do seznamu.

Pokud použijete více pravidel, každá podmínka je aditivní. Řekněme například, že začnete bez sloupců a pak přidáte pravidlo, které získá všechny číselné sloupce. V datové sadě cen automobilu je výsledkem 16 sloupců. Pak klikněte + na znaménko a přidejte novou podmínku a vyberte Zahrnout všechny funkce. Výsledná datová sada zahrnuje všechny číselné sloupce a všechny sloupce funkcí včetně některých sloupců funkcí řetězce.

Vybrat podle indexu sloupce

Index sloupce odkazuje na pořadí sloupce v rámci původního objektu DataSet.

Sloupce se číslují sekvenčně od 1.
Chcete-li získat rozsah sloupců, použijte spojovník.
Specifikace Open-konec, například 1- nebo -3 , nejsou povoleny.
Duplicitní hodnoty indexu (nebo názvy sloupců) nejsou povoleny a mohou mít za následek chybu.

Například za předpokladu, že vaše datová sada má alespoň osm sloupců, můžete vložit do kteréhokoli z následujících příkladů, které vrátí více nesouvislých sloupců:

8,1-4,6
1,3-8
1,3-6,4

poslední příklad nevede k chybě; Vrátí ale jednu instanci sloupce 4 .

Další tipy pro práci s indexy sloupců naleznete v části Příklady .

Změnit pořadí sloupců

Možnost povolující duplicity a zachovat pořadí sloupců v výběru začíná prázdným seznamem a přidává sloupce, které určíte podle názvu nebo indexu. Na rozdíl od jiných možností, které vždy vracejí sloupce v jejich "přirozeném pořadí", tato možnost vypíše sloupce v pořadí, ve kterém je napíšete nebo je vypíšete.

Například v datové sadě se sloupci Sloupec1, col2, Col3 a Col4 můžete změnit pořadí sloupců a nechat sloupec 2 zadáním jednoho z následujících seznamů:

Col4, Col3, Col1
4,3,1

Příklady

Příklady použití vybraných sloupců v datové saděnajdete v těchto ukázkových experimentech v galerii modelů:

Ukázka duplicity na základě duplicit používá k odebrání koncového prázdného sloupce Výběr sloupců v datové sadě , odebrání sloupce s duplicitními daty a školení projektů a sady testů.
V ukázce předpověď zpoždění letu Vyberte sloupce v datové sadě , které se použijí k vyloučení všech sloupců řetězců a k vyloučení sloupců podle názvu.
V ukázce předpovědi výkonnosti studenta Vyberte sloupce v datové sadě k získání všech dočasných funkcí a vylučte více sloupců.
V ukázce porovnání přepínačů vyberte sloupce v datové sadě k vyloučení sloupce a počtu dveří, protože to je špatný datový typ pro matematickou operaci, která následuje.

Běžné scénáře pro výběr sloupců

V následujících příkladech jsou popsány některé typické způsoby, kterými uživatelé použijí Vybrat sloupce v datové sadě ve službě Machine Learning, a nabízí několik tipů, jak vybrat sloupce:

Chci odebrat textové sloupce z datové sady, aby bylo možné použít matematickou operaci na všechny číselné sloupce.

Mnoho operací vyžaduje, aby datová sada obsahovala jenom číselné sloupce. Můžete dočasně odebrat sloupce, které by způsobily chybu, vyloučením textu a vyloučením kategorií sloupců (čísla, která představuje diskrétní kategorie).
1. Klikněte na tlačítko Spustit selektor sloupců.
2. Pro možnost začít svyberte všechny sloupce.
3. Vyberte možnost vyloučit , vyberte typ sloupcea pak vyberte řetězec.
4. Kliknutím na znaménko plus (+) přidejte novou podmínku.
5. Vyberte možnost vyloučit , vyberte typ sloupcea pak vyberte kategorií.
Potřebuji použít výběr funkcí jenom na sloupce funkcí kategorií.

Pokud potřebujete oddělit sloupce podobného typu, můžete použít několik podmínek. Například funkce mohou být buď kategorií nebo numeric, ale některé moduly výběru funkcí nepovolují pole, která nejsou číselná, takže nejdřív musíte získat funkce a pak přidat podmínku, abyste získali jenom číselné funkce.
1. Klikněte na tlačítko Spustit selektor sloupců.
2. Pro možnost začít svyberte žádné sloupce.
3. Vyberte možnost Zahrnout a vyberte možnost všechny funkce.
4. Kliknutím na znaménko plus (+) přidejte novou podmínku.
5. Vyberte možnost Zahrnout , vyberte typ sloupcea pak vyberte kategorií.
Potřebuji použít jinou operaci normalizace na různé číselné sloupce.

Před použitím matematických operací možná budete muset oddělit celá čísla od čísel s plovoucí desetinnou čárkou atd. K tomu použijte datové typy a použijte více podmínek.
1. Klikněte na Launch column selector (Spustit selektor sloupců).
2. V možnosti Začít s vyberte Žádné sloupce.
3. Vyberte možnost Zahrnout , vyberte typ sloupce a pak vyberte Číselné.
4. Kliknutím na znaménko plus (+) přidejte novou podmínku.
5. Vyberte možnost Zahrnout , vyberte typ sloupce a pak vyberte číselný typ, který je nekompatibilní s operací podřízeného serveru.
Použití selektoru je příliš mnoho sloupců.

Po importu datové sady často zjistíte, že obsahuje velké množství sloupců, které nejsou pro modelování potřeba. Chcete je však zachovat pro výstup později nebo pro identifikaci případů. Můžete to provést rozdělením datové sady na dvě části (metadata a sloupce používané k modelování) a později podle potřeby znovu zkombinovat sloupce pomocí možnosti Přidat sloupce.
1. Klikněte na Launch column selector (Spustit selektor sloupců).
2. V možnosti Začít s vyberte Žádné sloupce.
3. Vyberte možnost Zahrnout , vyberte typ sloupce a pak vyberte Funkce.
4. Kliknutím na znaménko plus (+) přidejte novou podmínku.
5. Vyberte možnost Zahrnout , vyberte typ sloupce a pak vyberte Popisek.
6. Opakujte tento postup, ale začněte se všemi sloupci a potom sloupce funkcí a popisků vylučte, abyste vytvořili datovou sadu jenom s metadaty.
Neznám hodnoty indexu pro sloupce, které potřebuji.

Pokud datová sada obsahuje jen několik sloupců, můžete pomocí možnosti Vizualizovat zobrazit prvních 100 řádků a pak zjistit, který sloupec je index 1, 2 atd.
- Indexy v Machine Learning začínají na 1, takže první sloupec je vždy 1.
- Pokud chcete získat index posledního sloupce, podívejte se na dva seznamy sloupců v části Selektor sloupců: DOSTUPNÉ SLOUPCE a VYBRANÉ SLOUPCE. Šedý pruh pod seznamem sloupců zobrazuje počet sloupců v jednotlivých seznamech. Pokud je tedy k dispozici 24 sloupců a jsou vybrány dva sloupce, existuje celkem 26 sloupců a index posledního sloupce je 26.
Další možností, jak extrahovat schéma datové sady, je použít modul Spustit skript jazyka R k získání názvů sloupců s čísly indexů.
1. Připojení datovou sadu do modulu Spustit skript jazyka R.
2. V modulu zadejte skript, jako je následující, který vypište názvy sloupců. Řádek začínající na vygeneruje myindex sekvenci, která představuje indexy v pořadí.
```
dataset1 <- maml.mapInputPort(1) # class: data.frame
mycolnames <-names(dataset1);
myindex <- seq(from = 1, to = length(mycolnames), by=1);
outdata <- as.data.frame(cbind(myindex, mycolnames));
maml.mapOutputPort("outdata"); 
```
Výsledky u datové sady Automobile price

myindex mycolnames

1 symboling

2 normalized-losses

3 make

myindex	mycolnames
1	symboling
2	normalized-losses
3	make

Technické poznámky

Pokud jste obeznámeni s relačními databázemi, vytvoří tento modul projekci dat. původní název, tedy Project Sloupce. V databázových termínech je projekce funkce, například příkaz Transact-SQL nebo LINQ, která jako vstup přebírá data v tabulkovém formátu a vytváří související výstup.

V relační algebraii je projekce unární operace, která je zapsána jako sada názvů atributů. Výsledkem projekce je sada těchto atributů s jinými atributy zahozené.

Očekávané vstupy

Název	Typ	Description
Datová sada	Tabulka dat	Vstupní datová sada

Parametry modulu

Name	Rozsah	Typ	Výchozí	Description
Výběr sloupců	Libovolný	Výběr sloupce		Vyberte sloupce, které chcete v projektované datové sadě zachovat.

Výstupy

Název	Typ	Description
Datová sada výsledků	Tabulka dat	Výstupní datová sada

Výjimky

Výjimka	Description
Chyba 0001	K výjimce dojde, pokud se jeden nebo více zadaných sloupců datové sady nenašel.
Chyba 0003	K výjimce dojde, pokud má jedna nebo více vstupních datových sad hodnotu null nebo je prázdná.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Manipulace

Sdílet prostřednictvím