Adathalmaz oszlopainak kiválasztása

Cikk
05/06/2019

Fontos

A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.

2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.

További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
További információ a Azure Machine Learning.

A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.

Kiválasztja azokat az oszlopokat, amelyek egy műveletben szerepeltetnek vagy kizárnak egy adatkészletet

Kategória: Adatátalakítás /-manipuláció

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a select Columns in Dataset (Adatkészlet oszlopainak kijelölése) modul a Machine Learning Studio (klasszikus) moduljában az alsóbb rétegbeli műveletekben használni kívánt oszlopok egy részkészletének kiválasztásához. A modul fizikailag nem távolítja el az oszlopokat a forrásadatkészletből; ehelyett az oszlopok egy részkészletét hozza létre, az adatbázisnézethez vagy a leképezéshez hasonlóan.

Ez a modul különösen akkor hasznos, ha korlátoznia kell egy lefelé irányuló művelethez elérhető oszlopokat, vagy ha csökkenteni szeretné az adatkészlet méretét a szükségtelen oszlopok eltávolításával.

Az adatkészlet oszlopai ugyanabban a sorrendben vannak kimenetben, mint az eredeti adatokban, még akkor is, ha más sorrendben adja meg őket.

Az adatkészlet oszlopainak kijelölése használata

Ez a modul nem rendelkezik paraméterekkel. Az oszlopválasztóval választhatja ki a tartalmazni vagy kizárni kívánt oszlopokat.

Oszlopok kiválasztása név alapján

A modulban több lehetőség is van az oszlopok név alapján történő kiválasztására:

Szűrés és keresés

Kattintson a BY NAME (NÉV SZERINT) lehetőségre.

Ha már ki van töltve egy adatkészlet, meg kell jelenítenie az elérhető oszlopok listáját. Ha nem jelennek meg oszlopok, lehetséges, hogy az oszloplista megtekintéséhez a felfelé irányuló modulokat kell futtatnia.

A lista szűréséhez írja be a következőt a keresőmezőbe: . Ha például begépeli a w betűt a keresőmezőbe, a lista úgy lesz szűrve, hogy a betűt tartalmazó oszlopneveket mutassa w.

Jelölje ki az oszlopokat, majd kattintson a jobbra mutató nyíl gombra a kijelölt oszlopok a jobb oldali panelen lévő listára való áthelyezéshez.
- Az oszlopnevek folyamatos tartományának kiválasztásához nyomja le a Shift + Kattintás gombra.
- Ha egyes oszlopokat szeretne hozzáadni a kijelöléshez, nyomja le a Ctrl + Kattintás billentyűkombinációt.
Kattintson a pipa gombra a mentéshez és bezáráshoz.
Nevek használata más szabályokkal együtt

Kattintson a WITH RULES (SZABÁLYOKKAL) lehetőségre.

Válasszon ki egy szabályt, például egy adott adattípus oszlopainak megjelenítését.

Ezután kattintson az adott típusú oszlopokra név szerint, hogy hozzáadja őket a kiválasztási listához.
Oszlopnevek vesszővel elválasztott listájának begépelését vagy beillesztését

Ha az adatkészlet nagyon széles, egyszerűbb lehet az indexek vagy a létrehozott névlisták használata az oszlopok egyenkénti kiválasztása helyett. Feltéve, hogy előre előkészítette a listát:
1. Kattintson a WITH RULES (SZABÁLYOKKAL) lehetőségre.
2. Válassza a Nincs oszlop lehetőséget, válassza az Include (Be foglalja) lehetőséget, majd kattintson a piros felkiáltójelet tartalmazó szövegmezőbe.
3. Illessze be vagy írja be a korábban ellenőrzött oszlopnevek vesszővel elválasztott listáját. Ha valamelyik oszlop neve érvénytelen, nem mentheti a modult, ezért mindenképpen ellenőrizze előre a neveket.
Ezzel a módszerrel oszloplistát is megadhat azok indexértékeivel. Az oszlopindexek használatára vonatkozó tippeket a Példák szakaszban talál.

Választás típus szerint

Ha a WITH RULES (SZABÁLYOKKAL) lehetőséget használja, több feltételt is alkalmazhat az oszlopválasztásra. Előfordulhat például, hogy csak numerikus adattípus jellemzőoszlopait kell lekérte.

A BEGIN WITH lehetőség határozza meg a kiindulási pontot, és nagyon fontos az eredmények megértéséhez.

Ha a MINDEN OSZLOP lehetőséget választja, az összes oszlop fel lesz adva a listára. Ezután a Kizárás lehetőséget kell használnia bizonyos feltételeknek megfelelő oszlopok eltávolításához.

Például kezdhet az összes oszloppal, majd eltávolíthatja az oszlopokat név vagy típus szerint.
Ha a NINCS OSZLOP lehetőséget választja , az oszlopok listája üresen indul. Ezután feltételeket adhat meg, hogy oszlopokat adjon hozzá a listához.

Ha több szabályt alkalmaz, minden feltétel additív. Tegyük fel például, hogy egyetlen oszloppal sem kezd, majd hozzáad egy szabályt, amely le tudja kapni az összes numerikus oszlopot. Az Automobile price (Autóárak) adatkészletben ez 16 oszlopot ad vissza. Ezután kattintson a jelre + egy új feltétel hozzáadásához, majd válassza az Include all features (Az összes funkció felvétele) lehetőséget. Az eredményül kapott adatkészlet tartalmazza az összes numerikus oszlopot, valamint az összes jellemzőoszlopot, beleértve néhány sztring jellemzőoszlopot is.

Választás oszlopindex szerint

Az oszlopindex az eredeti adatkészleten belüli oszlop sorrendjére utal.

Az oszlopok számozása egymás után, 1-től kezdődik.
Egy oszloptartományt kötőjellel lekért.
A nyílt végű specifikációk, például a vagy 1--3 a nem engedélyezettek.
Az ismétlődő indexértékek (vagy oszlopnevek) nem engedélyezettek, és hibát okozhatnak.

Ha például az adatkészlet legalább nyolc oszlopot tartalmaz, a következő példák bármelyikét beillesztve több nem összefüggő oszlopot is visszaadhat:

8,1-4,6
1,3-8
1,3-6,4

az utolsó példa nem eredményez hibát; azonban a oszlop egyetlen példányát adja vissza 4.

Az oszlopindexekkel kapcsolatos további tippekért tekintse meg a Példák szakaszt .

Oszlopok sorrendjének módosítása

Az Ismétlődések engedélyezése és az oszlopok sorrendjének megőrzése a kijelölésben lehetőség egy üres listával kezdődik, és hozzáadja a név vagy index alapján megadott oszlopokat. A többi beállítással ellentétben, amelyek mindig "természetes sorrendben" ad vissza oszlopokat, ez a beállítás a nevük vagy listásuk sorrendjében adja vissza az oszlopokat.

Egy Col1, Col2, Col3 és Col4 oszlopot tartalmazó adatkészletben például megfordíthatja az oszlopok sorrendjét, és kihagyhatja a 2. oszlopot az alábbi listák egyikének megadásával:

Col4, Col3, Col1
4,3,1

Példák

A Select Columns in Dataset (Adatkészlet oszlopainak kijelölése) használatával kapcsolatos példákért tekintse meg ezeket a mintakísérleteket a Modellkatatárban:

A Mellrák észlelése minta a Select Columns in Dataset (Adathalmaz oszlopainak kijelölése) funkcióval eltávolít egy záró üres oszlopot, eltávolít egy ismétlődő adatokat tartalmazó oszlopot, és betanítást és tesztelési készleteket vet fel.
A Flight delay előrejelzési mintában a Select Columns in Dataset (Adatkészlet oszlopainak kijelölése) beállítás az összes sztringoszlop kizárására, illetve az oszlopok név alapján való kizárására használható.
A Tanulói teljesítmény előrejelzése mintában a Select Columns in Dataset (Adatkészlet oszlopainak kijelölése) beállítás az összes historikus jellemzőt lekérte és több oszlop kizárására használható.
A Regresszorok összehasonlítása mintában a Select Columns in Dataset (Adatkészlet oszlopainak kijelölése) a num-of-doors (ajtószám) oszlop kizárására használható, mert ez a következő matematikai művelet nem megfelelő adattípusa.

Az oszlopok kiválasztásának gyakori forgatókönyvei

Az alábbi példák bemutatnak néhány tipikus módszert, amelyek segítségével a felhasználók az Adatkészlet oszlopainak kijelölése műveletet alkalmazzák a gépi tanulásban, és néhány tippet tartalmaznak az oszlopok kiválasztásához:

Szöveges oszlopokat szeretnék eltávolítani az adatkészletből, hogy matematikai műveletet tudjak alkalmazni az összes numerikus oszlopra.

Számos művelethez szükséges, hogy csak numerikus oszlopok jelen legyen az adatkészletben. Ideiglenesen eltávolíthat olyan oszlopokat, amelyek hibát okozhatnak, ha a szöveget és a kategorikus oszlopokat (a különálló kategóriákat képviselő számokat) kizárja.
1. Kattintson az Oszlopválasztó indítása elemre.
2. A Kezdés mezőben válassza a Minden oszlop lehetőséget.
3. Válassza a Kizárás lehetőséget , válassza az oszloptípust, majd a Sztring lehetőséget.
4. Új feltétel hozzáadásához kattintson a plusz jelre (+).
5. Válassza a Kizárás lehetőséget , válassza az oszloptípust, majd a Kategorikus lehetőséget.
Csak a kategorikus jellemzőoszlopra kell jellemzőválasztást alkalmaznom.

Ha hasonló típusú oszlopokat kell elkülönítenünk, több feltételt is alkalmazhat. A jellemzők például kategorikusak vagy numerikusak is, de egyes funkciókiválasztási modulok nem engedélyezik a nem numerikus mezőket, ezért először be kell szereznie a jellemzőket, majd hozzá kell adni egy feltételt, hogy csak a numerikus jellemzőket kapják meg.
1. Kattintson az Oszlopválasztó indítása elemre.
2. A Begin With (Kezdés) mezőben válassza a No columns (Nincs oszlop) lehetőséget.
3. Válassza az Include ( Be foglalja) lehetőséget, majd válassza az összes funkciót.
4. Új feltétel hozzáadásához kattintson a plusz jelre (+).
5. Válassza az Include (Be foglalja) lehetőséget, válassza az oszloptípust, majd a Kategorikus lehetőséget.
Más normalizálási műveletet kell alkalmaznom a különböző numerikus oszlopokra.

Matematikai műveletek alkalmazása előtt szükség lehet arra, hogy az egész számokat elkülönítse a lebegőpontos számoktól, és így tovább. Ehhez használja az adattípusokat, és alkalmaz több feltételt.
1. Kattintson az Oszlopválasztó indítása elemre.
2. A Begin With (Kezdés) mezőben válassza a No columns (Nincs oszlop) lehetőséget.
3. Válassza az Include (Be foglalja) lehetőséget, válassza az oszloptípust, majd a Numeric (Numerikus ) lehetőséget.
4. Új feltétel hozzáadásához kattintson a plusz jelre (+).
5. Válassza az Include ( Be foglalja) lehetőséget, válassza ki az oszloptípust, majd válassza ki azt a numerikus típust, amely nem kompatibilis az lefelé irányuló művelettel.
Túl sok oszlopot kell kiválasztani a választó használatával.

Gyakran előfordul, hogy az adatkészlet importálása után sok olyan oszlopot tartalmaz, amelyek nem szükségesek a modellezéshez. Ezeket azonban meg szeretné őrizni a kimenet későbbi vagy az esetek azonosításához. Ezt úgy teheti meg, hogy az adatkészletet két részre (a modellezéshez használt metaadatokra és oszlopokra) osztjuk fel, majd később szükség szerint újra egyesosztjuk az oszlopokat az Oszlopok hozzáadása lehetőség használatával.
1. Kattintson az Oszlopválasztó indítása elemre.
2. A Begin With (Kezdés) mezőben válassza a No columns (Nincs oszlop) lehetőséget.
3. Válassza az Include (Be foglalja) lehetőséget, válassza az oszloptípust, majd a Feature (Funkció ) lehetőséget.
4. Új feltétel hozzáadásához kattintson a plusz jelre (+).
5. Válassza az Include (Be foglalja) lehetőséget, válassza az oszloptípust, majd a Label (Címke ) lehetőséget.
6. Ismételje meg ezeket a lépéseket, de kezdje az összes oszloppal, majd zárja ki a jellemző- és címkeoszlopokat, hogy csak a metaadatokat tartalmazó adatkészletet hozzon létre.
Nem tudom a szükséges oszlopok indexértékét.

Ha csak néhány oszlop található az adatkészletben, a Vizualizáció lehetőséggel láthatja az első 100 sort, majd kitalálhatja, hogy melyik oszlop az 1., 2. index stb.
- Az indexek Machine Learning 1-től kezdődnek, így az első oszlop mindig 1.
- Az utolsó oszlop indexének lekért listáját az Oszlopválasztó két oszloplistával( AVAILABLE COLUMNS (ELÉRHETŐ OSZLOPOK) és SELECTED COLUMNS (KIJELÖLT OSZLOPOK) tartalmazza. Az oszloplista alatti szürke sáv az egyes listában lévő oszlopok számát jeleníti meg. Így ha 24 oszlop érhető el és két oszlop van kiválasztva, akkor összesen 26 oszlop van, az utolsó oszlop indexe pedig 26.
Az adatkészlet sémájának kinyerésének egy másik lehetősége az R-szkript végrehajtása modul használata az indexszámokat tartalmazó oszlopnevek lekértéhez.
1. Csatlakozás az adatkészletet az R-szkript végrehajtása modulba.
2. A modulban írjon be egy, az alábbihoz hasonló szkriptet az oszlopnevek kimenetbe való írásához. A következővel kezdődő myindex sor egy sorrendet hoz létre, amely sorrendben jelöli az indexeket.
```
dataset1 <- maml.mapInputPort(1) # class: data.frame
mycolnames <-names(dataset1);
myindex <- seq(from = 1, to = length(mycolnames), by=1);
outdata <- as.data.frame(cbind(myindex, mycolnames));
maml.mapOutputPort("outdata"); 
```
Az Automobile price (Autóárak) adatkészlet eredményei

myindex (myindex) mycolnames (saját oszlopnevek)

1 symboling (embléma)

2 normalizált veszteségek

3 make

myindex (myindex)	mycolnames (saját oszlopnevek)
1	symboling (embléma)
2	normalizált veszteségek
3	make

Technikai megjegyzések

Ha ismeri a relációs adatbázisokat, ez a modul leképezi az adatokat; ezért az eredeti név, Project Oszlopok. Adatbázis szempontjából a leképezés egy olyan függvény, például egy Transact-SQL- vagy LINQ-utasítás, amely táblázatos formában vesz fel adatokat bemenetként, és egy kapcsolódó kimenetet hoz létre.

A relációs algebrában a leképezés egy egységes művelet, amely attribútumnevek halmazaként van megírva. A leképezés eredménye ezen attribútumok halmaza, a többi attribútum elvetve.

Várt bemenetek

Név	Típus	Description
Adathalmaz	Adattábla	Bemeneti adatkészlet

Modulparaméterek

Name	Tartomány	Típus	Alapértelmezett	Description
Oszlopok kiválasztása	bármelyik	ColumnSelection (Oszlopválasztás)		Válassza ki azokat az oszlopokat, amelyek a tervezett adatkészletben maradnak.

Kimenetek

Név	Típus	Description
Eredményadatkészlet	Adattábla	Kimeneti adatkészlet

Kivételek

Kivétel	Description
0001-es hiba	Kivétel történik, ha az adatkészlet egy vagy több megadott oszlopa nem található.
0003-as hiba	Kivétel történik, ha egy vagy több bemeneti adatkészlet null vagy üres.

A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.

Az API-kivételek listáját a hibakódok Machine Learning REST API.

Lásd még

Manipuláció

Megosztás a következőn keresztül: