Csatlakozás adatokhoz
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Két adatkészletet egyes ad
Kategória: Adatátalakítás /-manipuláció
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a Machine Learning Studio Adatok illesztés modulja két adatkészlet egyesítésére adatbázis stílusú illesztés művelettel.
Két adatkészlet illesztésének végrehajtásához egyetlen kulcsoszlopnak kell egymáshoz csatlakoznia . Az összetett kulcsok nem támogatottak.
Csatlakozási adatok konfigurálása
A Machine Learning Studióban (klasszikus) adja hozzá az egyesíteni kívánt adatkészleteket, majd húzza az Adatok összekapcsolása modult a kísérletbe.
A modult az Adatátalakítás kategóriában , a Manipuláció alatt találja.
Csatlakozás az adatkészleteket a Join Data (Adatok illesztése) modulhoz.
Az Adatok illesztés modulja nem támogatja a jobb oldali külső illesztéseket, így ha biztosítani szeretné, hogy egy adott adatkészlet sorai is szerepelnek a kimenetben, az adatkészletnek a bal oldali bemeneten kell lennie.
Kattintson az Oszlopválasztó indítása elemre , hogy egyetlen kulcsoszlopot válasszon a bal oldali bemeneten található adatkészlethez.
Kattintson a Launch column selector (Oszlopválasztó indítása) elemre, ha egyetlen kulcsoszlopot választ a jobb oldali bemeneten található adatkészlethez.
Válassza a Kis- és nagybetűk egyeztetése lehetőséget, ha egy szöveges oszlophoz csatlakozik, és biztosítani szeretné, hogy az illesztés megőrizze a kis- és nagybetűk bizalmasságát.
Ha például ezt a lehetőséget választja,
A1000
a más kulcsértéknek minősül, mint aa1000
.Ha nem választja ki ezt a beállítást, a kis- és nagybetűk bizalmasságának érvényesítése nem történik meg, és ugyanúgy fog tekinteni,
A1000
a1000
mint a .Az Összekapcsolás típusa legördülő listában adhatja meg az adatkészletek egyesítésének a mikéntjéhez szükséges beállításokat. Típusok:
Belső illesztés: A belső illesztés a tipikus illesztésművelet. Csak akkor adja vissza az egyesített sorokat, ha a kulcsoszlopok értékei megegyeznek.
Bal oldali külső illesztés: A bal oldali külső illesztés a bal oldali tábla összes sorához összekapcsolt sorokat ad vissza. Ha a bal oldali tábla egyik sorában nem található egyező sor a jobb oldali táblában, a visszaadott sor a jobb oldali táblából származó összes oszlop hiányzó értékeit tartalmazza, kivéve, ha helyettesítő értéket ad meg a hiányzó értékekhez.
Teljes külső illesztés: A teljes külső illesztés a bal oldali tábla (table1) és a jobb oldali tábla (table2) összes sorát adja vissza.
A bal oldali tábla minden olyan sorához, amely nem tartalmaz egyező sort a jobb oldali táblában, az illesztés eredményei között szerepel egy sor, amely a jobb oldali táblából hiányzó értékeket tartalmaz.
A jobb oldali tábla minden olyan sorához, amely nem tartalmaz egyező sort a bal oldali táblában, az illesztés eredményei között szerepel egy sor, amely a bal oldali tábla összes oszlopának hiányzó értékeit tartalmazza.
Bal oldali félig illesztés: A bal oldali félig illesztés csak a bal oldali táblából származó értékeket adja vissza, ha a kulcsoszlopok értékei megegyeznek.
A megfelelő kulcsú oszlopokat az összekapcsolt táblában tartás beállításnál válassza:
- Törölje az egyetlen kulcsoszlop eredményként való lekért beállításának kijelölését.
- Hagyja bejelölve a beállítást mindkét bemeneti tábla kulcsának megtekintéséhez.
Az illesztés végrehajtásához futtassa a kísérletet, vagy válassza ki a Join Data (Adatok illesztése) modult, és válassza a Run Selected (Kiválasztott futtatása) lehetőséget.
Az eredmények megtekintéséhez kattintson a jobb gombbal a Join Data (Adatok illesztése) modulra, válassza az Results dataset (Eredményadatkészlet) lehetőséget, majd kattintson a Visualize (Képi megjelenítés) elemre.
Példák
A modul használatára az alábbi Azure AI Gallery:
Mellrák észlelése: A Join Data a pozitív betanítás esetét kombinálja a negatív betanítás esetekkel az esetek arányának korrigálása után.
Repülőjáratok késésének előrejelzése: Ebben a mintában a Join Data külső adatkészletek hasznos jellemzőinek egymáshoz illesztésével van lehetőség.
Filmajátszmák: Két adatkészlet van összekapcsolva, így a filmazonosító helyett az ajánlott filmcímeket tudjuk bemutatni.
Tanulók teljesítményének előrejelzése: Ebben a példában a Join Data új funkciókat biztosít.
Technikai megjegyzések
Ez a szakasz az implementáció részleteit ismerteti, és választ ad néhány gyakori kérdésre.
Korlátozások
A kombinált adatkészletnek nem lehet két azonos nevű oszlopa. Ha a bal és jobb oldali adatkészletek ismétlődő oszlopneveket tartalmaznak, a rendszer egy numerikus utótagot fűz hozzá a jobb oldali adatkészlet oszlopnevéhez, hogy egyedivé tegye őket.
Ha például mindkét adatkészletnek van egy Month nevű oszlopa, a bal oldali adatkészlet oszlopa változatlan marad, és a jobb oldali adatkészlet oszlopának neve Month (1) lesz.
A kulcsértékek összehasonlítására használt algoritmus kivonatos.
Az összekapcsolt adatkészlet minden oszlopa megőrzi a kategorikus típust, ha a bemeneti adatkészlet megfelelő oszlopa kategorikus.
A bal oldali külső illesztésben hiányzó értékek esetén kategorikus szint jön létre a bal oldali adatkészletben a hiányzó értékekhez. Ez akkor is igaz, ha nincsenek hiányzó értékek a csatlakozott (jobb) adatkészletben.
Hogyan illeszthetek össze egy táblát egy összetett kulcson?
Ha összetett kulcsokat használó táblát kell össze kell illesztenie (ez azt jelenti, hogy az elsődleges kulcs két független oszlopra támaszkodik), a két kulcsoszlop tartalmát egy modullal, például a következővel össze kell illesztenie:
-
Például az R-szkriptben található kódot használva kötőjelet használva össze kell egészítenünk a bemeneti adatkeret első és második oszlopát elválasztóként.
paste(inputdf$Col1,inputdf$Col2,sep="-")
-
Az SQLite összezártság operátora a következő:
||
.
Hogyan illeszthetek össze olyan táblákat, amelyek nem tartalmaznak kulcsot?
Ha az adatkészlet nem rendelkezik kulcsoszloppal, akkor is kombinálhatja azt egy másik adatkészlethez egy kulcs generálása vagy az Oszlopok hozzáadása modul használatával.
Az Oszlopok hozzáadása modul R-ként viselkedik, és sorról sorra egyesíthet két adatkészletet, ha az adathalmazok száma azonos. Ha az adatkészletek mérete eltérő, hiba történik.
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adatkészlet1 | Adattábla | Első illesztett adatkészlet |
Adatkészlet2 | Adattábla | Második adatkészlet az illesztéshez |
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Kulcsoszlopok illesztése L-hez | Bármelyik | ColumnSelection (Oszlopválasztás) | Válassza ki az első adatkészlet kulcsoszlopait. | |
Kulcsoszlopok illesztése az R-hez | Bármelyik | ColumnSelection (Oszlopválasztás) | Válassza ki a második adatkészlet kulcsoszlopait. | |
Egyezés esete | Bármelyik | Logikai | Igaz | Annak jelzése, hogy a kulcsoszlopok esetében engedélyezve van-e a kis- és nagybetűk megkülönböztetése. |
Illesztés típusa | Lista | Típus | Belső illesztés | Válasszon egy illesztéstípust. |
A megfelelő kulcsoszlopok megtartása az összekapcsolt táblában | Bármelyik | Logikai | Igaz | Jelezze, hogy meg kell-e tartani a kulcsoszlopokat a összekapcsolt adatkészlet második adatkészletében. |
Kimenet
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | Az illesztés művelet eredménye |
Kivételek
Kivétel | Description |
---|---|
0001-es hiba | Kivétel történik, ha az adatkészlet egy vagy több megadott oszlopa nem található. |
0003-as hiba | Kivétel történik, ha egy vagy több bemenet null vagy üres. |
0006-os hiba | Kivétel történik, ha a paraméter nagyobb vagy egyenlő a megadott értékkel. |
0016-os hiba | Kivétel történik, ha a modulnak átadott bemeneti adatkészletek kompatibilis oszloptípusokkal, de nem. |
0017-es hiba | Kivétel történik, ha egy vagy több megadott oszlopnak olyan típusai vannak, amelyek az aktuális modul által nem támogatottak. |
0020-as hiba | Kivételt képez, ha a modulnak átadott egyes adatkészletek oszlopainak száma túl kicsi. |
0028-as hiba | Kivétel történik, ha az oszlopkészlet ismétlődő oszlopneveket tartalmaz, és ez nem engedélyezett. |
0011-es hiba | Kivétel történik, ha az átadott oszlopkészlet argumentuma nem vonatkozik egyetlen adathalmazoszlopra sem. |
0027-es hiba | Kivétel akkor fordul elő, ha két objektumnak azonos méretűnek kell lennie, de nem azok. |
A Studio (klasszikus) moduljaival kapcsolatos hibák listájáért tekintse meg a Machine Learning hibakódokat.
Az API-kivételek listáját a hibakódok Machine Learning REST API.