Átalakítás adathalmazzá
Fontos
A (klasszikus) Machine Learning Studio támogatása 2024. augusztus 31-én megszűnik. Javasoljuk, hogy addig térjen át az Azure Machine Learning használatára.
2021. december 1-től kezdve nem fog tudni létrehozni új (klasszikus) Machine Learning Studio-erőforrásokat. 2024. augusztus 31-ig továbbra is használhatja a meglévő (klasszikus) Machine Learning Studio-erőforrásokat.
- További információ a gépi tanulási projektek a ML Studióból a klasszikusból a Azure Machine Learning.
- További információ a Azure Machine Learning.
A (klasszikus) ML Studio dokumentációjának kivezetése folyamatban van, és a jövőben nem várható a frissítése.
Átalakítja az adatbevitelt a Microsoft Machine Learning
Kategória: Adatformátum-átalakítások
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk bemutatja, hogyan konvertálhatja a kísérlethez szükséges adatokat a Machine Learning Studio (klasszikus) Convert to Dataset (Adatkészlet átalakítása) modulja segítségével a Studio (klasszikus) által használt belső formátumra.
A legtöbb esetben nincs szükség átalakításra, mivel a Machine Learning implicit módon átalakítja az adatokat natív adatkészlet-formátumba, amikor bármilyen műveletet hajt végre az adatokon.
Ha azonban valamilyen normalizálást vagy tisztítást végzett egy adathalmazon, akkor ajánlott az adathalmazba menteni az adatokat, és biztosítani szeretné, hogy a módosításokat a további kísérletek is használják.
Megjegyzés
Az Adatkészletre konvertálás csak az adatok formátumát módosítja, és nem menti az adatok új másolatát a munkaterületen. Az adatkészlet mentéséhez kattintson duplán a kimeneti portra, válassza a Mentés adatkészletként lehetőséget, és írjon be egy új nevet.
A Convert to Dataset használata
Javasoljuk, hogy a Metaadatok szerkesztése modullal készítse elő az adatkészletet, mielőtt az Adatkészletre konvertálást használta volna. Hozzáadhat vagy módosíthat oszlopneveket, módosíthatja az adattípusokat stb.
Adja hozzá a kísérlethez a Convert to Dataset ( Átalakítás adatkészletké) modult. Ezt a modult a (klasszikus) Machine Learning Data Format Conversions (Adatformátum-konverziók) kategóriában találja.
Csatlakozás egy adatkészletet kiküldő modulhoz.
Ha az adatok táblázatosak, átalakíthatja adatkészletekké. Ez magában foglalja az Adatok importálása használatával betöltött adatokat, a Manuális adatbetöltés használatával létrehozott adatokat, az egyéni modulokban kód által létrehozott adatokat, az Átalakítás alkalmazása használatával átalakított adatkészleteket, vagy az Apply SQL Transformation (Átalakítás alkalmazása) használatával létrehozott vagy módosított adatkészleteket.
A Művelet legördülő listában adja meg, hogy szeretne-e tisztítást tenni az adatokon az adatkészlet mentése előtt:
Nincs: Használja az adatokat a megfelelő adatokat.
SetMissingValue: Adjon meg egy helyőrzőt, amely az adatkészletbe lesz beszúrva, amikor hiányzik egy érték. Az alapértelmezett helyőrző a kérdőjel karakter (?), de az Egyéni hiányzó érték lehetőséggel másik értéket is begépelhet.
ReplaceValues: Ezzel a beállítással egyetlen pontos értéket ad meg, amely a többi pontos értékre lesz lecserélve. Feltéve például,
obs
hogy az adatok a hiányzó értékek helyőrzőjeként használt sztringet tartalmaznak, megadhat egy egyéni helyettesítő műveletet az alábbi beállításokkal:A Csere beállításaegyénire
Az Egyéni érték mezőbe írja be a keresni kívánt értéket. Ebben az esetben a következőt kell begépelni:
obs
.Az Új érték mezőbe írja be az új értéket, amelyre az eredeti sztringet lecseréli. Ebben az esetben begépelhet
?
Vegye figyelembe, hogy a ReplaceValues művelet csak a pontos egyezésekre vonatkozik. Ezek a sztringek például nem lesznek hatással a következőre:
obs.
,obsolete
.- SparseOutput: Azt jelzi, hogy az adatkészlet ritka. Egy ritka adatvektor létrehozásával biztosíthatja, hogy a hiányzó értékek ne befolyásolják a ritka adateloszlást. A beállítás kiválasztása után meg kell jeleznie, hogyan kell kezelni a hiányzó és a nulla értékeket.
A nullától más érték eltávolításához kattintson az Eltávolítás lehetőségre, és írjon be egyetlen eltávolítható értéket. Eltávolíthatja a hiányzó értékeket, vagy egyéni értéket állíthat be a vektorból való törléshez. A rendszer csak a pontos egyezéseket távolítja el. Ha például begépeli
x
az Érték eltávolítása szövegmezőt,xx
a sorra ez nem lesz hatással.Alapértelmezés szerint a Nulla
True
eltávolítása beállítás értéke , ami azt jelenti, hogy a ritka oszlop létrehozásakor minden nulla érték el lesz távolítva.Futtassa a kísérletet, vagy kattintson a jobb gombbal a Convert to Dataset ( Konvertálás adatkészletre) modulra, és válassza a Run selected (Futtatás kiválasztva) lehetőséget.
Results (Eredmények)
- Az eredményül kapott adatkészlet új néven való mentéséhez kattintson a jobb gombbal a Convert to Dataset (Konvertálás adatkészletgé) parancs kimenetére, és válassza a Save as Dataset (Mentés adatkészletként) lehetőséget.
Példák
Példákat láthat arra, hogy a rendszer hogyan használja a Convert to Dataset (Átalakítás adatkészletké) modult a Azure AI Gallery:
CRM-minta: Beolvassa a megosztott adatkészletet, és menti az adatkészlet másolatát a helyi munkaterületen.
Flight Delay (Repülőjárat késése) példa: Egy megtisztított adatkészletet ment hiányzó értékek lecserélve, hogy a későbbi kísérletekhez használni tudja.
Technikai megjegyzések
Ez a szakasz az implementáció részleteit, tippeket és válaszokat tartalmazza a gyakori kérdésekre.
Minden olyan modul, amely bemenetként egy adatkészletet vesz fel, CSV-, TSV- vagy ARFF-formátumban is képes adatokat használni. A modulkód végrehajtása előtt a rendszer végrehajtja a bemenetek előfeldolgozását, ami egyenértékű a Convert to Dataset (Adatkészlet konvertálása) modul bemeneten való futtatásával.
Az SVMLight formátumból nem konvertálható adatkészletre.
Egyéni csereművelet megadásakor a keresési és csere művelet a teljes értékekre vonatkozik; részleges egyezések nem engedélyezettek. Lecserélhet például egy 3-as számot -1-re vagy 33-ra, de nem cserélhet le egy 3-as számot egy kétjegyű számban, például a 35-öt.
Egyéni csereműveletek esetén a csere csendesen sikertelen lesz, ha olyan karaktert használ helyettesítő karakterként, amely nem felel meg az oszlop aktuális adattípusának.
Ha ritka numerikus adatokat használó adatokat kell mentenie, amelyekből hiányoznak értékek, a Studio (klasszikus) belsőleg támogatja a ritka tömbök sparseVector használatával való használatát, amely az Math.NET numerikus kódtár osztálya. Készítse elő a nullákat használó és hiányzó értékeket használó adatokat, majd használja a Convert to Dataset függvényt a SparseOutput és a Remove Zeros = TRUE argumentumokkal.
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adathalmaz | Adattábla | Bemeneti adatkészlet |
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Leírás |
---|---|---|---|---|
Művelet | Lista | Művelet metódusa | None | A bemeneti adatkészletre alkalmazandó művelet |
Kimenet
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | Kimeneti adatkészlet |