Tömörített adatkészletek kicsomagolása
Kicsomagolja az adatkészleteket egy zip-csomagból a felhasználói tárolóban
Kategória: Adatbemenet és -kimenet
Megjegyzés
A következőkre vonatkozik: Machine Learning Studio (klasszikus)
Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.
A modul áttekintése
Ez a cikk azt ismerteti, hogyan használható a Tömörített adatkészletek kicsomagolása modul a Machine Learning Studio (klasszikus) szolgáltatásban adatok és szkriptfájlok tömörített formátumban való feltöltéséhez, majd kicsomagolása kísérletben való használatra.
Ennek a modulnak az a célja, hogy tömörített formátumban mentse és töltse fel az adatfájlokat, így csökkentve az adatátviteli időt nagy méretű adatkészletek esetén. A fájlok tömörített formátuma általában akkor jó választás, ha az adatkészlet olyan nagy, hogy tömörítést szeretne használni a feltöltéshez a feltöltési idő és a kapcsolódó költségek minimalizálása érdekében.
A modul bemenete egy adatkészlet a munkaterületen. Az adatkészletet tömörített formátumban kell feltölteni. A modul ezután kibontja az adatkészletet, és hozzáadja az adatokat a munkaterülethez.
Tömörített adatkészletek kicsomagolása
Ez a szakasz azt ismerteti, hogyan készítheti elő az adatokat, majd csomagolja ki azokat a Machine Learning Studióban (klasszikus).
1. lépés Fájlok előkészítése
A fájl feltöltése előtt győződjön meg arról, hogy a fájlban található adatok használhatók a Machine Learning:
Győződjön meg arról, hogy a fájlban található adatok UTF-8 kódolást használnak.
Ha a fájl elég kicsi, megnyithatja az Jegyzettömb, majd mentheti a kívánt kódolásban. Számos más szövegszerkesztő is kínál hasonló funkciókat. CSV-fájlok esetén a fájlformátum és Excel az Exportálás parancsokkal adhatja meg a fájlformátumot és a kódolást.
Ellenőrizze, hogy az adatfájlok támogatott formátumot, például CSV, TSV, ARFF vagy SVMLight formátumot használjanak-e.
Tömörítse az adatokat úgy, hogy hozzáadja az adatfájlt egy .ZIP vagy a fájlhoz. GZ formátumú archívumfájl. Más archív típusok nem támogatottak.
Jelszóvédelem eltávolítása. Ha a fájlok vagy magának a tömörített mappának bármelyike titkosított vagy jelszóval védett, a feltöltés előtt fel kell oldania vagy vissza kell fejtenie a fájlt. A modul nem észleli a titkosított adattípusokat, és nem támogatja a tetszőleges ügyfelektől származó jelszóbeviteli párbeszédpaneleket.
2. lépés Adatkészlet feltöltése a munkaterületre
Ezután töltse fel a tömörített adatkészletet a kísérlet munkaterületére.
Kattintson a NEW (ÚJ) elemre, válassza az DATASET (ADATKÉSZLET) lehetőséget, majd a FROM LOCAL FILE (HELYI FÁJLBÓL) lehetőséget.
Keresse meg a feltölteni kívánt tömörített fájlt. A fájl kiválasztásakor a típusnak automatikusan Zip-fájlra (.zip).
3. lépés Tömörített adatkészlet hozzáadása a kísérlethez
Miután az adatkészlet teljesen fel lett töltve, tömörített formátumban adja hozzá a kísérlethez.
A Machine Learning Studio (klasszikus) bal oldali navigációs panelen válassza a Mentett adatkészletek lehetőséget, majd bontsa ki a Saját adatkészletek gombra.
Keresse meg az előbb feltöltött tömörített adatkészletet, és húzza a kísérletvászonra.
4. lépés: Adatkészlet kicsomagolása
Az utolsó lépés az adatkészlet kicsomagolása.
Csatlakozás tömörített adatkészletet a Tömörített adatkészletek kicsomagolása modul bemenetéhez.
A Kicsomagolatlan adatkészlet mezőbe írja be egyetlen kicsomagolni szükséges adatkészlet nevét.
Ha egy Munkalap1 nevű munkalapot mentett Excel csv-fájlként Test.csvnéven, az adatkészlet neve Test.csv, nem Pedig Sheet1.
Az Adatkészlet kicsomagolása szövegmezőbe beírt névnek pontosan meg kell egynie az eredeti fájl nevével a tömörítés előtt, beleértve a fájlnévkiterjesztést is. Ha például a következő szövegfájl alapján szeretne kicsomagolni egy adatkészletet Users.txtírja be a Users.txt, és ne a Users (Felhasználók) szöveget.
Ha több fájlt egy tömörített mappába tesz, egyszerre egy adatkészletet kell kicsomagolnia.
Tipp
Ha a tulajdonságot üresen hagyja, a modul a tömörített fájlból kapja meg a fájlnevet, feltéve, hogy a tömörített archívumfájl csak egy forrásfájlt tartalmaz. Ha a tömörített archívum több fájlt tartalmaz, futásidő-hiba történik.
Az Adatkészlet fájlformátuma beállításnál adja meg az adatkészlet eredeti formátumát, azaz a tömörített adatkészlet előtti formátumot.
A létrehozott adatkészletek a következő formátumok bármelyikével feltölthetők és kicsomagolhatók: CSV, ARFF, TSV, SvmLight.
Ha ez a tulajdonság üresen marad, a modul a forrásfájl nevével azonosítja az adatkészletet.
Válassza a Fájl fejlécsort, ha az eredeti adatkészlet tartalmaz fejlécsort. Ellenkező esetben a rendszer az adatok első sorát használja fejlécként. Ha nem ezt szeretné, adjon hozzá egy fejlécet a bemenet előtt.
Ez a beállítás csak a és .CSV vonatkozik. TSV-fájlok.
Megjegyzés
Ha módosítja a fájl formátumát, ez a beállítás alaphelyzetbe áll.
Ha a fájl tömörítve van, a Tömörítés fájlformátum lehetőséggel adhatja meg a fájl tömörítésére vagy kibontásához használt algoritmust.
Jelenleg a .ZIP és GZ (vagy Gzip) formátumok támogatottak.
Futtassa a kísérletet.
Results (Eredmények)
Az adatok megfelelő importálásának ellenőrzéséhez kattintson a jobb gombbal a Csomagolt tömörített adatkészletek modulra, és válassza a Visualize (Képi megjelenítés) lehetőséget.
Az adatkészlet nevének szerkesztéséhez kattintson a jobb gombbal a Tömörített adatkészletek kicsomagolt modulra, majd válassza a Mentés adatkészletként lehetőséget. Ezen a ponton más nevet is begépelhet.
Ez a lehetőség akkor hasznos, ha több adatkészletet csomagol ki egyetlen ZIP-fájlból.
Példák
A modul működését bemutatva létrehoztunk egy minta-.ZIP, amely négy különböző CSV-fájlt tartalmaz. Az összes fájlt a rendszer a Excel.
Fájlnév | Description |
---|---|
names-uni.csv | Unicode-fájl oszlopfejlécekkel |
names-utf.csv | UTF-8-fájl oszlopfejlécekkel |
nonames-uni.csv | Unicode-fájl oszlopfejléc nélkül |
nonames-utf8.csv | UTF-8-fájl oszlopfejlécek nélkül |
A teljes tömörített fájl fel lett töltve, majd a Tömörített adatkészletek kicsomagolása modult négyszer futtatták a négy fájl kibontása érdekében az alábbi beállításokkal:
- Kicsomagolni kívánt adatkészlet = names-uni.csv, a fájl fejlécsora = TRUE
- Kicsomagolni kívánt adatkészlet = names-utf8.csv, a fájl fejlécsora = TRUE
- Kicsomagolni kívánt adatkészlet = nonames-uni.csv, a Fájl fejlécsorral = FALSE
- Kicsomagolni kívánt adatkészlet = nonames-utf8.csv, a Fájl fejlécsorral = FALSE
Az eredmények a vártnak megfelelően voltak:
Fájlnév | Feltöltés eredménye |
---|---|
names-uni.csv | 0049-es hiba: Hiba a fájl elemezve közben. A fájl kódolása nem Unicode (UTF-8) |
names-utf8.csv | Sikeres művelet. Eredeti oszlopneveket használ a forrásfájlból. |
nonames-uni.csv | 0049-es hiba: Hiba a fájl elemezve közben. A fájl kódolása nem Unicode (UTF-8) |
nonames-utf8.csv | Sikeres művelet. Oszlopnevek Col1, col2, ... A coln automatikusan hozzáadódik az adatkészlethez. |
Megjegyzés
Ha a File has header row = TRUE (Fejlécsor = TRUE) lehetőséget használja, és a forrásfájlnak valójában nincs oszlopfejléce, a rendszer az adatok első sorát használja oszlopfejlécként.
Technikai megjegyzések
Ezzel a modullal nem csomagolhat ki tömörített R-csomagokat a munkaterületre. Az R-csomagokat tömörített fájlokként kell feltölteni és fel kell tölteni.
A tömörített R-csomagok használatával kapcsolatos további információkért lásd: R-szkript végrehajtása.
Megjegyzés
Nem tud különbséget tenni az UTF-8 és a Unicode között? Lásd ezt a Wikipedia-cikket: Mi az UTF-8?
Modulparaméterek
Name | Tartomány | Típus | Alapértelmezett | Description |
---|---|---|---|---|
Tömörítési fájlformátum | Irányítószám Gzip |
tömörítési szabály | Irányítószám | A fájl tömörítésére vagy kibontásához használt tömörítési algoritmus. |
Az adatkészlet kicsomagolása | Bármelyik | Sztring | Nincs | Az Azure ML Studióban regisztrálni ML adatkészlet neve. Ha az adatkészlet neve nincs megadva, a rendszer a tömörített fájlban található fájlnévből szerez be nevet. |
Adatkészlet fájlformátuma | CSV TSV ARFF SVMLIGHT |
Fájlformátum | CSV | Az adatkészlet fájlformátuma a tömörített fájlban |
A fájl fejlécsorral rendelkezik | IGAZ/HAMIS | Logikai | Hamis | Csak akkor állítsa True (Igaz ) értékre, ha a CSV-/TSV-fájl fejlécsorral rendelkezik |
Várt bemenetek
Név | Típus | Description |
---|---|---|
Adathalmaz | Irányítószám | Adatkészleteket tartalmazó tömörített fájl |
Kimenet
Név | Típus | Description |
---|---|---|
Eredményadatkészlet | Adattábla | Kimeneti adatkészlet |