Tömörített adatkészletek kicsomagolása

Cikk
05/06/2019

Kicsomagolja az adatkészleteket egy zip-csomagból a felhasználói tárolóban

Megjegyzés

A következőkre vonatkozik: Machine Learning Studio (klasszikus)

Hasonló húzással használható modulok érhetők el Azure Machine Learning tervezőben.

A modul áttekintése

Ez a cikk azt ismerteti, hogyan használható a Tömörített adatkészletek kicsomagolása modul a Machine Learning Studio (klasszikus) szolgáltatásban adatok és szkriptfájlok tömörített formátumban való feltöltéséhez, majd kicsomagolása kísérletben való használatra.

Ennek a modulnak az a célja, hogy tömörített formátumban mentse és töltse fel az adatfájlokat, így csökkentve az adatátviteli időt nagy méretű adatkészletek esetén. A fájlok tömörített formátuma általában akkor jó választás, ha az adatkészlet olyan nagy, hogy tömörítést szeretne használni a feltöltéshez a feltöltési idő és a kapcsolódó költségek minimalizálása érdekében.

A modul bemenete egy adatkészlet a munkaterületen. Az adatkészletet tömörített formátumban kell feltölteni. A modul ezután kibontja az adatkészletet, és hozzáadja az adatokat a munkaterülethez.

Tömörített adatkészletek kicsomagolása

Ez a szakasz azt ismerteti, hogyan készítheti elő az adatokat, majd csomagolja ki azokat a Machine Learning Studióban (klasszikus).

1. lépés Fájlok előkészítése

A fájl feltöltése előtt győződjön meg arról, hogy a fájlban található adatok használhatók a Machine Learning:

Győződjön meg arról, hogy a fájlban található adatok UTF-8 kódolást használnak.

Ha a fájl elég kicsi, megnyithatja az Jegyzettömb, majd mentheti a kívánt kódolásban. Számos más szövegszerkesztő is kínál hasonló funkciókat. CSV-fájlok esetén a fájlformátum és Excel az Exportálás parancsokkal adhatja meg a fájlformátumot és a kódolást.
Ellenőrizze, hogy az adatfájlok támogatott formátumot, például CSV, TSV, ARFF vagy SVMLight formátumot használjanak-e.
Tömörítse az adatokat úgy, hogy hozzáadja az adatfájlt egy .ZIP vagy a fájlhoz. GZ formátumú archívumfájl. Más archív típusok nem támogatottak.
Jelszóvédelem eltávolítása. Ha a fájlok vagy magának a tömörített mappának bármelyike titkosított vagy jelszóval védett, a feltöltés előtt fel kell oldania vagy vissza kell fejtenie a fájlt. A modul nem észleli a titkosított adattípusokat, és nem támogatja a tetszőleges ügyfelektől származó jelszóbeviteli párbeszédpaneleket.

2. lépés Adatkészlet feltöltése a munkaterületre

Ezután töltse fel a tömörített adatkészletet a kísérlet munkaterületére.

Kattintson a NEW (ÚJ) elemre, válassza az DATASET (ADATKÉSZLET) lehetőséget, majd a FROM LOCAL FILE (HELYI FÁJLBÓL) lehetőséget.
Keresse meg a feltölteni kívánt tömörített fájlt. A fájl kiválasztásakor a típusnak automatikusan Zip-fájlra (.zip).

3. lépés Tömörített adatkészlet hozzáadása a kísérlethez

Miután az adatkészlet teljesen fel lett töltve, tömörített formátumban adja hozzá a kísérlethez.

A Machine Learning Studio (klasszikus) bal oldali navigációs panelen válassza a Mentett adatkészletek lehetőséget, majd bontsa ki a Saját adatkészletek gombra.
Keresse meg az előbb feltöltött tömörített adatkészletet, és húzza a kísérletvászonra.

4. lépés: Adatkészlet kicsomagolása

Az utolsó lépés az adatkészlet kicsomagolása.

Csatlakozás tömörített adatkészletet a Tömörített adatkészletek kicsomagolása modul bemenetéhez.
A Kicsomagolatlan adatkészlet mezőbe írja be egyetlen kicsomagolni szükséges adatkészlet nevét.
- Ha egy Munkalap1 nevű munkalapot mentett Excel csv-fájlként Test.csvnéven, az adatkészlet neve Test.csv, nem Pedig Sheet1.
- Az Adatkészlet kicsomagolása szövegmezőbe beírt névnek pontosan meg kell egynie az eredeti fájl nevével a tömörítés előtt, beleértve a fájlnévkiterjesztést is. Ha például a következő szövegfájl alapján szeretne kicsomagolni egy adatkészletet Users.txtírja be a Users.txt, és ne a Users (Felhasználók) szöveget.
- Ha több fájlt egy tömörített mappába tesz, egyszerre egy adatkészletet kell kicsomagolnia.
Tipp

Ha a tulajdonságot üresen hagyja, a modul a tömörített fájlból kapja meg a fájlnevet, feltéve, hogy a tömörített archívumfájl csak egy forrásfájlt tartalmaz. Ha a tömörített archívum több fájlt tartalmaz, futásidő-hiba történik.
Az Adatkészlet fájlformátuma beállításnál adja meg az adatkészlet eredeti formátumát, azaz a tömörített adatkészlet előtti formátumot.

A létrehozott adatkészletek a következő formátumok bármelyikével feltölthetők és kicsomagolhatók: CSV, ARFF, TSV, SvmLight.

Ha ez a tulajdonság üresen marad, a modul a forrásfájl nevével azonosítja az adatkészletet.
Válassza a Fájl fejlécsort, ha az eredeti adatkészlet tartalmaz fejlécsort. Ellenkező esetben a rendszer az adatok első sorát használja fejlécként. Ha nem ezt szeretné, adjon hozzá egy fejlécet a bemenet előtt.

Ez a beállítás csak a és .CSV vonatkozik. TSV-fájlok.

Megjegyzés

Ha módosítja a fájl formátumát, ez a beállítás alaphelyzetbe áll.
Ha a fájl tömörítve van, a Tömörítés fájlformátum lehetőséggel adhatja meg a fájl tömörítésére vagy kibontásához használt algoritmust.

Jelenleg a .ZIP és GZ (vagy Gzip) formátumok támogatottak.
Futtassa a kísérletet.

Results (Eredmények)

Az adatok megfelelő importálásának ellenőrzéséhez kattintson a jobb gombbal a Csomagolt tömörített adatkészletek modulra, és válassza a Visualize (Képi megjelenítés) lehetőséget.
Az adatkészlet nevének szerkesztéséhez kattintson a jobb gombbal a Tömörített adatkészletek kicsomagolt modulra, majd válassza a Mentés adatkészletként lehetőséget. Ezen a ponton más nevet is begépelhet.

Ez a lehetőség akkor hasznos, ha több adatkészletet csomagol ki egyetlen ZIP-fájlból.

Példák

A modul működését bemutatva létrehoztunk egy minta-.ZIP, amely négy különböző CSV-fájlt tartalmaz. Az összes fájlt a rendszer a Excel.

Fájlnév	Description
names-uni.csv	Unicode-fájl oszlopfejlécekkel
names-utf.csv	UTF-8-fájl oszlopfejlécekkel
nonames-uni.csv	Unicode-fájl oszlopfejléc nélkül
nonames-utf8.csv	UTF-8-fájl oszlopfejlécek nélkül

A teljes tömörített fájl fel lett töltve, majd a Tömörített adatkészletek kicsomagolása modult négyszer futtatták a négy fájl kibontása érdekében az alábbi beállításokkal:

Kicsomagolni kívánt adatkészlet = names-uni.csv, a fájl fejlécsora = TRUE
Kicsomagolni kívánt adatkészlet = names-utf8.csv, a fájl fejlécsora = TRUE
Kicsomagolni kívánt adatkészlet = nonames-uni.csv, a Fájl fejlécsorral = FALSE
Kicsomagolni kívánt adatkészlet = nonames-utf8.csv, a Fájl fejlécsorral = FALSE

Az eredmények a vártnak megfelelően voltak:

Fájlnév	Feltöltés eredménye
names-uni.csv	0049-es hiba: Hiba a fájl elemezve közben. A fájl kódolása nem Unicode (UTF-8)
names-utf8.csv	Sikeres művelet. Eredeti oszlopneveket használ a forrásfájlból.
nonames-uni.csv	0049-es hiba: Hiba a fájl elemezve közben. A fájl kódolása nem Unicode (UTF-8)
nonames-utf8.csv	Sikeres művelet. Oszlopnevek Col1, col2, ... A coln automatikusan hozzáadódik az adatkészlethez.

Megjegyzés

Ha a File has header row = TRUE (Fejlécsor = TRUE) lehetőséget használja, és a forrásfájlnak valójában nincs oszlopfejléce, a rendszer az adatok első sorát használja oszlopfejlécként.

Technikai megjegyzések

Ezzel a modullal nem csomagolhat ki tömörített R-csomagokat a munkaterületre. Az R-csomagokat tömörített fájlokként kell feltölteni és fel kell tölteni.

A tömörített R-csomagok használatával kapcsolatos további információkért lásd: R-szkript végrehajtása.

Megjegyzés

Nem tud különbséget tenni az UTF-8 és a Unicode között? Lásd ezt a Wikipedia-cikket: Mi az UTF-8?

Modulparaméterek

Name	Tartomány	Típus	Alapértelmezett	Description
Tömörítési fájlformátum	Irányítószám Gzip	tömörítési szabály	Irányítószám	A fájl tömörítésére vagy kibontásához használt tömörítési algoritmus.
Az adatkészlet kicsomagolása	Bármelyik	Sztring	Nincs	Az Azure ML Studióban regisztrálni ML adatkészlet neve. Ha az adatkészlet neve nincs megadva, a rendszer a tömörített fájlban található fájlnévből szerez be nevet.
Adatkészlet fájlformátuma	CSV TSV ARFF SVMLIGHT	Fájlformátum	CSV	Az adatkészlet fájlformátuma a tömörített fájlban
A fájl fejlécsorral rendelkezik	IGAZ/HAMIS	Logikai	Hamis	Csak akkor állítsa True (Igaz ) értékre, ha a CSV-/TSV-fájl fejlécsorral rendelkezik

Várt bemenetek

Név	Típus	Description
Adathalmaz	Irányítószám	Adatkészleteket tartalmazó tömörített fájl

Kimenet

Név	Típus	Description
Eredményadatkészlet	Adattábla	Kimeneti adatkészlet

Lásd még

Adatbemenet és -kimenet

Megosztás a következőn keresztül:

Tömörített adatkészletek kicsomagolása

A modul áttekintése

Tömörített adatkészletek kicsomagolása

1. lépés Fájlok előkészítése

2. lépés Adatkészlet feltöltése a munkaterületre

3. lépés Tömörített adatkészlet hozzáadása a kísérlethez

4. lépés: Adatkészlet kicsomagolása

Results (Eredmények)

Példák

Technikai megjegyzések

Modulparaméterek

Várt bemenetek

Kimenet

Lásd még

További források