Ingepakte gegevenssets uitpakken
Gegevenssets uitpakken uit een zip-pakket in gebruikersopslag
Categorie: Gegevensinvoer en -uitvoer
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules voor slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt beschreven hoe u de module Uitgepakte gegevenssets in Machine Learning Studio (klassiek) gebruikt om gegevens en scriptbestanden in gecomprimeerde indeling te uploaden en ze vervolgens uit te pakken voor gebruik in een experiment.
Het doel van deze module is het verminderen van de gegevensoverdrachttijden bij het werken met zeer grote gegevenssets door uw gegevensbestanden op te slaan en te uploaden in een gecomprimeerde indeling. Over het algemeen is het over het algemeen een goede optie als uw gegevensset zo groot is dat u compressie voor het uploaden wilt gebruiken om de uploadtijd en de bijbehorende kosten te minimaliseren.
De module neemt als invoer een gegevensset in uw werkruimte. De gegevensset moet zijn geüpload in een gecomprimeerde indeling. De module decomprimeert vervolgens de gegevensset en voegt de gegevens toe aan uw werkruimte.
Ingepakte gegevenssets uitpakken gebruiken
In deze sectie wordt beschreven hoe u uw gegevens voorbereidt en deze vervolgens uitdeelt in Machine Learning Studio (klassiek).
Stap 1. Bestanden voorbereiden
Voordat u het bestand uploadt, moet u ervoor zorgen dat de gegevens in het bestand kunnen worden gebruikt in Machine Learning:
Zorg ervoor dat de gegevens in het bestand UTF-8-codering gebruiken.
Als het bestand klein genoeg is, kunt u het openen in Kladblok en het bestand vervolgens opslaan in de gewenste codering. Veel andere teksteditors bieden vergelijkbare functionaliteit. Voor CSV-bestanden kunt u Excel opdrachten Opslaan als of Exporteren gebruiken om een bestandsindeling en codering op te geven.
Controleer of de gegevensbestanden een ondersteunde indeling gebruiken, zoals CSV, TSV, ARFF of SVMLight.
Comprimeren van de gegevens door het gegevensbestand toe te voegen aan een .ZIP of . Archiefbestand in GZ-indeling. Andere archieftypen worden niet ondersteund.
Verwijder wachtwoordbeveiliging. Als een van de bestanden of de gecomprimeerde map zelf is versleuteld of met een wachtwoord is beveiligd, moet u het bestand ontgrendelen of ontsleutelen voordat u het uploadt. De module kan versleutelde gegevenstypen niet detecteren en biedt geen ondersteuning voor dialoogvensters voor wachtwoordinvoer van willekeurige clients.
Stap 2. Upload gegevensset naar uw werkruimte
Upload vervolgens de ingepakte gegevensset naar uw experimentwerkruimte.
Klik op NIEUW, selecteer GEGEVENSSET en selecteer VAN LOKAAL BESTAND.
Zoek het ingepakte bestand dat u wilt uploaden. Wanneer u het bestand selecteert, wordt het type automatisch ingesteld op Zip-bestand (.zip).
Stap 3. Een ingepakte gegevensset toevoegen aan het experiment
Nadat de gegevensset volledig is geüpload, voegt u deze in een ingepakte indeling toe aan uw experiment.
Selecteer in het navigatiedeelvenster aan de linkerkant van Machine Learning Studio (klassiek) Opgeslagen gegevenssets en vouw vervolgens Mijn gegevenssets uit.
Zoek de ingepakte gegevensset die u zojuist hebt geüpload en sleep deze naar het experiment-canvas.
Stap 4. Gegevensset uitpakken
De laatste stap is het uitpakken van de gegevensset.
Verbinding maken de ingepakte gegevensset toe aan de invoer van de module Uitgepakte gegevenssets.
In Gegevensset uitpakken typt u de naam van één gegevensset die u wilt uitpakken.
Als u een werkblad met de naam Sheet1 hebt opgeslagen als een Excel CSV-bestand met de naam Test.csv, wordt de naam van de gegevensset Test.csv, niet Sheet1.
De naam die u typt in het tekstvak Gegevensset uitpakken moet exact dezelfde zijn als de naam van het oorspronkelijke bestand voordat het werd gecomprimeerd, inclusief de bestandsnaamextensie. Als u bijvoorbeeld een gegevensset wilt uitpakken op basis van het tekstbestand Users.txt, typt uUsers.txt, niet Gebruikers.
Als u meerdere bestanden in één gecomprimeerde map zet, moet u één gegevensset tegelijk uitpakken.
Tip
Als u de eigenschap leeg laat, haalt de module de bestandsnaam op uit het gecomprimeerde bestand, ervan uitgaande dat het gecomprimeerde archiefbestand slechts één bronbestand bevat. Als het gecomprimeerde archief meerdere bestanden bevat, teert er een run time-fout.
Geef bij Bestandsindeling van gegevensset de oorspronkelijke indeling van de gegevensset op: dat wil zeggen, de indeling voordat deze is ingepakt.
U kunt gegevenssets uploaden en uitvipen die zijn gemaakt met behulp van een van deze indelingen: CSV, ARFF, TSV, SvmLight.
Als deze eigenschap leeg blijft, identificeert de module de gegevensset met behulp van de naam van het bronbestand.
Selecteer de optie File has header row als de oorspronkelijke gegevensset een headerrij heeft. Anders wordt de eerste rij met gegevens gebruikt als header. Als dit niet is wat u wilt, voegt u een header toe vóór invoer.
Deze optie geldt alleen voor .CSV en . TSV-bestanden.
Notitie
Als u de indeling van het bestand wijzigt, wordt deze optie opnieuw ingesteld.
Als het bestand is gecomprimeerd, gebruikt u de indelingsoptie Compressiebestand om het algoritme op te geven dat is gebruikt om het bestand te comprimeren of uit te vouwen.
Momenteel worden .ZIP GZ-indelingen (of Gzip) ondersteund.
Voer het experiment uit.
Resultaten
Als u wilt controleren of de gegevens correct zijn geïmporteerd, klikt u met de rechtermuisknop op de module Uitgepakte Zipped Datasets en selecteert u Visualize .
Als u de naam van de gegevensset wilt wijzigen, klikt u met de rechtermuisknop op de module Uitgepakte Zipped Datasets en selecteert u Opslaan als gegevensset. Op dit moment kunt u een andere naam typen.
Deze optie is handig als u meerdere gegevenssets uit één ZIP-bestand uitpakt.
Voorbeelden
Om te laten zien hoe deze module werkt, hebben we een voorbeeld gemaakt .ZIP bestand met vier verschillende CSV-bestanden. Alle bestanden zijn opgeslagen vanuit Excel.
Bestandsnaam | Description |
---|---|
names-uni.csv | Unicode-bestand met kolomkoppen |
names-utf.csv | UTF-8-bestand met kolomkoppen |
nonames-uni.csv | Unicode-bestand zonder kolomkoppen |
nonames-utf8.csv | UTF-8-bestand zonder kolomkoppen |
Het hele ingepakte bestand is geüpload en vervolgens is de module Uitgepakte gegevenssets vier keer uitgevoerd om elk van de vier bestanden te extraheren met behulp van deze instellingen:
- Gegevensset die moet worden uitgepakt = names-uni.csv, bestand heeft koptekstrij = TRUE
- Gegevensset die moet worden uitgepakt = names-utf8.csv, bestand heeft koptekstrij = TRUE
- Gegevensset die moet worden uitgepakt = nonames-uni.csv, bestand heeft koptekstrij = FALSE
- Gegevensset die moet worden uitgepakt = nonames-utf8.csv, bestand heeft koptekstrij = FALSE
De resultaten waren zoals verwacht:
Bestandsnaam | Upload resultaat |
---|---|
names-uni.csv | Fout 0049: Fout tijdens het parseren van het bestand. Bestand is niet gecodeerd met Unicode (UTF-8) |
names-utf8.csv | Voltooid. Maakt gebruik van oorspronkelijke kolomnamen uit het bronbestand. |
nonames-uni.csv | Fout 0049: Fout tijdens het parseren van het bestand. Bestand is niet gecodeerd met Unicode (UTF-8) |
nonames-utf8.csv | Voltooid. Kolomnamen Col1, col2, ... coln worden automatisch toegevoegd aan de gegevensset. |
Notitie
Als u de optie File has header row = TRUE gebruikt en het bronbestand daadwerkelijk geen kolomkop heeft, wordt de eerste rij met gegevens gebruikt als de kolomkop.
Technische opmerkingen
U kunt deze module niet gebruiken om ingepakte R-pakketten uit te pakken in uw werkruimte. R-pakketten moeten worden geüpload en gebruikt als ingepakte bestanden.
Zie Execute R Script (R-script uitvoeren) voor meer informatie over het werken met ingepakte R-pakketten.
Notitie
Weet u niet goed wat het verschil is tussen UTF-8 en Unicode? Zie dit Wikipedia-artikel: Wat is UTF-8?
Moduleparameters
Name | Bereik | Type | Standaard | Beschrijving |
---|---|---|---|---|
Indeling van compressiebestand | Zip Gzip |
compressieregel | Zip | Compressiealgoritme dat wordt gebruikt om het bestand te comprimeren of uit te breiden. |
Gegevensset die moet worden uitgepakt | Alle | Tekenreeks | geen | Naam van de gegevensset die moet worden geregistreerd bij Azure ML Studio (klassiek). Als de naam van een gegevensset niet is opgegeven, wordt de naam verkregen van de bestandsnaam in het ingepakte bestand. |
Bestandsindeling van gegevensset | CSV TSV ARFF SVMLIGHT |
Bestandsindeling | CSV | Bestandsindeling van de gegevensset in het ingepakte bestand |
Bestand heeft koptekstrij | TRUE/FALSE | Booleaans | Niet waar | Alleen ingesteld op True als het CSV-/TSV-bestand een headerrij heeft |
Verwachte invoer
Naam | Type | Description |
---|---|---|
Gegevensset | Zip | Ingepakt bestand met gegevenssets |
Uitvoer
Naam | Type | Description |
---|---|---|
Gegevensset met resultaten | Gegevenstabel | Uitvoerset |