Disimballare set di dati compressi

Decomprime i set di dati da un pacchetto ZIP nell'archiviazione utente

Categoria: Input e output dei dati

Nota

Si applica a: Machine Learning Studio (versione classica)

Nella finestra di progettazione sono disponibili moduli simili Azure Machine Learning trascinamento della selezione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Unpack zipped Datasets in Machine Learning Studio (versione classica) per caricare dati e file di script in formato compresso e quindi decomprimerli per l'uso in un esperimento.

Lo scopo di questo modulo è ridurre i tempi di trasferimento dei dati quando si lavora con set di dati di dimensioni molto grandi salvando e caricando i file di dati in un formato compresso. In genere, la compressione dei file è un'opzione valida quando il set di dati è così grande che si vuole usare la compressione per il caricamento, per ridurre al minimo i tempi di caricamento e i costi associati.

Il modulo accetta come input un set di dati nell'area di lavoro. Il set di dati deve essere stato caricato in un formato compresso. Il modulo decomprime quindi il set di dati e aggiunge i dati all'area di lavoro.

Come usare i set di dati compressi

Questa sezione descrive come preparare i dati e quindi decomprimerli in Machine Learning Studio (versione classica).

Passaggio 1. Preparare i file

Prima di caricare il file, assicurarsi che i dati nel file possano essere usati in Machine Learning:

  • Assicurarsi che i dati nel file usino la codifica UTF-8.

    Se il file è sufficientemente piccolo, è possibile aprirlo in Blocco note e quindi salvare il file nella codifica desiderata. Molti altri editor di testo offrono funzionalità simili. Per i file CSV, è possibile usare i Excel Salva con nome o Esporta per specificare un formato di file e una codifica.

  • Verificare che i file di dati usino un formato supportato, ad esempio CSV, TSV, ARFF o SVMLight.

  • Comprimere i dati aggiungendo il file di dati a un .ZIP o . File di archivio in formato GZ. Altri tipi di archivio non sono supportati.

  • Rimuovere la password di protezione. Se uno dei file o la cartella compressa stessa è stata crittografata o protetta da password, è necessario sbloccare o decrittografare il file prima di caricarlo. Il modulo non è in grado di rilevare i tipi di dati crittografati e non supporta le finestre di dialogo per l'immissione di password da client arbitrari.

Passaggio 2. Upload set di dati nell'area di lavoro

Caricare quindi il set di dati compresso nell'area di lavoro dell'esperimento.

  1. Fare clic su NUOVO, selezionare SET DI DATI e selezionare FROM LOCAL FILE (DA FILE LOCALE).

  2. Individuare il file compresso da caricare. Quando si seleziona il file, il tipo deve essere impostato automaticamente su Zip file (.zip).

Passaggio 3. Aggiungere un set di dati compresso all'esperimento

Dopo aver caricato completamente il set di dati, aggiungerlo all'esperimento in formato compresso.

  1. Nel riquadro di spostamento a sinistra di Machine Learning Studio (versione classica) selezionare Saved Datasets (Set di dati salvati) e quindi espandere My Datasets (Set di dati).

  2. Individuare il set di dati compresso appena caricato e trascinarlo nell'area di disegno dell'esperimento.

Passaggio 4. Disimballare il set di dati

Il passaggio finale consiste nel decomprimere il set di dati.

  1. Connessione il set di dati compresso nell'input del modulo Unpack zipped Datasets .

  2. In Set di dati da decomprimere digitare il nome di un singolo set di dati da decomprimere.

    • Se è stato salvato un foglio di lavoro denominato Sheet1 come file CSV Excel denominatoTest.csv, il nome del set di dati sarà Test.csv, non Sheet1.

    • Il nome digitato nella casella di testo Set di dati da decomprimere deve corrispondere esattamente al nome del file originale prima della compressione, inclusa l'estensione del nome file. Ad esempio, se si desidera decomprimere un set di dati in base al file di testoUsers.txt, digitareUsers.txt, non Utenti.

    • Se si inseriscino più file in una cartella compressa, è necessario decomprimere un set di dati alla volta.

    Suggerimento

    Se si lascia vuota la proprietà , il modulo ottiene il nome del file dal file compresso, presupponendo che il file di archivio compresso contenga un solo file di origine. Se l'archivio compresso contiene più file, viene generato un errore di run-time.

  3. Per Formato file del set di dati specificare il formato originale del set di dati, ad esempio il formato prima della compressione.

    È possibile caricare e decomprimere i set di dati creati usando uno dei formati seguenti: CSV, ARFF, TSV, SvmLight.

    Se questa proprietà viene lasciata vuota, il modulo identifica il set di dati usando il nome del file di origine.

  4. Selezionare l'opzione File con riga di intestazione, se il set di dati originale include una riga di intestazione. In caso contrario, come intestazione viene utilizzata la prima riga di dati. Se non è quello che si vuole, aggiungere un'intestazione prima dell'input.

    Questa opzione si applica solo ai .CSV e . File TSV.

    Nota

    Se si modifica il formato del file, questa opzione viene reimpostata.

  5. Se il file è compresso, usare l'opzione Formato file di compressione per specificare l'algoritmo utilizzato per comprimere o espandere il file.

    Attualmente sono .ZIP i formati GZ (o Gzip).

  6. Eseguire l'esperimento.

Risultati

  • Per verificare che i dati siano stati importati correttamente, fare clic con il pulsante destro del mouse sul modulo Unpacked Zipped Datasets (Set di dati compressi decompressi) e selezionare Visualize (Visualizza ).

  • Per modificare il nome del set di dati, fare clic con il pulsante destro del mouse sul modulo Unpacked Zipped Datasets (Set di dati compressi decompressi) e scegliere Save as Dataset (Salva come set di dati). A questo punto è possibile digitare un nome diverso.

    Questa opzione è utile se si decomprime più set di dati da un singolo file ZIP.

Esempio

Per illustrare il funzionamento di questo modulo, è stato creato un file .ZIP di esempio contenente quattro file CSV diversi. Tutti i file sono stati salvati da Excel.

Nome file Descrizione
names-uni.csv File Unicode con intestazioni di colonna
names-utf.csv File UTF-8 con intestazioni di colonna
nonames-uni.csv File Unicode senza intestazioni di colonna
nonames-utf8.csv File UTF-8 senza intestazioni di colonna

L'intero file compresso è stato caricato e quindi il modulo Unpack zipped Datasets è stato eseguito quattro volte per estrarre ognuno dei quattro file, usando queste impostazioni:

  1. Set di dati da decomprimere = names-uni.csv, file con riga di intestazione = TRUE
  2. Set di dati da decomprimere = names-utf8.csv, file con riga di intestazione = TRUE
  3. Set di dati da decomprimere = nonames-uni.csv, file con riga di intestazione = FALSE
  4. Set di dati da decomprimere = nonames-utf8.csv, file con riga di intestazione = FALSE

I risultati erano come previsto:

Nome file Upload risultato
names-uni.csv Errore 0049: Errore durante l'analisi del file. Il file non è codificato in Unicode (UTF-8)
names-utf8.csv Operazione completata. Usa i nomi di colonna originali del file di origine.
nonames-uni.csv Errore 0049: Errore durante l'analisi del file. Il file non è codificato in Unicode (UTF-8)
nonames-utf8.csv Operazione completata. Nomi di colonna Col1, col2, ... i coln vengono aggiunti automaticamente al set di dati.

Nota

Se si usa l'opzione File con riga di intestazione = TRUE e il file di origine non ha effettivamente un'intestazione di colonna, come intestazione di colonna viene usata la prima riga di dati.

Note tecniche

Non è possibile usare questo modulo per decomprimere i pacchetti R compressi nell'area di lavoro. I pacchetti R devono essere caricati e utilizzati come file compressi.

Per altre informazioni su come usare i pacchetti R compressi, vedere Eseguire script R.

Nota

Confusa sulla differenza tra UTF-8 e Unicode? Vedere questo articolo di Wikipedia: Che cos'è UTF-8

Parametri del modulo

Nome Intervallo Type Predefinito Descrizione
Formato di file di compressione Zip

Gzip
regola di compressione Zip Algoritmo di compressione usato per comprimere o espandere il file.
Set di dati da decomprimere Qualsiasi string Nessuno Nome del set di dati da registrare in Azure ML Studio (versione classica). Se il nome di un set di dati non è specificato, il nome viene ottenuto dal nome file nel file compresso.
Formato del file di set di dati CSV

TSV

ARFF

SVMLIGHT
Formato file CSV Formato di file del set di dati nel file compresso
File has header row VERO/FALSO Boolean Falso Impostare su True solo se il file CSV/TSV ha una riga di intestazione

Input previsti

Nome Tipo Descrizione
Set di dati Zip File compresso contenente set di dati

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati di output

Vedi anche

Input e output dei dati