Condividi tramite


Eseguire la conversione in CSV

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Converte l'input di dati in un formato con valori delimitati da virgole

Categoria: Conversioni di formato dati

Nota

Si applica a: solo Machine Learning Studio (versione classica)

I moduli di trascinamento e rilascio simili sono disponibili in Azure Machine Learning finestra di progettazione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Convert to CSV in Machine Learning Studio (classico), per convertire un set di dati da Azure ML in un formato CSV che può essere scaricato, esportato o condiviso con i moduli di script R o Python.

Altre informazioni sul formato CSV

Il formato CSV, che corrisponde a "valori delimitati da virgole", è un formato di file usato da molti strumenti di Machine Learning esterni. Anche se il formato del set di dati nativo usato da Machine Learning è basato sulla tabella dati .NET e quindi può essere letto dalle librerie .NET, CSV è un formato di interscambio comune quando si usano linguaggi open source, ad esempio R o Python.

Anche se si esegue la maggior parte del lavoro in Machine Learning Studio (versione classica), è possibile che sia utile convertire il set di dati in CSV da usare in strumenti esterni. Ad esempio:

  • Scaricare il file CSV per aprirlo con Excel o importarlo in un database relazionale.
  • Salvare il file CSV nell'archiviazione cloud e connettersi da Power BI per creare visualizzazioni.
  • Usare il formato CSV per preparare i dati da usare in R e Python. Fare clic con il pulsante destro del mouse sull'output del modulo per generare il codice necessario per accedere ai dati direttamente da Python o da un notebook Jupyter.

Quando si converte un set di dati in CSV, il file viene salvato nell'area di lavoro di Azure ML. È possibile usare un'utilità di archiviazione di Azure per aprire e usare direttamente il file oppure fare clic con il pulsante destro del mouse sull'output del modulo e scaricare il file CSV nel computer oppure usarlo nel codice R o Python.

Come configurare Convert to CSV

  1. Aggiungere il modulo Convert to CSV all'esperimento. È possibile trovare questo modulo nel gruppo Conversioni formato dati in Studio (versione classica).

  2. Connessione a qualsiasi modulo che restituisce un set di dati.

  3. Eseguire l'esperimento oppure fare clic sul modulo Converti in CSV e fare clic su Esegui selezionato.

Risultati

Fare doppio clic sull'output di Converti in CSV e selezionare una di queste opzioni.

  • Download: apre immediatamente una copia dei dati in formato CSV che è possibile salvare in una cartella locale. Se non si specifica una cartella, viene applicato un nome file predefinito e il file CSV viene salvato nella libreria Download locale.

    Se si seleziona Scarica set di dati, è necessario indicare se aprire il set di dati o salvarlo in un file locale.

    Se si seleziona Apri, il set di dati viene caricato usando l'applicazione associata per impostazione predefinita ai file .CSV, ad esempio Microsoft Excel.

    Se si seleziona Scarica set di dati, per impostazione predefinita, il file viene salvato con il nome del modulo e un GUID che rappresenta l'ID dell'area di lavoro. È tuttavia possibile selezionare l'opzione Salva con nome durante il download e modificare il nome o il percorso del file.

  • Salva come set di dati: salva il file CSV nell'area di lavoro di Azure ML come set di dati separato.

  • Generare codice di accesso ai dati: Azure ML genera due set di codice per accedere ai dati, usando Python o usando R. Per accedere ai dati, copiare il frammento di codice nell'applicazione.

  • Aprire in un nuovo notebook: viene creato un nuovo notebook jupyter per l'utente e il codice inserito per leggere i dati dall'area di lavoro usando il linguaggio preferito: Python 2, Python 3 o R con Microsoft R Open.

    Ad esempio, se si sceglie l'opzione R, viene fornito il codice R di esempio che carica il file CSV in un frame di dati e visualizza le prime righe usando la head funzione.

Note tecniche

Questa sezione contiene i dettagli, i suggerimenti e le risposte all'implementazione alle domande frequenti.

Requisiti del formato CSV

Il formato di file CSV è un formato popolare supportato da molti framework di Machine Learning. Il formato è variamente definito "valori delimitati da virgole" o "valori delimitati da caratteri".

In un file CSV vengono archiviati dati tabulari, sia numerici che di testo, in formato testo normale. Un file CSV è costituito da qualsiasi numero di record, separato da interruzioni di riga di qualche tipo. Ogni record è costituito da campi separati da una virgola letterale. In alcune aree il separatore potrebbe essere un punto e virgola.

In genere, tutti i record hanno un numero identico di campi e i valori mancanti sono rappresentati come valori Null o stringhe vuote.

Suggerimento

È possibile esportare facilmente i dati da Excel, Accesso o un database relazionale in file CSV da usare in Machine Learning. Anche se i nomi di file in genere hanno l'estensione .CSV, Machine Learning non richiede che questa estensione del nome file sia presente se si desidera importare i dati come CSV. È possibile importare XLSX, TXT e altri file come CSV. Tuttavia, i campi nel file devono essere formattati come descritto nella sezione precedente e il file deve usare la codifica UTF-8.

Domande e problemi comuni

Questa sezione descrive alcuni problemi noti, domande comuni e soluzioni alternative specifiche del modulo Converti in CSV .

Le intestazioni devono essere righe singole

Il formato di file CSV usato in Machine Learning supporta una singola riga di intestazione. Non è possibile inserire intestazioni a più righe.

Separatori personalizzati supportati per l'importazione ma non per l'esportazione

Il modulo Convert to CSV non supporta la generazione di separatori di colonne alternative, ad esempio il punto e virgola (;), spesso usato in Europa.

Tuttavia, quando si importano dati da file CSV nell'archiviazione esterna, è possibile specificare separatori alternativi. Nel modulo Importa dati selezionare l'opzione CSV con codifica e selezionare una codifica supportata.

Separazione di colonne imprecise sui dati di stringa contenenti virgole

Si tratta di un problema comune nell'elaborazione del testo che può essere specificato come separatore di colonne (schede, spazi, virgole e così via) può essere trovato in modo casuale nei campi di testo. L'importazione di testo da CSV richiede sempre attenzione per evitare di separare il testo tra le nuove colonne non necessarie.

Quando si tenta di esportare una colonna di dati di stringa che contiene virgole, è anche possibile che si verifichino problemi. Machine Learning non supporta alcuna gestione speciale o una traduzione speciale di tali dati, ad esempio racchiudere stringhe tra virgolette. Non è inoltre possibile usare caratteri di escape prima di una virgola per assicurarsi che le virgole vengano gestite come carattere letterale.

Pertanto, i nuovi campi vengono creati nel file di output per ogni virgola rilevata nel campo stringa. Per evitare questo problema, esistono diverse soluzioni alternative:

  • Usare il modulo Testo pre-elaborazione per rimuovere i caratteri di punteggiatura dai campi stringa.

  • Usare script R personalizzato o script Python per elaborare il testo e assicurarsi che i dati possano essere esportati correttamente.

Codifica UTF-8 necessaria

Il modulo Convert to CSV supporta solo la codifica dei caratteri UTF-8. Se è necessario esportare i dati usando una codifica diversa, è possibile provare a usare i moduli Esegui script R o Esegui script Python per generare output personalizzato.

Il set di dati non include nomi di colonna

Se il set di dati esportato in un file CSV non ha nomi di colonna, è consigliabile usare Modifica metadati per aggiungere nomi di colonna prima di convertirlo. Non è possibile aggiungere nomi di colonna come parte del processo di conversione o esportazione.

SYLK: il formato di file non è valido

Se la prima colonna del set di dati che si converte in CSV ha l'ID nome, è possibile che venga visualizzato l'errore seguente quando si tenta di aprire il file in Excel:

"SYLK: il formato di file non è valido".

Per evitare questo errore, è necessario rinominare la colonna.

È necessaria assistenza per l'importazione da CSV

Per l'importazione, non usare il modulo Esporta in CSV . Usare invece il modulo Importa dati .

Per informazioni generali sull'importazione da CSV, vedere queste risorse:

Input previsti

Nome Tipo Descrizione
Set di dati Tabella dati Set di dati di input

Output

Nome Tipo Descrizione
Set di dati di risultati GenericCsv Set di dati di output

Vedere anche

Conversioni di formato dati
Elenco moduli A-Z