Condividi tramite


Importare dati

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1° dicembre 2021 non sarà possibile creare nuove risorse dello studio di Azure Machine Learning (versione classica). Fino al 31 agosto 2024 sarà possibile continuare a usare le risorse dello studio di Azure Machine Learning (versione classica).

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Carica i dati da origini esterne sul Web; da varie forme di archiviazione basata sul cloud in Azure, ad esempio tabelle, BLOB e database SQL e da database SQL Server locali

Categoria: Input e output dei dati

Nota

Si applica a: solo Machine Learning Studio (versione classica)

I moduli di trascinamento della selezione simili sono disponibili in Azure Machine Learning finestra di progettazione.

Panoramica del modulo

Questo articolo descrive come usare il modulo Importa dati in Machine Learning Studio (versione classica) per caricare i dati in un esperimento di Machine Learning da servizi dati cloud esistenti.

Il modulo include ora una procedura guidata che consente di scegliere un'opzione di archiviazione e selezionare tra sottoscrizioni e account esistenti per configurare rapidamente tutte le opzioni. È necessario modificare una connessione dati esistente? Nessun problema; La procedura guidata carica tutti i dettagli di configurazione precedenti in modo che non sia necessario ricominciare da zero.

Dopo aver definito i dati desiderati e connessi all'origine, Importa dati deduce il tipo di dati di ogni colonna in base ai valori contenuti e carica i dati nell'area di lavoro di Machine Learning Studio (versione classica). L'output di Import Data è un set di dati che può essere usato con qualsiasi esperimento.

Importante

Attualmente, esistono limitazioni per i tipi di account di archiviazione supportati. Per altre informazioni, vedere Note tecniche.

Se i dati di origine cambiano, è possibile aggiornare il set di dati e aggiungere nuovi dati eseguendo di nuovo Importa dati. Tuttavia, se non si vuole ripetere la lettura dall'origine ogni volta che si esegue l'esperimento, selezionare l'opzione Usa risultati memorizzati nella cache su TRUE. Quando questa opzione è selezionata, il modulo controlla se l'esperimento è stato eseguito in precedenza usando la stessa origine e le stesse opzioni di input. Se viene trovata un'esecuzione precedente, i dati nella cache vengono usati anziché ricaricare i dati dall'origine.

Nota

Questo modulo era precedentemente denominato Reader. Se in precedenza è stato usato il modulo Reader in un esperimento, viene rinominato Importa dati quando si aggiorna l'esperimento.

Origini dati

Il modulo Import Data supporta le origini dati seguenti. Fare clic sui collegamenti per istruzioni dettagliate ed esempi sull'uso di ogni origine dati.

Se non si è certi di come o dove archiviare i dati, vedere questa guida agli scenari di dati comuni nel processo di data science: Scenari per l'analisi avanzata in Machine Learning.

Origine dati Usato con
URL Web tramite HTTP Ottenere dati ospitati in un URL Web che usa HTTP e forniti nei formati CSV, TSV, ARFF o SvmLight
Hive Query Ottenere dati dall'archiviazione distribuita in Hadoop. Specificare i dati desiderati usando il linguaggio HiveQL
Database SQL di Azure Ottenere dati da database SQL di Azure o da Azure SQL Data Warehouse
Tabella di Azure Ottenere i dati archiviati nel servizio tabelle di Azure
Importare da Archiviazione BLOB di Azure Ottenere i dati archiviati nel servizio BLOB di Azure
Provider di feed di dati Ottenere i dati esposti come feed in formato OData
Importare da un database di SQL Server locale Ottenere dati da un database SQL Server locale usando Microsoft Gestione dati Gateway
Azure Cosmos DB Ottenere i dati archiviati in formato JSON in Azure Cosmos DB.

Suggerimento

È necessario importare dati nel formato JSON? Sia R che Python supportano le API REST, quindi usare i moduli Execute Python Script (Esegui script Python) o Execute R Script (Esegui script R) per analizzare i dati e salvarli come set di dati di Azure ML.

In alternativa, usare l'API SQL DB per CosmosDB, che supporta più archivi JSON, tra cui MongoDB, per leggere i dati usando l'opzione Importa da Azure Cosmos DB. Per altre informazioni, vedere Importare da Azure Cosmos DB.

Come usare Importa dati

  1. Aggiungere il modulo Import Data (Importa dati ) all'esperimento. Questo modulo è disponibile nella categoria Input e output dei dati in Studio (versione classica).

  2. Fare clic su Avvia importazione guidata dati per configurare l'origine dati tramite una procedura guidata.

    La procedura guidata ottiene il nome e le credenziali dell'account e consente di configurare altre opzioni. Se si modifica una configurazione esistente, carica prima i valori correnti.

  3. Se non si vuole usare la procedura guidata, fare clic su Origine dati e scegliere il tipo di archiviazione basata sul cloud da cui si esegue la lettura.

    Le impostazioni aggiuntive dipendono dal tipo di archiviazione scelto e dal fatto che l'archiviazione sia protetta o meno. Potrebbe essere necessario specificare il nome dell'account, il tipo di file o le credenziali. Alcune origini non richiedono l'autenticazione; per altri utenti, potrebbe essere necessario conoscere il nome dell'account, una chiave o il nome del contenitore.

    Per informazioni dettagliate, vedere l'elenco delle origini dati.

  4. Selezionare l'opzione Usa risultati memorizzati nella cache se si vuole memorizzare nella cache il set di dati da riutilizzare nelle esecuzioni successive.

    Supponendo che non siano state apportate altre modifiche ai parametri del modulo, l'esperimento carica i dati solo la prima volta che il modulo viene eseguito e successivamente usa una versione memorizzata nella cache del set di dati.

    Deselezionare questa opzione se è necessario ricaricare i dati ogni volta che si esegue l'esperimento.

  5. Eseguire l'esperimento.

    Quando Importa dati carica i dati in Studio (versione classica), deduce il tipo di dati di ogni colonna in base ai valori contenuti, numerici o categorici.

    • Se è presente un'intestazione, questa viene usata per assegnare un nome alle colonne dal set di dati di output.

    • Se non sono presenti intestazioni di colonna esistenti nei dati, i nuovi nomi di colonna vengono generati usando il formato col1, col2,... , coln.

Risultati

Al termine dell'importazione, fare clic sul set di dati di output e selezionare Visualizza per verificare se i dati sono stati importati correttamente.

Se si desidera salvare i dati da riutilizzare, anziché importare un nuovo set di dati ogni volta che viene eseguito l'esperimento, fare clic con il pulsante destro del mouse sull'output e scegliere Salva come set di dati. Scegliere un nome per il set di dati. Il set di dati salvato mantiene i dati al momento del salvataggio e i dati non vengono aggiornati quando l'esperimento viene nuovamente eseguito, anche se il set di dati nell'esperimento cambia. Ciò può essere utile per creare snapshot di dati.

Dopo l'importazione dei dati, potrebbero essere necessari alcuni preparativi aggiuntivi per la modellazione e l'analisi:

Note tecniche

In questa sezione viene fornito un elenco dei problemi noti relativi al modulo Importa dati , oltre ad alcune informazioni generali sulla risoluzione dei problemi non specifiche di un tipo di origine.

Tipi di account supportati

Spesso Azure rilascia nuovi servizi o nuovi tipi di archiviazione; Tuttavia, si verifica in genere un ritardo durante l'implementazione del supporto per i nuovi tipi di account in Machine Learning Studio (versione classica).

  • Attualmente, Machine Learning supporta tutti gli account di archiviazione per utilizzo generico, ad eccezione di quelli che usano l'archiviazione con ridondanza della zona.

  • Sono supportate le opzioni di archiviazione con ridondanza locale e archiviazione con ridondanza geografica.

  • I BLOB in blocchi sono supportati, ma i BLOB di accodamento non sono.

Domande e problemi comuni

Questa sezione descrive alcuni problemi noti, domande comuni e soluzioni alternative.

Le intestazioni devono essere singole righe

Se si importano da file CSV, tenere presente che Machine Learning consente una singola riga di intestazione. Non è possibile inserire intestazioni a più righe.

Separatori personalizzati supportati nell'importazione ma non nell'esportazione

Il modulo Import Data supporta l'importazione di dati che usano separatori di colonna alternativi, ad esempio il punto e virgola (;), che viene spesso usato in Europa. Quando si importano dati da file CSV in archiviazione esterna, selezionare l'opzione CSV con codifiche e selezionare una codifica supportata.

Non è tuttavia possibile generare separatori alternativi quando si preparano i dati per l'esportazione usando il modulo Converti in csv .

Separazione delle colonne scadente sui dati stringa contenenti virgole

Quasi tutti i caratteri che possono essere specificati come separatore di colonna (tabulazioni, spazi, virgole e così via) possono essere trovati in modo casuale anche nei campi di testo. L'importazione di testo da CSV richiede sempre attenzione per evitare di separare il testo tra nuove colonne non necessarie. Si tratta di un problema comune nell'elaborazione del testo che probabilmente si è verificato e gestito in modi diversi.

I problemi possono verificarsi anche quando si tenta di esportare una colonna di dati stringa che contiene virgole. Machine Learning non supporta alcuna gestione speciale o una traduzione speciale di tali dati, ad esempio racchiudere le stringhe tra virgolette. Inoltre, non è possibile usare caratteri di escape prima di una virgola per assicurarsi che le virgole vengano gestite come carattere letterale. Di conseguenza, i nuovi campi vengono creati nel file di output per ogni virgola rilevata nel campo stringa.

Per evitare problemi durante l'esportazione, usare il modulo Pre-elabora testo per rimuovere i caratteri di punteggiatura dai campi stringa.

È anche possibile usare script R personalizzato o script Python per elaborare testo complesso e assicurarsi che i dati possano essere importati o esportati correttamente.

Codifica UTF-8 obbligatoria

Machine Learning richiede la codifica UTF-8. Se i dati importati usano una codifica diversa o sono stati esportati da un'origine dati che usa una codifica predefinita diversa, potrebbero essere visualizzati vari problemi nel testo.

Ad esempio, l'immagine seguente contiene lo stesso set di dati multilanguage esportato da Excel e quindi importato in Machine Learning in quattro combinazioni diverse di tipo di file e codifica.

Visualization of import encoding

Il terzo esempio rappresenta i dati persi durante il salvataggio da Excel in formato CSV, perché la codifica corretta non è stata specificata in quel momento. Pertanto, se si verificano problemi, assicurarsi di controllare non solo il file da cui si sta importando, ma se il file è stato esportato correttamente dall'origine.

Il set di dati non ha nomi di colonna

Se il set di dati da importare non include nomi di colonna, assicurarsi di specificare una delle opzioni "nessuna intestazione". In questo caso, Import Data aggiunge nomi di colonna predefiniti usando il formato Col1, Col2 e così via. Successivamente, usare Modifica metadati per correggere i nomi delle colonne.

Se si esporta un set di dati in un file CSV, usare Modifica metadati per aggiungere nomi di colonna prima di convertirlo o esportarlo.

Soluzioni alternative per origini dati non supportate

Se è necessario ottenere dati da un'origine non presente nell'elenco, è possibile provare diverse soluzioni alternative:

Per altre idee e soluzioni alternative, vedere il forum Machine Learning o Azure AI Gallery.

Parametri del modulo

Ogni origine dati deve essere configurata usando opzioni diverse. Questa tabella elenca solo le opzioni comuni a tutte le origini dati.

Name Intervallo Type Predefinito Descrizione
Origine dati Elenco Origine dati o sink Servizio BLOB in Archiviazione di Azure L'origine dati può essere HTTP, HTTPS anonima, un file nel servizio BLOB o nel servizio tabelle, un database SQL in Azure, un Azure SQL Data Warehouse, una tabella Hive o un endpoint OData.
Usare i risultati memorizzati nella cache VERO/FALSO Boolean FALSE Se TRUE, il modulo verificherà se l'esperimento è stato eseguito in precedenza usando la stessa origine e le stesse opzioni di input e, se viene trovata un'esecuzione precedente, vengono usati i dati nella cache. Se FALSE o se vengono trovate modifiche, i dati verranno ricaricati dall'origine.

Output

Nome Tipo Descrizione
Set di dati di risultati Tabella dati Set di dati con dati scaricati

Eccezioni

Eccezione Descrizione
Errore 0027 Viene generata un'eccezione quando due oggetti che dovrebbero essere delle stesse dimensioni sono differenti.
Errore 0003 Si verifica un'eccezione se uno o più input sono Null o vuoti.
Errore 0029 Viene generata un'eccezione quando viene passato un URI non valido.
Errore 0030 Viene generata un'eccezione se non è possibile scaricare un file.
Errore 0002 Viene generata un'eccezione se non è stato possibile analizzare o convertire uno o più parametri dal tipo specificato nel tipo richiesto dal metodo di destinazione.
Errore 0009 Viene generata un'eccezione se il nome dell'account di Archiviazione di Azure o il nome del contenitore non è stato specificato correttamente.
Errore 0048 Viene generata un'eccezione quando non è possibile aprire un file.
Errore 0015 Viene generata un'eccezione se la connessione al database non è riuscita.
Errore 0046 Viene generata un'eccezione quando non è possibile creare una directory nel percorso specificato.
Errore 0049 Viene generata un'eccezione quando non è possibile analizzare un file.

Per un elenco di errori specifici dei moduli di Studio (versione classica), vedere Machine Learning Codici di errore.

Per un elenco di eccezioni API, vedere Machine Learning codici di errore dell'API REST.

Vedi anche

Input e output dei dati
Conversioni di formato dati
Esportazione dei dati
Elenco moduli A-Z