Connettersi ai dati con lo studio di Azure Machine Learning
Questo articolo illustra come accedere ai dati con lo studio di Azure Machine Learning. Connettersi ai dati nei servizi di archiviazione di Azure con gli archivi dati di Azure Machine Learning. Creare quindi un pacchetto dei dati per le attività del flusso di lavoro di ML con set di dati di Azure Machine Learning.
Questa tabella definisce e riepiloga i vantaggi degli archivi dati e dei set di dati.
Oggetto | Descrizione | Vantaggi |
---|---|---|
Archivi dati | Per connettersi in modo sicuro al servizio di archiviazione in Azure archiviare le informazioni di connessione, ad esempio l'ID sottoscrizione e l'autorizzazione con token e così via, nell'istanza di Key Vault associata all'area di lavoro | Poiché le informazioni sono archiviate in modo sicuro, non vengono messe a rischio le credenziali di autenticazione o le origini dati originali e non è più necessario impostare come hardcoded questi valori negli script |
Set di dati | La creazione del set di dati crea anche un riferimento al percorso dell'origine dati, insieme a una copia dei relativi metadati. Con i set di dati è possibile accedere ai dati durante il training del modello, condividere i dati e collaborare con altri utenti e usare librerie open source, come pandas, per l'esplorazione dei dati. | Poiché i set di dati vengono valutati in modo differito e i dati rimangono nella posizione esistente, si mantiene una singola copia dei dati nella risorsa di archiviazione. Inoltre, non vengono addebitati costi di archiviazione aggiuntivi, si evitano modifiche accidental alle origini dati originali e si migliorano le prestazioni del flusso di lavoro di ML. |
Per informazioni sul ruolo degli archivi dati e dei set di dati nel flusso di lavoro generale di accesso ai dati di Azure Machine Learning, vedere Proteggere l'accesso ai dati.
Per altre informazioni su Azure Machine Learning Python SDK e un'esperienza code-first, vedere:
- Connettersi ai servizi di archiviazione di Azure con archivi dati
- Creare set di dati di Azure Machine Learning
Prerequisiti
Una sottoscrizione di Azure. Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare. Provare la versione gratuita o a pagamento di Azure Machine Learning
Accedere allo studio di Azure Machine Learning
Un'area di lavoro di Azure Machine Learning. Creare le risorse dell'area di lavoro
- Quando si crea un'area di lavoro, un contenitore BLOB di Azure e una condivisione file di Azure vengono registrati automaticamente come archivio dati nell'area di lavoro. A questi due elementi vengono assegnati, rispettivamente, i nomi
workspaceblobstore
eworkspacefilestore
. Per garantire risorse di archiviazione BLOB sufficienti,workspaceblobstore
viene impostato come archivio dati predefinito e già configurato per l'uso. Se sono necessarie più risorse di archiviazione BLOB, occorre un account di archiviazione di Azure, con un tipo di servizio di archiviazione supportato.
- Quando si crea un'area di lavoro, un contenitore BLOB di Azure e una condivisione file di Azure vengono registrati automaticamente come archivio dati nell'area di lavoro. A questi due elementi vengono assegnati, rispettivamente, i nomi
Creare archivi dati
È possibile creare archivi dati da queste soluzioni di archiviazione di Azure. Per le soluzioni di archiviazione non supportate e per ridurre i costi di uscita dei dati durante gli esperimenti di ML, è necessario spostare i dati in una soluzione di archiviazione di Azure supportata. Per altre informazioni sugli archivi dati, vedere questa risorsa.
È possibile creare archivi dati con accesso basato su credenziali o basato sull'identità.
Creare un nuovo archivio dati con lo studio di Azure Machine Learning.
Importante
Se l'account di archiviazione dati si trova in una rete virtuale, sono necessari passaggi di configurazione aggiuntivi per assicurarsi che lo studio possa accedere ai dati. Per altre informazioni sui passaggi di configurazione appropriati, vedere Isolamento rete e privacy.
- Accedere ad Azure Machine Learning Studio.
- Selezionare Dati nel riquadro sinistro in Asset.
- Nella parte superiore selezionare Archivi dati.
- Seleziona + Crea.
- Completare il modulo per creare e registrare un nuovo archivio dati. Il modulo si aggiorna in modo intelligente in base alle selezioni effettuate per il tipo di archiviazione di Azure e il tipo di autenticazione. Per altre informazioni su dove trovare le credenziali di autenticazione necessarie per popolare questo modulo, vedere la sezione Accesso alle risorse di archiviazione e autorizzazioni.
Questo screenshot mostra il pannello di creazione dell'archivio dati BLOB di Azure:
Creare asset di dati
Dopo aver creato un archivio dati, è possibile creare un set di dati per interagire con i dati. I set di dati consentono di creare un pacchetto dei dati da inserire in un oggetto consumabile valutato in modo differito per le attività di Machine Learning, ad esempio il training. Per altre informazioni sui set di dati, vedere Creare set di dati di Azure Machine Learning.
Esistono due tipi di set di dati: FileDataset e TabularDataset. I set FileDataset creano riferimenti a uno o più file o a URL pubblici. I set TabularDataset rappresentano invece i dati in formato tabulare. È possibile creare set di dati tabulari da
- .csv
- .tsv
- .parquet
- file JSON e dai risultati delle query SQL.
La procedura seguente illustra come creare un set di dati nello studio di Azure Machine Learning.
Nota
I set di dati creati tramite lo studio di Azure Machine Learning vengono registrati automaticamente nell'area di lavoro.
Passare allo studio di Azure Machine Learning
Nel riquadro di spostamento a sinistra selezionare Dati in Asset. Nella scheda Asset di dati selezionare Crea
Specificare un nome e una descrizione facoltativa per l'asset di dati. In Tiposelezionare quindi un tipo di set di dati, File o Tabulare.
Verrà quindi visualizzato il riquadro Origine dati, come illustrato in questo screenshot:
Sono disponibili varie opzioni per l'origine dati. Per i dati già archiviati in Azure, scegliere "Da Archiviazione di Azure". Per caricare i dati dall'unità locale, scegliere "Da file locali". Per i dati archiviati in una posizione Web pubblica, scegliere "Da file Web". È anche possibile creare un asset di dati da un database SQL o da set di dati aperti di Azure.
Nel passaggio di selezione file selezionare la località in cui Azure deve archiviare i dati e i file di dati da usare.
- Abilitare Ignora convalida se i dati si trovano in una rete virtuale. Altre informazioni sull'isolamento della rete virtuale e sulla privacy.
Seguire la procedura per impostare lo schema e le impostazioni di analisi dei dati per l'asset di dati. Le impostazioni vengono prepopolate in base al tipo di file ed è possibile configurare ulteriormente le impostazioni prima della creazione dell'asset di dati.
Una volta raggiunto il passaggio Rivedi, fare clic su Crea nell'ultima pagina
Anteprima e profilo dei dati
Dopo aver creato il set di dati, verificare che sia possibile visualizzare il profilo e l'anteprima nello studio:
- Accedere allo studio di Azure Machine Learning
- Nel riquadro di spostamento a sinistra selezionare Dati in Asset.
- Selezionare il nome del set di dati da visualizzare.
- Selezionare la scheda Explore (Esplora).
- Selezionare la scheda Anteprima.
- Selezionare la scheda Profilo.
È possibile usare le statistiche di riepilogo nel set di dati per verificare se il set di dati è idoneo per Machine Learning. Per le colonne non numeriche, sono incluse solo statistiche di base come min, max e numero di errori. Le colonne numeriche offrono momenti statistici e quantili stimati.
Il profilo dati del set di dati di Azure Machine Learning include:
Nota
Per le funzionalità con tipi irrilevanti vengono visualizzate voci vuote.
Statistica | Descrizione |
---|---|
Funzionalità | Nome della colonna riepilogata |
Profilo | Visualizzazione in line in base al tipo dedotto. Le stringhe, i valori booleani e le date mostrano i conteggi dei valori. I decimali (numerici) mostrano istogrammi approssimativi. Queste visualizzazioni offrono una panoramica rapida della distribuzione dei dati |
Distribuzione dei tipi | Conteggio dei valori in linea dei tipi all'interno di una colonna. I valori Null hanno un proprio tipo, quindi questa visualizzazione è utile per rilevare valori insoliti o mancanti |
Type | Tipo di colonna dedotto. I valori possibili includono: stringhe, valori booleani, date e decimali |
Min | Valore minimo della colonna. Vengono visualizzate voci vuote per le funzionalità il cui tipo non ha un ordinamento intrinseco, ad esempio i valori booleani |
Max | Valore massimo della colonna. |
Conteggio | Numero totale di voci mancanti e non mancanti nella colonna |
Totale non mancanti | Numero di voci nella colonna che non sono mancanti. Le stringhe vuote e gli errori vengono considerati come valori, quindi non contribuiscono al "numero di voci non mancanti". |
Quantili | Valori approssimati a ogni quantile per una visione generale della distribuzione dei dati |
Media | Media aritmetica o media della colonna |
Deviazione standard | Misura della quantità di dispersione o variazione dei dati di questa colonna |
Scostamento | Misura del divario dei dati di questa colonna rispetto al relativo valore medio |
Asimmetria | Misura della differenza dei dati di questa colonna rispetto a una distribuzione normale |
Curtosi | Misura il livello di "simmetria" delle code dei dati di questa colonna, rispetto a una distribuzione normale |
Accesso al servizio di archiviazione e autorizzazioni
Per garantire una connessione sicura al servizio di archiviazione di Azure, Azure Machine Learning richiede che l'utente disponga delle autorizzazioni per accedere al servizio di archiviazione dei dati corrispondente. Questo accesso dipende dalle credenziali di autenticazione usate per registrare l'archivio dati.
Rete virtuale
Se l'account di archiviazione dati si trova in una rete virtuale, sono necessari passaggi di configurazione aggiuntivi per assicurarsi che Azure Machine Learning abbia accesso ai dati. Vedere Usare lo studio di Azure Machine Learning in una rete virtuale per assicurarsi venga applicata la procedura di configurazione appropriata durante la creazione e la registrazione dell'archivio dati.
Convalida dell'accesso
Avviso
L'accesso tra tenant agli account di archiviazione non è supportato. Se lo scenario in uso richiede l'accesso tra tenant, contattare l'alias del team di supporto dati di Azure Machine Learning all'indirizzo amldatasupport@microsoft.com per ricevere assistenza e ottenere una soluzione di codice personalizzata.
Come parte del processo iniziale di creazione e registrazione dell'archivio dati, Azure Machine Learning convalida automaticamente che il servizio di archiviazione sottostante esista e che l'entità di sicurezza fornita dall'utente (nome utente, entità servizio o token di firma di accesso condiviso) abbia accesso a tale risorsa di archiviazione specifica.
Dopo la creazione dell'archivio dati, questa convalida viene eseguita solo per i metodi che richiedono l'accesso al contenitore di archiviazione sottostante, non ogni volta che vengono recuperati gli oggetti dell'archivio dati. Ad esempio, la convalida avviene quando si scaricano file dall'archivio dati. Tuttavia, se si vuole modificare l'archivio dati predefinito, la convalida non viene eseguita.
Per autenticare l'accesso al servizio di archiviazione sottostante, fornire la chiave dell'account, i token di firma di accesso condiviso o l'entità servizio in base al tipo di archivio dati che si vuole creare. La matrice del tipo di archiviazione elenca i tipi di autenticazione supportati che corrispondono a ogni tipo di archivio dati.
È possibile trovare informazioni sulla chiave dell'account, sul token di firma di accesso condiviso e sull'entità servizio nel portale di Azure.
Per ottenere una chiave dell'account per l'autenticazione, selezionare Account di archiviazione nel riquadro sinistro e scegliere l'account di archiviazione da registrare
- La pagina Panoramica fornisce informazioni come il nome dell'account, il contenitore e il nome della condivisione file.
- Espandere il nodo Sicurezza e rete nel riquadro di spostamento a sinistra
- Selezionare Chiavi di accesso.
- I valori delle chiavi disponibili fungono da valori della chiave dell'account
Per ottenere un token di firma di accesso condiviso per l'autenticazione, selezionare Account di archiviazione nel riquadro sinistro e scegliere l'account di archiviazione desiderato
- Per ottenere il valore della chiave di accesso, espandere il nodo Sicurezza e rete nel riquadro di spostamento a sinistra
- Selezionare Firma di accesso condiviso
- Completare il processo per generare il valore della firma di accesso condiviso
Per usare un'entità servizio per l'autenticazione, passare a Registrazioni app e selezionare l'app da usare.
- La pagina Panoramica corrispondente conterrà le informazioni necessarie, come ID tenant e ID client.
Importante
- Per modificare le chiavi di accesso per un account di archiviazione di Azure (chiave dell'account o token di firma di accesso condiviso), assicurarsi di sincronizzare le nuove credenziali sia con l'area di lavoro sia con gli archivi dati connessi. Per altre informazioni, vedere Sincronizzare le credenziali aggiornate.
- Se si annulla la registrazione e si registra nuovamente un archivio dati con lo stesso nome, ma l'operazione non riesce, è possibile che l'eliminazione temporanea non sia abilitata per l'istanza di Azure Key Vault per l'area di lavoro. Per impostazione predefinita, l'eliminazione temporanea è abilitata per l'istanza di Key Vault creata dall'area di lavoro, ma potrebbe non essere abilitata se è stato usato un insieme di credenziali delle chiavi esistente o se è stata creata un'area di lavoro prima di ottobre 2020. Per informazioni su come abilitare l'eliminazione temporanea, vedere Attivare l'eliminazione temporanea per un insieme di credenziali delle chiavi esistente.
Autorizzazioni
Per l'archiviazione con contenitore BLOB di Azure e Azure Data Lake Gen2, assicurarsi che le credenziali di autenticazione abbiano l'accesso come Ruolo con autorizzazioni di lettura per i dati dei BLOB di archiviazione. Altre informazioni su Ruolo con autorizzazioni di lettura per i dati dei BLOB di archiviazione. Per impostazione predefinita, un token di firma di accesso condiviso dell'account non prevede autorizzazioni.
Per l'accesso in lettura ai dati, le credenziali di autenticazione devono avere un minimo di autorizzazioni di elenco e lettura per contenitori e oggetti.
Per l'accesso in scrittura ai dati, sono necessarie anche autorizzazioni di scrittura e aggiunta.
Eseguire il training con set di dati
Usare i set di dati negli esperimenti di Machine Learning per il training dei modelli di Machine Learning. Vedere altre informazioni su come eseguire il training con i set di dati.
Passaggi successivi
Esempio dettagliato di training con TabularDatasets e ML automatizzato
Per altri esempi di training del set di dati, vedere i notebook di esempio