Dati in Azure Machine Learning v1

Articolo
07/17/2024

SI APPLICA A: Estensione ML dell’interfaccia della riga di comando di Azure v1

Azure Machine Learning semplifica la connessione ai dati nel cloud. Fornisce un livello di astrazione sul servizio di archiviazione sottostante, in modo da poter accedere in modo sicuro e lavorare con i dati senza dover scrivere codice specifico per il tipo di archiviazione. Azure Machine Learning offre anche queste funzionalità di dati:

Interoperabilità con Pandas e i Dataframe Spark
Controllo delle versioni e rilevamento della derivazione dei dati
Etichettatura dei dati
Monitoraggio della deriva dei dati

Flusso di lavoro dei dati

Per usare i dati nella soluzione di archiviazione basata sul cloud, è consigliabile usare questo flusso di lavoro per il recapito dei dati. Il flusso di lavoro presuppone che l'utente abbia un account di Archiviazione di Azure e i dati in un servizio di archiviazione basato sul cloud di Azure.

Creare un archivio dati di Azure Machine Learning per archiviare le informazioni di connessione all'archiviazione di Azure
Da tale archivio dati, creare un set di dati di Azure Machine Learning in modo che punti a uno o più file specifici nella risorsa di archiviazione sottostante
Per usare tale set di dati nell'esperimento di Machine Learning, è possibile
- Montare il set di dati nella destinazione di calcolo dell'esperimento per il training del modello
  
  OPPURE
- Usare il set di dati direttamente nelle soluzioni di Azure Machine Learning, ad esempio esecuzioni di esperimenti di Machine Learning automatizzato (ML automatizzato), pipeline di Machine Learning o la finestra di progettazione di Azure Machine Learning.
Creare monitoraggi del set di dati affinché il set di dati di output del modello rilevi la deriva dei dati
Per la deriva dei dati rilevata, aggiornare il set di dati di input e ripetere il training del modello di conseguenza

Questo screenshot mostra il flusso di lavoro consigliato:

Connettersi alla risorsa di archiviazione con archivi dati

Gli archivi dati di Azure Machine Learning ospitano in modo sicuro le informazioni di connessione all'archiviazione dati in Azure, quindi non è necessario inserire tali informazioni negli script. Per altre informazioni sulla connessione a un account di archiviazione e all'accesso ai dati nel servizio di archiviazione sottostante, vedere Registrare e creare un archivio dati.

Questi servizi di archiviazione supportati basati sul cloud di Azure possono essere registrati come archivi dati:

Contenitore BLOB di Azure
Condivisione file di Azure
Azure Data Lake
Azure Data Lake Gen2
Database SQL di Microsoft Azure
Database di Azure per PostgreSQL
File system di Databricks
Database di Azure per MySQL

Suggerimento

È possibile creare archivi dati con autenticazione basata su credenziali per l'accesso ai servizi di archiviazione, ad esempio un'entità servizio o un token di firma di accesso condiviso. Gli utenti con accesso Lettore all'area di lavoro possono accedere a queste credenziali.

Se si tratta di un problema, visitare creare un archivio dati che usa l'accesso ai dati basato sull'identità per altre informazioni sulle connessioni ai servizi di archiviazione.

Dati di riferimento nella risorsa di archiviazione con set di dati

I set di dati di Azure Machine Learning non sono copie dei dati. La creazione del set di dati crea un riferimento ai dati nel servizio di archiviazione, insieme a una copia dei relativi metadati.

Poiché i set di dati vengono valutati in modo differito e i dati rimangono nella posizione esistente

Non sono previsti costi di archiviazione aggiuntivi
Non rischiare modifiche involontarie alle origini dati originali
Si migliora la velocità delle prestazioni del flusso di lavoro di ML

Per interagire con i dati nell'archiviazione, creare un set di dati per creare un pacchetto dei dati in un oggetto di consumo per le attività di Machine Learning. Registrare il set di dati nell'area di lavoro per condividerlo e riutilizzarlo in esperimenti diversi senza complessità di inserimento dati.

I set di dati possono essere creati da file locali, URL pubblici, set di dati aperti di Azure o dai servizi di archiviazione di Azure tramite archivi dati.

Esistono due tipi di set di dati:

Un FileDataset fa riferimento a uno o più file negli archivi dati o negli URL pubblici. Se i dati sono già puliti e pronti per essere utilizzati negli esperimenti di training, è possibile scaricare o montare i file a cui fanno riferimento i FileDatasets nella destinazione di calcolo
Un oggetto TabularDataset rappresenta i dati in un formato tabulare analizzando il file o l'elenco di file forniti. È possibile caricare un oggetto TabularDataset in un dataframe Pandas o Spark per ulteriori manipolazioni e pulizia. Per un elenco completo dei formati di dati da cui è possibile creare TabularDatasets, visitare la classe TabularDatasetFactory

Queste risorse offrono altre informazioni sulle funzionalità del set di dati:

Derivazione dei dati versione e rilevamento
Monitorare il set di dati per facilitare il rilevamento della deriva dei dati

Utilizzare i dati

Con i set di dati, è possibile eseguire attività di Machine Learning tramite un'integrazione semplice con le funzionalità di Azure Machine Learning.

Creare un progetto di etichettatura dei dati
Eseguire il training di modelli di Machine Learning:
Accedere ai set di dati per l'assegnazione dei punteggi tramite inferenza batch nelle pipeline di Machine Learning
Configurare un monitoraggio del set di dati per il rilevamento della deriva dei dati

Etichettare i dati con progetti di etichettatura dei dati

L'etichettatura di grandi volumi di dati nei progetti di Machine Learning può diventare un problema. I progetti di Machine Learning con un componente visione artificiale, ad esempio la classificazione di immagini o il rilevamento di oggetti, richiedono spesso migliaia di immagini ed etichette corrispondenti.

Azure Machine Learning offre una posizione centrale per creare, gestire e monitorare i progetti di etichettatura. I progetti di etichettatura consentono di coordinare i dati, le etichette e i membri del team, per una gestione più efficiente delle attività di etichettatura. Le attività attualmente supportate sono la classificazione delle immagini, multi-etichetta o multi-classe, e l'identificazione di oggetti tramite i riquadri di selezione.

Creare un progetto di etichettatura di immagini o un progetto di etichettatura del testo e restituire un set di dati da usare negli esperimenti di Machine Learning.

Monitorare le prestazioni del modello con deviazione dei dati

Nel contesto di Machine Learning, la deriva dei dati comporta la modifica relativa ai dati di input del modello che causano una riduzione del livello delle prestazioni del modello. È un motivo importante per cui l'accuratezza del modello peggiora nel tempo e il monitoraggio della deriva dei dati consente di rilevare i problemi di prestazioni del modello.

Per altre informazioni, vedere Creare un monitoraggio del set di dati per informazioni su come rilevare e avvisare la deriva dei dati sui nuovi dati in un set di dati.

Passaggi successivi

Creare un set di dati in studio di Azure Machine Learning o con Python SDK
Provare gli esempi di training del set di dati con i notebook di esempio

Condividi tramite