Glossario di Azure Machine Learning

Il glossario di Azure Machine Learning è un breve dizionario di terminologia per la piattaforma Machine Learning. Per la terminologia generale di Azure, vedere anche:

Componente

Un componente di Machine Learning è una parte autonoma di codice che esegue un passaggio in una pipeline di Machine Learning. I componenti sono i blocchi predefiniti delle pipeline avanzate di apprendimento automatico. I componenti possono eseguire attività come l'elaborazione dei dati, il training del modello e l'assegnazione dei punteggi del modello. Un componente è analogo a una funzione. Ha un nome e parametri, prevede l'input e restituisce l'output.

Calcolo

Un ambiente di calcolo è una risorsa di calcolo designata in cui si esegue il processo o si ospita l'endpoint. Machine Learning supporta i tipi di calcolo seguenti:

  • Cluster di calcolo: un'infrastruttura di calcolo gestita che è possibile usare per creare facilmente un cluster di nodi di calcolo CPU o GPU nel cloud.

    Nota

    Invece di creare un cluster di calcolo, usare l'ambiente di calcolo serverless per eseguire l'offload della gestione del ciclo di vita di calcolo in Azure Machine Learning.

  • Istanza di calcolo: ambiente di sviluppo completamente configurato e gestito nel cloud. È possibile usare l'istanza come ambiente di calcolo di training o inferenza per lo sviluppo e il test. È simile a una macchina virtuale nel cloud.

  • Cluster Kubernetes: usato per distribuire modelli di Machine Learning sottoposti a training in servizio Azure Kubernetes (servizio Azure Kubernetes). È possibile creare un cluster del servizio Azure Kubernetes dall'area di lavoro di Machine Learning o collegare un cluster del servizio Azure Kubernetes esistente.

  • Calcolo collegato: è possibile collegare le proprie risorse di calcolo all'area di lavoro e usarle per il training e l'inferenza.

Dati

Machine Learning consente di usare diversi tipi di dati:

  • URI (una posizione nell'archiviazione locale o cloud):
    • uri_folder
    • uri_file
  • Tabelle (astrazione di dati tabulari):
    • mltable
  • Primitive:
    • string
    • boolean
    • number

Per la maggior parte degli scenari, si usano gli URI (uri_folder e uri_file) per identificare una posizione nell'archiviazione che può essere facilmente mappata al file system di un nodo di calcolo in un processo montando o scaricando l'archiviazione nel nodo.

Il mltable parametro è un'astrazione per i dati tabulari usati per processi di Machine Learning automatizzati (AutoML), processi paralleli e alcuni scenari avanzati. Se si inizia a usare Machine Learning e non si usa AutoML, è consigliabile iniziare con gli URI.

Archivio dati

Gli archivi dati di Machine Learning mantengono in modo sicuro le informazioni di connessione all'archiviazione dei dati in Azure in modo che non sia necessario codificarli negli script. È possibile registrare e creare un archivio dati per connettersi facilmente all'account di archiviazione e accedere ai dati nel servizio di archiviazione sottostante. L'interfaccia della riga di comando di Azure Machine Learning v2 e l'SDK v2 supportano i tipi seguenti di servizi di archiviazione basati sul cloud:

  • Contenitore dell'archiviazione BLOB di Azure
  • Condivisione di File di Azure
  • Archiviazione di Azure Data Lake
  • Azure Data Lake Storage Gen2

Ambiente

Gli ambienti di Machine Learning sono un incapsulamento dell'ambiente in cui si verifica l'attività di Machine Learning. Specificano i pacchetti software, le variabili di ambiente e le impostazioni software per gli script di training e assegnazione dei punteggi. Gli ambienti sono entità gestite e con controllo delle versioni all'interno dell'area di lavoro di Machine Learning. Gli ambienti consentono flussi di lavoro riproducibili, controllabili e portabili di Machine Learning in vari calcoli.

Tipi di ambiente

Machine Learning supporta due tipi di ambienti: curati e personalizzati.

Gli ambienti curati vengono forniti da Machine Learning e sono disponibili nell'area di lavoro per impostazione predefinita. Sono destinati a essere usati così come sono. Contengono raccolte di pacchetti e impostazioni Python che consentono di iniziare a usare vari framework di Machine Learning. Questi ambienti precreati consentono anche tempi di distribuzione più rapidi. Per recuperare un elenco completo degli ambienti disponibili, vedere Ambienti di Azure Machine Learning con l'interfaccia della riga di comando e l'SDK (v2).

Negli ambienti personalizzati si è responsabili della configurazione dell'ambiente. Assicurarsi di installare i pacchetti e tutte le altre dipendenze necessarie per il training o lo script di assegnazione dei punteggi nel calcolo. Machine Learning consente di creare un ambiente personalizzato usando:

  • Immagine Docker.
  • Immagine Docker di base con conda YAML da personalizzare ulteriormente.
  • Contesto di compilazione Docker.

Modello

I modelli di Machine Learning sono costituiti dai file binari che rappresentano un modello di Machine Learning e tutti i metadati corrispondenti. È possibile creare modelli da un file o una directory locale o remota. Per le posizioni remote, https, wasbse azureml sono supportate. Il modello creato viene rilevato nell'area di lavoro con il nome e la versione specificati. Machine Learning supporta tre tipi di formati di archiviazione per i modelli:

  • custom_model
  • mlflow_model
  • triton_model

Area di lavoro

L'area di lavoro è la risorsa di primo livello per Machine Learning. Fornisce una posizione centralizzata per lavorare con tutti gli artefatti creati quando si usa Machine Learning. L'area di lavoro mantiene una cronologia di tutti i processi, compresi i log, le metriche, gli output e uno snapshot degli script. L'area di lavoro archivia i riferimenti alle risorse come archivi dati e ambiente di calcolo. Contiene anche tutti gli asset, ad esempio modelli, ambienti, componenti e asset di dati.

Passaggi successivi

Cos'è Azure Machine Learning?