MLOps (Machine Learning Operations)

2024-10-07

Questo articolo descrive tre architetture di Azure per le operazioni per l'apprendimento automatico con pipeline di integrazione continua e recapito continuo (CI/CD) end-to-end e pipeline di ripetizione del training. Le architetture sono destinate a queste applicazioni di IA:

Machine learning classico
Visione artificiale (CV)
Elaborazione del linguaggio naturale

Queste architetture sono il prodotto del progetto MLOps v2. Incorporano procedure consigliate identificate dagli architetti di soluzioni nel processo di sviluppo di varie soluzioni di machine learning. Il risultato è distribuibile, ripetibile e gestibile. Tutte e tre le architetture usano il servizio Azure Machine Learning.

Per un'implementazione con modelli di distribuzione di esempio per MLOps v2, vedere Repository GitHub di Azure MLOps v2.

Potenziali casi d'uso

Machine Learning classico: le previsioni, la regressione e la classificazione delle serie temporali sui dati strutturati tabulari sono i casi d'uso più comuni in questa categoria. Alcuni esempi:
- Classificazione binaria e con più etichette.
- Regressione lineare, polinomiale, ridge, lasso, quantile e Bayesian.
- ARIMA, autoregressivo, SARIMA, VAR, SES, LSTM.
CV: il framework MLOps, in questo articolo, è incentrato principalmente sui casi d'uso CV di segmentazione e classificazione immagini.
Elaborazione del linguaggio naturale: è possibile usare questo framework MLOps per implementare:
- Riconoscimento di entità denominate
- Classificazione testo
- Generazione testo
- Analisi valutazione
- Traduzione
- Risposta alle domande
- Riepilogo
- Rilevamento frasi
- Rilevamento lingua
- Tag delle parti del discorso

Le simulazioni IA, l'apprendimento avanzato per rinforzo e altre forme di IA non sono descritte in questo articolo.

MLOps come area di progettazione chiave per i carichi di lavoro di intelligenza artificiale

La pianificazione e l'implementazione di MLOps e GenAIOps sono un'area di progettazione principale nei carichi di lavoro di intelligenza artificiale in Azure. Per informazioni sui motivi per cui questi carichi di lavoro di Machine Learning necessitano di operazioni specializzate, vedere MLOps e GenAIOps per i carichi di lavoro di intelligenza artificiale in Azure in Azure Well-Architected Framework.

Architettura

Il modello di architettura MLOps v2 include quattro componenti modulari principali, o fasi, del ciclo di vita mlops:

Patrimonio di dati
Amministrazione e installazione
Sviluppo di modelli o fase del ciclo interno
Distribuzione modello o fase del ciclo esterno

I componenti precedenti, le connessioni tra di essi e i tipici utenti coinvolti sono standard in tutte le architetture di scenari MLOps v2. Le variazioni nei dettagli di ogni componente dipendono dallo scenario.

L'architettura di base di MLOps v2 per Machine Learning è lo scenario classico di Machine Learning per i dati tabulari. Le architetture CV e NLP si basano su e modificano questa architettura di base.

MLOps v2 illustra le architetture seguenti descritte in questo articolo:

Architettura classica di Machine Learning
Architettura CV di Machine Learning
Architettura di elaborazione del linguaggio naturale di Machine Learning

Architettura di Machine Learning classica

Scaricare un file di Visio di questa architettura.

Flusso di lavoro per l'architettura classica di Machine Learning

Patrimonio di dati

Questo componente illustra il patrimonio di dati dell'organizzazione e le potenziali origini dati e le destinazioni per un progetto di data science. I data engineer sono i proprietari principali di questo componente del ciclo di vita di MLOps v2. Le piattaforme dati di Azure in questo diagramma non sono esaustive o prescrittive. Un segno di spunta verde indica le origini dati e le destinazioni che rappresentano le procedure consigliate basate sul caso d'uso del cliente.
Amministrazione e installazione

Questo componente è il primo passaggio della distribuzione della soluzione MLOps v2. È costituito da tutte le attività correlate alla creazione e alla gestione di risorse e ruoli associati al progetto. Ad esempio, il team dell'infrastruttura potrebbe:
1. Creare repository di codice sorgente del progetto.
2. Usare Bicep o Terraform per creare aree di lavoro di Machine Learning.
3. Creare o modificare set di dati e risorse di calcolo per lo sviluppo e la distribuzione di modelli.
4. Definire gli utenti del team di progetto, i ruoli e i controlli di accesso ad altre risorse.
5. Creare pipeline CI/CD.
6. Creare componenti di monitoraggio per raccogliere e creare avvisi per le metriche del modello e dell'infrastruttura.
L'utente principale associato a questa fase è il team dell'infrastruttura, ma un'organizzazione potrebbe avere anche data engineer, ingegneri di Machine Learning o data scientist.
Sviluppo di modelli (fase del ciclo interno)

La fase del ciclo interno è costituita da un flusso di lavoro iterativo di data science che agisce all'interno di un'area di lavoro di Machine Learning dedicata e sicura. Il diagramma precedente mostra un flusso di lavoro tipico. Il processo inizia con l'inserimento dati, passa attraverso l'analisi esplorativa dei dati, la sperimentazione, lo sviluppo e la valutazione del modello e quindi registra un modello per l'uso in produzione. Questo componente modulare è indipendente e adattabile al processo usato dal team di data science per sviluppare modelli.

Le figure associate a questa fase includono data scientist e ingegneri di Machine Learning.
Registri di Machine Learning

Dopo che il team di data science sviluppa un modello che può essere distribuito nell'ambiente di produzione, registra il modello nel registro delle aree di lavoro di Machine Learning. Le pipeline CI attivate, automaticamente dalla registrazione del modello o dall'approvazione del ciclo human-in-the-loop controllata, alzano di livello il modello e qualsiasi altra dipendenza del modello alla fase di distribuzione del modello.

Le figure associate a questa fase sono in genere ingegneri di Machine Learning.
Distribuzione del modello (fase del ciclo esterno)

La fase di distribuzione del modello, o ciclo esterno, è costituita dalla fase di staging e test della preproduzione, dalla distribuzione di produzione e dal monitoraggio del modello, dei dati e dell'infrastruttura. Quando il modello soddisfa i criteri dell'organizzazione e del caso d'uso, le pipeline CD promuovono il modello e gli asset correlati tramite produzione, monitoraggio e potenziale ripetizione del training.

Le figure associate a questa fase sono principalmente ingegneri di Machine Learning.
Staging e test

La fase di staging e test varia in base alle procedure dei clienti. Questa fase include in genere operazioni quali la ripetizione del training e il test del candidato del modello sui dati di produzione, le distribuzioni di test per le prestazioni degli endpoint, i controlli della qualità dei dati, gli unit test e i controlli di intelligenza artificiale responsabili per il modello e la distorsione dei dati. Questa fase viene eseguita in una o più aree di lavoro dedicate e sicure di Machine Learning.
Distribuzione di produzione

Dopo che un modello ha superato la fase di gestione temporanea e test, gli ingegneri di Machine Learning possono usare l'approvazione controllata dall'utente nel ciclo per promuoverla alla produzione. Le opzioni di distribuzione del modello includono un endpoint batch gestito per scenari batch o un endpoint online gestito o una distribuzione Kubernetes che usa Azure Arc per scenari online quasi in tempo reale. La produzione viene generalmente eseguita in una o più aree di lavoro dedicate e sicure di Machine Learning.
Monitoraggio

Gli ingegneri di Machine Learning monitorano i componenti nella gestione temporanea, nei test e nella produzione per raccogliere metriche correlate alle modifiche apportate alle prestazioni del modello, dei dati e dell'infrastruttura. Possono usare queste metriche per intervenire. Il monitoraggio dei modelli e dei dati può includere la verifica della deriva del modello e dei dati, delle prestazioni del modello sui nuovi dati e dei problemi di IA responsabili. Il monitoraggio dell'infrastruttura potrebbe identificare la risposta lenta degli endpoint, la capacità di calcolo inadeguata o i problemi di rete.
Monitoraggio dati e modelli: eventi e azioni

In base a criteri di modello e dati, ad esempio soglie o pianificazioni delle metriche, trigger e notifiche automatizzati possono implementare azioni appropriate da intraprendere. Ad esempio, un trigger potrebbe ripetere il training di un modello per usare nuovi dati di produzione e quindi eseguire il loopback del modello allo staging e al test per una valutazione di preproduzione. In alternativa, un modello o un problema di dati potrebbe attivare un'azione che richiede un loopback alla fase di sviluppo del modello in cui i data scientist possono analizzare il problema e potenzialmente sviluppare un nuovo modello.
Monitoraggio infrastruttura: eventi e azioni

I trigger e le notifiche automatizzati possono implementare azioni appropriate da intraprendere in base ai criteri dell'infrastruttura, ad esempio un ritardo di risposta dell'endpoint o un calcolo insufficiente per la distribuzione. I trigger automatici e le notifiche possono attivare un loopback alla fase di installazione e amministrazione in cui il team dell'infrastruttura può analizzare il problema e potenzialmente riconfigurare le risorse di calcolo e di rete.

Architettura di Machine Learning CV

Scaricare un file di Visio di questa architettura.

Flusso di lavoro per l'architettura CV

L'architettura di Machine Learning CV si basa sull'architettura classica di Machine Learning, ma presenta modifiche specifiche per gli scenari CV supervisionati.

Patrimonio di dati

Questo componente mostra il patrimonio di dati dell'organizzazione e le potenziali origini dati e le destinazioni per un progetto di data science. I data engineer sono i proprietari principali di questo componente del ciclo di vita in MLOps v2. Le piattaforme dati di Azure in questo diagramma non sono esaustive o prescrittive. Le immagini per gli scenari CV possono provenire da varie origini dati. Per garantire l'efficienza durante lo sviluppo e la distribuzione di modelli CV con Machine Learning, è consigliabile Archiviazione BLOB di Azure e Azure Data Lake Storage.
Amministrazione e installazione

Questo componente è il primo passaggio della distribuzione mlops v2. È costituito da tutte le attività correlate alla creazione e alla gestione di risorse e ruoli associati al progetto. Per gli scenari CV, l'amministrazione e la configurazione dell'ambiente MLOps v2 sono in gran parte uguali a quella per l'apprendimento automatico classico, ma include un passaggio aggiuntivo. Il team dell'infrastruttura usa la funzionalità di etichettatura di Machine Learning o un altro strumento per creare progetti di etichettatura e annotazione delle immagini.
Sviluppo di modelli (fase del ciclo interno)

La fase del ciclo interno è costituita da un flusso di lavoro iterativo di data science eseguito all'interno di un'area di lavoro di Machine Learning dedicata e sicura. La differenza principale tra questo flusso di lavoro e lo scenario classico di Machine Learning è che l'etichettatura e l'annotazione delle immagini sono un componente chiave di questo ciclo di sviluppo.
Registri di Machine Learning

Dopo che il team di data science sviluppa un modello che può essere distribuito nell'ambiente di produzione, registra il modello nel registro delle aree di lavoro di Machine Learning. Le pipeline CI attivate automaticamente dalla registrazione del modello o dall'approvazione del ciclo human-in-the-loop controllata alzano di livello il modello e qualsiasi altra dipendenza del modello alla fase di distribuzione del modello.
Distribuzione del modello (fase del ciclo esterno)

La fase di distribuzione del modello, o ciclo esterno, è costituita dalla fase di staging e test della preproduzione, dalla distribuzione di produzione e dal monitoraggio del modello, dei dati e dell'infrastruttura. Quando il modello soddisfa i criteri dell'organizzazione e del caso d'uso, le pipeline CD promuovono il modello e gli asset correlati tramite produzione, monitoraggio e potenziale ripetizione del training.
Staging e test

La fase di staging e test varia in base alle procedure dei clienti. Questa fase include in genere operazioni come le distribuzioni di test per le prestazioni degli endpoint, i controlli della qualità dei dati, gli unit test e i controlli di intelligenza artificiale responsabili per il modello e la distorsione dei dati. Per gli scenari CV, gli ingegneri di Machine Learning non devono ripetere il training del candidato del modello sui dati di produzione a causa di vincoli di risorse e tempo. Il team di data science può invece usare i dati di produzione per lo sviluppo di modelli. Il modello candidato registrato dal ciclo di sviluppo viene valutato per la produzione. Questa fase viene eseguita in una o più aree di lavoro dedicate e sicure di Machine Learning.
Distribuzione di produzione

Dopo che un modello ha superato la fase di gestione temporanea e test, gli ingegneri di Machine Learning possono usare l'approvazione controllata dall'utente nel ciclo per promuoverla alla produzione. Le opzioni di distribuzione del modello includono un endpoint batch gestito per scenari batch o un endpoint online gestito o una distribuzione Kubernetes che usa Azure Arc per scenari online quasi in tempo reale. La produzione viene generalmente eseguita in una o più aree di lavoro dedicate e sicure di Machine Learning.
Monitoraggio

Gli ingegneri di Machine Learning monitorano i componenti nella gestione temporanea, nei test e nella produzione per raccogliere metriche correlate alle modifiche apportate alle prestazioni del modello, dei dati e dell'infrastruttura. Possono usare queste metriche per intervenire. Il monitoraggio dei modelli e dei dati può includere il controllo delle prestazioni del modello nelle nuove immagini. Il monitoraggio dell'infrastruttura potrebbe identificare la risposta lenta degli endpoint, la capacità di calcolo inadeguata o i problemi di rete.
Monitoraggio dati e modelli: eventi e azioni

Le fasi di monitoraggio dati e modello ed evento e azione di MLOps per l'elaborazione del linguaggio naturale sono le differenze principali rispetto all'apprendimento automatico classico. La ripetizione automatica del training non viene in genere eseguita negli scenari CV quando viene rilevata una riduzione delle prestazioni del modello sulle nuove immagini. In questo caso, è necessario un processo con intervento umano per esaminare e annotare nuove immagini per il modello che funziona male. L'azione successiva spesso torna al ciclo di sviluppo del modello per aggiornare il modello con le nuove immagini.
Monitoraggio infrastruttura: eventi e azioni

I trigger e le notifiche automatizzati possono implementare azioni appropriate da intraprendere in base ai criteri dell'infrastruttura, ad esempio un ritardo di risposta dell'endpoint o un calcolo insufficiente per la distribuzione. I trigger automatici e le notifiche possono attivare un loopback alla fase di installazione e amministrazione in cui il team dell'infrastruttura può analizzare il problema e potenzialmente riconfigurare l'ambiente, le risorse di calcolo e di rete.

Architettura di elaborazione del linguaggio naturale di Machine Learning

Scaricare un file di Visio di questa architettura.

Flusso di lavoro per l'architettura di elaborazione del linguaggio naturale

L'architettura di elaborazione del linguaggio naturale di Machine Learning si basa sull'architettura classica di Machine Learning, ma presenta alcune modifiche specifiche per gli scenari NLP.

Patrimonio di dati

Questo componente mostra il patrimonio di dati dell'organizzazione e le potenziali origini dati e le destinazioni per un progetto di data science. I data engineer sono i proprietari principali di questo componente del ciclo di vita in MLOps v2. Le piattaforme dati di Azure in questo diagramma non sono esaustive o prescrittive. Un segno di spunta verde indica le origini e le destinazioni che rappresentano le procedure consigliate basate sul caso d'uso del cliente.
Amministrazione e installazione

Questo componente è il primo passaggio della distribuzione mlops v2. È costituito da tutte le attività correlate alla creazione e alla gestione di risorse e ruoli associati al progetto. Per gli scenari di elaborazione del linguaggio naturale, l'amministrazione e la configurazione dell'ambiente MLOps v2 sono in gran parte uguali a quella per l'apprendimento automatico classico, ma con un passaggio aggiuntivo: creare progetti di etichettatura del testo e annotazione usando la funzionalità di etichettatura di Machine Learning o un altro strumento.
Sviluppo di modelli (fase del ciclo interno)

La fase del ciclo interno è costituita da un flusso di lavoro iterativo di data science eseguito all'interno di un'area di lavoro di Machine Learning dedicata e sicura. Il tipico ciclo di sviluppo di modelli NLP differisce dallo scenario classico di Machine Learning in quanto i passaggi di sviluppo tipici per questo scenario includono annotatori per frasi e tokenizzazione, normalizzazione e incorporamenti per i dati di testo.
Registri di Machine Learning

Dopo che il team di data science sviluppa un modello che può essere distribuito nell'ambiente di produzione, registra il modello nel registro delle aree di lavoro di Machine Learning. Le pipeline CI attivate automaticamente dalla registrazione del modello o dall'approvazione del ciclo human-in-the-loop controllata alzano di livello il modello e qualsiasi altra dipendenza del modello alla fase di distribuzione del modello.
Distribuzione del modello (fase del ciclo esterno)

La fase di distribuzione del modello, o ciclo esterno, è costituita dalla fase di staging e test della preproduzione, dalla distribuzione di produzione e dal monitoraggio del modello, dei dati e dell'infrastruttura. Quando il modello soddisfa i criteri dell'organizzazione e del caso d'uso, le pipeline CD promuovono il modello e gli asset correlati tramite produzione, monitoraggio e potenziale ripetizione del training.
Staging e test

La fase di staging e test varia in base alle procedure dei clienti. Questa fase include in genere operazioni quali la ripetizione del training e il test del candidato del modello sui dati di produzione, le distribuzioni di test per le prestazioni degli endpoint, i controlli della qualità dei dati, gli unit test e i controlli di intelligenza artificiale responsabili per il modello e la distorsione dei dati. Questa fase viene eseguita in una o più aree di lavoro dedicate e sicure di Machine Learning.
Distribuzione di produzione

Dopo che un modello ha superato la fase di gestione temporanea e test, gli ingegneri di Machine Learning possono usare l'approvazione controllata dall'utente nel ciclo per promuoverla alla produzione. Le opzioni di distribuzione del modello includono un endpoint batch gestito per scenari batch o un endpoint online gestito o una distribuzione Kubernetes che usa Azure Arc per scenari online quasi in tempo reale. La produzione viene generalmente eseguita in una o più aree di lavoro dedicate e sicure di Machine Learning.
Monitoraggio

Gli ingegneri di Machine Learning monitorano i componenti nella gestione temporanea, nei test e nella produzione per raccogliere metriche correlate alle modifiche apportate alle prestazioni del modello, dei dati e dell'infrastruttura. Possono usare queste metriche per intervenire. Il monitoraggio dei modelli e dei dati può includere la verifica della deriva del modello e dei dati, delle prestazioni del modello sui nuovi dati di testo e dei problemi di IA responsabili. Il monitoraggio dell'infrastruttura potrebbe identificare i problemi, ad esempio la risposta lenta degli endpoint, la capacità di calcolo inadeguata e i problemi di rete.
Monitoraggio dati e modelli: eventi e azioni

Come per l'architettura CV, le fasi di monitoraggio dati e modello ed evento e azione di MLOps per l'elaborazione del linguaggio naturale sono le differenze principali rispetto all'apprendimento automatico classico. La ripetizione automatica del training non viene in genere eseguita in scenari di elaborazione del linguaggio naturale quando viene rilevata una riduzione delle prestazioni del modello sul nuovo testo. In questo caso, è necessario un processo umano nel ciclo per esaminare e annotare nuovi dati di testo per il modello con prestazioni scarse. Spesso, l'azione successiva consiste nel tornare al ciclo di sviluppo del modello per aggiornare il modello con i nuovi dati di testo.
Monitoraggio infrastruttura: eventi e azioni

I trigger e le notifiche automatizzati possono implementare azioni appropriate da intraprendere in base ai criteri dell'infrastruttura, ad esempio un ritardo di risposta dell'endpoint o un calcolo insufficiente per la distribuzione. I trigger automatici e le notifiche possono attivare un loopback alla fase di installazione e amministrazione in cui il team dell'infrastruttura può analizzare il problema e potenzialmente riconfigurare le risorse di calcolo e di rete.

Componenti

Machine Learning è un servizio cloud che è possibile usare per eseguire il training, assegnare punteggi, distribuire e gestire modelli di Machine Learning su larga scala.
Azure Pipelines è un sistema di compilazione e test basato su Azure DevOps e usato per le pipeline di compilazione e versione. Azure Pipelines suddivide queste pipeline in passaggi logici denominati attività.
GitHub è una piattaforma di hosting del codice per il controllo della versione, la collaborazione e i flussi di lavoro CI/CD.
Azure Arc è una piattaforma che usa Azure Resource Manager per gestire le risorse di Azure e le risorse locali. Le risorse possono includere macchine virtuali, cluster Kubernetes e database.
Kubernetes è un sistema open source che è possibile usare per automatizzare la distribuzione, il ridimensionamento e la gestione delle applicazioni in contenitori.
Azure Data Lake Storage è un file system compatibile con Hadoop. È caratterizzato da uno spazio dei nomi gerarchico integrato e dalla grande quantità di scalabilità ed economia di Archiviazione BLOB.
Azure Synapse Analytics è un servizio di analisi illimitato che riunisce l'integrazione dei dati, il data warehousing aziendale e l'analisi dei Big Data.
Hub eventi di Azure è un servizio che inserisce flussi di dati generati da applicazioni client. Inserisce e archivia i dati di streaming mantenendo la sequenza di eventi ricevuti. I clienti possono connettersi agli endpoint degli hub per recuperare i messaggi da elaborare. Questa architettura usa l'integrazione di Data Lake Storage.

Altre considerazioni

Il modello di architettura MLOps v2 precedente include diversi componenti critici, tra cui il controllo degli accessi in base al ruolo (RBAC) allineato agli stakeholder aziendali, una gestione efficiente dei pacchetti e meccanismi di monitoraggio affidabili. Questi componenti contribuiscono collettivamente alla corretta implementazione e gestione dei flussi di lavoro di Machine Learning.

RBAC basato su persona

È fondamentale gestire l'accesso ai dati e alle risorse di Machine Learning. RBAC offre un framework affidabile che consente di gestire chi può eseguire azioni specifiche e accedere a aree specifiche all'interno della soluzione. Progettare la strategia di segmentazione delle identità per allinearsi al ciclo di vita dei modelli di Machine Learning in Machine Learning e alle figure coinvolte nel processo. Ogni figura ha un set specifico di responsabilità che si riflettono nei ruoli controllo degli accessi in base al ruolo e nell'appartenenza ai gruppi.

Figura di esempio

Per supportare una segmentazione appropriata in un workload di machine learning, considerare i seguenti profili comuni che contribuiscono alla progettazione del gruppo di controllo degli accessi in base all'identità.

Data scientist e ingegneri di Machine Learning

I data scientist e gli ingegneri di Machine Learning eseguono varie attività di machine learning e data science nel ciclo di vita dello sviluppo software di un progetto. I compiti includono l'analisi esplorativa dei dati e la pre-elaborazione dei dati. I data scientist e i tecnici di Machine Learning sono responsabili del training, della valutazione e della distribuzione di modelli. Queste responsabilità dei ruoli includono anche attività di correzione delle interruzioni per modelli, pacchetti e dati di Machine Learning. Questi compiti non rientrano nell'ambito del team di supporto tecnico della piattaforma.