Condividi tramite


Gestire l'intelligenza artificiale

Questo articolo fornisce indicazioni per gestire i carichi di lavoro di intelligenza artificiale durante tutto il ciclo di vita. Le organizzazioni ottengono prestazioni di IA coerenti quando stabiliscono processi operativi strutturati, implementano una governance corretta della distribuzione e mantengono procedure di monitoraggio complete.

Gestire le operazioni di intelligenza artificiale

I framework operativi forniscono una struttura per la gestione di progetti di intelligenza artificiale complessi. Questi framework garantiscono la coerenza tra i team di sviluppo e riducono gli errori che rallentano i cicli di recapito. È necessario stabilire processi operativi chiari per ottenere una gestione affidabile del carico di lavoro di intelligenza artificiale. Ecco come fare:

  1. Stabilire un centro di eccellenza per l'intelligenza artificiale per indicazioni strategiche. Un centro di intelligenza artificiale di eccellenza fornisce supervisione strategica e indicazioni tecniche per le distribuzioni di intelligenza artificiale nell'organizzazione. Questo gruppo garantisce che gli approcci di IA siano allineati agli obiettivi aziendali e ai requisiti tecnici. Usare il centro di intelligenza artificiale di eccellenza per valutare l'approccio di gestione più adatto alle esigenze dell'organizzazione e creare standard di distribuzione che supportano la governance e l'innovazione.

  2. Selezionare il framework operativo appropriato per il tipo di carico di lavoro. Diversi carichi di lavoro di intelligenza artificiale richiedono approcci operativi diversi che influiscono sui processi e sulle decisioni degli strumenti del team. Questa scelta determina la metodologia di sviluppo e l'integrazione dello stack di tecnologie. Usare framework MLOps per i flussi di lavoro di Machine Learning tradizionali e GenAIOps per carichi di lavoro generativi di intelligenza artificiale.

  3. Standardizzare gli strumenti di sviluppo in tutti i team. Gli strumenti coerenti eliminano i problemi di compatibilità tra gli ambienti del team e riducono le curve di apprendimento per gli sviluppatori. Questo approccio impedisce problemi di integrazione e accelera i cicli di sviluppo. Definire e standardizzare l'uso di SDK e API per coerenza tra i team di sviluppo. Per altre informazioni, vedere Scegliere l'SDK appropriato per supportare il caso d'uso

  4. Creare ambienti sandbox dedicati per la sperimentazione. Gli ambienti sandbox consentono test sicuri senza influire sui sistemi di produzione e offrono ai team la libertà di testare nuovi approcci. Questi ambienti impediscono al codice sperimentale di influire sui carichi di lavoro stabili. Usare un ambiente sandbox che rimane distinto dagli ambienti di sviluppo, test e produzione nel ciclo di vita di sviluppo di intelligenza artificiale. Mantenere la coerenza tra ambienti di sviluppo, test e produzione per evitare modifiche di rilievo durante l'innalzamento di livello tra gli ambienti.

  5. Semplificare le operazioni quando possibile. Le nuove funzionalità semplificano la personalizzazione e la distribuzione di agenti e modelli ottimizzati senza competenze specializzate. L'ottimizzazione tradizionale richiede ai data scientist esperti di curare i set di dati e creare pipeline specifiche delle attività, che creano complessità operativa. Usare Copilot Tuning (anteprima) in Microsoft 365 per perfezionare i modelli per le attività interne senza la necessità di competenze specialistiche.

Gestire la distribuzione di intelligenza artificiale

La gestione della distribuzione di intelligenza artificiale definisce chi può distribuire le risorse di intelligenza artificiale e gestisce questi endpoint. Un approccio strutturato garantisce alle organizzazioni un equilibrio tra la velocità di sviluppo e i requisiti di governance. È necessario stabilire un'autorità di distribuzione chiara per ottenere una gestione coerente delle risorse di intelligenza artificiale. Ecco come fare:

  1. Attribuire ai team di gestione dei carichi di lavoro l'autorità di distribuzione entro limiti di governance definiti. I team del carico di lavoro accelerano lo sviluppo quando controllano la distribuzione delle risorse di intelligenza artificiale senza attendere i processi di approvazione centrale. Questa autonomia riduce i colli di bottiglia e consente una risposta rapida ai requisiti aziendali mantenendo gli standard aziendali. Usare Criteri di Azure per applicare la governance in modo coerente tra gli ambienti del carico di lavoro e creare criteri di intelligenza artificiale che risocchino le lacune di governance. Per Azure AI Foundry, distribuire un'istanza per business unit e usare i progetti Azure AI Foundry per ogni caso d'uso all'interno della business unit anziché creare una risorsa condivisa centralizzata tra le business unit.

  2. Definire criteri di distribuzione di intelligenza artificiale chiari per entrambi gli approcci di gestione. I criteri di intelligenza artificiale forniscono protezioni che impediscono la deriva della configurazione e i gap di sicurezza garantendo al tempo stesso la conformità agli standard dell'organizzazione. Questi criteri riducono il rischio di utilizzo non autorizzato delle risorse di intelligenza artificiale. Creare criteri di intelligenza artificiale per applicare le impostazioni di filtro del contenuto e impedire l'uso di modelli non consentiti, quindi comunicare chiaramente questi criteri a tutti i team. Eseguire controlli regolari per garantire la conformità.

  3. Creare pipeline di integrazione continua e consegna continua per la distribuzione. Le pipeline automatizzate riducono gli errori manuali e garantiscono distribuzioni coerenti in ambienti, fornendo processi ripetibili che intercettano i problemi in anticipo. Queste pipeline mantengono gli standard di qualità durante lo sviluppo. Creare pipeline di dati che coprono controlli qualitativi del codice, unit test e test di integrazione e flussi di sperimentazione. Includere i passaggi di implementazione in produzione con processi di approvazione manuali per promuovere le release. Mantenere la separazione tra modelli e interfacce client per garantire aggiornamenti indipendenti dei componenti.

Gestire modelli di intelligenza artificiale

La gestione dei modelli di intelligenza artificiale prevede strutture di governance, monitoraggio continuo e manutenzione delle prestazioni nel tempo. Questo processo consente alle organizzazioni di allineare i modelli con standard etici, tenere traccia delle prestazioni del modello e garantire che i sistemi di intelligenza artificiale rimangano efficaci e allineati agli obiettivi aziendali. È necessario stabilire processi completi di gestione dei modelli per ottenere prestazioni di intelligenza artificiale affidabili. Ecco come fare:

  1. Definire una baseline di misurazione di intelligenza artificiale per il rilevamento delle prestazioni. Le baseline di misurazione garantiscono che i modelli di intelligenza artificiale siano allineati agli obiettivi aziendali e agli standard etici. Queste baseline forniscono criteri obiettivi per valutare le prestazioni del modello e la conformità responsabile dell'intelligenza artificiale all'interno dell'organizzazione. Stabilire indicatori KPI correlati a principi di intelligenza artificiale responsabili come equità, trasparenza e accuratezza, quindi eseguire il mapping di questi indicatori KPI a carichi di lavoro di intelligenza artificiale specifici.

  2. Identificare rapidamente le cause radice dei problemi di prestazioni. La visibilità in ogni fase delle interazioni con intelligenza artificiale consente di isolare i problemi e implementare azioni correttive in modo efficiente, impedendo errori a catena tra i sistemi. Ad esempio, determinare se gli errori del chatbot hanno origine dalla creazione di richieste o dalla comprensione del contesto del modello. Usare strumenti predefiniti come Azure Monitor e Application Insights per identificare proattivamente i colli di bottiglia e le anomalie delle prestazioni.

  3. Aggiornare i modelli di intelligenza artificiale in base ai criteri di performance. I modelli si degradano nel tempo a causa di modifiche ai dati e richiedono il riaddestramento per mantenere la rilevanza. La ripetizione regolare del training garantisce che i sistemi di intelligenza artificiale rimangano aggiornati con le esigenze aziendali e i modelli di dati. Pianificare il training in base alle metriche delle prestazioni del modello o ai requisiti aziendali per mantenere pertinenti i sistemi di intelligenza artificiale. Valutare i costi di training iniziali per valutare la frequenza di ripetizione del training ottimale perché la ripetizione del training può essere costosa. Mantenere il controllo della versione per i modelli e garantire meccanismi di rollback per le versioni sottoperformi.

  4. Stabilire processi di promozione del modello con soglie di qualità. I controlli di qualità assicurano che solo i modelli convalidati raggiungano gli ambienti di produzione. Questi processi impediscono che i modelli con prestazioni scarse influiscano sulle operazioni aziendali e mantengano standard di qualità coerenti. Usare i criteri di prestazione per promuovere i modelli addestrati, ottimizzati e riaddestrati in ambienti più elevati. Definire criteri di prestazioni univoci per ogni applicazione e stabilire flussi di lavoro chiari di promozione che includono passaggi di test e convalida.

  5. Tenere traccia delle pianificazioni di ritiro del modello per evitare interruzioni del servizio. Il monitoraggio del ritiro del modello previene problemi di prestazioni al termine del supporto del fornitore. Le organizzazioni che non hanno date di ritiro devono riscontrare problemi imprevisti di compatibilità o riduzione del servizio. Monitorare le date di ritiro per i modelli preaddestrati per mantenere la funzionalità quando i fornitori deprecano i servizi. Ad esempio, aggiornare i modelli generativi di intelligenza artificiale prima della deprecazione per mantenere le funzionalità di sistema. Usare il portale di Azure AI Foundry per visualizzare le date di ritiro del modello per tutte le distribuzioni.

Gestire i costi di intelligenza artificiale

La gestione dei costi di intelligenza artificiale garantisce alle organizzazioni di controllare le spese mantenendo al contempo le prestazioni in termini di calcolo, archiviazione e utilizzo dei token. Le organizzazioni necessitano di strategie di supervisione e ottimizzazione dei costi strutturate per evitare sovraccarichi del budget e ottimizzare l'efficienza delle risorse. È necessario stabilire processi di gestione dei costi completi per ottenere una spesa di intelligenza artificiale prevedibile. Ecco come fare:

  1. Implementare le procedure consigliate per la gestione dei costi per ogni servizio di intelligenza artificiale di Azure. I diversi servizi di intelligenza artificiale di Azure hanno modelli di determinazione prezzi e funzionalità di ottimizzazione univoci che influiscono sul costo totale di proprietà. La comprensione delle strutture di costo specifiche del servizio consente alle organizzazioni di selezionare le opzioni più convenienti per i carichi di lavoro. Ad esempio, seguire le indicazioni sulla gestione dei costi per Azure AI Foundry per ottimizzare le spese per ogni tipo di servizio.

  2. Monitorare i modelli di utilizzo per ottimizzare l'efficienza di fatturazione. Comprendere i punti di interruzione dei costi impedisce addebiti non necessari e consente alle organizzazioni di ottimizzare l'allocazione delle risorse. Tenere traccia dei modelli di utilizzo rivela le opportunità di modificare modelli e architettura per migliorare le prestazioni dei costi. Monitorare i token al minuto (TPM) e le richieste al minuto (RPM) per comprendere i modelli di utilizzo, quindi modificare i modelli e l'architettura in base a questi modelli. Usare soglie a prezzo fisso per servizi come la generazione di immagini o l'ottimizzazione oraria per evitare addebiti imprevisti. Prendere in considerazione i modelli di fatturazione basati sull'impegno per modelli di utilizzo coerenti per ridurre i costi complessivi.

  3. Stabilire avvisi e monitoraggio automatizzati dei costi. Gli avvisi automatizzati impediscono il sovraccarico del budget notificando ai team gli addebiti imprevisti prima di influire sui budget del progetto. Questi avvisi consentono la gestione proattiva dei costi e aiutano le organizzazioni a mantenere il controllo finanziario sulle iniziative di IA. Configurare gli avvisi relativi al budget in Gestione costi di Azure per tenere traccia della spesa rispetto alle soglie predefinite e definire strategie di budget allineate agli obiettivi aziendali. Creare avvisi a più soglie per fornire un avviso anticipato sugli aumenti dei costi.

Gestire i dati di intelligenza artificiale

La gestione dei dati di intelligenza artificiale garantisce precisione, integrità e conformità nel ciclo di vita dell'intelligenza artificiale. Le organizzazioni necessitano di processi strutturati di governance dei dati e di controllo della qualità per garantire prestazioni di intelligenza artificiale affidabili. È necessario stabilire procedure complete di gestione dei dati per ottenere risultati di IA coerenti. Ecco come fare:

  1. Creare e gestire set di dati d'oro per una convalida coerente. I set di dati golden forniscono benchmark standardizzati per testare i modelli di intelligenza artificiale in ambienti e versioni diversi. Questi set di dati autorevoli garantiscono criteri di valutazione coerenti e consentono di rilevare la riduzione delle prestazioni nel tempo. Sviluppare dei set di dati dorati che rappresentano i modelli di dati di produzione e usare questi set di dati per test e convalida regolari in tutti i carichi di lavoro di intelligenza artificiale. Aggiornare regolarmente i set di dati golden per riflettere i requisiti aziendali e i modelli di dati correnti.

  2. Implementare pipeline di dati sicure con controlli di integrità. L'integrità della pipeline di dati impedisce il danneggiamento e garantisce prestazioni affidabili del modello di intelligenza artificiale. Le pipeline sicure proteggono le informazioni riservate e mantengono la qualità dei dati dalla raccolta tramite la pre-elaborazione e l'archiviazione. Creare pipeline di dati personalizzate che includono controlli di convalida in ogni fase e implementare controlli di sicurezza per proteggere i dati durante il processo della pipeline. Usare test automatizzati per verificare la qualità e la coerenza dei dati prima di inserire i dati nei modelli di intelligenza artificiale.

  3. Monitorare le classificazioni di riservatezza dei dati e rispondere alle modifiche. Le classificazioni di riservatezza dei dati cambiano a causa dei requisiti aziendali e degli aggiornamenti normativi. Le organizzazioni devono tenere traccia di queste modifiche e aggiornare i sistemi di intelligenza artificiale di conseguenza per mantenere la conformità e la sicurezza. Sviluppare processi per identificare quando la riservatezza dei dati cambia e implementare procedure per rimuovere o sostituire i dati sensibili nei sistemi di intelligenza artificiale downstream. Usare Microsoft Defender for Cloud e Microsoft Purview per etichettare e gestire i dati sensibili in tutta l'organizzazione. Quando si verificano cambiamenti di sensibilità, identificare tutti i modelli di intelligenza artificiale che utilizzano i dati interessati e addestrare nuovamente i modelli con set di dati che escludono le informazioni sensibili riclassificate.

Gestire la continuità aziendale dell'intelligenza artificiale

La gestione della continuità aziendale protegge i sistemi di intelligenza artificiale da interruzioni e garantisce un rapido ripristino quando si verificano eventi imprevisti. Le organizzazioni necessitano di strategie in più aree e procedure di ripristino testate per mantenere la disponibilità del servizio di intelligenza artificiale. La pianificazione efficace della continuità impedisce interruzioni estese che influiscono sulle operazioni aziendali. È necessario stabilire processi completi di continuità aziendale per ottenere resilienza affidabile del sistema di intelligenza artificiale. Ecco come fare:

  1. Implementare il monitoraggio continuo in tutti i componenti di intelligenza artificiale. I carichi di lavoro di intelligenza artificiale cambiano nel tempo a causa dell'evoluzione dei dati, degli aggiornamenti dei modelli o dei cambiamenti nel comportamento degli utenti. Il monitoraggio continuo rileva queste modifiche in anticipo e impedisce una riduzione delle prestazioni che influisce sui risultati aziendali. Monitorare le distribuzioni di intelligenza artificiale, imodelli di intelligenza artificiale e i dati di intelligenza artificiale per garantire che i carichi di lavoro rimangano allineati agli indicatori KPI stabiliti. Eseguire controlli regolari per valutare i sistemi di intelligenza artificiale rispetto ai principi e alle metriche di IA responsabili definiti.

  2. Distribuire sistemi di intelligenza artificiale in più aree per la disponibilità elevata. Le distribuzioni in più aree impediscono singoli punti di errore e garantiscono che i servizi di intelligenza artificiale rimangano accessibili durante le interruzioni a livello di area. Questo approccio offre ridondanza geografica che protegge da errori dell'infrastruttura e calamità naturali. Distribuire sia sistemi generativi che tradizionali di intelligenza artificiale in più aree di Azure e implementare la ridondanza necessaria per i modelli sottoposti a training e ottimizzati per evitare di ripetere il training durante le interruzioni. Usare Frontdoor di Azure o Gestione traffico di Azure per instradare automaticamente il traffico tra aree.

  3. Testare regolarmente i piani di ripristino di emergenza per convalidare l'efficacia. I test regolari identificano le lacune nelle procedure di ripristino e assicurano che i team possano ripristinare in modo efficace i sistemi di intelligenza artificiale durante gli eventi imprevisti reali. Questi test verificano che tutti i componenti funzionino correttamente dopo il ripristino e aiutano le organizzazioni a perfezionare le procedure di risposta. Eseguire test trimestrali dei piani di ripristino di emergenza che includono processi di ripristino dei dati e procedure di convalida per tutti i componenti di intelligenza artificiale. Documentare i risultati dei test e aggiornare le procedure di ripristino in base alle lezioni apprese da ogni ciclo di test.

  4. Implementare il controllo della versione per tutti i componenti del sistema di intelligenza artificiale. I sistemi di controllo della versione tengono traccia delle modifiche e consentono il ripristino rapido delle configurazioni precedenti durante gli scenari di ripristino. Questo approccio fornisce audit trail per le modifiche e garantisce che i team possano identificare e ripristinare in modo efficiente le modifiche problematiche. Usare Git per gestire le modifiche ai modelli, alle pipeline di dati e alle configurazioni di sistema in tutti i carichi di lavoro di intelligenza artificiale. Implementare il controllo automatizzato che tiene traccia delle modifiche del modello e del sistema in modo che i team possano identificare e ripristinare rapidamente le modifiche non pianificate che influiscono sulle prestazioni.

  5. Creare strategie di backup automatizzate per gli asset di intelligenza artificiale. I backup automatizzati garantiscono che i componenti di intelligenza artificiale critici rimangano protetti senza intervento manuale. Queste strategie impediscono la perdita di dati e riducono i tempi di ripristino quando i sistemi necessitano di ripristino dopo gli eventi imprevisti. Stabilire pianificazioni di backup automatizzate per modelli, set di dati e file di configurazione con Backup di Azure o Archiviazione di Azure con opzioni con ridondanza geografica. Archiviare i backup in aree separate dalle distribuzioni primarie per garantire la disponibilità durante le interruzioni a livello di area.

  6. Documentare le procedure di ripristino con responsabilità chiare. Una documentazione chiara garantisce che i team possano eseguire le procedure di ripristino in modo coerente durante situazioni di stress elevato. Le procedure documentate riducono il tempo di ripristino e impediscono errori che si verificano quando i team operano senza linee guida stabilite. Creare runbook che definiscono procedure di ripristino dettagliate per diversi scenari di errore e assegnare ruoli e responsabilità specifici ai membri del team per ogni attività di ripristino. Aggiornare regolarmente la documentazione per riflettere le modifiche apportate ai processi di architettura e ripristino di intelligenza artificiale.

Passaggio successivo