Leggere in inglese

Condividi tramite


Ripristino di emergenza del servizio Foundry Agent

Nota

Questo documento fa riferimento al portale Microsoft Foundry (versione classica).

Nota

Questo documento fa riferimento al portale Microsoft Foundry (nuovo).

Questa serie di tre articoli fornisce indicazioni sul ripristino di emergenza per il servizio agente Foundry, concentrandosi sulla modalità di distribuzione Standard. Illustra come preparare le risorse di Azure, eseguire procedure di ripristino e identificare gli scenari di errore da cui non è possibile eseguire completamente il ripristino.

Le distribuzioni del servizio Azure AI Agent possono riscontrare eventi imprevisti che influiscono sulla disponibilità e l'integrità dei dati in questi componenti:

  • API del piano dati: servizi responsabili della creazione, dell'aggiornamento e della chiamata di agenti
  • Host delle capacità dell'agente: infrastruttura per progetto che ospita gli agenti
  • Definizioni degli agenti: richieste, connessioni alle informazioni, contesto basato su file e integrazioni degli strumenti
  • Thread di conversazione: conversazioni di testo e file caricati dall'utente

Le emergenze derivano da interruzioni prolungate della piattaforma o da errori umani o di automazione. Gli eventi imprevisti in qualsiasi componente possono rendere uno o più agenti non raggiungibili o inutilizzabili. Alcuni eventi imprevisti interrompono il normale funzionamento del servizio.

Il servizio agente IA è con stato. Il ripristino è incentrato sul mantenimento e sul ripristino di tale stato archiviato nel tuo progetto Azure Cosmos DB, Ricerca AI di Azure e Account Azure Storage. Questa guida non tratta il ripristino di altre funzionalità di Fonderia Microsoft né di store o strumenti usati dagli agenti.

Funzionalità di ripristino predefinite

Servizio Agente presenta importanti limitazioni che incidono sulla progettazione della funzione di ripristino di emergenza del carico di lavoro. Prendere in considerazione questi fattori quando si impostano obiettivi realistici del punto di ripristino (RPO) e obiettivi del tempo di ripristino (RTO).

Importante

Il servizio Agent non offre funzionalità di ripristino di emergenza predefinite. Non replica lo stato, crea backup o supporta il ripristino temporizzato. Un progetto non può usare i dati di un altro progetto. Il servizio non include alcun metodo supportato per la replica attiva-attiva e in più aree. L'assistenza Microsoft non può recuperare i dati orfani, eseguire la migrazione dei dati tra progetti o combinare lo stato da più fonti.

Le raccomandazioni contenute in questa guida sono controlli di compensazione. Il ripristino potrebbe non essere possibile. Un evento imprevisto può rimuovere definitivamente un agente e i relativi dati, ad esempio thread e conoscenze.

Implicazioni generali per la progettazione del ripristino

  • Trattare ciascuna capacità indipendente per il carico di lavoro come un raggio di esplosione isolato. Progettare decisioni e procedure di ripristino per supportare il ripristino indipendente. Questo limite è in genere un singolo progetto Foundry, ma può essere costituito da più progetti che condividono le stesse dipendenze e gli stessi requisiti di ripristino.
  • Il punto di ripristino per il contenuto con stato può provocare una perdita completa. Pianificare l'accettazione di tale perdita da parte dell'azienda e dell'utente.
  • Il tempo di ripristino dipende principalmente dalla velocità con cui è possibile riapplicare l'infrastruttura come codice e ridistribuire le definizioni degli agenti. Investire in automazione di conseguenza.
  • Gli ambienti warm standby vengono avviati per lo più vuoti. Il ripristino consiste nella ricostruzione, non nella promozione di una replica ad accesso frequente.
  • Evitare progettazioni o aspettative degli utenti che presuppongono che sia possibile consolidare in un secondo momento i dati di un ambiente di ripristino nei dati di un ambiente di produzione.

Prevenzione delle emergenze

Prevenire le emergenze è più semplice e meno costoso rispetto al ripristino da essi. Impedire che le emergenze si verifichino al primo posto applicando misure proattive. Per altre informazioni, vedere Disponibilità elevata e resilienza per i progetti Foundry e i servizi agente.

Configurazione delle risorse per supportare il ripristino

Configurare le risorse per supportare il ripristino prima che si verifichi un evento imprevisto. Abilitare funzionalità e impostazioni specifiche che facilitano i processi di ripristino. Per altre informazioni, vedere Disponibilità elevata e resilienza: Configurazione delle risorse per supportare il ripristino.

Ripristino da interruzioni di Azure

Nel modello di distribuzione standard il servizio Agent è un servizio gestito congiuntamente. Microsoft gestisce e aggiorna il piano di controllo e l'host delle capacità. L'utente gestisce le risorse con stato dell'agente: Azure Cosmos DB, Azure AI Search e l'account di Archiviazione di Azure. Tutti questi servizi dipendono dalla disponibilità dell'area di distribuzione. Se Azure riscontra un'interruzione prolungata a livello di area, l'approccio al ripristino è incentrato sull'esecuzione di un'altra istanza in un'area che non riscontra un'interruzione.

Ripristino da eventi imprevisti relativi a risorse e perdite di dati

Il Servizio Agente contiene una quantità significativa di risorse con stato e interconnesse di cui l'utente è responsabile nel proprio carico di lavoro. Un processo di automazione o utente può eliminare o danneggiare tale stato. L'interruzione potrebbe essere accidentale o dannosa. L'approccio di ripristino varia a seconda della risorsa o dell'elemento dati perso.

Continuità aziendale

Il ripristino di emergenza è solo una parte della strategia di continuità aziendale. Per i flussi basati su agente, pianificare come continuare a distribuire valore quando gli agenti sono inoperabili o i dati vengono persi. Impostare aspettative realistiche con utenti e partner commerciali. Tornare alle contingenze pianificate se necessario.

Ad esempio, l'integrazione di Purview fornisce una rete di sicurezza di conformità per i carichi di lavoro che richiedono eDiscovery. Se gli agenti e i relativi thread vengono persi, è comunque possibile rispondere alle richieste di eDiscovery usando Purview. Questo approccio non ripristina le funzionalità o i dati dell'agente, ma consente di soddisfare le esigenze di continuità della conformità.

Analogamente, se l'agente offre funzionalità di supporto clienti per ridurre la quantità di tempo umano impiegato con i singoli clienti, è possibile eseguire il fallback alle operazioni di posta elettronica o supporto telefonico quando gli agenti non sono disponibili. La riduzione graduale pianificata nel carico di lavoro deve indirizzare gli utenti del carico di lavoro alle alternative.

Passaggi successivi

Avviare la progettazione del servizio Foundry Agent con strategie di ripristino per le interruzioni della piattaforma e quindi pianificare le strategie di ripristino delle risorse e della perdita di dati.

Nota: L'autore ha creato questo articolo con l’assistenza dell'intelligenza artificiale. Ulteriori informazioni

Risorse aggiuntive