Condividi tramite


Osservabilità nell'intelligenza artificiale generativa

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Il ciclo di vita dell'applicazione di intelligenza artificiale richiede framework di valutazione affidabili per garantire che i sistemi di intelligenza artificiale forniscano output accurati, pertinenti e affidabili. Senza una valutazione rigorosa, i sistemi di intelligenza artificiale rischiano di generare risposte imprecise, incoerenti, incoerenti o potenzialmente dannose. L'osservabilità consente ai team di misurare e migliorare sia la qualità che la sicurezza degli output di intelligenza artificiale durante il ciclo di vita di sviluppo, dalla selezione del modello al monitoraggio della produzione.

Annotazioni

Microsoft Foundry SDK per la valutazione e il portale foundry sono disponibili in anteprima pubblica, ma le API sono disponibili a livello generale per la valutazione del modello e del set di dati (la valutazione dell'agente rimane in anteprima pubblica). I valutatori contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima ovunque.

Che cos'è l'osservabilità?

L'osservabilità dell'intelligenza artificiale si riferisce alla possibilità di monitorare, comprendere e risolvere i problemi dei sistemi di intelligenza artificiale durante il ciclo di vita. I team possono tracciare, valutare, integrare controlli di qualità automatizzati nelle pipeline CI/CD e raccogliere segnali come metriche di valutazione, log, tracce e output del modello per ottenere visibilità su prestazioni, qualità, sicurezza e integrità operativa.

Funzionalità di osservabilità di base

Microsoft Foundry offre tre funzionalità di base che interagiscono per offrire un'osservabilità completa nel ciclo di vita dell'applicazione di intelligenza artificiale:

Evaluation

Gli analizzatori misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante lo sviluppo. Microsoft Foundry fornisce analizzatori predefiniti per metriche di qualità per utilizzo generico (coerenza, fluenza), metriche specifiche di RAG (base, pertinenza), sicurezza e sicurezza (odio/ingiustità, violenza, materiali protetti) e metriche specifiche dell'agente (accuratezza delle chiamate agli strumenti, completamento delle attività). Teams può anche creare analizzatori personalizzati personalizzati in base ai requisiti specifici del dominio.

Per un elenco completo degli analizzatori predefiniti, vedere Riferimenti agli analizzatori predefiniti.

Monitoraggio

Il monitoraggio della produzione garantisce che le applicazioni di intelligenza artificiale distribuite mantengano la qualità e le prestazioni in condizioni reali. Integrato con Application Insights di Monitoraggio di Azure, Microsoft Foundry offre dashboard in tempo reale che monitorano le metriche operative, l'utilizzo dei token, latenza, le percentuali di errore e i punteggi di qualità. Teams può configurare avvisi quando gli output non superano le soglie di qualità o producono contenuto dannoso, consentendo una rapida risoluzione dei problemi.

Per informazioni dettagliate sulla configurazione del monitoraggio della produzione, vedere Dashboard di Monitoraggio degli Agenti.

Tracciamento

La traccia distribuita acquisisce il flusso di esecuzione delle applicazioni di intelligenza artificiale, offrendo visibilità sulle chiamate LLM, sulle chiamate degli strumenti, sulle decisioni degli agenti e sulle dipendenze tra servizi. Basato sugli standard OpenTelemetry e integrato con Application Insights, il tracciamento consente il debug degli agenti con comportamenti complessi, l'identificazione dei colli di bottiglia delle prestazioni e la comprensione delle catene di ragionamento a più fasi. Microsoft Foundry supporta la traccia per framework diffusi, tra cui LangChain, Semantic Kernel e OpenAI Agents SDK.

Per indicazioni sull'implementazione della traccia, vedere Tracciare l'applicazione e tracciare con Agents SDK.

Che cosa sono gli analizzatori?

Gli analizzatori sono strumenti specializzati che misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante tutto il ciclo di vita dello sviluppo.

Per un elenco completo degli analizzatori predefiniti, vedere Riferimenti agli analizzatori predefiniti.

Gli analizzatori si integrano in ogni fase del ciclo di vita dell'IA per garantire affidabilità, sicurezza ed efficacia.

Diagramma del ciclo di vita dell'applicazione di intelligenza artificiale, che mostra la selezione del modello, la creazione di un'applicazione di intelligenza artificiale e l'operazionalizzazione.

Le tre fasi della valutazione del ciclo di vita delle applicazioni di intelligenza artificiale

Selezione del modello di base

Selezionare il modello di base corretto confrontando qualità, prestazioni delle attività, considerazioni etiche e profili di sicurezza in diversi modelli.

Strumenti disponibili: Benchmark di Microsoft Foundry per il confronto di modelli su set di dati pubblici o dati personalizzati e Azure AI Evaluation SDK per il test di endpoint di modello specifici.

Valutazione pre-produzione

Prima della distribuzione, i test approfonditi assicurano che l'agente di intelligenza artificiale o l'applicazione siano pronti per la produzione. Questa fase convalida le prestazioni tramite set di dati di valutazione, identifica i casi perimetrali, valuta l'affidabilità e misura le metriche chiave, tra cui conformità delle attività, importanza, pertinenza e sicurezza. Per la creazione di agenti pronti per la produzione con conversazioni a più turni, richiami di strumenti e gestione dello stato, vedere Servizio agente Foundry.

Diagramma della valutazione pre-produzione per modelli e applicazioni con i sei passaggi.

Strumenti e approcci di valutazione:

  • Porta i tuoi dati: valuta le applicazioni di intelligenza artificiale utilizzando i tuoi dati con analizzatori di qualità, sicurezza o personalizzati. Usare la procedura guidata di valutazione del portale foundry o Foundry SDK e visualizzare i risultati nel portale foundry.

  • Agente di red teaming per l'intelligenza artificiale: L'agente di red teaming per l'intelligenza artificiale simula attacchi complessi usando il framework PyRIT di Microsoft per identificare le vulnerabilità di sicurezza e affidabilità prima della distribuzione. Ideale da utilizzare con processi con intervento umano.

Monitoraggio post-produzione

Dopo la distribuzione, il monitoraggio continuo garantisce che l'applicazione di intelligenza artificiale mantenga la qualità in condizioni reali:

  • Metriche operative: misurazione regolare delle metriche operative dell'agente di intelligenza artificiale chiave
  • Valutazione continua: valutazione della qualità e della sicurezza del traffico di produzione a una frequenza campionata
  • Valutazione pianificata: valutazione pianificata della qualità e della sicurezza usando set di dati di test per rilevare la deriva del sistema
  • Red Teaming pianificato: test antagonisti pianificati per individuare le vulnerabilità di sicurezza operativa e sicurezza informatica
  • Avvisi di Monitoraggio di Azure: notifiche quando gli output non superano le soglie di qualità o producono contenuto dannoso

Integrato con Application Insights di Monitoraggio di Azure, il dashboard Foundry Observability offre informazioni dettagliate in tempo reale sulle metriche relative a prestazioni, sicurezza e qualità, consentendo la risoluzione rapida dei problemi e mantenendo l'attendibilità degli utenti.

Foglio informativo sulla valutazione

Scopo Processo Parametri, linee guida ed esempi
Come impostare il tracciamento? Configurare il tracciamento distribuito Panoramica della traccia

Utilizza il monitoraggio con Agents SDK
Che cosa stai valutando? Identificare o compilare analizzatori pertinenti Analizzatori predefiniti

Valutatori personalizzati

Esempi di Python SDK

Esempi di C# SDK
Quali dati è necessario usare? Caricare o generare un set di dati pertinente Selezionare o creare un set di dati
Come eseguire valutazioni? Eseguire la valutazione Esecuzioni di valutazione degli agenti

Esecuzione del cloud remoto
Come si è comportata la mia applicazione del modello di intelligenza artificiale? Analizzare i risultati Visualizzare i risultati della valutazione

Analisi del cluster
Come posso migliorare? Analizzare i risultati e ottimizzare gli agenti Analizzare gli errori di valutazione con l'analisi del cluster.

Ottimizzare gli agenti e rivalutare.

Esaminare i risultati della valutazione.

Supporto per le regioni, limiti di frequenza e supporto della rete virtuale

Per informazioni sulle aree che supportano gli analizzatori assistito dall'intelligenza artificiale, sui limiti di frequenza applicabili alle esecuzioni di valutazione e su come configurare il supporto della rete virtuale per l'isolamento della rete, vedere Supporto delle aree , limiti di frequenza e supporto della rete virtuale per la valutazione.

Pricing

Le funzionalità di osservabilità, come le valutazioni di rischio e sicurezza e le valutazioni nel playground dell'agente, vengono fatturate in base al consumo, come indicato nella pagina dei prezzi di Azure.

Importante

Le valutazioni nel playground degli agenti sono abilitate per impostazione predefinita per tutti i progetti Foundry e sono incluse nella fatturazione basata sul consumo. Per disattivare le valutazioni del playground, selezionare le metriche in alto a destra nel playground degli agenti e deselezionare tutti i valutatori.

Screenshot del portale di Foundry che mostra il playground degli agenti con le metriche selezionate.