Osservabilità nell'intelligenza artificiale generativa (classica)

Annotazioni

Questo documento fa riferimento al portale di Microsoft Foundry (versione classica).

🔍Per informazioni sul nuovo portale, vedere la documentazione di Microsoft Foundry (nuova).

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Il ciclo di vita dell'applicazione di intelligenza artificiale richiede framework di valutazione affidabili per garantire che i sistemi di intelligenza artificiale forniscano output accurati, pertinenti e affidabili. Senza una valutazione rigorosa, i sistemi di intelligenza artificiale rischiano di generare risposte imprecise, incoerenti, incoerenti o potenzialmente dannose. L'osservabilità consente ai team di misurare e migliorare sia la qualità che la sicurezza degli output di intelligenza artificiale durante il ciclo di vita di sviluppo, dalla selezione del modello al monitoraggio della produzione.

Annotazioni

Microsoft Foundry SDK per la valutazione e il portale foundry sono disponibili in anteprima pubblica, ma le API sono disponibili a livello generale per la valutazione del modello e del set di dati (la valutazione dell'agente rimane in anteprima pubblica). Azure AI Evaluation SDK e gli analizzatori contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica ovunque.

Che cos'è l'osservabilità?

L'osservabilità dell'intelligenza artificiale si riferisce alla possibilità di monitorare, comprendere e risolvere i problemi dei sistemi di intelligenza artificiale durante il ciclo di vita. I team possono tracciare, valutare, integrare controlli di qualità automatizzati nelle pipeline CI/CD e raccogliere segnali come metriche di valutazione, log, tracce e output del modello per ottenere visibilità su prestazioni, qualità, sicurezza e integrità operativa.

Funzionalità di osservabilità di base

Microsoft Foundry offre tre funzionalità di base che interagiscono per offrire un'osservabilità completa nel ciclo di vita dell'applicazione di intelligenza artificiale:

Evaluation

Gli analizzatori misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante lo sviluppo. Microsoft Foundry fornisce analizzatori predefiniti per metriche di qualità per utilizzo generico (coerenza, fluenza), metriche specifiche di RAG (base, pertinenza), sicurezza e sicurezza (odio/ingiustità, violenza, materiali protetti) e metriche specifiche dell'agente (accuratezza delle chiamate agli strumenti, completamento delle attività). Teams può anche creare analizzatori personalizzati personalizzati in base ai requisiti specifici del dominio.

Per un elenco completo degli analizzatori predefiniti, vedere Riferimenti agli analizzatori predefiniti.

Monitoraggio

Il monitoraggio della produzione garantisce che le applicazioni di intelligenza artificiale distribuite mantengano la qualità e le prestazioni in condizioni reali. Integrato con Application Insights di Monitoraggio di Azure, Microsoft Foundry offre dashboard in tempo reale che monitorano le metriche operative, l'utilizzo dei token, latenza, le percentuali di errore e i punteggi di qualità. Teams può configurare avvisi quando gli output non superano le soglie di qualità o producono contenuto dannoso, consentendo una rapida risoluzione dei problemi.

Per informazioni dettagliate sulla configurazione del monitoraggio della produzione, vedere Dashboard di Monitoraggio degli Agenti.

Tracciamento

La traccia distribuita acquisisce il flusso di esecuzione delle applicazioni di intelligenza artificiale, offrendo visibilità sulle chiamate LLM, sulle chiamate degli strumenti, sulle decisioni degli agenti e sulle dipendenze tra servizi. Basato sugli standard OpenTelemetry e integrato con Application Insights, il tracciamento consente il debug degli agenti con comportamenti complessi, l'identificazione dei colli di bottiglia delle prestazioni e la comprensione delle catene di ragionamento a più fasi. Microsoft Foundry supporta la traccia per framework diffusi, tra cui LangChain, Semantic Kernel e OpenAI Agents SDK.

Per indicazioni sull'implementazione della traccia, vedere Tracciare l'applicazione e tracciare con Agents SDK.

Che cosa sono gli analizzatori?

Gli analizzatori sono strumenti specializzati che misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante tutto il ciclo di vita dello sviluppo.

Per un elenco completo degli analizzatori predefiniti, vedere Riferimenti agli analizzatori predefiniti.

Gli analizzatori si integrano in ogni fase del ciclo di vita dell'IA per garantire affidabilità, sicurezza ed efficacia.

Le tre fasi della valutazione del ciclo di vita delle applicazioni di intelligenza artificiale

Selezione del modello di base

Selezionare il modello di base corretto confrontando qualità, prestazioni delle attività, considerazioni etiche e profili di sicurezza in diversi modelli.

Strumenti disponibili: Benchmark di Microsoft Foundry per il confronto di modelli su set di dati pubblici o dati personalizzati e Azure AI Evaluation SDK per il test di endpoint di modello specifici.

Valutazione pre-produzione

Prima della distribuzione, i test approfonditi assicurano che l'agente di intelligenza artificiale o l'applicazione siano pronti per la produzione. Questa fase convalida le prestazioni tramite set di dati di valutazione, identifica i casi perimetrali, valuta l'affidabilità e misura le metriche chiave, tra cui conformità delle attività, importanza, pertinenza e sicurezza. Per la creazione di agenti pronti per la produzione con conversazioni a più turni, richiami di strumenti e gestione dello stato, vedere Servizio agente Foundry.

Strumenti e approcci di valutazione:

Porta i tuoi dati: valuta agenti e applicazioni di intelligenza artificiale utilizzando i tuoi dati con analizzatori di qualità, sicurezza o personalizzati. Usare la procedura guidata di valutazione di Foundry o Azure AI Evaluation SDK e visualizzare i risultati nel portale foundry.
Agente di red teaming AI: L'agente di red teaming AI simula attacchi antagonisti complessi usando il framework PyRIT di Microsoft per identificare le vulnerabilità di sicurezza e di incolumità. Ideale da utilizzare con processi con intervento umano.

In alternativa, è anche possibile usare il portale Foundry per testare le applicazioni di intelligenza artificiale generative.

Monitoraggio post-produzione

Dopo la distribuzione, il monitoraggio continuo garantisce che l'applicazione di intelligenza artificiale mantenga la qualità in condizioni reali:

Metriche operative: misurazione regolare delle metriche operative dell'agente di intelligenza artificiale chiave
Valutazione continua: valutazione della qualità e della sicurezza del traffico di produzione a una frequenza campionata
Valutazione pianificata: valutazione pianificata della qualità e della sicurezza usando set di dati di test per rilevare la deriva del sistema
Red Teaming pianificato: test antagonisti pianificati per individuare le vulnerabilità di sicurezza operativa e sicurezza informatica
Avvisi di Monitoraggio di Azure: notifiche quando gli output non superano le soglie di qualità o producono contenuto dannoso

Integrato con Application Insights di Monitoraggio di Azure, il dashboard Foundry Observability offre informazioni dettagliate in tempo reale sulle metriche relative a prestazioni, sicurezza e qualità, consentendo la risoluzione rapida dei problemi e mantenendo l'attendibilità degli utenti.

Foglio informativo sulla valutazione

Scopo	Processo	Parametri, linee guida ed esempi
Come impostare il tracciamento?	Configurare il tracciamento distribuito	Traccia l'applicazione Utilizza il monitoraggio con Agents SDK
Che cosa stai valutando?	Identificare o compilare analizzatori pertinenti	Analizzatori predefiniti Valutatori personalizzati Esempi di Python SDK Esempi di C# SDK
Quali dati è necessario usare?	Caricare o generare un set di dati pertinente	Generazione di set di dati sintetici Eseguire il red teaming di intelligenza artificiale nel cloud
Come eseguire valutazioni?	Eseguire la valutazione	Esecuzioni di valutazione degli agenti Esecuzione del cloud remoto Esecuzione locale
Come ha eseguito il modello o l'app?	Analizzare i risultati	Visualizzare i risultati della valutazione
Come posso migliorare?	Analizzare i risultati della valutazione e ottimizzare gli agenti	Ottimizzare gli agenti eseguendo di nuovo le valutazioni, vedere Valutare i modelli di intelligenza artificiale generativi e le applicazioni nel portale. Analizzare i risultati della valutazione.

Supporto per le regioni, limiti di frequenza e supporto della rete virtuale

Per informazioni sulle aree che supportano gli analizzatori assistito dall'intelligenza artificiale, sui limiti di frequenza applicabili alle esecuzioni di valutazione e su come configurare il supporto della rete virtuale per l'isolamento della rete, vedere Supporto delle aree , limiti di frequenza e supporto della rete virtuale per la valutazione.

Pricing

Le funzionalità di osservabilità, ad esempio valutazioni di rischio e sicurezza e valutazioni continue, vengono fatturate in base al consumo, come indicato nella pagina dei prezzi di Azure.