Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.
Il ciclo di vita dell'applicazione di intelligenza artificiale richiede framework di valutazione affidabili per garantire che i sistemi di intelligenza artificiale forniscano output accurati, pertinenti e affidabili. Senza una valutazione rigorosa, i sistemi di intelligenza artificiale rischiano di generare risposte imprecise, incoerenti, incoerenti o potenzialmente dannose. L'osservabilità consente ai team di misurare e migliorare sia la qualità che la sicurezza degli output di intelligenza artificiale durante il ciclo di vita di sviluppo, dalla selezione del modello al monitoraggio della produzione.
Annotazioni
Microsoft Foundry SDK per la valutazione e il portale foundry sono disponibili in anteprima pubblica, ma le API sono disponibili a livello generale per la valutazione del modello e del set di dati (la valutazione dell'agente rimane in anteprima pubblica). I valutatori contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima ovunque.
Che cos'è l'osservabilità?
L'osservabilità dell'intelligenza artificiale si riferisce alla possibilità di monitorare, comprendere e risolvere i problemi dei sistemi di intelligenza artificiale durante il ciclo di vita. I team possono tracciare, valutare, integrare controlli di qualità automatizzati nelle pipeline CI/CD e raccogliere segnali come metriche di valutazione, log, tracce e output del modello per ottenere visibilità su prestazioni, qualità, sicurezza e integrità operativa.
Funzionalità di osservabilità di base
Microsoft Foundry offre tre funzionalità di base che interagiscono per offrire un'osservabilità completa nel ciclo di vita dell'applicazione di intelligenza artificiale:
Evaluation
Gli analizzatori misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante lo sviluppo. Microsoft Foundry fornisce analizzatori predefiniti per metriche di qualità per utilizzo generico (coerenza, fluenza), metriche specifiche di RAG (base, pertinenza), sicurezza e sicurezza (odio/ingiustità, violenza, materiali protetti) e metriche specifiche dell'agente (accuratezza delle chiamate agli strumenti, completamento delle attività). Teams può anche creare analizzatori personalizzati personalizzati in base ai requisiti specifici del dominio.
Per un elenco completo degli analizzatori predefiniti, vedere Riferimenti agli analizzatori predefiniti.
Monitoraggio
Il monitoraggio della produzione garantisce che le applicazioni di intelligenza artificiale distribuite mantengano la qualità e le prestazioni in condizioni reali. Integrato con Application Insights di Monitoraggio di Azure, Microsoft Foundry offre dashboard in tempo reale che monitorano le metriche operative, l'utilizzo dei token, latenza, le percentuali di errore e i punteggi di qualità. Teams può configurare avvisi quando gli output non superano le soglie di qualità o producono contenuto dannoso, consentendo una rapida risoluzione dei problemi.
Per informazioni dettagliate sulla configurazione del monitoraggio della produzione, vedere Dashboard di Monitoraggio degli Agenti.
Tracciamento
La traccia distribuita acquisisce il flusso di esecuzione delle applicazioni di intelligenza artificiale, offrendo visibilità sulle chiamate LLM, sulle chiamate degli strumenti, sulle decisioni degli agenti e sulle dipendenze tra servizi. Basato sugli standard OpenTelemetry e integrato con Application Insights, il tracciamento consente il debug degli agenti con comportamenti complessi, l'identificazione dei colli di bottiglia delle prestazioni e la comprensione delle catene di ragionamento a più fasi. Microsoft Foundry supporta la traccia per framework diffusi, tra cui LangChain, Semantic Kernel e OpenAI Agents SDK.
Per indicazioni sull'implementazione della traccia, vedere Tracciare l'applicazione e tracciare con Agents SDK.
Che cosa sono gli analizzatori?
Gli analizzatori sono strumenti specializzati che misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale durante tutto il ciclo di vita dello sviluppo.
Per un elenco completo degli analizzatori predefiniti, vedere Riferimenti agli analizzatori predefiniti.
Gli analizzatori si integrano in ogni fase del ciclo di vita dell'IA per garantire affidabilità, sicurezza ed efficacia.
Le tre fasi della valutazione del ciclo di vita delle applicazioni di intelligenza artificiale
Selezione del modello di base
Selezionare il modello di base corretto confrontando qualità, prestazioni delle attività, considerazioni etiche e profili di sicurezza in diversi modelli.
Strumenti disponibili: Benchmark di Microsoft Foundry per il confronto di modelli su set di dati pubblici o dati personalizzati e Azure AI Evaluation SDK per il test di endpoint di modello specifici.
Valutazione pre-produzione
Prima della distribuzione, i test approfonditi assicurano che l'agente di intelligenza artificiale o l'applicazione siano pronti per la produzione. Questa fase convalida le prestazioni tramite set di dati di valutazione, identifica i casi perimetrali, valuta l'affidabilità e misura le metriche chiave, tra cui conformità delle attività, importanza, pertinenza e sicurezza. Per la creazione di agenti pronti per la produzione con conversazioni a più turni, richiami di strumenti e gestione dello stato, vedere Servizio agente Foundry.
Strumenti e approcci di valutazione:
Porta i tuoi dati: valuta le applicazioni di intelligenza artificiale utilizzando i tuoi dati con analizzatori di qualità, sicurezza o personalizzati. Usare la procedura guidata di valutazione del portale foundry o Foundry SDK e visualizzare i risultati nel portale foundry.
Agente di red teaming per l'intelligenza artificiale: L'agente di red teaming per l'intelligenza artificiale simula attacchi complessi usando il framework PyRIT di Microsoft per identificare le vulnerabilità di sicurezza e affidabilità prima della distribuzione. Ideale da utilizzare con processi con intervento umano.
Monitoraggio post-produzione
Dopo la distribuzione, il monitoraggio continuo garantisce che l'applicazione di intelligenza artificiale mantenga la qualità in condizioni reali:
- Metriche operative: misurazione regolare delle metriche operative dell'agente di intelligenza artificiale chiave
- Valutazione continua: valutazione della qualità e della sicurezza del traffico di produzione a una frequenza campionata
- Valutazione pianificata: valutazione pianificata della qualità e della sicurezza usando set di dati di test per rilevare la deriva del sistema
- Red Teaming pianificato: test antagonisti pianificati per individuare le vulnerabilità di sicurezza operativa e sicurezza informatica
- Avvisi di Monitoraggio di Azure: notifiche quando gli output non superano le soglie di qualità o producono contenuto dannoso
Integrato con Application Insights di Monitoraggio di Azure, il dashboard Foundry Observability offre informazioni dettagliate in tempo reale sulle metriche relative a prestazioni, sicurezza e qualità, consentendo la risoluzione rapida dei problemi e mantenendo l'attendibilità degli utenti.
Foglio informativo sulla valutazione
| Scopo | Processo | Parametri, linee guida ed esempi |
|---|---|---|
| Come impostare il tracciamento? | Configurare il tracciamento distribuito |
Panoramica della traccia Utilizza il monitoraggio con Agents SDK |
| Che cosa stai valutando? | Identificare o compilare analizzatori pertinenti |
Analizzatori predefiniti Valutatori personalizzati Esempi di Python SDK Esempi di C# SDK |
| Quali dati è necessario usare? | Caricare o generare un set di dati pertinente | Selezionare o creare un set di dati |
| Come eseguire valutazioni? | Eseguire la valutazione |
Esecuzioni di valutazione degli agenti Esecuzione del cloud remoto |
| Come si è comportata la mia applicazione del modello di intelligenza artificiale? | Analizzare i risultati |
Visualizzare i risultati della valutazione Analisi del cluster |
| Come posso migliorare? | Analizzare i risultati e ottimizzare gli agenti | Analizzare gli errori di valutazione con l'analisi del cluster. Ottimizzare gli agenti e rivalutare. Esaminare i risultati della valutazione. |
Supporto per le regioni, limiti di frequenza e supporto della rete virtuale
Per informazioni sulle aree che supportano gli analizzatori assistito dall'intelligenza artificiale, sui limiti di frequenza applicabili alle esecuzioni di valutazione e su come configurare il supporto della rete virtuale per l'isolamento della rete, vedere Supporto delle aree , limiti di frequenza e supporto della rete virtuale per la valutazione.
Pricing
Le funzionalità di osservabilità, come le valutazioni di rischio e sicurezza e le valutazioni nel playground dell'agente, vengono fatturate in base al consumo, come indicato nella pagina dei prezzi di Azure.
Importante
Le valutazioni nel playground degli agenti sono abilitate per impostazione predefinita per tutti i progetti Foundry e sono incluse nella fatturazione basata sul consumo. Per disattivare le valutazioni del playground, selezionare le metriche in alto a destra nel playground degli agenti e deselezionare tutti i valutatori.