Condividi tramite


Osservabilità nell'intelligenza artificiale generativa

Importante

Gli elementi contrassegnati (anteprima) in questo articolo sono attualmente disponibili in anteprima pubblica. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero presentare funzionalità limitate. Per altre informazioni, vedere le Condizioni supplementari per l'uso delle anteprime di Microsoft Azure.

Nel mondo odierno basato sull'intelligenza artificiale, Generative AI Operations (GenAIOps) sta rivoluzionando il modo in cui le organizzazioni creano e distribuiscono sistemi intelligenti. Man mano che le aziende usano sempre più l'IA per trasformare il processo decisionale, migliorare le esperienze dei clienti e alimentare l'innovazione, un elemento è fondamentale: framework di valutazione affidabili. La valutazione non è solo un checkpoint. È la base della fiducia nelle applicazioni di intelligenza artificiale. Senza una valutazione rigorosa, i sistemi di intelligenza artificiale possono produrre contenuti che sono:

  • Fabbricato o privo di basi nella realtà
  • Irrilevante o incoerente alle esigenze dell'utente
  • Dannoso in perpetuare rischi e stereotipi di contenuto
  • Pericoloso nella diffusione di disinformazioni
  • Vulnerabile agli exploit di sicurezza

È qui che gli analizzatori diventano essenziali. Questi strumenti specializzati misurano sia la frequenza che la gravità dei rischi negli output di intelligenza artificiale, consentendo ai team di affrontare sistematicamente problemi di qualità, sicurezza e sicurezza nell'intero percorso di sviluppo dell'IA, dalla selezione del modello corretto al monitoraggio delle prestazioni di produzione, della qualità e della sicurezza.

Che cosa sono gli analizzatori?

Gli analizzatori sono strumenti specializzati che misurano la qualità, la sicurezza e l'affidabilità delle risposte di intelligenza artificiale. Implementando valutazioni sistematiche durante il ciclo di vita dello sviluppo di intelligenza artificiale, i team possono identificare e risolvere potenziali problemi prima di influire sugli utenti. Gli analizzatori supportati seguenti offrono funzionalità di valutazione complete in diversi tipi di applicazioni di intelligenza artificiale e problematiche:

RAG (Retrieval Augmented Generation)::

Valutatore Scopo
Recupero Misura il modo in cui il sistema recupera le informazioni pertinenti.
Recupero documenti Misura l'accuratezza nei risultati del recupero in base alla verità di riferimento.
Radicamento Misura la coerenza della risposta rispetto al contesto recuperato.
Aderenza al contesto Pro Misura se la risposta è coerente rispetto al contesto recuperato.
Pertinenza Misura la rilevanza della risposta rispetto alla query.
Completezza della risposta Misura in quale misura la risposta è completa (non mancano informazioni critiche) rispetto alla verità sul terreno.

Agenti (anteprima):

Valutatore Scopo
Risoluzione delle intenzioni Misura quanto accuratamente l'agente identifica e indirizza le intenzioni dell'utente.
Conformità delle attività Misura il modo in cui l'agente segue nelle attività identificate.
Precisione della Richiamata dello Strumento Misura il modo in cui l'agente seleziona e utilizza correttamente gli strumenti.

Utilizzo generico:

Valutatore Scopo
Scorrevolezza Misura la qualità e la leggibilità del linguaggio naturale.
Coerenza Misura la coerenza logica e il flusso delle risposte.
Garanzia di Qualità Misura in modo completo vari aspetti di qualità nella risposta alle domande.

Sicurezza e sicurezza (anteprima):

Valutatore Scopo
Violenza Rileva contenuti violenti o incitamenti.
Sessuale Identifica contenuti sessuali inappropriati.
Autolesionismo Rileva contenuti che promuovono o descrivono l'autolesionismo.
Odio e ingiustità Identifica contenuti distorti, discriminatori o odiosi.
Attributi non basati Rileva le informazioni fabbricate o allucinate dedotte dalle interazioni dell'utente.
Vulnerabilità del codice Identifica i problemi di sicurezza nel codice generato.
Materiali protetti Rileva l'uso non autorizzato di contenuti protetti o protetti da copyright.
Sicurezza dei contenuti Valutazione completa dei vari problemi di sicurezza.

Somiglianza testuale:

Valutatore Scopo
Somiglianza Misurazione della somiglianza testuale assistita dall'intelligenza artificiale.
Punteggio F1 Media armonica di precisione e richiamo nel token si sovrappone tra la risposta e la verità del terreno.
BLEU Il punteggio di valutazione bilingue BERT per le misure di qualità della traduzione si sovrappone a n-grammi tra risposta e verità di riferimento.
GLEU Google-BLEU nella variante per misure di valutazione a livello di frase, si sovrappone in n-grammi tra la risposta e la verità di riferimento.
BELLETTO Recall-Oriented Sostituto per le misure di valutazione della sintesi che si sovrappongono in n-grammi tra la risposta e la verità di riferimento.
METEORA Metrica per la valutazione della traduzione con Ordinamento Esplicito misura le sovrapposizioni degli n-grammi tra la risposta e la verità di riferimento.

Azure OpenAI Graders (anteprima):

Valutatore Scopo
Etichettatrice di Modelli Classifica il contenuto usando linee guida ed etichette personalizzate.
Valutatore di modelli Genera punteggi numerici (intervallo personalizzato) per il contenuto in base alle linee guida personalizzate.
Controllo stringhe Esegue convalide di testo flessibili e corrispondenza di modelli.
Somiglianza testuale Valuta la qualità del testo o determina la prossimità semantica.

Usando questi analizzatori in modo strategico durante tutto il ciclo di vita di sviluppo, i team possono creare applicazioni di intelligenza artificiale più affidabili, sicure ed efficaci che soddisfano le esigenze degli utenti riducendo al minimo i potenziali rischi.

Diagramma del ciclo di vita di GenAIOps aziendale, che mostra la selezione del modello, la creazione di un'applicazione di intelligenza artificiale e l'operazionalizzazione.

Le tre fasi della valutazione GenAIOps

Selezione del modello di base

Prima di compilare l'applicazione, è necessario selezionare le basi corrette. Questa valutazione iniziale consente di confrontare modelli diversi in base a:

  • Qualità e accuratezza: quanto sono rilevanti e coerenti le risposte del modello?
  • Prestazioni delle attività: il modello gestisce in modo efficiente i casi d'uso specifici?
  • Considerazioni etiche: il modello è libero da pregiudizi dannosi?
  • Profilo di sicurezza: qual è il rischio di generare contenuti non sicuri?

Strumenti disponibili: benchmark di Azure AI Foundry per confrontare i modelli su set di dati pubblici o i propri dati e Azure AI Evaluation SDK per testare endpoint del modello specifici.

Valutazione pre-produzione

Dopo aver selezionato un modello di base, il passaggio successivo consiste nello sviluppare un'applicazione di intelligenza artificiale, ad esempio un chatbot basato su intelligenza artificiale, un'applicazione rag (Retrieval-Augmented Generation), un'applicazione di intelligenza artificiale agentica o qualsiasi altro strumento di intelligenza artificiale generativa. Al termine dello sviluppo, inizia la valutazione di pre-produzione. Prima di eseguire la distribuzione in un ambiente di produzione, è essenziale eseguire test approfonditi per garantire che il modello sia pronto per l'uso reale.

La valutazione pre-produzione prevede:

  • Test con set di dati di valutazione: questi set di dati simulano interazioni utente realistiche per garantire che l'applicazione di intelligenza artificiale venga eseguita come previsto.
  • Identificazione dei casi perimetrali: trovare scenari in cui la qualità della risposta dell'applicazione di intelligenza artificiale potrebbe degradare o produrre output indesiderati.
  • Valutazione dell'affidabilità: garantire che il modello possa gestire una gamma di variazioni di input senza cali significativi di qualità o sicurezza.
  • Misurazione delle metriche chiave: le metriche, ad esempio il livello di risposta, la pertinenza e la sicurezza, vengono valutate per confermare l'idoneità per la produzione.

Diagramma della valutazione pre-produzione per modelli e applicazioni con i sei passaggi.

La fase di pre-produzione funge da controllo di qualità finale, riducendo il rischio di distribuire un'applicazione di intelligenza artificiale che non soddisfa gli standard di sicurezza o prestazioni desiderati.

Strumenti e approcci di valutazione:

  • Porta i tuoi dati: è possibile valutare le applicazioni di intelligenza artificiale in pre-produzione usando i propri dati di valutazione con analizzatori supportati, che includono la qualità di generazione, la sicurezza o analizzatori personalizzati, e visualizzare i risultati tramite il portale di Azure AI Foundry. Usare la procedura guidata di valutazione di Azure AI Foundry o gli analizzatori supportati di Azure AI Evaluation SDK , tra cui qualità della generazione, sicurezza o analizzatori personalizzati e visualizzare i risultati tramite il portale di Azure AI Foundry.
  • Simulatori e agente di red teaming di intelligenza artificiale (anteprima): se non si dispone di dati di valutazione (dati di test), i simulatori di Azure AI Evaluation SDK possono essere utili generando query correlate all'argomento o antagoniste. Questi simulatori testano la risposta del modello alle query appropriate o simili agli attacchi (casi perimetrali).
    • I simulatori antagonisti inseriscono query statiche che simulano potenziali rischi di sicurezza o attacchi di sicurezza, ad esempio o tentativi di jailbreak, aiutando a identificare le limitazioni e a preparare il modello per condizioni impreviste.
    • I simulatori appropriati al contesto generano conversazioni tipiche e rilevanti che si prevede dagli utenti di testare la qualità delle risposte. Con i simulatori appropriati per il contesto è possibile valutare metriche come base, pertinenza, coerenza e fluenza delle risposte generate.
    • L'agente di red teaming di intelligenza artificiale (anteprima) simula attacchi avversari complessi contro il sistema di intelligenza artificiale usando un'ampia gamma di attacchi di sicurezza, utilizzando il framework aperto di Microsoft per il Python Risk Identification Tool, noto anche come PyRIT. Le scansioni automatizzate che utilizzano l'agente di red teaming basato sull'intelligenza artificiale migliorano la valutazione dei rischi pre-produzione testando sistematicamente le applicazioni di intelligenza artificiale per identificare potenziali rischi. Questo processo prevede scenari di attacco simulati per identificare i punti deboli nelle risposte del modello prima della distribuzione reale. Eseguendo analisi di red teaming di intelligenza artificiale, è possibile rilevare e attenuare potenziali problemi di sicurezza prima della distribuzione. Questo strumento è consigliato per essere usato con processi con intervento umano, come le esplorazioni red teaming dell'intelligenza artificiale, per accelerare l'identificazione dei rischi e facilitare la valutazione da parte di un esperto umano.

In alternativa, è anche possibile usare il widget di valutazione del portale di Azure AI Foundry per testare le applicazioni di intelligenza artificiale generative.

Una volta ottenuti risultati soddisfacenti, l'applicazione di intelligenza artificiale può essere distribuita nell'ambiente di produzione.

Monitoraggio post-produzione

Dopo la distribuzione, il monitoraggio continuo garantisce che l'applicazione di intelligenza artificiale mantenga la qualità in condizioni reali:

  • Rilevamento delle prestazioni: misurazione regolare delle metriche chiave.
  • Risposta agli incidenti: azione rapida in caso di output dannosi o inappropriati.

Un monitoraggio efficace consente di mantenere la fiducia degli utenti e consente una rapida risoluzione dei problemi.

Azure AI Foundry Observability offre funzionalità di monitoraggio complete essenziali per il panorama di intelligenza artificiale complesso e in rapida evoluzione. Perfettamente integrato con Application Insights di Monitoraggio di Azure, questa soluzione consente il monitoraggio continuo delle applicazioni di intelligenza artificiale distribuite per garantire prestazioni, sicurezza e qualità ottimali negli ambienti di produzione. Il dashboard Foundry Observability offre informazioni dettagliate in tempo reale sulle metriche critiche, consentendo ai team di identificare e risolvere rapidamente problemi di prestazioni, problemi di sicurezza o riduzione della qualità. Per le applicazioni basate su agent, Foundry offre funzionalità avanzate di valutazione continua che possono essere abilitate per offrire visibilità più approfondita sulle metriche di qualità e sicurezza, creando un solido ecosistema di monitoraggio che si adatta alla natura dinamica delle applicazioni di intelligenza artificiale mantenendo allo stesso tempo standard elevati di prestazioni e affidabilità.

Monitorando continuamente il comportamento dell'applicazione di intelligenza artificiale nell'ambiente di produzione, è possibile mantenere esperienze utente di alta qualità e risolvere rapidamente eventuali problemi che si verificano.

Creazione di una fiducia attraverso una valutazione sistematica

GenAIOps stabilisce un processo affidabile per la gestione delle applicazioni di intelligenza artificiale durante il ciclo di vita. Implementando una valutazione approfondita in ogni fase, dalla selezione dei modelli alla distribuzione e oltre, i team possono creare soluzioni di intelligenza artificiale non solo potenti ma affidabili e sicure.

Foglio informativo sulla valutazione

Scopo Processo Parametri
Che cosa stai valutando? Identificare o compilare analizzatori pertinenti - Notebook di esempio di qualità e prestazioni

- Qualità della risposta degli agenti

- Sicurezza e sicurezza (notebook di esempio sicurezza e sicurezza)

- Personalizzato (notebook di esempio personalizzato)
Quali dati è necessario usare? Caricare o generare un set di dati pertinente Simulatore generico per misurare qualità e prestazioni (notebook di esempio del simulatore generico)

- Simulatore antagonista per misurare sicurezza e sicurezza (notebook di esempio del simulatore antagonista)

Agente di red teaming di intelligenza artificiale per l'esecuzione di analisi automatizzate per valutare le vulnerabilità di sicurezza (notebook di esempio dell'agente di red teaming di intelligenza artificiale)
Quali risorse devono eseguire la valutazione? Eseguire la valutazione - Esecuzione locale

- Esecuzione del cloud remoto
Come ha eseguito il modello o l'app? Analisi dei risultati Visualizzare i punteggi aggregati, visualizzare i dettagli, i dettagli del punteggio, confrontare le esecuzioni di valutazione
Come posso migliorare? Apportare modifiche a modelli, app o analizzatori - Se i risultati della valutazione non sono allineati al feedback umano, modificare l'analizzatore.

- Se i risultati della valutazione sono allineati al feedback umano ma non soddisfano le soglie di qualità/sicurezza, applicare mitigazioni mirate. Esempio di mitigazioni da applicare: Sicurezza dei contenuti di Azure per intelligenza artificiale

Supporto di area

Attualmente alcuni analizzatori assistito da intelligenza artificiale sono disponibili solo nelle aree seguenti:

Area geografica Odio e ingiustizia, sessualità, violento, autolesionismo, attacco indiretto, vulnerabilità del codice, attributi non in primo piano Aderenza al contesto Pro Materiale protetto
Stati Uniti orientali 2 Sostenuto Sostenuto Sostenuto
Svezia centrale Sostenuto Sostenuto Non disponibile
Stati Uniti centro-settentrionali Sostenuto Non disponibile Non disponibile
Francia centrale Sostenuto Non disponibile Non disponibile
Svizzera occidentale Sostenuto Non disponibile Non disponibile

Tariffazione

Le funzionalità di osservabilità, ad esempio valutazioni di rischio e sicurezza e valutazioni continue, vengono fatturate in base al consumo, come indicato nella pagina dei prezzi di Azure. Selezionare la scheda Complete AI Toolchain per visualizzare i dettagli dei prezzi per le valutazioni.