Condividi tramite


Nota sulla trasparenza per il servizio OpenAI di Azure

Importante

Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione vincolante.

Che cos'è la nota sulla trasparenza?

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e del modo in cui ottenere le migliori prestazioni. Le note sulla trasparenza di Microsoft sono pensate per aiutare a comprendere il funzionamento della nostra tecnologia di intelligenza artificiale. Includono le possibili scelte dei proprietari del sistema che influenzano le prestazioni e il comportamento del sistema, così come l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema oppure condividerle con le persone che useranno il sistema o saranno interessate da esso.

Le note sulla trasparenza di Microsoft fanno parte di un impegno di più ampio respiro di Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere i principi di intelligenza artificiale di Microsoft.

Nozioni di base sui modelli OpenAI di Azure

Azure OpenAI offre ai clienti un servizio di intelligenza artificiale completamente gestito che consente agli sviluppatori e ai data scientist di applicare i modelli avanzati di OpenAI, inclusi i modelli che possono generare linguaggio naturale, codice e immagini. All'interno del servizio OpenAI di Azure, i modelli OpenAI sono integrati con i modelli di filtro e rilevamento degli abusi dei contenuti sviluppati da Microsoft. Altre informazioni sul filtro dei contenuti sono disponibili qui e il rilevamento degli abusi qui.

Introduzione

Gruppo di modelli Testo/codice Visione Audio/Riconoscimento vocale
GPT-3 e Codex
DALL-E 2 e 3
GPT-image-1
Sussurrare
GPT-4 Turbo con Visione
GPT-4o
GPT-4o-mini
GPT-4.1
GPT-4.1-mini
GPT-4.1-nano
GPT-4.5
Serie o1
o3
o3-mini
o4-mini
anteprima dell'utilizzo del computer

Selezionare le schede per visualizzare il contenuto per il tipo di modello pertinente.

Nell'ambito del servizio Azure OpenAI completamente gestito, i modelli GPT-3 analizzano e generano linguaggio naturale, i modelli Codex analizzano e generano codice e commenti in testo semplice e i modelli GPT-4 e di ragionamento serie o possono comprendere e generare linguaggio naturale e codice. Questi modelli usano un'architettura autoregressiva, ovvero usano i dati delle osservazioni precedenti per prevedere la parola più probabile. Questo processo viene quindi ripetuto aggiungendo il contenuto appena generato al testo originale per produrre la risposta generata completa. Poiché la risposta viene condizionata sul testo di input, questi modelli possono essere applicati a varie attività semplicemente modificando il testo di input.

La serie di modelli GPT-3 viene addestrata preliminarmente su un ampio corpo di dati di testo liberamente disponibili. Questi dati vengono originati da una combinazione di ricerca per indicizzazione Web (in particolare, una versione filtrata di Common Crawl, che include un'ampia gamma di testo da Internet con il 60% del set di dati di pre-training ponderati) e set di dati di qualità superiore, tra cui una versione espansa del set di dati WebText, due corpora di libri basati su Internet e Wikipedia in lingua inglese. Il modello di base GPT-4 è stato sottoposto a training usando dati disponibili pubblicamente (ad esempio dati Internet) e dati concessi in licenza da OpenAI. Il modello è stato ottimizzato usando l'apprendimento per rinforzo con feedback umano (RLHF).

Il modello di Uso del computer (anteprima) accetta input di testo nel primo turno e screenshot nel secondo turno e invia comandi alla tastiera e al mouse. Il modello per l'uso del computer e lo strumento per l'uso del computer consentono agli sviluppatori di creare sistemi di intelligenza artificiale agentici.

Altre informazioni sulle tecniche di training e modellazione nei documenti di ricerca GPT-3, GPT-4 e Codex di OpenAI.

Messa a punto si riferisce all'uso della messa a punto supervisionata per regolare i pesi di un modello di base al fine di fornire risposte migliori in base a un insieme di addestramento fornito. Tutti i casi d'uso e le considerazioni per i modelli linguistici di grandi dimensioni si applicano a modelli ottimizzati, ma esistono anche considerazioni aggiuntive.

Importante

L'ottimizzazione è disponibile solo per i modelli di testo e codice, non per i modelli di visione o di riconoscimento vocale.

Termini chiave

Termine Definizione
Rapido Testo inviato al servizio nella chiamata API. Questo testo viene quindi inserito nel modello. Ad esempio, è possibile immettere il prompt seguente:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg 'find constance' Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
Completamento o generazione Il testo che Azure OpenAI restituisce in risposta. Ad esempio, il servizio può rispondere con la risposta seguente al prompt precedente: send-msg 'find greg' figure out if things are ready for Wednesday.
Token Azure OpenAI elabora il testo suddividendolo in token. I token possono essere parole o blocchi di caratteri. Ad esempio, la parola hamburger viene suddivisa nei token hame burger, mentre una parola breve e comune come pear è un singolo token. Molti token iniziano con uno spazio vuoto, ad esempio hello e bye.
Ottimizzazione L'ottimizzazione con supervisione (SFT), l'ottimizzazione per rinforzo (RFT) e l'ottimizzazione delle preferenze dirette (DPO o ottimizzazione delle preferenze) per i modelli linguistici di grandi dimensioni fanno riferimento al processo di esecuzione di un modello linguistico con training preliminare, spesso sottoposto a training su un set di dati di grandi dimensioni e ulteriore training su un'attività più specifica con dati etichettati. Ciò comporta la regolazione dei pesi del modello usando questo set di dati più piccolo e specifico in modo che il modello diventi più specializzato nelle attività che può eseguire, migliorandone le prestazioni e l'accuratezza.
Pesi del modello I pesi del modello sono parametri all'interno del modello appresi dai dati durante il processo di training. Determinano l'output del modello per un determinato input. Questi pesi vengono regolati in risposta all'errore che il modello ha effettuato nelle stime, con l'obiettivo di ridurre al minimo questo errore.
Contenuto senza aderenza al contesto Contenuto generato dal modello non effettivo o impreciso da ciò che era presente nei materiali di origine.
Sistemi di intelligenza artificiale agenti Sistemi di intelligenza artificiale autonomi che percepiscono e agiscono sul proprio ambiente per raggiungere gli obiettivi.
Autonomia Possibilità di eseguire azioni in modo indipendente ed esercitare il controllo sul comportamento del sistema con supervisione umana limitata o senza supervisione diretta.
Strumento per l'utilizzo del computer Uno strumento che, se usato con il modello Utilizzo computer, acquisisce le azioni del mouse e della tastiera generate dalla modalità e le converte direttamente in comandi eseguibili. In questo modo gli sviluppatori possono automatizzare le attività di utilizzo dei computer.

Capacità

I modelli di ragionamento delle serie o, i modelli GPT-4, GPT-3 e Codex e la valutazione di Azure OpenAI usano istruzioni ed esempi in linguaggio naturale nel prompt per identificare l'attività. Il modello completa quindi l'attività stimando il testo più probabile. Questa tecnica è nota come apprendimento "nel contesto". Questi modelli non vengono sottoposti nuovamente a training durante questo passaggio, ma forniscono stime in base al contesto incluso nel prompt.

Esistono tre approcci principali per l'apprendimento nel contesto. Questi approcci variano in base alla quantità di dati specifici dell'attività assegnati al modello:

Few-shot : in questo caso, un utente include diversi esempi nel prompt che illustrano il formato di risposta e il contenuto previsti. L'esempio seguente mostra una richiesta few-shot che include più esempi:

Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things areready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:  

Il numero di esempi varia in genere da 0 a 100 a seconda del numero di elementi che possono rientrare nella lunghezza massima di input per un singolo prompt. L'apprendimento con pochi scatti consente una riduzione significativa della quantità di dati specifici dell'attività necessari per stime accurate.

One-shot : Questo caso è lo stesso dell'approccio con pochi esempi, tranne che viene fornito un solo esempio. L'esempio seguente mostra un prompt unico:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

Zero-shot: in questo caso, non vengono forniti esempi al modello e viene fornita solo la richiesta di attività. L'esempio seguente mostra una richiesta zero-shot:

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

Chain-of-thought : i modelli di ragionamento della serie o di Azure OpenAI presentano nuove capacità avanzate di ragionamento utilizzando tecniche di "chain of thought" (CoT). Le tecniche coT generano passaggi intermedi di ragionamento prima di fornire una risposta, consentendo loro di affrontare sfide più complesse attraverso la risoluzione dettagliata dei problemi. o1 illustra i miglioramenti nei benchmark per domini di ragionamento pesanti, ad esempio ricerca, strategia, scienza, codifica e matematica, tra gli altri. Questi modelli hanno miglioramenti di sicurezza dalle funzionalità avanzate di ragionamento, con la possibilità di ragionare e applicare le regole di sicurezza in modo più efficace. In questo modo si ottengono prestazioni migliori e benchmark di sicurezza, ad esempio per la generazione di consigli illeciti, la scelta di risposte stereotipate e l'esposizione a jailbreak noti.

Per maggiori dettagli su questa famiglia di funzionalità dei modelli, vedere scheda di sistema OpenAI o1 e scheda di sistema o3-mini.

Valutazione di Azure OpenAI

La valutazione di modelli linguistici di grandi dimensioni è un passaggio fondamentale per misurare le prestazioni in diverse attività e dimensioni. Questa attività è particolarmente importante per i modelli ottimizzati, in cui la valutazione dei miglioramenti delle prestazioni (o delle perdite) dal training è fondamentale. Senza valutazioni approfondite, può diventare difficile comprendere in che modo le diverse versioni del modello possono influire sull'applicazione specifica.

Valutazione OpenAI di Azure è un'esperienza basata sull'interfaccia utente per valutare i dati, inclusi i set di dati generati da una distribuzione di Azure OpenAI o altri file curati manualmente.

La valutazione OpenAI di Azure prevede un passaggio facoltativo per la generazione di risposte. Se l'utente acconsente esplicitamente a questo passaggio, viene fornito un prompt (System/User Message) per indicare al modello come generare risposte.

La valutazione OpenAI di Azure include 9 categorie di test per assegnare punteggi ai risultati. Alcuni richiedono dati di verità di base (come la realtà), mentre altri non (convalida dello schema). I classificatori sono basati su CPU e modelli. Di seguito è riportato l'elenco dei criteri di test: Realtà, Sentiment, JSON valido o XML, Corrispondenza criteri, Richiesta personalizzata, Somiglianza semantica, Contiene stringa, Corrispondenze tra schema e qualità del testo.

Da testo a azione

Il modello Uso del computer (anteprima) abilita capacità di trasformazione del testo in azioni, permettendo agli utenti di fornire istruzioni in linguaggio naturale che il modello traduce in passaggi operativi all'interno delle interfacce utente grafiche. Dato un comando come "Compilare il modulo di supporto clienti con queste informazioni", il modello identifica i campi pertinenti, inserisce i dati corretti e invia il modulo. Può esplorare interfacce Web, estrarre e inserire dati strutturati o non strutturati, automatizzare i flussi di lavoro e applicare la conformità ai criteri di sicurezza. Comprendendo le finalità e eseguendo le azioni di conseguenza, semplifica le operazioni aziendali, rendendo l'automazione più accessibile ed efficiente.

Casi d'uso

Usi previsti

I modelli O, GPT-4, GPT-3 e Codex e la valutazione openAI di Azure possono essere usati in più scenari. L'elenco seguente non è completo, ma illustra la diversità delle attività che possono essere supportate per i modelli con mitigazioni appropriate:

  • Interazione tra chat e conversazione : gli utenti possono interagire con un agente di conversazione che risponde con risposte estratte da documenti attendibili, ad esempio la documentazione aziendale interna o la documentazione del supporto tecnico. Le conversazioni devono essere limitate alla risposta a domande con ambito.
  • Creazione di chat e conversazioni : gli utenti possono creare un agente di conversazione che risponde con risposte estratte da documenti attendibili, ad esempio la documentazione aziendale interna o la documentazione del supporto tecnico. Le conversazioni devono essere limitate alla risposta a domande con ambito.
  • Scenari di generazione o trasformazione del codice : ad esempio, la conversione di un linguaggio di programmazione in un'altra, la generazione di docstring per le funzioni, la conversione del linguaggio naturale in SQL.
  • Contenuto giornalistico : per creare nuovi contenuti giornalistici o per riscrivere il contenuto giornalistico inviato dall'utente come aiuto di scrittura per argomenti predefiniti. Gli utenti non possono usare l'applicazione come strumento generale per la creazione di contenuti per tutti gli argomenti.
  • Risposta alle domande : gli utenti possono porre domande e ricevere risposte da documenti di origine attendibili, ad esempio la documentazione interna dell'azienda. L'applicazione non genera risposte non supportate dalla documentazione di origine attendibile.
  • Motivo dei dati strutturati e non strutturati : gli utenti possono analizzare gli input usando la classificazione, l'analisi del sentiment del testo o l'estrazione di entità. Gli esempi includono l'analisi del feedback sui prodotti, l'analisi delle chiamate all'assistenza, le trascrizioni e l'affinamento della ricerca basata su testo con incorporamenti.
  • Ricerca : gli utenti possono cercare documenti di origine attendibili, ad esempio la documentazione interna dell'azienda. L'applicazione non genera risultati non basati sulla documentazione di origine attendibile.
  • Riepilogo : gli utenti possono inviare contenuto da riepilogare per gli argomenti predefiniti incorporati nell'applicazione e non possono usare l'applicazione come riepilogo aperto. Tra gli esempi sono inclusi il riepilogo della documentazione aziendale interna, le trascrizioni dei call center, i report tecnici e le revisioni dei prodotti.
  • Assistenza per la scrittura su argomenti specifici : gli utenti possono creare nuovi contenuti o riscrivere il contenuto inviato dall'utente come supporto per la scrittura di contenuti aziendali o argomenti predefiniti. Gli utenti possono solo riscrivere o creare contenuto per scopi aziendali specifici o argomenti predefiniti e non possono usare l'applicazione come strumento generale per la creazione di contenuti per tutti gli argomenti. Esempi di contenuto aziendale includono proposte e report. Per l'uso giornalistico, vedere il caso d'uso dei contenuti giornalistici .
  • Generazione di dati per l'ottimizzazione: gli utenti possono usare un modello in Azure OpenAI per generare dati usati esclusivamente per ottimizzare (i) un altro modello Di Azure OpenAI, usando le funzionalità di ottimizzazione di Azure OpenAI e/o (ii) un altro modello personalizzato di Intelligenza artificiale di Azure, usando le funzionalità di ottimizzazione del servizio azure per intelligenza artificiale di Azure. La generazione di dati e l'ottimizzazione dei modelli è limitata solo agli utenti interni; Il modello ottimizzato può essere usato solo per l'inferenza nel servizio di intelligenza artificiale di Azure applicabile e, per il servizio OpenAI di Azure, solo per i casi d'uso consentiti del cliente in questo modulo.

Casi d'uso ottimizzati

Di seguito sono riportati altri casi d'uso consigliati per i modelli ottimizzati. Il fine-tuning è più appropriato per:

  • Sterzando lo stile, il formato, il tono o gli aspetti qualitativi delle risposte tramite esempi delle risposte desiderate.
  • Garantire che il modello produa in modo affidabile un output desiderato , ad esempio fornire risposte in un formato specifico o garantire che le risposte siano contenute in base alle informazioni nel prompt.
  • Casi d'uso con molti casi limite che non possono essere trattati all'interno di esempi nel prompt, ad esempio linguaggio naturale complesso per esempi di codice.
  • Miglioramento delle prestazioni in specifiche competenze o attività , ad esempio classificazione, riepilogo o formattazione, che possono essere difficili da descrivere all'interno di una richiesta.
  • Riduzione dei costi o della latenza usando richieste più brevi o lo scambio di una versione ottimizzata di un modello più piccolo/veloce per un modello più generico ,ad esempio GPT-3.5-Turbo ottimizzato per GPT-4.

Come per i modelli di base, i divieto dei casi d'uso descritti nel codice di comportamento di Azure OpenAI si applicano anche ai modelli ottimizzati.

L'ottimizzazione da sola non è consigliata per gli scenari in cui si vuole estendere il modello in modo da includere informazioni al di fuori del dominio, in cui la spiegabilità o il fondamento sono importanti o in cui i dati sottostanti vengono aggiornati di frequente.

Casi d'uso di serie o

Le capacità avanzate di ragionamento dei modelli della serie o potrebbero essere più adatte per utilizzi intensivi di ragionamento nei campi della scienza, della codifica, della matematica e simili. Casi d'uso specifici possono includere:

  • Generazione, analisi e ottimizzazione di codice complesse: generazione di algoritmi e attività di codifica avanzate per consentire agli sviluppatori di eseguire flussi di lavoro in più passaggi, comprendere meglio i passaggi eseguiti nello sviluppo di codice.
  • Risoluzione avanzata dei problemi: sessioni complete di brainstorming, sviluppo di strategie e risoluzione dei problemi multifattoriali.
  • Confronto di documenti complessi: analisi di contratti, file di casi o documenti legali per distinguere le piccole differenze nel contenuto del documento.
  • Istruzioni seguenti e gestione del flusso di lavoro: gestione dei flussi di lavoro che richiedono un contesto più breve.

Per maggiori dettagli sugli usi previsti, visita la scheda di sistema OpenAI o1 e la scheda di sistema o3-mini.

Casi d'uso di valutazione di Azure OpenAI

La valutazione OpenAI di Azure è una funzionalità solo testuale e non può essere usata con modelli che supportano input non testuali. Le valutazioni possono essere usate in più scenari, tra cui:

  • Valutazione di corrispondenza/confronto del testo: utile per gli scenari in cui l'utente vuole verificare se l'output corrisponde a una stringa prevista. Gli utenti possono anche confrontare due set di valori e assegnare un punteggio alle relazioni. Gli esempi includono, ad esempio, domande a scelta multipla in cui le risposte vengono confrontate con una chiave di risposta e la convalida delle stringhe.
  • Qualità del testo: la qualità del testo valuta la qualità della risposta con metodi come gli algoritmi Bleu, Rouge o coseno ed è ampiamente usato in varie attività di elaborazione del linguaggio naturale, ad esempio la traduzione automatica, il riepilogo del testo e la generazione di testo, tra le altre.
  • Valutazione basata sulla classificazione: la valutazione basata sulla classificazione valuta le prestazioni di un modello assegnando risposte a categorie o etichette predefinite o confrontando l'output del modello con un set di riferimento di risposte corrette. La classificazione automatica, l'analisi del sentiment e la categorizzazione dei prodotti sono tra alcuni dei casi d'uso comuni.
  • Valutazione della qualità della conversazione: la valutazione della qualità della conversazione implica il confronto delle risposte rispetto ai criteri predefiniti usando un prompt dettagliato della catena di pensiero (CoT). I casi d'uso comuni includono il supporto clienti, lo sviluppo di chatbot e le valutazioni didattiche, tra gli altri.
  • Valutazione basata su criteri: uno scenario comune per la valutazione basata su criteri è la factualità. La valutazione dell'accuratezza effettiva comporta il confronto di una risposta inviata a una risposta esperta, concentrandosi esclusivamente sul contenuto effettivo. Ciò può essere utile negli strumenti didattici per migliorare l'accuratezza delle risposte fornite dalle LLM o negli strumenti di assistenza alla ricerca per valutare l'accuratezza effettiva delle risposte generate dalle LLM nelle impostazioni accademiche.
  • Valutazione della validità delle stringhe: uno scenario comune consiste nel verificare se la risposta del modello segue uno schema specifico o è un contenuto JSON o XML valido.

Casi d'uso di Uso del computer (anteprima)

Le funzionalità di Utilizzo computer sono più adatte per lo sviluppo di sistemi di intelligenza artificiale agenti che possono interagire in modo autonomo con le interfacce utente. Casi d'uso specifici possono includere:

  • Spostamento e interazione Web automatizzati: esplorazione autonoma delle interfacce basate sul Web per recuperare e presentare informazioni da origini attendibili, ad esempio risorse aziendali interne o database strutturati. Il modello segue le regole di spostamento predefinite per estrarre i dati pertinenti garantendo al tempo stesso la conformità ai criteri di sicurezza.

  • Web-Based Automazione attività: automazione di attività ripetitive basate sul Web, ad esempio la compilazione di moduli, l'invio di dati o l'interazione con le applicazioni Web. Computer Usa può fare clic su pulsanti, immettere testo ed elaborare dati strutturati, ma opera solo all'interno di flussi di lavoro e domini autorizzati.

  • Estrazione di dati strutturati e non strutturati: estrazione di dati rilevanti da origini strutturate come tabelle e fogli di calcolo, nonché origini non strutturate, ad esempio PDF, documenti analizzati o messaggi di posta elettronica. Questa funzionalità è utile per attività come l'elaborazione dei dati finanziari, l'analisi del contratto o la categorizzazione dei ticket di supporto clienti.

  • Compilazione automatica dei moduli e immissione di dati: estrazione di informazioni da database strutturati o input utente e usarli per popolare moduli basati sul Web. Ciò è utile per automatizzare le richieste del servizio clienti, i processi HR o gli aggiornamenti CRM, garantendo al tempo stesso l'accuratezza e la coerenza nella gestione dei dati.

  • Web-Based Analizzare le immagini: analizzare le immagini presenti nelle pagine web per individuare e etichettare oggetti, scene o modelli pertinenti. L'uso del computer può estrarre informazioni visive per supportare applicazioni come la gestione dell'inventario, l'elaborazione dei documenti o la classificazione degli oggetti.

  • Ricerca visiva interattiva e identificazione: assistenza agli utenti nell'individuazione del contenuto visivo pertinente tramite ricerche strutturate. Ad esempio, Uso computer può identificare i prodotti in un catalogo di e-commerce, riconoscere i punti di riferimento nelle applicazioni di viaggio o recuperare immagini specifiche da archivi digitali in base a criteri predefiniti.

  • Controlli automatizzati di conformità e criteri: analisi del contenuto basato sul Web, ad esempio file caricati, contratti o documentazione interna per l'adesione alle regole di conformità predefinite. L'uso del computer può contrassegnare informazioni mancanti, incoerenze o potenziali violazioni per applicare gli standard normativi all'interno di un'organizzazione.

  • Esecuzione automatica del flusso di lavoro per le applicazioni aziendali: definizione di flussi di lavoro in più passaggi per l'esplorazione di applicazioni aziendali, ad esempio la generazione di report, l'aggiornamento dei record o il recupero di analisi. Computer Use segue i passaggi predefiniti all'interno degli strumenti aziendali e rispetta i criteri di controllo di accesso per garantire l'esecuzione sicura.

Considerazioni sulla scelta di un caso d'uso

Incoraggiamo i clienti a utilizzare i modelli Azure OpenAI GPT-4, GPT-3, Codex e modelli Computer Use nelle loro soluzioni o applicazioni innovative come approvato nel loro modulo di registrazione con accesso limitato. Tuttavia, ecco alcune considerazioni sulla scelta di un caso d'uso:

  • Non adatto per la generazione di contenuti non vincolati e aperti. Gli scenari in cui gli utenti possono generare contenuto su qualsiasi argomento hanno maggiori probabilità di produrre testo offensivo o dannoso. Lo stesso vale per le generazioni più lunghe.
  • Non adatto per scenari in cui up-to-date, le informazioni fattualmente accurate sono fondamentali a meno che non abbiate revisori umani o stiate usando i modelli per cercare i vostri documenti e abbiate verificato l'idoneità per il vostro scenario. Il servizio non dispone di informazioni sugli eventi che si verificano dopo la data di training, probabilmente non ha conoscenze su alcuni argomenti e potrebbe non sempre produrre informazioni effettivamente accurate.
  • Evitare scenari in cui l'uso o l'uso improprio del sistema potrebbe causare gravi lesioni fisiche o psicologiche a un individuo. Ad esempio, gli scenari che diagnosticano i pazienti o prescrivono farmaci hanno il potenziale di causare danni significativi. L'incorporazione di revisioni umane significative e supervisione nello scenario può contribuire a ridurre il rischio di risultati dannosi.
  • Evitare scenari in cui l'uso o l'uso improprio del sistema potrebbe avere un impatto consequenziale sulle opportunità di vita o sullo stato legale. Gli esempi includono scenari in cui il sistema di IA potrebbe influire sullo stato legale e sui diritti legali di un individuo o sul relativo accesso al credito, all'istruzione, all'occupazione, all'assistenza sanitaria, all'abitazione, all'assicurazione, alle prestazioni sociali, ai servizi, alle opportunità o alle condizioni di riferimento. L'incorporazione di revisioni umane significative e supervisione nello scenario può contribuire a ridurre il rischio di risultati dannosi.
  • Evitare scenari ad alto rischio che potrebbero causare danni. I modelli ospitati dal servizio Azure OpenAI riflettono alcune visualizzazioni sociali, distorsioni e altri contenuti indesiderati presenti nei dati di training o negli esempi forniti nel prompt. Di conseguenza, è consigliabile prestare attenzione all'uso dei modelli in scenari ad alto rischio in cui comportamenti ingiusti, inaffidabili o offensivi potrebbero essere estremamente costosi o causare danni. L'incorporazione di revisioni umane significative e supervisione nello scenario può contribuire a ridurre il rischio di risultati dannosi.
  • Valutare attentamente i casi d'uso in domini o settori di alto livello: Gli esempi includono, ad esempio, assistenza sanitaria, medicina, finanza o legale.
  • Valutare attentamente i precisi scenari di chatbot. La limitazione dell'uso del servizio nei chatbot a un dominio ristretto riduce il rischio di generare risposte non intenzionali o indesiderate.
  • Considerare attentamente tutti i casi d'uso generativi. È possibile che gli scenari di generazione di contenuti producano output imprevisti e che questi scenari richiedano un'attenta considerazione e mitigazioni.
  • Considerazioni legali e normative: le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usano servizi e soluzioni di intelligenza artificiale, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, i servizi o le soluzioni di intelligenza artificiale non sono progettati per e non possono essere usati in modi vietati in termini di servizio e codici di comportamento pertinenti.

Quando si sceglie un caso d'uso per l'uso del computer, gli utenti devono tenere presenti le considerazioni seguenti oltre a quelle elencate in precedenza:

  • Evitare scenari in cui le azioni sono irreversibili o altamente consequenziali: tra cui, ad esempio, la possibilità di inviare un messaggio di posta elettronica (ad esempio al destinatario sbagliato), la possibilità di modificare o eliminare file importanti per l'utente, la possibilità di effettuare transazioni finanziarie o interagire direttamente con servizi esterni, condividere informazioni riservate pubblicamente, concedere l'accesso a sistemi critici, o l'esecuzione di comandi che potrebbero modificare la funzionalità di sistema o la sicurezza.

  • Degradazione delle prestazioni sugli usi avanzati: l'Uso del computer è più adatto per i casi d'uso che prevedono di completare attività con le interfacce utente, come l'accesso a siti web e ai desktop dei computer. Potrebbe non eseguire correttamente attività più avanzate, ad esempio la modifica del codice, la scrittura di testo esteso e l'esecuzione di decisioni complesse.

  • Garantire una supervisione e un controllo umani adeguati. Prendere in considerazione l'inclusione di controlli per consentire agli utenti di verificare, esaminare e/o approvare azioni in modo tempestivo, che possono includere la revisione delle attività pianificate o le chiamate a origini dati esterne, ad esempio, in base alle esigenze del sistema. Prendere in considerazione l'inclusione di controlli per correggere adeguatamente gli errori di sistema, in particolare in scenari ad alto rischio e casi d'uso.

  • Definire chiaramente le azioni e i requisiti associati. Definire chiaramente quali azioni sono consentite (limiti di azione), vietate o che necessitano di autorizzazioni esplicite possono aiutare l'uso del computer a operare come previsto e con il livello appropriato di supervisione umana.

  • Definire chiaramente gli ambienti operativi previsti. Definire chiaramente gli ambienti operativi previsti (limiti di dominio) in cui l'uso del computer è progettato per eseguire in modo efficace.

  • Garantire l'intelligibilità appropriata nel processo decisionale. Fornire informazioni agli utenti prima, durante e dopo l'esecuzione di azioni può aiutare a comprendere la giustificazione dell'azione o perché sono state eseguite determinate azioni o l'applicazione si comporta in un determinato modo, dove intervenire e come risolvere i problemi.

  • Per altre informazioni, vedere la Guida alla promozione della dipendenza appropriata dall'intelligenza artificiale generativa.

Limitazioni

Quando si tratta di modelli di linguaggio naturale su larga scala, modelli di visione e modelli vocali, esistono problemi di equità e IA responsabile da considerare. Le persone usano linguaggio e immagini per descrivere il mondo e per esprimere le loro convinzioni, presupposti, atteggiamenti e valori. Di conseguenza, i dati di testo e immagine disponibili pubblicamente usati per eseguire il training di modelli di elaborazione del linguaggio naturale su larga scala e generazione di immagini contengono pregiudizi sociali relativi a razza, sesso, religione, età e altri gruppi di persone, nonché altri contenuti indesiderati. Analogamente, i modelli vocali possono presentare livelli diversi di accuratezza in diversi gruppi demografici e lingue. Questi pregiudizi sociali si riflettono nelle distribuzioni di parole, frasi e strutture sintattiche.

Limitazioni tecniche, fattori operativi e intervalli

Attenzione

Si noti che questa sezione contiene esempi illustrativi che includono termini e linguaggi che alcuni utenti potrebbero trovare offensivi.

I modelli di linguaggio naturale, immagine e riconoscimento vocale su larga scala sottoposti a training con tali dati possono potenzialmente comportarsi in modi ingiusti, inaffidabili o offensivi, a loro volta causando danni. Ecco alcuni dei modi elencati qui. Sottolineamo che questi tipi di danni non si escludono a vicenda. Un singolo modello può presentare più di un tipo di danno, potenzialmente relativo a più gruppi diversi di persone. Per esempio:

  • Allocazione: Questi modelli possono essere usati in modi che portano a un'allocazione ingiusta di risorse o opportunità. Ad esempio, i sistemi di screening automatizzati di curriculum possono trattenere le opportunità di lavoro da un sesso se sono addestrati su dati di curriculum che riflettono lo squilibrio di genere esistente in un particolare settore. Oppure i modelli di generazione di immagini possono essere utilizzati per creare immagini nello stile di un artista noto, che potrebbe influire sul valore dell'opera dell'artista o sulle opportunità di vita dell'artista. I modelli di visione GPT-4 possono essere usati per identificare i singoli comportamenti e modelli che potrebbero avere un impatto negativo sulle opportunità di vita.
  • Qualità del servizio: I modelli OpenAI di Azure vengono sottoposti principalmente a training su testo e immagini in inglese con descrizioni di testo in inglese. Le lingue diverse dall'inglese avranno prestazioni peggiori. Le varietà di lingua inglese con una rappresentazione minore nei dati di training potrebbero riscontrare prestazioni peggiori rispetto all'inglese americano standard. Le immagini disponibili pubblicamente usate per eseguire il training dei modelli di generazione di immagini potrebbero rafforzare la distorsione pubblica e altri contenuti indesiderati. I modelli DALL·E non riescono ancora a generare testo comprensibile in modo coerente in questo momento. I modelli vocali possono introdurre altre limitazioni, ad esempio le traduzioni che usano il modello Whisper in Azure OpenAI sono limitate solo all'output in inglese. In generale, con i modelli di riconoscimento vocale, assicurarsi di specificare correttamente una lingua (o impostazioni locali) per ogni input audio per migliorare l'accuratezza nella trascrizione. Inoltre, la qualità acustica dell'input audio, il rumore non vocale, il parlato sovrapposto, il vocabolario, gli accenti e gli errori di inserimento possono influire anche sulla qualità della trascrizione o della traduzione.
  • Stereotipi: Questi modelli possono rafforzare gli stereotipi. Ad esempio, quando si traduce "Lui è un infermiere" e "Lei è un medico" in una lingua senza sesso come turco e poi torna in inglese, molti sistemi di traduzione automatica producono i risultati stereotipici (e non corretti) di "Lei è un infermiere" e "Lui è un medico". Con DALL· E, quando si genera un'immagine basata sul prompt "Padreless children", il modello potrebbe generare solo immagini di bambini neri, rinforzando stereotipi dannosi che potrebbero esistere in immagini disponibili pubblicamente. I modelli di visione GPT-4 potrebbero anche rafforzare gli stereotipi in base al contenuto dell'immagine di input, basandosi sui componenti dell'immagine e facendo ipotesi che potrebbero non essere sempre vere.
  • Umiliante: I modelli di linguaggio naturale e visione nel servizio Azure OpenAI possono umiliare le persone. Ad esempio, un sistema di generazione di contenuti aperto con mitigazioni inappropriati o insufficienti potrebbe produrre contenuto offensivo o demeplicato a un determinato gruppo di persone.
  • Sovrapresentazione e sottopresentazione: I modelli di visione e linguaggio naturale nel servizio Azure OpenAI possono sovra o sottorappresentare gruppi di persone o persino cancellare completamente la loro rappresentazione. Ad esempio, se i messaggi di testo che contengono la parola "gay" vengono rilevati come potenzialmente dannosi o offensivi, questa identificazione potrebbe portare alla sottopresentazione o persino alla cancellazione di generazioni di immagini legittime da parte o della comunità LGBTQIA+.
  • Contenuto inappropriato o offensivo: I modelli di linguaggio naturale e visione nel servizio Azure OpenAI possono produrre altri tipi di contenuto inappropriato o offensivo. Gli esempi includono la possibilità di generare testo non appropriato nel contesto del prompt del testo o dell'immagine; la possibilità di creare immagini che contengono potenzialmente artefatti dannosi, ad esempio simboli di odio; immagini che connotazioni dannose illecite; immagini che riguardano argomenti contestati, controversi o ideologicamente polarizzanti; immagini manipolative; immagini che contengono contenuti con addebito sessuale che non vengono catturati dai filtri di contenuto correlati al sesso; immagini che si riferiscono a argomenti sensibili o emotivamente caricati. Ad esempio, un messaggio di testo ben intenzionato volto a creare un'immagine dello skyline di New York con nuvole e aerei che volano sopra potrebbe generare involontariamente immagini che sentimenti illeciti correlati agli eventi che circondano il 9/11.
  • Disinformazioni e disinformazioni su argomenti sensibili: Perché DALL· E e GPT-image-1 sono potenti modelli di generazione di immagini, possono essere usati per produrre disinformazioni e disinformazioni che possono essere dannose. Ad esempio, un utente potrebbe chiedere al modello di generare un'immagine di un leader politico che si impegna nell'attività di una natura violenta o sessuale (o semplicemente imprecisa) che potrebbe causare danni consequenziali, tra cui, ad esempio, proteste pubbliche, cambiamenti politici o fake news. I modelli di visione GPT-4 possono essere usati anche in modo simile. Il modello potrebbe rafforzare le disinformazioni o le disinformazioni sugli argomenti sensibili se il prompt contiene tali informazioni senza mitigazione.
  • Affidabilità delle informazioni: Le risposte del modello linguistico e visivo possono generare contenuto non sensibile o creare contenuti che potrebbero sembrare ragionevoli, ma non accurati rispetto alle origini di convalida esterne. Anche quando si disegnano risposte da informazioni di origine attendibili, le risposte potrebbero rappresentare in modo errato il contenuto. Le trascrizioni o le traduzioni potrebbero comportare testo impreciso.
  • Informazioni false: Azure OpenAI non verifica o verifica il contenuto fornito da clienti o utenti. A seconda di come è stata sviluppata l'applicazione, potrebbe produrre false informazioni a meno che non siano state compilate mitigazioni (vedere Procedure consigliate per migliorare le prestazioni del sistema).

Rischi e limitazioni dell'ottimizzazione

Quando i clienti ottimizzano i modelli OpenAI di Azure, possono migliorare le prestazioni e l'accuratezza del modello su attività e domini specifici, ma possono anche introdurre nuovi rischi e limitazioni da tenere presenti ai clienti. Questi rischi e limitazioni si applicano a tutti i modelli OpenAI di Azure che supportano l'ottimizzazione. Alcuni di questi rischi e limitazioni sono:

  • Qualità e rappresentazione dei dati: la qualità e la rappresentatività dei dati usati per l'ottimizzazione possono influire sul comportamento e sugli output del modello. Se i dati sono rumorosi, incompleti, obsoleti o se contengono contenuti dannosi come stereotipi, il modello può ereditare questi problemi e produrre risultati non accurati o dannosi. Ad esempio, se i dati contengono stereotipi di genere, il modello può amplificarli e generare un linguaggio sessista. I clienti devono selezionare e pre-elaborare attentamente i dati per assicurarsi che siano rilevanti, diversificati ed equilibrati per l'attività e il dominio previsti.
  • Affidabilità e generalizzazione del modello: la capacità del modello di gestire input e scenari diversi e complessi può diminuire dopo l'ottimizzazione, soprattutto se i dati sono troppo stretti o specifici. Il modello può adattarsi ai dati e perdere alcune delle proprie conoscenze e funzionalità generali. Ad esempio, se i dati riguardano solo gli sport, il modello può lottare per rispondere a domande o generare testo su altri argomenti. I clienti devono valutare le prestazioni e l'affidabilità del modello in un'ampia gamma di input e scenari ed evitare di usare il modello per attività o domini esterni all'ambito.
  • Rigurgito: se i dati di training non sono disponibili per Microsoft o per i clienti di terze parti, i modelli ottimizzati in modo errato possono rigurgitare o ripetere direttamente i dati di training. I clienti sono responsabili della rimozione di PII o altre informazioni protette dai dati di training e devono valutare i modelli ottimizzati per individuare eventuali casi di overfitting o risposte di bassa qualità. Per evitare la rigurgitazione, i clienti sono invitati a fornire set di dati di grandi dimensioni e diversificati.
  • Trasparenza e spiegazione del modello: la logica e il ragionamento del modello possono diventare più opachi e difficili da comprendere dopo l'ottimizzazione, soprattutto se i dati sono complessi o astratti. Un modello ottimizzato può produrre output imprevisti, incoerenti o contraddittori e i clienti potrebbero non essere in grado di spiegare come o perché il modello è arrivato a tali output. Ad esempio, se i dati riguardano termini legali o medici, il modello può generare output non accurati o fuorvianti e i clienti potrebbero non essere in grado di verificarli o giustificarli. I clienti devono monitorare e controllare gli output e il comportamento del modello e fornire informazioni chiare e accurate e indicazioni agli utenti finali del modello.

Per attenuare i rischi associati ai modelli avanzati ottimizzati finemente, abbiamo implementato passaggi di valutazione aggiuntivi per aiutare a rilevare e prevenire contenuti dannosi durante il training e nelle uscite dei modelli ottimizzati finemente. I filtri di valutazione dei modelli ottimizzati sono impostati su soglie predefinite e non possono essere modificati dai clienti; non sono associati a alcuna configurazione di filtro del contenuto personalizzata creata.

Limitazioni delle O-Series

  • I modelli di ragionamento di serie o sono più adatti per i casi d'uso che comportano un ragionamento pesante e potrebbero non funzionare bene su alcune attività del linguaggio naturale, ad esempio la scrittura personale o creativa rispetto ai modelli AOAI precedenti.
  • Le nuove funzionalità di ragionamento possono aumentare determinati tipi di rischi, richiedendo metodi e approcci perfezionati per i protocolli di gestione dei rischi e la valutazione e il monitoraggio del comportamento del sistema. Ad esempio, le funzionalità di ragionamento CoT di o1 hanno dimostrato miglioramenti a livello di persuasività e nei semplici schemi contestuali.
  • Gli utenti possono riscontrare che la famiglia di modelli di ragionamento richiede più tempo per ragionare attraverso le risposte e tenere conto del tempo e della latenza aggiuntivi nello sviluppo di applicazioni.

Per maggiori dettagli su queste limitazioni, vedere scheda di sistema OpenAI o1 e scheda di sistema o3-mini.

Limitazioni 4o

  • Le gpt-4o-realtime-preview funzionalità di traduzione audio possono restituire lingue non inglesi in un accento non nativo. Ciò può limitare l'efficacia delle prestazioni del linguaggio negli output audio. Il supporto del linguaggio è in linea con le versioni del modello gpt-4o esistenti.
  • Gli utenti possono riscontrare un'esperienza gpt-4o-realtime-preview meno affidabile in ambienti rumorosi e devono tenere conto della sensibilità del rumore durante lo sviluppo di applicazioni.

Per altre procedure consigliate, vedere la scheda di sistema OpenAI 4o.

4.1 Limitazioni

  • I modelli serie 4.1 introducono la possibilità di creare richieste di inferenza con un massimo di 1M token di contesto, incluse le immagini. A causa della lunghezza estesa, potrebbero esserci differenze nel comportamento del sistema e nei rischi rispetto ad altri modelli.
  • Gli utenti devono valutare e testare accuratamente le applicazioni e i casi d'uso che sfruttano questa funzionalità di contesto più lunga e devono tenere conto di questo sforzo aggiuntivo durante lo sviluppo di applicazioni.

Limitazioni di GPT-image-1

  • GPT-image-1 attualmente non supporta criteri personalizzati, ad esempio la configurabilità del filtro del contenuto.

Rischi e limitazioni dell'uso del computer (anteprima)

Verificare e controllare le azioni eseguite: l'uso del computer potrebbe commettere errori ed eseguire azioni impreviste. Ciò può essere dovuto al fatto che il modello non comprende completamente l'interfaccia utente grafica, avendo istruzioni poco chiare o riscontrando uno scenario imprevisto.

Valutare attentamente e monitorare l'uso: l'uso del computer, in alcune circostanze limitate, può eseguire azioni senza autorizzazione esplicita, alcune delle quali possono essere ad alto rischio (ad esempio, inviare comunicazioni)

Valutare in isolamento: è consigliabile valutare solo l'uso del computer in contenitori isolati senza accesso a dati o credenziali sensibili.

Processi decisionali opachi: man mano che gli agenti combinano modelli linguistici di grandi dimensioni con sistemi esterni, tracciando il "perché" alle loro decisioni può diventare difficile. Gli utenti AEnd che usano un agente creato usando il modello Utilizzo computer potrebbero risultare difficili da comprendere perché alcuni strumenti o combinazioni di strumenti sono stati scelti per rispondere a una query, complicando l'attendibilità e la verifica degli output o delle azioni dell'agente.

Procedure consigliate e standard in continua evoluzione: se si usa l'uso di computer per creare un sistema agentico, tenere presente che gli agenti sono una tecnologia emergente e indicazioni sull'integrazione sicura, l'utilizzo trasparente degli strumenti e la distribuzione responsabile continuano a evolversi. Tenere il passo con le procedure consigliate e le procedure di controllo più recenti è fondamentale, poiché anche gli usi ben intenzionati possono diventare rischiosi senza revisione e perfezionamento continui.

Limitazioni di valutazione di Azure OpenAI

  • Qualità dei dati: quando si usa La valutazione OpenAI di Azure, tenere presente che i dati di scarsa qualità possono causare risultati di valutazione fuorvianti o inaffidabili.
  • Qualità della configurazione: Se un cliente definisce in modo errato i prompt o gli analizzatori o fornisce dati di valutazione non validi, i risultati del servizio valutazione OpenAI di Azure non saranno corretti e non validi. Per informazioni dettagliate su come configurare un'esecuzione di valutazione, vedere la documentazione di Azure OpenAI .
  • Ambito limitato: la valutazione OpenAI di Azure supporta solo modelli di linguaggio naturale basati su testo. Non supporta alcuna metrica di rischio e sicurezza per valutare le risposte generate per i punteggi di gravità del rischio e della sicurezza (ad esempio, contenuto odioso e ingiusto, contenuto sessuale, contenuto violento e contenuto correlato all'autolesionismo).

Prestazioni del sistema

In molti sistemi di intelligenza artificiale, le prestazioni vengono spesso definite in relazione all'accuratezza, ovvero la frequenza con cui il sistema di intelligenza artificiale offre una previsione o un output corretti. Con modelli di linguaggio naturale su larga scala e modelli di visione, due utenti diversi potrebbero esaminare lo stesso output e avere opinioni diverse su quanto sia utile o rilevante, il che significa che le prestazioni per questi sistemi devono essere definite in modo più flessibile. In questo contesto, consideriamo ampiamente le prestazioni per indicare che l'applicazione funziona come tu e i tuoi utenti vi aspettate, inclusa la mancata generazione di output dannosi.

Il servizio Azure OpenAI può supportare un'ampia gamma di applicazioni, ad esempio ricerca, classificazione, generazione di codice, generazione di immagini e comprensione delle immagini, ognuna con metriche delle prestazioni e strategie di mitigazione diverse. È possibile eseguire diversi passaggi per attenuare alcune delle preoccupazioni elencate in "Limitazioni" e migliorare le prestazioni. Altre importanti tecniche di mitigazione sono descritte nella sezione Valutazione e integrazione di Azure OpenAI per l'uso.

Procedure consigliate per migliorare le prestazioni del sistema

  • Mostrare e indicare quando si progettano le richieste. Con i modelli di linguaggio naturale e i modelli di riconoscimento vocale, rendere chiaro al modello il tipo di output previsto tramite istruzioni, esempi o una combinazione dei due. Se si vuole che il modello classifica un elenco di elementi in ordine alfabetico o di classificare un paragrafo in base al sentiment, mostrare il modello desiderato.
  • Mantenere l'applicazione pertinente. Strutturare con attenzione le richieste e gli input di immagini per ridurre la probabilità di produrre contenuti indesiderati, anche se un utente tenta di usarli a questo scopo. Ad esempio, si potrebbe indicare nel prompt che un chatbot si impegna solo nelle conversazioni sulla matematica e in caso contrario risponde "Mi dispiace. Temo di non poter rispondere a questa domanda". Aggiungere alla richiesta aggettivi come "educato" ed esempi nel tono desiderato può facilitare la gestione degli output.
  • Fornire dati di qualità. Con i modelli di testo e codice, se si sta provando a costruire un classificatore o far seguire al modello uno schema, assicurarsi che ci siano esempi sufficienti. Assicurarsi di rileggere gli esempi: il modello è in genere in grado di elaborare errori ortografici di base e fornire una risposta, ma potrebbe anche presupporre che gli errori siano intenzionali che potrebbero influire sulla risposta. Fornire dati di qualità include anche fornire al modello dati affidabili per trarre risposte dai sistemi di chat e di domande e risposte.
  • Fornire dati attendibili. Il recupero o il caricamento di dati non attendibili nei sistemi potrebbe compromettere la sicurezza dei sistemi o delle applicazioni. Per attenuare questi rischi nelle applicazioni applicabili (incluse le applicazioni che usano l'API Assistenti), è consigliabile registrare e monitorare le interazioni LLM (input/output) per rilevare e analizzare potenziali inserimenti di richieste, delineando chiaramente l'input dell'utente per ridurre al minimo il rischio di inserimento delle richieste, limitando l'accesso dell'LLM alle risorse sensibili, limitandone le funzionalità al minimo richiesto e isolandolo da sistemi e risorse critici. Informazioni sugli approcci di mitigazione aggiuntivi in Linee guida per la sicurezza per i modelli linguistici di grandi dimensioni | Microsoft Learn.
  • Configurare i parametri per migliorare l'accuratezza o l'integrità delle risposte. L'aumento delle richieste con i dati recuperati da origini attendibili, ad esempio usando la funzionalità "sui dati" di Azure OpenAI, può ridurre, ma non completamente eliminare, la probabilità di generare risposte imprecise o false informazioni. I passaggi che è possibile eseguire per migliorare ulteriormente l'accuratezza delle risposte includono la selezione accurata dell'origine dati attendibile e pertinente e la configurazione di parametri personalizzati, ad esempio "rigidità", "limitare le risposte al contenuto dei dati" e "numero di documenti recuperati da considerare" in base ai casi d'uso o agli scenari. Ulteriori informazioni su come configurare queste impostazioni per Azure OpenAI sui tuoi dati.
  • Limitare la lunghezza, la struttura e la frequenza di input e output. La limitazione della lunghezza o della struttura di input e output può aumentare la probabilità che l'applicazione rimanga su attività e attenuare, almeno in parte, qualsiasi comportamento potenzialmente ingiusto, inaffidabile o offensivo. Altre opzioni per ridurre il rischio di uso improprio includono (i) la limitazione dell'origine degli input (ad esempio, la limitazione degli input a un dominio specifico o agli utenti autenticati anziché l'apertura a chiunque su Internet) e (ii) l'implementazione dei limiti di frequenza di utilizzo.
  • Incoraggiare la revisione umana degli output prima della pubblicazione o della diffusione. Con l'intelligenza artificiale generativa, è possibile generare contenuti che potrebbero essere offensivi o non correlati all'attività, anche con mitigazioni in atto. Per garantire che l'output generato soddisfi le esigenze dell'utente, prendete in considerazione la possibilità di creare modalità per ricordare agli utenti di esaminare gli output per la qualità prima di condividerli ampiamente. Questa pratica può ridurre molti danni diversi, tra cui materiale offensivo, disinformazione e altro ancora.
  • Implementare mitigazioni aggiuntive specifiche dello scenario. Fare riferimento alle mitigazioni descritte in Valutazione e integrazione di Azure OpenAI per l'uso , incluse le strategie di moderazione del contenuto. Queste raccomandazioni non rappresentano tutte le misure di mitigazione necessarie per la vostra applicazione. I modelli più recenti, ad esempio GPT-4o e i modelli di ragionamento delle serie O, possono fornire risposte in scenari sensibili e potrebbero tentare di ridurre gli output potenzialmente dannosi nelle risposte anziché rifiutare di rispondere del tutto. È importante comprendere questo comportamento durante la valutazione e l'integrazione della moderazione del contenuto per il caso d'uso; possono essere necessarie modifiche alla gravità del filtro a seconda del caso d'uso.
  • I modelli di ragionamento di serie o hanno misure di sicurezza per impedire l'output della funzione CoT non elaborata. Il tentativo di estrarre il coT non elaborato, ad esempio eludendo queste misure di sicurezza, viola i criteri di utilizzo accettabili per i servizi online e può comportare la limitazione dell'accesso al servizio. Per maggiori dettagli sulle procedure consigliate, visitare la scheda di sistema OpenAI o1 e la scheda di sistema o3-mini.

Procedure consigliate e consigli per l'ottimizzazione

Per attenuare i rischi e le limitazioni dei modelli di ottimizzazione avanzata in Azure OpenAI, è consigliabile che i clienti seguano alcune procedure consigliate e linee guida, ad esempio:

  • Selezione e pre-elaborazione dei dati: i clienti devono selezionare e pre-elaborare attentamente i dati per assicurarsi che siano rilevanti, diversificati ed equilibrati per l'attività e il dominio previsti. I clienti devono anche rimuovere o rendere anonime eventuali informazioni riservate o personali dai dati, ad esempio nomi, indirizzi o indirizzi di posta elettronica, per proteggere la privacy e la sicurezza degli interessati. I clienti devono anche controllare e correggere eventuali errori o incoerenze nei dati, ad esempio ortografia, grammatica o formattazione, per migliorare la qualità e la leggibilità dei dati.
  • Includere un messaggio di sistema nei dati di training per i modelli formattati di completamento della chat, per gestire le risposte e usare lo stesso messaggio di sistema quando si usa il modello ottimizzato per l'inferenza. Lasciare vuoto il messaggio di sistema tende a produrre modelli ottimizzati con bassa accuratezza e dimenticare di includere lo stesso messaggio di sistema quando l'inferenza può comportare il ripristino del modello ottimizzato al comportamento del modello di base.
  • Valutazione e test del modello: i clienti devono valutare e testare le prestazioni e l'affidabilità del modello ottimizzati su un'ampia gamma di input e scenari e confrontarli con il modello originale e altre baseline. I clienti devono anche usare metriche e criteri appropriati per misurare l'accuratezza, l'affidabilità e l'equità del modello e identificare eventuali errori o distorsioni negli output e nel comportamento del modello.
  • Documentazione e comunicazione del modello: i clienti devono documentare e comunicare lo scopo, l'ambito, le limitazioni e i presupposti del modello e fornire informazioni chiare e accurate e indicazioni agli utenti finali del modello.

Procedure consigliate e consigli per la valutazione di Azure OpenAI

  • Dati di riferimento robusti: In generale, nei modelli di linguaggio naturale su larga scala, i clienti dovrebbero selezionare e pre-elaborare con attenzione i propri dati per garantire che siano rilevanti, diversificati ed equilibrati per l'attività e il contesto previsti. I clienti devono anche rimuovere o rendere anonime eventuali informazioni riservate o personali dai dati, ad esempio nomi, indirizzi o indirizzi di posta elettronica, per proteggere la privacy e la sicurezza degli interessati. I clienti devono anche controllare e correggere eventuali errori o incoerenze nei dati, ad esempio ortografia, grammatica o formattazione, per migliorare la qualità e la leggibilità dei dati.
    In particolare per la valutazione di Azure OpenAI, l'accuratezza dei dati di verità sul terreno forniti dall'utente è fondamentale perché i dati di verità non accurati causano risultati di valutazione inutili e imprecisi. Garantire la qualità e l'affidabilità di questi dati è essenziale per ottenere valutazioni valide delle prestazioni del modello. Dati di riferimento imprecisi possono distorcere le metriche di valutazione, portando a conclusioni fuorvianti sulle capacità del modello. Pertanto, gli utenti devono curare e verificare attentamente i dati di verità di base per garantire che il processo di valutazione rifletta accuratamente le prestazioni effettive del modello. Ciò è particolarmente importante quando si decide di distribuire il modello in applicazioni reali
  • Richiesta di valutazione: la richiesta usata nella valutazione deve corrispondere alla richiesta che si prevede di usare nell'ambiente di produzione. Queste richieste forniscono le istruzioni da applicare al modello. Analogamente al playground OpenAI, è possibile creare più input per includere esempi di pochi scatti nel prompt. Per ulteriori informazioni su alcune tecniche avanzate nella progettazione e nell'ingegneria dei prompt, consultare Tecniche di ingegneria dei prompt.
  • Metriche diverse: usare una combinazione di metriche per acquisire aspetti diversi delle prestazioni, ad esempio accuratezza, fluenza e pertinenza.
  • Human-in-the-loop: integrare il feedback umano insieme alla valutazione automatizzata per garantire che le sfumature soggettive vengano acquisite accuratamente.
  • Trasparenza: comunicare chiaramente i criteri di valutazione agli utenti, consentendo loro di comprendere come vengono prese le decisioni.
  • Valutazione e test continui: valutare continuamente le prestazioni del modello per identificare e risolvere eventuali regressioni o esperienze utente negative.

Valutazione e integrazione dei modelli di linguaggio naturale e visione di Azure OpenAI per il tuo utilizzo

I passaggi per eseguire una valutazione OpenAI di Azure sono:

  1. Specificare i dati per la valutazione: un file flat caricato in formato JSONL o i dati generati in base a una serie di richieste.
  2. Specificare i casi di test per valutare i dati: selezionare uno o più casi di test per assegnare un punteggio ai dati forniti con voti di superamento / non superamento.
  3. Esaminare e filtrare i risultati: ogni test include una definizione dei punteggi superati e non superati. Dopo l'esecuzione di una valutazione, gli utenti possono esaminare i risultati di riga per riga per visualizzare i singoli risultati del test o filtrare i risultati superati/non riusciti.

Per altre informazioni su come valutare e integrare questi modelli in modo responsabile, vedere il documento panoramica di RAI.

Scopri di più sull'intelligenza artificiale responsabile

Altre informazioni su Azure OpenAI