Nota sulla trasparenza per il servizio OpenAI di Azure

2025-06-27

Importante

Le traduzioni non in inglese sono disponibili solo per praticità. Consultare la EN-US versione di questo documento per la versione vincolante.

Che cos'è la nota sulla trasparenza?

Un sistema di intelligenza artificiale include non solo la tecnologia ma anche le persone che ne fanno uso, le persone interessate e l'ambiente di distribuzione. La creazione di un sistema adatto allo scopo previsto richiede una comprensione del funzionamento della tecnologia, delle funzionalità e delle limitazioni e del modo in cui ottenere le migliori prestazioni. Le note sulla trasparenza di Microsoft sono pensate per aiutare a comprendere il funzionamento della nostra tecnologia di intelligenza artificiale. Includono le possibili scelte dei proprietari del sistema che influenzano le prestazioni e il comportamento del sistema, così come l'importanza di pensare all'intero sistema, tra cui la tecnologia, le persone e l'ambiente. È possibile usare le note sulla trasparenza durante lo sviluppo o la distribuzione del proprio sistema oppure condividerle con le persone che useranno il sistema o saranno interessate da esso.

Le note sulla trasparenza di Microsoft fanno parte di un impegno di più ampio respiro di Microsoft per mettere in pratica i principi di IA. Per altre informazioni, vedere i principi di intelligenza artificiale di Microsoft.

Nozioni di base sui modelli OpenAI di Azure

Azure OpenAI offre ai clienti un servizio di intelligenza artificiale completamente gestito che consente agli sviluppatori e ai data scientist di applicare i modelli avanzati di OpenAI, inclusi i modelli che possono generare linguaggio naturale, codice e immagini. All'interno del servizio OpenAI di Azure, i modelli OpenAI sono integrati con i modelli di filtro e rilevamento degli abusi dei contenuti sviluppati da Microsoft. Altre informazioni sul filtro dei contenuti sono disponibili qui e il rilevamento degli abusi qui.

Introduzione

Gruppo di modelli	Testo/codice	Visione	Audio/Riconoscimento vocale
GPT-3 e Codex	✅
DALL-E 2 e 3		✅
GPT-image-1		✅
Sussurrare			✅
GPT-4 Turbo con Visione	✅	✅
GPT-4o GPT-4o-mini	✅	✅	✅
GPT-4.1 GPT-4.1-mini GPT-4.1-nano	✅	✅
GPT-4.5	✅	✅
Serie o1	✅	✅
o3	✅	✅
o3-mini	✅
o4-mini	✅	✅
anteprima dell'utilizzo del computer	✅	✅

Selezionare le schede per visualizzare il contenuto per il tipo di modello pertinente.

Nell'ambito del servizio Azure OpenAI completamente gestito, i modelli GPT-3 analizzano e generano linguaggio naturale, i modelli Codex analizzano e generano codice e commenti in testo semplice e i modelli GPT-4 e di ragionamento serie o possono comprendere e generare linguaggio naturale e codice. Questi modelli usano un'architettura autoregressiva, ovvero usano i dati delle osservazioni precedenti per prevedere la parola più probabile. Questo processo viene quindi ripetuto aggiungendo il contenuto appena generato al testo originale per produrre la risposta generata completa. Poiché la risposta viene condizionata sul testo di input, questi modelli possono essere applicati a varie attività semplicemente modificando il testo di input.

La serie di modelli GPT-3 viene addestrata preliminarmente su un ampio corpo di dati di testo liberamente disponibili. Questi dati vengono originati da una combinazione di ricerca per indicizzazione Web (in particolare, una versione filtrata di Common Crawl, che include un'ampia gamma di testo da Internet con il 60% del set di dati di pre-training ponderati) e set di dati di qualità superiore, tra cui una versione espansa del set di dati WebText, due corpora di libri basati su Internet e Wikipedia in lingua inglese. Il modello di base GPT-4 è stato sottoposto a training usando dati disponibili pubblicamente (ad esempio dati Internet) e dati concessi in licenza da OpenAI. Il modello è stato ottimizzato usando l'apprendimento per rinforzo con feedback umano (RLHF).

Il modello di Uso del computer (anteprima) accetta input di testo nel primo turno e screenshot nel secondo turno e invia comandi alla tastiera e al mouse. Il modello per l'uso del computer e lo strumento per l'uso del computer consentono agli sviluppatori di creare sistemi di intelligenza artificiale agentici.

Altre informazioni sulle tecniche di training e modellazione nei documenti di ricerca GPT-3, GPT-4 e Codex di OpenAI.

Messa a punto si riferisce all'uso della messa a punto supervisionata per regolare i pesi di un modello di base al fine di fornire risposte migliori in base a un insieme di addestramento fornito. Tutti i casi d'uso e le considerazioni per i modelli linguistici di grandi dimensioni si applicano a modelli ottimizzati, ma esistono anche considerazioni aggiuntive.

Importante

L'ottimizzazione è disponibile solo per i modelli di testo e codice, non per i modelli di visione o di riconoscimento vocale.

Termini chiave

Termine	Definizione
Rapido	Testo inviato al servizio nella chiamata API. Questo testo viene quindi inserito nel modello. Ad esempio, è possibile immettere il prompt seguente: `Convert the questions to a command:` `Q: Ask Constance if we need some bread` `A: send-msg 'find constance' Do we need some bread?` `Q: Send a message to Greg to figure out if things are ready for Wednesday.` `A:`
Completamento o generazione	Il testo che Azure OpenAI restituisce in risposta. Ad esempio, il servizio può rispondere con la risposta seguente al prompt precedente: `send-msg 'find greg' figure out if things are ready for Wednesday.`
Token	Azure OpenAI elabora il testo suddividendolo in token. I token possono essere parole o blocchi di caratteri. Ad esempio, la parola `hamburger` viene suddivisa nei token `ham`e `burger`, mentre una parola breve e comune come `pear` è un singolo token. Molti token iniziano con uno spazio vuoto, ad esempio `hello` e `bye`.
Ottimizzazione	L'ottimizzazione con supervisione (SFT), l'ottimizzazione per rinforzo (RFT) e l'ottimizzazione delle preferenze dirette (DPO o ottimizzazione delle preferenze) per i modelli linguistici di grandi dimensioni fanno riferimento al processo di esecuzione di un modello linguistico con training preliminare, spesso sottoposto a training su un set di dati di grandi dimensioni e ulteriore training su un'attività più specifica con dati etichettati. Ciò comporta la regolazione dei pesi del modello usando questo set di dati più piccolo e specifico in modo che il modello diventi più specializzato nelle attività che può eseguire, migliorandone le prestazioni e l'accuratezza.
Pesi del modello	I pesi del modello sono parametri all'interno del modello appresi dai dati durante il processo di training. Determinano l'output del modello per un determinato input. Questi pesi vengono regolati in risposta all'errore che il modello ha effettuato nelle stime, con l'obiettivo di ridurre al minimo questo errore.
Contenuto senza aderenza al contesto	Contenuto generato dal modello non effettivo o impreciso da ciò che era presente nei materiali di origine.
Sistemi di intelligenza artificiale agenti	Sistemi di intelligenza artificiale autonomi che percepiscono e agiscono sul proprio ambiente per raggiungere gli obiettivi.
Autonomia	Possibilità di eseguire azioni in modo indipendente ed esercitare il controllo sul comportamento del sistema con supervisione umana limitata o senza supervisione diretta.
Strumento per l'utilizzo del computer	Uno strumento che, se usato con il modello Utilizzo computer, acquisisce le azioni del mouse e della tastiera generate dalla modalità e le converte direttamente in comandi eseguibili. In questo modo gli sviluppatori possono automatizzare le attività di utilizzo dei computer.

Il servizio completamente gestito fornisce accesso all'API di Azure OpenAI DALL·E 2, DALL·E 3, GPT-image-1, GPT-4 Turbo con Vision, GPT-4o e o1 API.

Azure OpenAI DALL·E API consentono la generazione di immagini dettagliate da prompt di testo e input di immagini in un'applicazione. Questo potente modello di intelligenza artificiale multimodale è stato sviluppato da OpenAI e può generare immagini che colgono sia la semantica che lo stile dell'input di testo.

Puoi saperne di più sulle tecniche di training e modellazione per DALL·E nel documento di ricerca di OpenAI DALL·E e sulla sicurezza di DALL·E 3 nella scheda di sistema di OpenAI DALL·E 3.

Azure OpenAI GPT-4 Turbo con Vision può accettare input multilingue (immagine e testo) e generare risposte in linguaggio naturale e codice. Questa API consente una comprensione più completa e completa degli input di immagini e video.

Per ulteriori informazioni sulle tecniche di addestramento e modellizzazione di GPT-4 Turbo con Vision, è possibile consultare il documento di ricerca di OpenAI su GPT-4 documento di ricerca GPT-4 e sulle misure di sicurezza di GPT-4 Turbo con Vision descritte nella scheda di sistema.

Azure OpenAI GPT-4o può accettare input (immagine e testo) multipli e generare risposte in linguaggio naturale e codice, in modo simile ad Azure OpenAI GPT-4 Turbo con Vision.

Uso del computer in Azure OpenAI accetta input di testo nel primo turno e screenshot nel secondo turno e invia comandi alla tastiera e al mouse. Il modello per l'uso del computer e lo strumento per l'uso del computer consentono agli sviluppatori di creare sistemi di intelligenza artificiale agentici.

Le seguenti indicazioni sono tratte dalle ricerche di Microsoft e dalle migliori pratiche per l'IA responsabile.

Termini chiave

Termine	Definizione
Da testo a immagine	Funzionalità che consente agli utenti di generare immagini basate su richieste di testo.
prompt	Testo inviato al servizio nella chiamata API. Questo testo viene quindi inserito nel modello. Ad esempio, un utente potrebbe immettere il prompt seguente per la generazione di immagini: Richiesta di testo: `Image of a botanical garden in the style of Picasso, rendered` Immagine generata: immagine resa di un giardino botanico nello stile di Picasso.
Trasformazione delle richieste	Solo DALL·E 3: Il processo mediante il quale tutte le richieste inviate alle API del servizio vengono migliorate usando un metaprompt statico inserito da OpenAI. Questo processo consente di migliorare la qualità delle immagini.
Stile (naturale o vivido)	DALL·E 3 solo: DALL·E 3 consente di scegliere tra due stili quando si generano le immagini. Questa scelta può essere effettuata nella richiesta API. Stile naturale: molto simile a DALL· E 2 perché le generazioni sono più semplicistiche e realistiche. Stile vivido: attivato per impostazione predefinita, questo stile offre una generazione di immagini più ricche e cinematografiche.
Metaprompt	A volte definito messaggio di sistema o prompt del sistema, è un messaggio scritto dallo sviluppatore, in questo caso OpenAI, per assegnare al modello un contesto, istruzioni o altre informazioni con determinati limiti usati principalmente per applicare istruzioni di sicurezza.
Traduzione zero-shot	Funzionalità di Machine Learning per l'esecuzione su nuove categorie o esempi. Nel caso dei modelli di generazione di immagini più recenti, è la capacità del modello di eseguire una richiesta di testo generata dall'utente per il quale non è stato addestrato esplicitamente. Questa funzionalità consente al modello di eseguire e generalizzare in qualsiasi input di testo.
GPT-4 Turbo con Visione	Contenuto inviato al servizio nella chiamata API. GPT-4 Turbo con funzionalità visiva accetta richieste di testo, immagine o richieste combinate di testo e immagine. Questa richiesta viene quindi inserita nel modello. Ad esempio, un utente potrebbe immettere il prompt seguente nel sistema: Richiesta: `How can I use [Image of a tomato] to make this? [Image of tomato soup]` Completamento: `Here is a list of recipes using tomatoes from which you can make the best tomato soup!`
Miglioramento del video	Consente a GPT-4 Turbo con Visione di rispondere alle domande recuperando i fotogrammi video più rilevanti per la richiesta dell'utente.
Sfocatura del viso	Un passaggio di pre-elaborazione che offusca tutti i volti rilevati negli input di immagini e video quando gli input vengono elaborati nella richiesta API. Il processo di sfocatura non riesce a identificare in modo univoco i singoli individui. La sfocatura consente di proteggere la privacy di singoli utenti e gruppi, contribuendo allo stesso tempo ad affrontare altri rischi correlati alla privacy e alle normative in merito.
Sistemi di intelligenza artificiale agenti	Sistemi di intelligenza artificiale autonomi che percepiscono e agiscono sul proprio ambiente per raggiungere gli obiettivi.
Autonomia	Possibilità di eseguire azioni in modo indipendente ed esercitare il controllo sul comportamento del sistema con supervisione umana limitata o senza supervisione diretta.
Strumento per l'utilizzo del computer	Uno strumento che, se usato con il modello Utilizzo computer, acquisisce le azioni del mouse e della tastiera generate dalla modalità e le converte direttamente in comandi eseguibili. In questo modo gli sviluppatori possono automatizzare le attività di utilizzo dei computer.
Ritocco digitale	Processo di generazione di contenuto all'interno di un'area mascherata specifica di un'immagine, sia per correggerlo, completarlo o modificarlo in modo creativo, mantenendo coerente il contesto circostante.

Il gpt-4o-realtime-preview modello nel servizio Azure OpenAI consente un'efficace interazione con riconoscimento vocale e sintesi vocale. Questo modello integra funzionalità avanzate di riconoscimento vocale e sintesi vocale, consentendo di comprendere l'input parlato, generare trascrizioni accurate e produrre output parlato fluente in una lingua di destinazione. Con la possibilità di tradurre il parlato in tempo reale, gpt-4o-realtime-preview facilita le conversazioni dinamiche tra le lingue.

Il modello Whisper nel servizio Azure OpenAI consente l'accesso a un modello che esegue attività di riconoscimento vocale e traduzione affidabili. Il modello Whisper è un modello di riconoscimento vocale automatico (ASR) sviluppato da OpenAI ed è in grado di trascrivore i file audio vocali nella lingua parlata e tradotta in inglese.

Per altre informazioni sulle tecniche di training e modellazione per il modello Whisper, vedere il documento di ricerca OpenAI Whisper. Il modello Whisper viene usato anche nel servizio Voce di Intelligenza artificiale di Azure. Per ottenere altre informazioni sull'integrazione di Voce di Azure AI e valutare il prodotto per l'uso personale, vedere qui.

Termini chiave

Termine	Definizione
Trascrizione	Output di testo della funzionalità di riconoscimento vocale. Questo output di testo generato automaticamente sfrutta i modelli di riconoscimento vocale e viene talvolta definito trascrizione automatica o riconoscimento vocale automatico. La trascrizione in questo contesto è completamente automatizzata, ovvero viene generata dal modello e pertanto è diversa dalla trascrizione umana, ovvero il testo generato dalle trascrizioni umane.
Riconoscimento vocale automatico (ASR)	Noto anche come Speech-to-Text (STT), ASR è il processo in cui un modello trascrive o elabora il parlato umano come audio in testo.
Traduzione vocale	Funzionalità che consente agli utenti di tradurre la voce in una lingua designata. Al momento, il modello Whisper nel servizio OpenAI di Azure consente agli utenti di tradurre l'audio vocale solo in inglese.
Rapido	Contesto o segnali che è possibile fornire al modello per migliorare la qualità delle trascrizioni generate per lo scenario. Il prompt può fornire istruzioni per l'elaborazione di elementi come jargon o acronimi o per forzare l'inserimento di parole filler. Altre informazioni sulle richieste sono disponibili qui.
Completamento/generazione	L'audio o il testo inviati da Azure OpenAI nella risposta.
Token	Azure OpenAI elabora audio e testo suddividendolo in token. I token possono essere parole o blocchi di caratteri.

Capacità

I modelli di ragionamento delle serie o, i modelli GPT-4, GPT-3 e Codex e la valutazione di Azure OpenAI usano istruzioni ed esempi in linguaggio naturale nel prompt per identificare l'attività. Il modello completa quindi l'attività stimando il testo più probabile. Questa tecnica è nota come apprendimento "nel contesto". Questi modelli non vengono sottoposti nuovamente a training durante questo passaggio, ma forniscono stime in base al contesto incluso nel prompt.

Esistono tre approcci principali per l'apprendimento nel contesto. Questi approcci variano in base alla quantità di dati specifici dell'attività assegnati al modello:

Few-shot : in questo caso, un utente include diversi esempi nel prompt che illustrano il formato di risposta e il contenuto previsti. L'esempio seguente mostra una richiesta few-shot che include più esempi:

Convert the questions to a command: 
Q: Ask Constance if we need some bread 
A: send-msg `find constance` Do we need some bread? 
Q: Send a message to Greg to figure out if things areready for Wednesday. 
A: send-msg `find greg` Is everything ready forWednesday? 
Q: Ask Ilya if we're still having our meeting thisevening 
A: send-msg `find ilya` Are we still having a meetingthis evening? 
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday 
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday? 
Q: Thank Nicolas for lunch 
A: send-msg `find nicolas` Thank you for lunch! 
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting. 
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move. 
Q: Tell John that I need to book an appointment at10:30 
A:

Il numero di esempi varia in genere da 0 a 100 a seconda del numero di elementi che possono rientrare nella lunghezza massima di input per un singolo prompt. L'apprendimento con pochi scatti consente una riduzione significativa della quantità di dati specifici dell'attività necessari per stime accurate.

One-shot : Questo caso è lo stesso dell'approccio con pochi esempi, tranne che viene fornito un solo esempio. L'esempio seguente mostra un prompt unico:

Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:

Zero-shot: in questo caso, non vengono forniti esempi al modello e viene fornita solo la richiesta di attività. L'esempio seguente mostra una richiesta zero-shot:

Convert the question to a command:
Q: Ask Constance if we need some bread
A:

Chain-of-thought : i modelli di ragionamento della serie o di Azure OpenAI presentano nuove capacità avanzate di ragionamento utilizzando tecniche di "chain of thought" (CoT). Le tecniche coT generano passaggi intermedi di ragionamento prima di fornire una risposta, consentendo loro di affrontare sfide più complesse attraverso la risoluzione dettagliata dei problemi. o1 illustra i miglioramenti nei benchmark per domini di ragionamento pesanti, ad esempio ricerca, strategia, scienza, codifica e matematica, tra gli altri. Questi modelli hanno miglioramenti di sicurezza dalle funzionalità avanzate di ragionamento, con la possibilità di ragionare e applicare le regole di sicurezza in modo più efficace. In questo modo si ottengono prestazioni migliori e benchmark di sicurezza, ad esempio per la generazione di consigli illeciti, la scelta di risposte stereotipate e l'esposizione a jailbreak noti.

Per maggiori dettagli su questa famiglia di funzionalità dei modelli, vedere scheda di sistema OpenAI o1 e scheda di sistema o3-mini.

Valutazione di Azure OpenAI

La valutazione di modelli linguistici di grandi dimensioni è un passaggio fondamentale per misurare le prestazioni in diverse attività e dimensioni. Questa attività è particolarmente importante per i modelli ottimizzati, in cui la valutazione dei miglioramenti delle prestazioni (o delle perdite) dal training è fondamentale. Senza valutazioni approfondite, può diventare difficile comprendere in che modo le diverse versioni del modello possono influire sull'applicazione specifica.

Valutazione OpenAI di Azure è un'esperienza basata sull'interfaccia utente per valutare i dati, inclusi i set di dati generati da una distribuzione di Azure OpenAI o altri file curati manualmente.

La valutazione OpenAI di Azure prevede un passaggio facoltativo per la generazione di risposte. Se l'utente acconsente esplicitamente a questo passaggio, viene fornito un prompt (System/User Message) per indicare al modello come generare risposte.

La valutazione OpenAI di Azure include 9 categorie di test per assegnare punteggi ai risultati. Alcuni richiedono dati di verità di base (come la realtà), mentre altri non (convalida dello schema). I classificatori sono basati su CPU e modelli. Di seguito è riportato l'elenco dei criteri di test: Realtà, Sentiment, JSON valido o XML, Corrispondenza criteri, Richiesta personalizzata, Somiglianza semantica, Contiene stringa, Corrispondenze tra schema e qualità del testo.

Da testo a azione

Il modello Uso del computer (anteprima) abilita capacità di trasformazione del testo in azioni, permettendo agli utenti di fornire istruzioni in linguaggio naturale che il modello traduce in passaggi operativi all'interno delle interfacce utente grafiche. Dato un comando come "Compilare il modulo di supporto clienti con queste informazioni", il modello identifica i campi pertinenti, inserisce i dati corretti e invia il modulo. Può esplorare interfacce Web, estrarre e inserire dati strutturati o non strutturati, automatizzare i flussi di lavoro e applicare la conformità ai criteri di sicurezza. Comprendendo le finalità e eseguendo le azioni di conseguenza, semplifica le operazioni aziendali, rendendo l'automazione più accessibile ed efficiente.

API di generazione di immagini nel servizio OpenAI di Azure

Le API di DALL·E 2, DALL·E 3 e GPT-image-1 usano comandi in linguaggio naturale per generare nuovi contenuti. Questi modelli sono stati sottoposti a training su coppie di immagini e didascalie corrispondenti estratte da origini disponibili pubblicamente e altre origini concesse in licenza da OpenAI.

Questi modelli generativi di intelligenza artificiale presentano innumerevoli opportunità per sviluppatori, artisti, designer, docenti e altri. I modelli possono colmare il divario tra ciò che si può immaginare e ciò che è possibile creare. Consentono la comprensione generale e tra domini, così come la traduzione zero-shot tra richieste di testo e immagini, spesso con un alto grado di realismo.

Le funzionalità principali delle API di generazione di immagini OpenAI di Azure sono:

Da testo a immagine: il modello accetta una richiesta di testo per generare immagini.

Richiesta di testo di esempio Esempio di immagine generata

"Dipinto acquerello dei grattacieli di Seattle"

Suggerimento

Le figure pubbliche che desiderano che la loro rappresentazione non venga generata possono rifiutare esplicitamente inviando un messaggio di posta elettronica a support@openai.com.

Richiesta di testo di esempio	Esempio di immagine generata
"Dipinto acquerello dei grattacieli di Seattle"

Trasformazione delle richieste: per modelli DALL E 3: prima di inviare una richiesta al modello per la generazione di immagini, a tale richiesta viene applicata una mitigazione per la sicurezza e la qualità. La trasformazione Prompt migliora il prompt con l'obiettivo di generare immagini più diversificate e di qualità superiore.

La trasformazione delle richieste viene applicata a ogni generazione DALL·E 3 di Azure OpenAI.

Dopo l'applicazione della trasformazione prompt al prompt originale, il filtro del contenuto viene applicato come passaggio secondario prima della generazione dell'immagine; per altre informazioni, vedere Filtro del contenuto .

Altre informazioni sulla creazione di richieste per la generazione di immagini sono disponibili nella documentazione di OpenAI.

Richiesta di testo di esempio	Esempio di immagine generata senza trasformazione delle richieste	Esempio di immagine generata con trasformazione delle richieste
"Dipinto acquerello dei grattacieli di Seattle"

Da immagine a immagine: per i modelli GPT-image-1: il modello accetta una richiesta di immagine e testo e restituisce un'immagine nuova o modificata in base alle istruzioni di testo.
Inpainting: per i modelli GPT-image-1: il modello accetta un'immagine e una maschera (un'immagine che usa pixel trasparenti per definire un'area di interesse) insieme alle istruzioni di testo e genera nuovo contenuto solo all'interno dell'area indicata. Questa operazione viene usata per attività come la correzione o il completamento delle immagini o la loro modifica creativa mantenendo coerente il contesto circostante.

API di chat abilitate per la visione artificiale nel servizio OpenAI di Azure

GPT-4 Turbo con Vision e GPT-4o usano il linguaggio naturale e le richieste di immagini per generare risposte in linguaggio naturale o codice. I modelli accettano solo testo, solo immagine e input di testo e immagine intercalati. Questi modelli fanno parte della famiglia GPT e sono estensioni di GPT-4.

Il servizio Visione artificiale di Azure offre miglioramenti video per GPT-4 Turbo con Visione (anteprima), che può anche accettare input video per generare risposte in linguaggio naturale o codice. Questa funzionalità non è disponibile con la versione più recente del modello GPT-4 Turbo con Vision.

Richiesta di esempio	Completamento di esempio
Per cosa viene usato?	Questi sono pomodori. Vengono comunemente utilizzati come ingrediente alimentare in vari piatti, sia crudi che cotti. I pomodori possono essere utilizzati in insalate, panini, salse, zuppa, succhi di frutta e molte altre applicazioni culinarie. Sono noti anche per il loro ricco contenuto nutrizionale, tra cui vitamine, minerali e antiossidanti.
Come è possibile usare per fare questo?	È possibile utilizzare i pomodori per fare zuppa di pomodoro seguendo questi passaggi generali: Ingredienti: Pomodori Cipolla Aglio Olio d'oliva o burro Brodo di pollo o vegetale Sale Pepe Facoltativo: erbe come basilico, origano o timo Disposizioni: Preparazione: Lavare accuratamente i pomodori. Tagliare i pomodori in metà o quarti. Sbucciare e tritare cipolle e aglio...

Richiesta di esempio

Completamento di esempio

Per cosa viene usato?

Foto di pomodori.

Questi sono pomodori. Vengono comunemente utilizzati come ingrediente alimentare in vari piatti, sia crudi che cotti. I pomodori possono essere utilizzati in insalate, panini, salse, zuppa, succhi di frutta e molte altre applicazioni culinarie. Sono noti anche per il loro ricco contenuto nutrizionale, tra cui vitamine, minerali e antiossidanti.

Come è possibile usare
Stessa foto di pomodori.

per fare questo?
Foto della zuppa di pomodoro.

È possibile utilizzare i pomodori per fare zuppa di pomodoro seguendo questi passaggi generali:
Ingredienti:

Pomodori
Cipolla
Aglio
Olio d'oliva o burro
Brodo di pollo o vegetale
Sale
Pepe
Facoltativo: erbe come basilico, origano o timo

Disposizioni:

Preparazione:
- Lavare accuratamente i pomodori.
- Tagliare i pomodori in metà o quarti.
- Sbucciare e tritare cipolle e aglio...

Uso del computer nel servizio OpenAI di Azure (anteprima)

Il modello Utilizzo computer è basato su una versione ottimizzata delle funzionalità di visione di GPT-4o che consente di interpretare e interagire con interfacce utente grafiche (GUI) tramite screenshot. Analizzando elementi visivi come pulsanti, campi di testo e menu, può comprendere i layout dell'applicazione, rilevare i componenti dell'interfaccia pertinenti ed eseguire le azioni di conseguenza. Ciò consente un'automazione precisa delle interazioni Web e software, consentendo attività come l'estrazione dei dati, il completamento del modulo e l'esecuzione del flusso di lavoro in base al contesto visivo in tempo reale.

Sfocatura del viso

Per gli input di GPT-4 Turbo con Vision, GPT-4o e GPT-4o mini che contengono immagini o video di persone, il sistema sfoca prima i volti prima dell'elaborazione per restituire i risultati richiesti.

La sfocatura consente di proteggere la privacy degli utenti e dei gruppi coinvolti e di proteggersi da casi d'uso limitati. La sfocatura non dovrebbe influire sulla qualità dei completamenti, ma è possibile che il sistema faccia riferimento alla sfocatura dei visi in alcuni casi.

Importante

Solo GPT-4 Turbo con Vision GPT-4o e GPT-4o mini: qualsiasi elaborazione che restituisce risultati che portano a identificare un individuo o dedurre l'emozione dell'individuo non è il risultato dell'elaborazione del viso, ad esempio il riconoscimento facciale, la generazione e il confronto di modelli facciali o altre inferenze facciali. Tali risultati possono essere restituiti in base al training del modello per associare immagini di un individuo con lo stesso nome tramite l'assegnazione di tag all'immagine, in base al quale il modello restituisce il nome con eventuali input di immagine successivi di tale individuo. Il modello può anche prendere segnali contestuali diversi dal viso, ovvero come il modello può ancora associare l'immagine a un individuo o descrivere le emozioni, anche se il viso è sfocato. Ad esempio, se l'immagine contiene una foto di un atleta popolare che indossa la maglia del team e il numero specifico, il modello può comunque restituire un risultato che porta a identificare l'individuo in base a tali segnali contestuali.

Attenzione

L'utilizzo del computer (anteprima) non usa l'offuscamento del volto, perché ha il potenziale di nascondere gli elementi dell'interfaccia utente e compromettere le prestazioni. L'uso del computer non è progettato (o destinato) a essere un motore di ragionamento delle immagini per utilizzo generico. Il modello non esegue il riconoscimento facciale o l'identificazione individuale e non è adatto per tali casi d'uso.

Attenzione

GPT-image-1 non utilizza l'offuscamento del volto. In determinate giurisdizioni, il modo in cui il modello elabora l'input dell'immagine delle persone può essere considerato l'elaborazione dei dati biometrici, nel qual caso l'utente è responsabile di: (i) fornire comunicazioni agli interessati, incluso rispetto ai periodi di conservazione e alla distruzione; (ii) ottenere il consenso da parte degli interessati; e (iii) eliminando i dati, tutti in base alle esigenze e richiesti in base alla legge applicabile. Per altre informazioni su come il servizio OpenAI di Azure elabora i dati, vedere Dati, privacy e sicurezza per il servizio OpenAI di Azure.

Uso del computer nel servizio OpenAI di Azure (anteprima)

Il gpt-4o-realtime-preview modello nel servizio OpenAI di Azure consente funzionalità avanzate di riconoscimento vocale, che forniscono riconoscimento vocale, traduzione e sintesi vocale in tempo reale. GPT-4o consente la comunicazione fluida convertendo l'input parlato in output coerente in una lingua di destinazione.

Il servizio OpenAI di Azure offre queste funzionalità tramite l'API in tempo reale:

Elaborazione dell'input vocale per generare l'output vocale
Traduzione di input parlato in un'altra lingua
Trascrizione dell'input e dell'output vocali

Il servizio è progettato per l'elaborazione rapida della sintesi vocale delle interazioni vocali, semplificando le conversazioni in tempo reale con una latenza minima.

Il modello Whisper nel servizio Azure OpenAI consente la trascrizione e la traduzione vocale dei file audio. Il modello è stato sottoposto a training su dati multilingue e multitasking con supervisione raccolti da Internet. Questi set di dati di grandi dimensioni e diversi hanno consentito una maggiore affidabilità per attributi quali accenti, rumore di fondo e lingua tecnica, consentendo al contempo la trascrizione in più lingue e la traduzione in inglese.

Il servizio OpenAI di Azure offre queste funzionalità tramite due API REST:

Trascrizione di un file audio fornito
Traduzione di un file audio fornito in inglese

Il servizio offre la possibilità di elaborare in modo sincrono singoli file audio il più velocemente possibile. Questo è limitato a meno di 15-30 minuti di audio a seconda della compressione audio.

Il servizio fornisce trascrizioni altamente leggibili che spesso rimuovono le disfluenze e forniscono limiti di frase più accurati, punteggiatura e maiuscola. È anche possibile sfruttare le richieste per migliorare la qualità degli output del modello in base allo scenario in uso. Per altre informazioni, vedere Procedure consigliate per migliorare le informazioni sul sistema .

Per informazioni più dettagliate sulle funzionalità del modello 4o, vedere la scheda di sistema OpenAI 4o.

Casi d'uso

Usi previsti

I modelli O, GPT-4, GPT-3 e Codex e la valutazione openAI di Azure possono essere usati in più scenari. L'elenco seguente non è completo, ma illustra la diversità delle attività che possono essere supportate per i modelli con mitigazioni appropriate:

Interazione tra chat e conversazione : gli utenti possono interagire con un agente di conversazione che risponde con risposte estratte da documenti attendibili, ad esempio la documentazione aziendale interna o la documentazione del supporto tecnico. Le conversazioni devono essere limitate alla risposta a domande con ambito.
Creazione di chat e conversazioni : gli utenti possono creare un agente di conversazione che risponde con risposte estratte da documenti attendibili, ad esempio la documentazione aziendale interna o la documentazione del supporto tecnico. Le conversazioni devono essere limitate alla risposta a domande con ambito.
Scenari di generazione o trasformazione del codice : ad esempio, la conversione di un linguaggio di programmazione in un'altra, la generazione di docstring per le funzioni, la conversione del linguaggio naturale in SQL.
Contenuto giornalistico : per creare nuovi contenuti giornalistici o per riscrivere il contenuto giornalistico inviato dall'utente come aiuto di scrittura per argomenti predefiniti. Gli utenti non possono usare l'applicazione come strumento generale per la creazione di contenuti per tutti gli argomenti.
Risposta alle domande : gli utenti possono porre domande e ricevere risposte da documenti di origine attendibili, ad esempio la documentazione interna dell'azienda. L'applicazione non genera risposte non supportate dalla documentazione di origine attendibile.
Motivo dei dati strutturati e non strutturati : gli utenti possono analizzare gli input usando la classificazione, l'analisi del sentiment del testo o l'estrazione di entità. Gli esempi includono l'analisi del feedback sui prodotti, l'analisi delle chiamate all'assistenza, le trascrizioni e l'affinamento della ricerca basata su testo con incorporamenti.
Ricerca : gli utenti possono cercare documenti di origine attendibili, ad esempio la documentazione interna dell'azienda. L'applicazione non genera risultati non basati sulla documentazione di origine attendibile.
Riepilogo : gli utenti possono inviare contenuto da riepilogare per gli argomenti predefiniti incorporati nell'applicazione e non possono usare l'applicazione come riepilogo aperto. Tra gli esempi sono inclusi il riepilogo della documentazione aziendale interna, le trascrizioni dei call center, i report tecnici e le revisioni dei prodotti.
Assistenza per la scrittura su argomenti specifici : gli utenti possono creare nuovi contenuti o riscrivere il contenuto inviato dall'utente come supporto per la scrittura di contenuti aziendali o argomenti predefiniti. Gli utenti possono solo riscrivere o creare contenuto per scopi aziendali specifici o argomenti predefiniti e non possono usare l'applicazione come strumento generale per la creazione di contenuti per tutti gli argomenti. Esempi di contenuto aziendale includono proposte e report. Per l'uso giornalistico, vedere il caso d'uso dei contenuti giornalistici .
Generazione di dati per l'ottimizzazione: gli utenti possono usare un modello in Azure OpenAI per generare dati usati esclusivamente per ottimizzare (i) un altro modello Di Azure OpenAI, usando le funzionalità di ottimizzazione di Azure OpenAI e/o (ii) un altro modello personalizzato di Intelligenza artificiale di Azure, usando le funzionalità di ottimizzazione del servizio azure per intelligenza artificiale di Azure. La generazione di dati e l'ottimizzazione dei modelli è limitata solo agli utenti interni; Il modello ottimizzato può essere usato solo per l'inferenza nel servizio di intelligenza artificiale di Azure applicabile e, per il servizio OpenAI di Azure, solo per i casi d'uso consentiti del cliente in questo modulo.

Casi d'uso ottimizzati

Di seguito sono riportati altri casi d'uso consigliati per i modelli ottimizzati. Il fine-tuning è più appropriato per:

Sterzando lo stile, il formato, il tono o gli aspetti qualitativi delle risposte tramite esempi delle risposte desiderate.
Garantire che il modello produa in modo affidabile un output desiderato , ad esempio fornire risposte in un formato specifico o garantire che le risposte siano contenute in base alle informazioni nel prompt.
Casi d'uso con molti casi limite che non possono essere trattati all'interno di esempi nel prompt, ad esempio linguaggio naturale complesso per esempi di codice.
Miglioramento delle prestazioni in specifiche competenze o attività , ad esempio classificazione, riepilogo o formattazione, che possono essere difficili da descrivere all'interno di una richiesta.
Riduzione dei costi o della latenza usando richieste più brevi o lo scambio di una versione ottimizzata di un modello più piccolo/veloce per un modello più generico ,ad esempio GPT-3.5-Turbo ottimizzato per GPT-4.

Come per i modelli di base, i divieto dei casi d'uso descritti nel codice di comportamento di Azure OpenAI si applicano anche ai modelli ottimizzati.

L'ottimizzazione da sola non è consigliata per gli scenari in cui si vuole estendere il modello in modo da includere informazioni al di fuori del dominio, in cui la spiegabilità o il fondamento sono importanti o in cui i dati sottostanti vengono aggiornati di frequente.

Casi d'uso di serie o

Le capacità avanzate di ragionamento dei modelli della serie o potrebbero essere più adatte per utilizzi intensivi di ragionamento nei campi della scienza, della codifica, della matematica e simili. Casi d'uso specifici possono includere:

Generazione, analisi e ottimizzazione di codice complesse: generazione di algoritmi e attività di codifica avanzate per consentire agli sviluppatori di eseguire flussi di lavoro in più passaggi, comprendere meglio i passaggi eseguiti nello sviluppo di codice.
Risoluzione avanzata dei problemi: sessioni complete di brainstorming, sviluppo di strategie e risoluzione dei problemi multifattoriali.
Confronto di documenti complessi: analisi di contratti, file di casi o documenti legali per distinguere le piccole differenze nel contenuto del documento.
Istruzioni seguenti e gestione del flusso di lavoro: gestione dei flussi di lavoro che richiedono un contesto più breve.

Per maggiori dettagli sugli usi previsti, visita la scheda di sistema OpenAI o1 e la scheda di sistema o3-mini.

Casi d'uso di valutazione di Azure OpenAI

La valutazione OpenAI di Azure è una funzionalità solo testuale e non può essere usata con modelli che supportano input non testuali. Le valutazioni possono essere usate in più scenari, tra cui:

Valutazione di corrispondenza/confronto del testo: utile per gli scenari in cui l'utente vuole verificare se l'output corrisponde a una stringa prevista. Gli utenti possono anche confrontare due set di valori e assegnare un punteggio alle relazioni. Gli esempi includono, ad esempio, domande a scelta multipla in cui le risposte vengono confrontate con una chiave di risposta e la convalida delle stringhe.
Qualità del testo: la qualità del testo valuta la qualità della risposta con metodi come gli algoritmi Bleu, Rouge o coseno ed è ampiamente usato in varie attività di elaborazione del linguaggio naturale, ad esempio la traduzione automatica, il riepilogo del testo e la generazione di testo, tra le altre.
Valutazione basata sulla classificazione: la valutazione basata sulla classificazione valuta le prestazioni di un modello assegnando risposte a categorie o etichette predefinite o confrontando l'output del modello con un set di riferimento di risposte corrette. La classificazione automatica, l'analisi del sentiment e la categorizzazione dei prodotti sono tra alcuni dei casi d'uso comuni.
Valutazione della qualità della conversazione: la valutazione della qualità della conversazione implica il confronto delle risposte rispetto ai criteri predefiniti usando un prompt dettagliato della catena di pensiero (CoT). I casi d'uso comuni includono il supporto clienti, lo sviluppo di chatbot e le valutazioni didattiche, tra gli altri.
Valutazione basata su criteri: uno scenario comune per la valutazione basata su criteri è la factualità. La valutazione dell'accuratezza effettiva comporta il confronto di una risposta inviata a una risposta esperta, concentrandosi esclusivamente sul contenuto effettivo. Ciò può essere utile negli strumenti didattici per migliorare l'accuratezza delle risposte fornite dalle LLM o negli strumenti di assistenza alla ricerca per valutare l'accuratezza effettiva delle risposte generate dalle LLM nelle impostazioni accademiche.
Valutazione della validità delle stringhe: uno scenario comune consiste nel verificare se la risposta del modello segue uno schema specifico o è un contenuto JSON o XML valido.

Casi d'uso di Uso del computer (anteprima)

Le funzionalità di Utilizzo computer sono più adatte per lo sviluppo di sistemi di intelligenza artificiale agenti che possono interagire in modo autonomo con le interfacce utente. Casi d'uso specifici possono includere:

Spostamento e interazione Web automatizzati: esplorazione autonoma delle interfacce basate sul Web per recuperare e presentare informazioni da origini attendibili, ad esempio risorse aziendali interne o database strutturati. Il modello segue le regole di spostamento predefinite per estrarre i dati pertinenti garantendo al tempo stesso la conformità ai criteri di sicurezza.
Web-Based Automazione attività: automazione di attività ripetitive basate sul Web, ad esempio la compilazione di moduli, l'invio di dati o l'interazione con le applicazioni Web. Computer Usa può fare clic su pulsanti, immettere testo ed elaborare dati strutturati, ma opera solo all'interno di flussi di lavoro e domini autorizzati.
Estrazione di dati strutturati e non strutturati: estrazione di dati rilevanti da origini strutturate come tabelle e fogli di calcolo, nonché origini non strutturate, ad esempio PDF, documenti analizzati o messaggi di posta elettronica. Questa funzionalità è utile per attività come l'elaborazione dei dati finanziari, l'analisi del contratto o la categorizzazione dei ticket di supporto clienti.
Compilazione automatica dei moduli e immissione di dati: estrazione di informazioni da database strutturati o input utente e usarli per popolare moduli basati sul Web. Ciò è utile per automatizzare le richieste del servizio clienti, i processi HR o gli aggiornamenti CRM, garantendo al tempo stesso l'accuratezza e la coerenza nella gestione dei dati.
Web-Based Analizzare le immagini: analizzare le immagini presenti nelle pagine web per individuare e etichettare oggetti, scene o modelli pertinenti. L'uso del computer può estrarre informazioni visive per supportare applicazioni come la gestione dell'inventario, l'elaborazione dei documenti o la classificazione degli oggetti.
Ricerca visiva interattiva e identificazione: assistenza agli utenti nell'individuazione del contenuto visivo pertinente tramite ricerche strutturate. Ad esempio, Uso computer può identificare i prodotti in un catalogo di e-commerce, riconoscere i punti di riferimento nelle applicazioni di viaggio o recuperare immagini specifiche da archivi digitali in base a criteri predefiniti.
Controlli automatizzati di conformità e criteri: analisi del contenuto basato sul Web, ad esempio file caricati, contratti o documentazione interna per l'adesione alle regole di conformità predefinite. L'uso del computer può contrassegnare informazioni mancanti, incoerenze o potenziali violazioni per applicare gli standard normativi all'interno di un'organizzazione.
Esecuzione automatica del flusso di lavoro per le applicazioni aziendali: definizione di flussi di lavoro in più passaggi per l'esplorazione di applicazioni aziendali, ad esempio la generazione di report, l'aggiornamento dei record o il recupero di analisi. Computer Use segue i passaggi predefiniti all'interno degli strumenti aziendali e rispetta i criteri di controllo di accesso per garantire l'esecuzione sicura.

Considerazioni sulla scelta di un caso d'uso

Incoraggiamo i clienti a utilizzare i modelli Azure OpenAI GPT-4, GPT-3, Codex e modelli Computer Use nelle loro soluzioni o applicazioni innovative come approvato nel loro modulo di registrazione con accesso limitato. Tuttavia, ecco alcune considerazioni sulla scelta di un caso d'uso:

Non adatto per la generazione di contenuti non vincolati e aperti. Gli scenari in cui gli utenti possono generare contenuto su qualsiasi argomento hanno maggiori probabilità di produrre testo offensivo o dannoso. Lo stesso vale per le generazioni più lunghe.
Non adatto per scenari in cui up-to-date, le informazioni fattualmente accurate sono fondamentali a meno che non abbiate revisori umani o stiate usando i modelli per cercare i vostri documenti e abbiate verificato l'idoneità per il vostro scenario. Il servizio non dispone di informazioni sugli eventi che si verificano dopo la data di training, probabilmente non ha conoscenze su alcuni argomenti e potrebbe non sempre produrre informazioni effettivamente accurate.
Evitare scenari in cui l'uso o l'uso improprio del sistema potrebbe causare gravi lesioni fisiche o psicologiche a un individuo. Ad esempio, gli scenari che diagnosticano i pazienti o prescrivono farmaci hanno il potenziale di causare danni significativi. L'incorporazione di revisioni umane significative e supervisione nello scenario può contribuire a ridurre il rischio di risultati dannosi.
Evitare scenari in cui l'uso o l'uso improprio del sistema potrebbe avere un impatto consequenziale sulle opportunità di vita o sullo stato legale. Gli esempi includono scenari in cui il sistema di IA potrebbe influire sullo stato legale e sui diritti legali di un individuo o sul relativo accesso al credito, all'istruzione, all'occupazione, all'assistenza sanitaria, all'abitazione, all'assicurazione, alle prestazioni sociali, ai servizi, alle opportunità o alle condizioni di riferimento. L'incorporazione di revisioni umane significative e supervisione nello scenario può contribuire a ridurre il rischio di risultati dannosi.
Evitare scenari ad alto rischio che potrebbero causare danni. I modelli ospitati dal servizio Azure OpenAI riflettono alcune visualizzazioni sociali, distorsioni e altri contenuti indesiderati presenti nei dati di training o negli esempi forniti nel prompt. Di conseguenza, è consigliabile prestare attenzione all'uso dei modelli in scenari ad alto rischio in cui comportamenti ingiusti, inaffidabili o offensivi potrebbero essere estremamente costosi o causare danni. L'incorporazione di revisioni umane significative e supervisione nello scenario può contribuire a ridurre il rischio di risultati dannosi.
Valutare attentamente i casi d'uso in domini o settori di alto livello: Gli esempi includono, ad esempio, assistenza sanitaria, medicina, finanza o legale.
Valutare attentamente i precisi scenari di chatbot. La limitazione dell'uso del servizio nei chatbot a un dominio ristretto riduce il rischio di generare risposte non intenzionali o indesiderate.
Considerare attentamente tutti i casi d'uso generativi. È possibile che gli scenari di generazione di contenuti producano output imprevisti e che questi scenari richiedano un'attenta considerazione e mitigazioni.
Considerazioni legali e normative: le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usano servizi e soluzioni di intelligenza artificiale, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, i servizi o le soluzioni di intelligenza artificiale non sono progettati per e non possono essere usati in modi vietati in termini di servizio e codici di comportamento pertinenti.

Quando si sceglie un caso d'uso per l'uso del computer, gli utenti devono tenere presenti le considerazioni seguenti oltre a quelle elencate in precedenza:

Evitare scenari in cui le azioni sono irreversibili o altamente consequenziali: tra cui, ad esempio, la possibilità di inviare un messaggio di posta elettronica (ad esempio al destinatario sbagliato), la possibilità di modificare o eliminare file importanti per l'utente, la possibilità di effettuare transazioni finanziarie o interagire direttamente con servizi esterni, condividere informazioni riservate pubblicamente, concedere l'accesso a sistemi critici, o l'esecuzione di comandi che potrebbero modificare la funzionalità di sistema o la sicurezza.
Degradazione delle prestazioni sugli usi avanzati: l'Uso del computer è più adatto per i casi d'uso che prevedono di completare attività con le interfacce utente, come l'accesso a siti web e ai desktop dei computer. Potrebbe non eseguire correttamente attività più avanzate, ad esempio la modifica del codice, la scrittura di testo esteso e l'esecuzione di decisioni complesse.
Garantire una supervisione e un controllo umani adeguati. Prendere in considerazione l'inclusione di controlli per consentire agli utenti di verificare, esaminare e/o approvare azioni in modo tempestivo, che possono includere la revisione delle attività pianificate o le chiamate a origini dati esterne, ad esempio, in base alle esigenze del sistema. Prendere in considerazione l'inclusione di controlli per correggere adeguatamente gli errori di sistema, in particolare in scenari ad alto rischio e casi d'uso.
Definire chiaramente le azioni e i requisiti associati. Definire chiaramente quali azioni sono consentite (limiti di azione), vietate o che necessitano di autorizzazioni esplicite possono aiutare l'uso del computer a operare come previsto e con il livello appropriato di supervisione umana.
Definire chiaramente gli ambienti operativi previsti. Definire chiaramente gli ambienti operativi previsti (limiti di dominio) in cui l'uso del computer è progettato per eseguire in modo efficace.
Garantire l'intelligibilità appropriata nel processo decisionale. Fornire informazioni agli utenti prima, durante e dopo l'esecuzione di azioni può aiutare a comprendere la giustificazione dell'azione o perché sono state eseguite determinate azioni o l'applicazione si comporta in un determinato modo, dove intervenire e come risolvere i problemi.
Per altre informazioni, vedere la Guida alla promozione della dipendenza appropriata dall'intelligenza artificiale generativa.

Usi previsti

Il gpt-4o-realtime-preview modello può essere usato per un'ampia gamma di attività di elaborazione del linguaggio naturale in modo simile ai modelli GPT esistenti. Tuttavia, questo modello è destinato in modo specifico ai casi d'uso di voce e audio. Di seguito sono riportati alcuni esempi di attività supportate da questo modello:

Creazione e interazione della chat vocale: gli utenti possono creare e parlare con un agente conversazionale che risponde con funzionalità vocali.
Traduzione della lingua: gli utenti possono tradurre tra le lingue durante la conversazione in tempo reale. La sottotitografia può essere supportata con trascrizioni audio di input e output in tempo reale. Il supporto del linguaggio è in linea con le versioni del modello gpt-4o esistenti.
Risposta alle domande: gli utenti possono porre domande scritte e/o pronunciate e ricevere risposte pronunciate dal modello.
Generazione di contenuti: gli utenti possono creare nuovi contenuti audio dall'input definito dall'utente. Il modello verificherà e impedirà la creazione di materiale protetto da copyright o rappresentazione di voci.

Per informazioni più dettagliate sulle funzionalità del modello 4o, vedere la scheda di sistema OpenAI 4o.

Il modello Whisper nel servizio Azure OpenAI può essere usato per varie attività di riconoscimento vocale e traduzione vocale. L'elenco seguente non è completo, ma illustra la diversità delle attività che possono essere supportate con mitigazioni appropriate.

Dettatura: gli utenti possono trascrivere parole pronunciate sotto forma di file audio in testo. Ad esempio, un utente potrebbe usare il servizio per trascrivere le registrazioni del call center nei report.
Didascalie o trascrizione: gli utenti possono trascrivere file audio in testo per le attività analitiche o di comprensione del linguaggio naturale, come riepiloghi e analisi del sentiment. Gli esempi includono il riconoscimento vocale come input nei sistemi di dialogo, rendendo il contenuto audio più accessibile o creando una traduzione testuale da analizzare.
Traduzione: Gli utenti possono tradurre file audio multilingue in inglese. Ciò può risultare particolarmente interessante in scenari multilingue.

Considerazioni sulla scelta di un caso d'uso

Si consiglia ai clienti di usare i gpt-4o-realtime-preview modelli e Whisper nel servizio Azure OpenAI nelle soluzioni o nelle applicazioni innovative. Ecco alcune considerazioni per la scelta di un caso d'uso:

Evitare scenari in cui l'uso o l'uso improprio del sistema potrebbe avere un impatto consequenziale sulle opportunità di vita o sullo stato legale. Gli esempi includono scenari in cui il sistema di IA potrebbe influire sullo stato legale, sui diritti legali o sul loro accesso al credito, all'istruzione, all'occupazione, all'assistenza sanitaria, all'alloggio, all'assicurazione, alle prestazioni sociali, ai servizi, alle opportunità o alle condizioni in cui sono disponibili questi elementi.
Considerare attentamente tutti i casi d'uso in domini o settori di alto livello: Gli esempi includono, ad esempio, assistenza sanitaria, istruzione, finanza e legale.
Sussurrare nel servizio Voce di Azure: Il modello OpenAI Whisper è disponibile anche nei servizi Voce di Intelligenza artificiale di Azure, migliorando l'esperienza con funzionalità avanzate come il riconoscimento multilingue e la leggibilità. A seconda dello scenario, è possibile esplorare i servizi Voce di Azure e le funzionalità aggiuntive del servizio, ad esempio diaritizzazione, personalizzazione o elaborazione di più file audio per richiesta.
Considerazioni legali e normative: le organizzazioni devono valutare potenziali obblighi legali e normativi specifici quando si usano servizi e soluzioni di intelligenza artificiale, che potrebbero non essere appropriati per l'uso in ogni settore o scenario. Inoltre, i servizi o le soluzioni di intelligenza artificiale non sono progettati per e non possono essere usati in modi vietati in termini di servizio e codici di comportamento pertinenti.

Limitazioni

Quando si tratta di modelli di linguaggio naturale su larga scala, modelli di visione e modelli vocali, esistono problemi di equità e IA responsabile da considerare. Le persone usano linguaggio e immagini per descrivere il mondo e per esprimere le loro convinzioni, presupposti, atteggiamenti e valori. Di conseguenza, i dati di testo e immagine disponibili pubblicamente usati per eseguire il training di modelli di elaborazione del linguaggio naturale su larga scala e generazione di immagini contengono pregiudizi sociali relativi a razza, sesso, religione, età e altri gruppi di persone, nonché altri contenuti indesiderati. Analogamente, i modelli vocali possono presentare livelli diversi di accuratezza in diversi gruppi demografici e lingue. Questi pregiudizi sociali si riflettono nelle distribuzioni di parole, frasi e strutture sintattiche.

Limitazioni tecniche, fattori operativi e intervalli

Attenzione

Si noti che questa sezione contiene esempi illustrativi che includono termini e linguaggi che alcuni utenti potrebbero trovare offensivi.

I modelli di linguaggio naturale, immagine e riconoscimento vocale su larga scala sottoposti a training con tali dati possono potenzialmente comportarsi in modi ingiusti, inaffidabili o offensivi, a loro volta causando danni. Ecco alcuni dei modi elencati qui. Sottolineamo che questi tipi di danni non si escludono a vicenda. Un singolo modello può presentare più di un tipo di danno, potenzialmente relativo a più gruppi diversi di persone. Per esempio:

Allocazione: Questi modelli possono essere usati in modi che portano a un'allocazione ingiusta di risorse o opportunità. Ad esempio, i sistemi di screening automatizzati di curriculum possono trattenere le opportunità di lavoro da un sesso se sono addestrati su dati di curriculum che riflettono lo squilibrio di genere esistente in un particolare settore. Oppure i modelli di generazione di immagini possono essere utilizzati per creare immagini nello stile di un artista noto, che potrebbe influire sul valore dell'opera dell'artista o sulle opportunità di vita dell'artista. I modelli di visione GPT-4 possono essere usati per identificare i singoli comportamenti e modelli che potrebbero avere un impatto negativo sulle opportunità di vita.
Qualità del servizio: I modelli OpenAI di Azure vengono sottoposti principalmente a training su testo e immagini in inglese con descrizioni di testo in inglese. Le lingue diverse dall'inglese avranno prestazioni peggiori. Le varietà di lingua inglese con una rappresentazione minore nei dati di training potrebbero riscontrare prestazioni peggiori rispetto all'inglese americano standard. Le immagini disponibili pubblicamente usate per eseguire il training dei modelli di generazione di immagini potrebbero rafforzare la distorsione pubblica e altri contenuti indesiderati. I modelli DALL·E non riescono ancora a generare testo comprensibile in modo coerente in questo momento. I modelli vocali possono introdurre altre limitazioni, ad esempio le traduzioni che usano il modello Whisper in Azure OpenAI sono limitate solo all'output in inglese. In generale, con i modelli di riconoscimento vocale, assicurarsi di specificare correttamente una lingua (o impostazioni locali) per ogni input audio per migliorare l'accuratezza nella trascrizione. Inoltre, la qualità acustica dell'input audio, il rumore non vocale, il parlato sovrapposto, il vocabolario, gli accenti e gli errori di inserimento possono influire anche sulla qualità della trascrizione o della traduzione.
Stereotipi: Questi modelli possono rafforzare gli stereotipi. Ad esempio, quando si traduce "Lui è un infermiere" e "Lei è un medico" in una lingua senza sesso come turco e poi torna in inglese, molti sistemi di traduzione automatica producono i risultati stereotipici (e non corretti) di "Lei è un infermiere" e "Lui è un medico". Con DALL· E, quando si genera un'immagine basata sul prompt "Padreless children", il modello potrebbe generare solo immagini di bambini neri, rinforzando stereotipi dannosi che potrebbero esistere in immagini disponibili pubblicamente. I modelli di visione GPT-4 potrebbero anche rafforzare gli stereotipi in base al contenuto dell'immagine di input, basandosi sui componenti dell'immagine e facendo ipotesi che potrebbero non essere sempre vere.
Umiliante: I modelli di linguaggio naturale e visione nel servizio Azure OpenAI possono umiliare le persone. Ad esempio, un sistema di generazione di contenuti aperto con mitigazioni inappropriati o insufficienti potrebbe produrre contenuto offensivo o demeplicato a un determinato gruppo di persone.
Sovrapresentazione e sottopresentazione: I modelli di visione e linguaggio naturale nel servizio Azure OpenAI possono sovra o sottorappresentare gruppi di persone o persino cancellare completamente la loro rappresentazione. Ad esempio, se i messaggi di testo che contengono la parola "gay" vengono rilevati come potenzialmente dannosi o offensivi, questa identificazione potrebbe portare alla sottopresentazione o persino alla cancellazione di generazioni di immagini legittime da parte o della comunità LGBTQIA+.
Contenuto inappropriato o offensivo: I modelli di linguaggio naturale e visione nel servizio Azure OpenAI possono produrre altri tipi di contenuto inappropriato o offensivo. Gli esempi includono la possibilità di generare testo non appropriato nel contesto del prompt del testo o dell'immagine; la possibilità di creare immagini che contengono potenzialmente artefatti dannosi, ad esempio simboli di odio; immagini che connotazioni dannose illecite; immagini che riguardano argomenti contestati, controversi o ideologicamente polarizzanti; immagini manipolative; immagini che contengono contenuti con addebito sessuale che non vengono catturati dai filtri di contenuto correlati al sesso; immagini che si riferiscono a argomenti sensibili o emotivamente caricati. Ad esempio, un messaggio di testo ben intenzionato volto a creare un'immagine dello skyline di New York con nuvole e aerei che volano sopra potrebbe generare involontariamente immagini che sentimenti illeciti correlati agli eventi che circondano il 9/11.
Disinformazioni e disinformazioni su argomenti sensibili: Perché DALL· E e GPT-image-1 sono potenti modelli di generazione di immagini, possono essere usati per produrre disinformazioni e disinformazioni che possono essere dannose. Ad esempio, un utente potrebbe chiedere al modello di generare un'immagine di un leader politico che si impegna nell'attività di una natura violenta o sessuale (o semplicemente imprecisa) che potrebbe causare danni consequenziali, tra cui, ad esempio, proteste pubbliche, cambiamenti politici o fake news. I modelli di visione GPT-4 possono essere usati anche in modo simile. Il modello potrebbe rafforzare le disinformazioni o le disinformazioni sugli argomenti sensibili se il prompt contiene tali informazioni senza mitigazione.
Affidabilità delle informazioni: Le risposte del modello linguistico e visivo possono generare contenuto non sensibile o creare contenuti che potrebbero sembrare ragionevoli, ma non accurati rispetto alle origini di convalida esterne. Anche quando si disegnano risposte da informazioni di origine attendibili, le risposte potrebbero rappresentare in modo errato il contenuto. Le trascrizioni o le traduzioni potrebbero comportare testo impreciso.
Informazioni false: Azure OpenAI non verifica o verifica il contenuto fornito da clienti o utenti. A seconda di come è stata sviluppata l'applicazione, potrebbe produrre false informazioni a meno che non siano state compilate mitigazioni (vedere Procedure consigliate per migliorare le prestazioni del sistema).

Rischi e limitazioni dell'ottimizzazione

Quando i clienti ottimizzano i modelli OpenAI di Azure, possono migliorare le prestazioni e l'accuratezza del modello su attività e domini specifici, ma possono anche introdurre nuovi rischi e limitazioni da tenere presenti ai clienti. Questi rischi e limitazioni si applicano a tutti i modelli OpenAI di Azure che supportano l'ottimizzazione. Alcuni di questi rischi e limitazioni sono:

Qualità e rappresentazione dei dati: la qualità e la rappresentatività dei dati usati per l'ottimizzazione possono influire sul comportamento e sugli output del modello. Se i dati sono rumorosi, incompleti, obsoleti o se contengono contenuti dannosi come stereotipi, il modello può ereditare questi problemi e produrre risultati non accurati o dannosi. Ad esempio, se i dati contengono stereotipi di genere, il modello può amplificarli e generare un linguaggio sessista. I clienti devono selezionare e pre-elaborare attentamente i dati per assicurarsi che siano rilevanti, diversificati ed equilibrati per l'attività e il dominio previsti.
Affidabilità e generalizzazione del modello: la capacità del modello di gestire input e scenari diversi e complessi può diminuire dopo l'ottimizzazione, soprattutto se i dati sono troppo stretti o specifici. Il modello può adattarsi ai dati e perdere alcune delle proprie conoscenze e funzionalità generali. Ad esempio, se i dati riguardano solo gli sport, il modello può lottare per rispondere a domande o generare testo su altri argomenti. I clienti devono valutare le prestazioni e l'affidabilità del modello in un'ampia gamma di input e scenari ed evitare di usare il modello per attività o domini esterni all'ambito.
Rigurgito: se i dati di training non sono disponibili per Microsoft o per i clienti di terze parti, i modelli ottimizzati in modo errato possono rigurgitare o ripetere direttamente i dati di training. I clienti sono responsabili della rimozione di PII o altre informazioni protette dai dati di training e devono valutare i modelli ottimizzati per individuare eventuali casi di overfitting o risposte di bassa qualità. Per evitare la rigurgitazione, i clienti sono invitati a fornire set di dati di grandi dimensioni e diversificati.
Trasparenza e spiegazione del modello: la logica e il ragionamento del modello possono diventare più opachi e difficili da comprendere dopo l'ottimizzazione, soprattutto se i dati sono complessi o astratti. Un modello ottimizzato può produrre output imprevisti, incoerenti o contraddittori e i clienti potrebbero non essere in grado di spiegare come o perché il modello è arrivato a tali output. Ad esempio, se i dati riguardano termini legali o medici, il modello può generare output non accurati o fuorvianti e i clienti potrebbero non essere in grado di verificarli o giustificarli. I clienti devono monitorare e controllare gli output e il comportamento del modello e fornire informazioni chiare e accurate e indicazioni agli utenti finali del modello.

Per attenuare i rischi associati ai modelli avanzati ottimizzati finemente, abbiamo implementato passaggi di valutazione aggiuntivi per aiutare a rilevare e prevenire contenuti dannosi durante il training e nelle uscite dei modelli ottimizzati finemente. I filtri di valutazione dei modelli ottimizzati sono impostati su soglie predefinite e non possono essere modificati dai clienti; non sono associati a alcuna configurazione di filtro del contenuto personalizzata creata.

Limitazioni delle O-Series

I modelli di ragionamento di serie o sono più adatti per i casi d'uso che comportano un ragionamento pesante e potrebbero non funzionare bene su alcune attività del linguaggio naturale, ad esempio la scrittura personale o creativa rispetto ai modelli AOAI precedenti.
Le nuove funzionalità di ragionamento possono aumentare determinati tipi di rischi, richiedendo metodi e approcci perfezionati per i protocolli di gestione dei rischi e la valutazione e il monitoraggio del comportamento del sistema. Ad esempio, le funzionalità di ragionamento CoT di o1 hanno dimostrato miglioramenti a livello di persuasività e nei semplici schemi contestuali.
Gli utenti possono riscontrare che la famiglia di modelli di ragionamento richiede più tempo per ragionare attraverso le risposte e tenere conto del tempo e della latenza aggiuntivi nello sviluppo di applicazioni.

Per maggiori dettagli su queste limitazioni, vedere scheda di sistema OpenAI o1 e scheda di sistema o3-mini.

Limitazioni 4o

Le gpt-4o-realtime-preview funzionalità di traduzione audio possono restituire lingue non inglesi in un accento non nativo. Ciò può limitare l'efficacia delle prestazioni del linguaggio negli output audio. Il supporto del linguaggio è in linea con le versioni del modello gpt-4o esistenti.
Gli utenti possono riscontrare un'esperienza gpt-4o-realtime-preview meno affidabile in ambienti rumorosi e devono tenere conto della sensibilità del rumore durante lo sviluppo di applicazioni.

Per altre procedure consigliate, vedere la scheda di sistema OpenAI 4o.

4.1 Limitazioni

I modelli serie 4.1 introducono la possibilità di creare richieste di inferenza con un massimo di 1M token di contesto, incluse le immagini. A causa della lunghezza estesa, potrebbero esserci differenze nel comportamento del sistema e nei rischi rispetto ad altri modelli.
Gli utenti devono valutare e testare accuratamente le applicazioni e i casi d'uso che sfruttano questa funzionalità di contesto più lunga e devono tenere conto di questo sforzo aggiuntivo durante lo sviluppo di applicazioni.

Limitazioni di GPT-image-1

GPT-image-1 attualmente non supporta criteri personalizzati, ad esempio la configurabilità del filtro del contenuto.

Rischi e limitazioni dell'uso del computer (anteprima)

Verificare e controllare le azioni eseguite: l'uso del computer potrebbe commettere errori ed eseguire azioni impreviste. Ciò può essere dovuto al fatto che il modello non comprende completamente l'interfaccia utente grafica, avendo istruzioni poco chiare o riscontrando uno scenario imprevisto.

Valutare attentamente e monitorare l'uso: l'uso del computer, in alcune circostanze limitate, può eseguire azioni senza autorizzazione esplicita, alcune delle quali possono essere ad alto rischio (ad esempio, inviare comunicazioni)

Valutare in isolamento: è consigliabile valutare solo l'uso del computer in contenitori isolati senza accesso a dati o credenziali sensibili.

Processi decisionali opachi: man mano che gli agenti combinano modelli linguistici di grandi dimensioni con sistemi esterni, tracciando il "perché" alle loro decisioni può diventare difficile. Gli utenti AEnd che usano un agente creato usando il modello Utilizzo computer potrebbero risultare difficili da comprendere perché alcuni strumenti o combinazioni di strumenti sono stati scelti per rispondere a una query, complicando l'attendibilità e la verifica degli output o delle azioni dell'agente.

Procedure consigliate e standard in continua evoluzione: se si usa l'uso di computer per creare un sistema agentico, tenere presente che gli agenti sono una tecnologia emergente e indicazioni sull'integrazione sicura, l'utilizzo trasparente degli strumenti e la distribuzione responsabile continuano a evolversi. Tenere il passo con le procedure consigliate e le procedure di controllo più recenti è fondamentale, poiché anche gli usi ben intenzionati possono diventare rischiosi senza revisione e perfezionamento continui.

Limitazioni di valutazione di Azure OpenAI

Qualità dei dati: quando si usa La valutazione OpenAI di Azure, tenere presente che i dati di scarsa qualità possono causare risultati di valutazione fuorvianti o inaffidabili.
Qualità della configurazione: Se un cliente definisce in modo errato i prompt o gli analizzatori o fornisce dati di valutazione non validi, i risultati del servizio valutazione OpenAI di Azure non saranno corretti e non validi. Per informazioni dettagliate su come configurare un'esecuzione di valutazione, vedere la documentazione di Azure OpenAI .
Ambito limitato: la valutazione OpenAI di Azure supporta solo modelli di linguaggio naturale basati su testo. Non supporta alcuna metrica di rischio e sicurezza per valutare le risposte generate per i punteggi di gravità del rischio e della sicurezza (ad esempio, contenuto odioso e ingiusto, contenuto sessuale, contenuto violento e contenuto correlato all'autolesionismo).

Prestazioni del sistema

In molti sistemi di intelligenza artificiale, le prestazioni vengono spesso definite in relazione all'accuratezza, ovvero la frequenza con cui il sistema di intelligenza artificiale offre una previsione o un output corretti. Con modelli di linguaggio naturale su larga scala e modelli di visione, due utenti diversi potrebbero esaminare lo stesso output e avere opinioni diverse su quanto sia utile o rilevante, il che significa che le prestazioni per questi sistemi devono essere definite in modo più flessibile. In questo contesto, consideriamo ampiamente le prestazioni per indicare che l'applicazione funziona come tu e i tuoi utenti vi aspettate, inclusa la mancata generazione di output dannosi.

Il servizio Azure OpenAI può supportare un'ampia gamma di applicazioni, ad esempio ricerca, classificazione, generazione di codice, generazione di immagini e comprensione delle immagini, ognuna con metriche delle prestazioni e strategie di mitigazione diverse. È possibile eseguire diversi passaggi per attenuare alcune delle preoccupazioni elencate in "Limitazioni" e migliorare le prestazioni. Altre importanti tecniche di mitigazione sono descritte nella sezione Valutazione e integrazione di Azure OpenAI per l'uso.

Procedure consigliate per migliorare le prestazioni del sistema

Mostrare e indicare quando si progettano le richieste. Con i modelli di linguaggio naturale e i modelli di riconoscimento vocale, rendere chiaro al modello il tipo di output previsto tramite istruzioni, esempi o una combinazione dei due. Se si vuole che il modello classifica un elenco di elementi in ordine alfabetico o di classificare un paragrafo in base al sentiment, mostrare il modello desiderato.
Mantenere l'applicazione pertinente. Strutturare con attenzione le richieste e gli input di immagini per ridurre la probabilità di produrre contenuti indesiderati, anche se un utente tenta di usarli a questo scopo. Ad esempio, si potrebbe indicare nel prompt che un chatbot si impegna solo nelle conversazioni sulla matematica e in caso contrario risponde "Mi dispiace. Temo di non poter rispondere a questa domanda". Aggiungere alla richiesta aggettivi come "educato" ed esempi nel tono desiderato può facilitare la gestione degli output.
Fornire dati di qualità. Con i modelli di testo e codice, se si sta provando a costruire un classificatore o far seguire al modello uno schema, assicurarsi che ci siano esempi sufficienti. Assicurarsi di rileggere gli esempi: il modello è in genere in grado di elaborare errori ortografici di base e fornire una risposta, ma potrebbe anche presupporre che gli errori siano intenzionali che potrebbero influire sulla risposta. Fornire dati di qualità include anche fornire al modello dati affidabili per trarre risposte dai sistemi di chat e di domande e risposte.
Fornire dati attendibili. Il recupero o il caricamento di dati non attendibili nei sistemi potrebbe compromettere la sicurezza dei sistemi o delle applicazioni. Per attenuare questi rischi nelle applicazioni applicabili (incluse le applicazioni che usano l'API Assistenti), è consigliabile registrare e monitorare le interazioni LLM (input/output) per rilevare e analizzare potenziali inserimenti di richieste, delineando chiaramente l'input dell'utente per ridurre al minimo il rischio di inserimento delle richieste, limitando l'accesso dell'LLM alle risorse sensibili, limitandone le funzionalità al minimo richiesto e isolandolo da sistemi e risorse critici. Informazioni sugli approcci di mitigazione aggiuntivi in Linee guida per la sicurezza per i modelli linguistici di grandi dimensioni | Microsoft Learn.
Configurare i parametri per migliorare l'accuratezza o l'integrità delle risposte. L'aumento delle richieste con i dati recuperati da origini attendibili, ad esempio usando la funzionalità "sui dati" di Azure OpenAI, può ridurre, ma non completamente eliminare, la probabilità di generare risposte imprecise o false informazioni. I passaggi che è possibile eseguire per migliorare ulteriormente l'accuratezza delle risposte includono la selezione accurata dell'origine dati attendibile e pertinente e la configurazione di parametri personalizzati, ad esempio "rigidità", "limitare le risposte al contenuto dei dati" e "numero di documenti recuperati da considerare" in base ai casi d'uso o agli scenari. Ulteriori informazioni su come configurare queste impostazioni per Azure OpenAI sui tuoi dati.
Limitare la lunghezza, la struttura e la frequenza di input e output. La limitazione della lunghezza o della struttura di input e output può aumentare la probabilità che l'applicazione rimanga su attività e attenuare, almeno in parte, qualsiasi comportamento potenzialmente ingiusto, inaffidabile o offensivo. Altre opzioni per ridurre il rischio di uso improprio includono (i) la limitazione dell'origine degli input (ad esempio, la limitazione degli input a un dominio specifico o agli utenti autenticati anziché l'apertura a chiunque su Internet) e (ii) l'implementazione dei limiti di frequenza di utilizzo.
Incoraggiare la revisione umana degli output prima della pubblicazione o della diffusione. Con l'intelligenza artificiale generativa, è possibile generare contenuti che potrebbero essere offensivi o non correlati all'attività, anche con mitigazioni in atto. Per garantire che l'output generato soddisfi le esigenze dell'utente, prendete in considerazione la possibilità di creare modalità per ricordare agli utenti di esaminare gli output per la qualità prima di condividerli ampiamente. Questa pratica può ridurre molti danni diversi, tra cui materiale offensivo, disinformazione e altro ancora.
Implementare mitigazioni aggiuntive specifiche dello scenario. Fare riferimento alle mitigazioni descritte in Valutazione e integrazione di Azure OpenAI per l'uso , incluse le strategie di moderazione del contenuto. Queste raccomandazioni non rappresentano tutte le misure di mitigazione necessarie per la vostra applicazione. I modelli più recenti, ad esempio GPT-4o e i modelli di ragionamento delle serie O, possono fornire risposte in scenari sensibili e potrebbero tentare di ridurre gli output potenzialmente dannosi nelle risposte anziché rifiutare di rispondere del tutto. È importante comprendere questo comportamento durante la valutazione e l'integrazione della moderazione del contenuto per il caso d'uso; possono essere necessarie modifiche alla gravità del filtro a seconda del caso d'uso.
I modelli di ragionamento di serie o hanno misure di sicurezza per impedire l'output della funzione CoT non elaborata. Il tentativo di estrarre il coT non elaborato, ad esempio eludendo queste misure di sicurezza, viola i criteri di utilizzo accettabili per i servizi online e può comportare la limitazione dell'accesso al servizio. Per maggiori dettagli sulle procedure consigliate, visitare la scheda di sistema OpenAI o1 e la scheda di sistema o3-mini.

Procedure consigliate e consigli per l'ottimizzazione

Per attenuare i rischi e le limitazioni dei modelli di ottimizzazione avanzata in Azure OpenAI, è consigliabile che i clienti seguano alcune procedure consigliate e linee guida, ad esempio:

Selezione e pre-elaborazione dei dati: i clienti devono selezionare e pre-elaborare attentamente i dati per assicurarsi che siano rilevanti, diversificati ed equilibrati per l'attività e il dominio previsti. I clienti devono anche rimuovere o rendere anonime eventuali informazioni riservate o personali dai dati, ad esempio nomi, indirizzi o indirizzi di posta elettronica, per proteggere la privacy e la sicurezza degli interessati. I clienti devono anche controllare e correggere eventuali errori o incoerenze nei dati, ad esempio ortografia, grammatica o formattazione, per migliorare la qualità e la leggibilità dei dati.
Includere un messaggio di sistema nei dati di training per i modelli formattati di completamento della chat, per gestire le risposte e usare lo stesso messaggio di sistema quando si usa il modello ottimizzato per l'inferenza. Lasciare vuoto il messaggio di sistema tende a produrre modelli ottimizzati con bassa accuratezza e dimenticare di includere lo stesso messaggio di sistema quando l'inferenza può comportare il ripristino del modello ottimizzato al comportamento del modello di base.
Valutazione e test del modello: i clienti devono valutare e testare le prestazioni e l'affidabilità del modello ottimizzati su un'ampia gamma di input e scenari e confrontarli con il modello originale e altre baseline. I clienti devono anche usare metriche e criteri appropriati per misurare l'accuratezza, l'affidabilità e l'equità del modello e identificare eventuali errori o distorsioni negli output e nel comportamento del modello.
Documentazione e comunicazione del modello: i clienti devono documentare e comunicare lo scopo, l'ambito, le limitazioni e i presupposti del modello e fornire informazioni chiare e accurate e indicazioni agli utenti finali del modello.

Procedure consigliate e consigli per la valutazione di Azure OpenAI

Dati di riferimento robusti: In generale, nei modelli di linguaggio naturale su larga scala, i clienti dovrebbero selezionare e pre-elaborare con attenzione i propri dati per garantire che siano rilevanti, diversificati ed equilibrati per l'attività e il contesto previsti. I clienti devono anche rimuovere o rendere anonime eventuali informazioni riservate o personali dai dati, ad esempio nomi, indirizzi o indirizzi di posta elettronica, per proteggere la privacy e la sicurezza degli interessati. I clienti devono anche controllare e correggere eventuali errori o incoerenze nei dati, ad esempio ortografia, grammatica o formattazione, per migliorare la qualità e la leggibilità dei dati.
In particolare per la valutazione di Azure OpenAI, l'accuratezza dei dati di verità sul terreno forniti dall'utente è fondamentale perché i dati di verità non accurati causano risultati di valutazione inutili e imprecisi. Garantire la qualità e l'affidabilità di questi dati è essenziale per ottenere valutazioni valide delle prestazioni del modello. Dati di riferimento imprecisi possono distorcere le metriche di valutazione, portando a conclusioni fuorvianti sulle capacità del modello. Pertanto, gli utenti devono curare e verificare attentamente i dati di verità di base per garantire che il processo di valutazione rifletta accuratamente le prestazioni effettive del modello. Ciò è particolarmente importante quando si decide di distribuire il modello in applicazioni reali
Richiesta di valutazione: la richiesta usata nella valutazione deve corrispondere alla richiesta che si prevede di usare nell'ambiente di produzione. Queste richieste forniscono le istruzioni da applicare al modello. Analogamente al playground OpenAI, è possibile creare più input per includere esempi di pochi scatti nel prompt. Per ulteriori informazioni su alcune tecniche avanzate nella progettazione e nell'ingegneria dei prompt, consultare Tecniche di ingegneria dei prompt.
Metriche diverse: usare una combinazione di metriche per acquisire aspetti diversi delle prestazioni, ad esempio accuratezza, fluenza e pertinenza.
Human-in-the-loop: integrare il feedback umano insieme alla valutazione automatizzata per garantire che le sfumature soggettive vengano acquisite accuratamente.
Trasparenza: comunicare chiaramente i criteri di valutazione agli utenti, consentendo loro di comprendere come vengono prese le decisioni.
Valutazione e test continui: valutare continuamente le prestazioni del modello per identificare e risolvere eventuali regressioni o esperienze utente negative.

Valutazione e integrazione dei modelli di linguaggio naturale e visione di Azure OpenAI per il tuo utilizzo

I passaggi per eseguire una valutazione OpenAI di Azure sono:

Specificare i dati per la valutazione: un file flat caricato in formato JSONL o i dati generati in base a una serie di richieste.
Specificare i casi di test per valutare i dati: selezionare uno o più casi di test per assegnare un punteggio ai dati forniti con voti di superamento / non superamento.
Esaminare e filtrare i risultati: ogni test include una definizione dei punteggi superati e non superati. Dopo l'esecuzione di una valutazione, gli utenti possono esaminare i risultati di riga per riga per visualizzare i singoli risultati del test o filtrare i risultati superati/non riusciti.

Per altre informazioni su come valutare e integrare questi modelli in modo responsabile, vedere il documento panoramica di RAI.

Condividi tramite

Termini chiave

Termini chiave

Termini chiave

API di generazione di immagini nel servizio OpenAI di Azure

API di chat abilitate per la visione artificiale nel servizio OpenAI di Azure

Uso del computer nel servizio OpenAI di Azure (anteprima)

Sfocatura del viso

Uso del computer nel servizio OpenAI di Azure (anteprima)

Usi previsti

Casi d'uso ottimizzati

Casi d'uso di serie o

Casi d'uso di valutazione di Azure OpenAI

Casi d'uso di Uso del computer (anteprima)

Considerazioni sulla scelta di un caso d'uso

Casi d'uso previsti

DALL· E e GPT-image-1 in Azure OpenAI

GPT-4 Turbo con Visione e GPT-4o in Azure OpenAI

Casi d'uso di Uso del computer (anteprima)

Considerazioni sulla scelta di un caso d'uso

Usi previsti

Considerazioni sulla scelta di un caso d'uso

Procedure consigliate e consigli per l'ottimizzazione

Condividi tramite

Nota sulla trasparenza per il servizio OpenAI di Azure

Che cos'è la nota sulla trasparenza?

Nozioni di base sui modelli OpenAI di Azure

Introduzione

Termini chiave

Capacità

Casi d'uso

Usi previsti

Casi d'uso ottimizzati

Casi d'uso di serie o

Casi d'uso di valutazione di Azure OpenAI

Casi d'uso di Uso del computer (anteprima)

Considerazioni sulla scelta di un caso d'uso

Limitazioni

Limitazioni tecniche, fattori operativi e intervalli

Rischi e limitazioni dell'ottimizzazione

Limitazioni delle O-Series

Limitazioni 4o

4.1 Limitazioni

Limitazioni di GPT-image-1

Rischi e limitazioni dell'uso del computer (anteprima)

Limitazioni di valutazione di Azure OpenAI

Prestazioni del sistema

Procedure consigliate per migliorare le prestazioni del sistema

Procedure consigliate e consigli per l'ottimizzazione

Procedure consigliate e consigli per la valutazione di Azure OpenAI

Valutazione e integrazione dei modelli di linguaggio naturale e visione di Azure OpenAI per il tuo utilizzo

Scopri di più sull'intelligenza artificiale responsabile

Altre informazioni su Azure OpenAI

Commenti e suggerimenti

Risorse aggiuntive