API GPT-4o Realtime per la voce e l'audio (anteprima)
L'API GPT-4o in tempo reale di Azure OpenAI per il riconoscimento vocale e l'audio fa parte della famiglia di modelli GPT-4o che supporta interazioni conversazionali a bassa latenza, "riconoscimento vocale, riconoscimento vocale". L'API audio realtime
GPT-4o è progettata per gestire interazioni conversazionali in tempo reale e a bassa latenza, rendendola ideale per i casi d'uso che coinvolgono interazioni live tra un utente e un modello, ad esempio agenti di supporto clienti, assistenti vocali e traduttori in tempo reale.
La maggior parte degli utenti dell'API Realtime deve distribuire e ricevere audio da un utente finale in tempo reale, incluse le applicazioni che usano WebRTC o un sistema di telefonia. L'API Realtime non è progettata per connettersi direttamente ai dispositivi degli utenti finali e si basa sulle integrazioni client per terminare i flussi audio dell'utente finale.
Modelli supportati
Attualmente solo gpt-4o-realtime-preview
versione: 2024-10-01-preview
supporta l'audio in tempo reale.
Il gpt-4o-realtime-preview
modello è disponibile per le distribuzioni globali nelle aree Stati Uniti orientali 2 e Svezia centrale.
Importante
Il sistema archivia le richieste e i completamenti, come descritto nella sezione "Utilizzo dati e accesso per il monitoraggio degli abusi" delle Condizioni di prodotto specifiche del servizio per il servizio Azure OpenAI, ad eccezione del fatto che l'eccezione limitata non è applicabile. Il monitoraggio degli abusi verrà attivato per l'uso dell'API gpt-4o-realtime-preview
anche per i clienti che altrimenti sono approvati per il monitoraggio degli abusi modificati.
Supporto dell'API
Il supporto per l'API Realtime è stato aggiunto per la prima volta nella versione 2024-10-01-preview
dell'API .
Nota
Per altre informazioni sull'API e sull'architettura, vedere il repository audio in tempo reale OpenAI GPT-4o di Azure su GitHub.
Prerequisiti
- Una sottoscrizione di Azure: crearne una gratuitamente.
- Una risorsa OpenAI di Azure creata in un'area supportata. Per altre informazioni, vedere Creare una risorsa e distribuire un modello con Azure OpenAI.
Distribuire un modello per l'audio in tempo reale
Prima di poter usare l'audio in tempo reale GPT-4o, è necessaria una distribuzione del modello in un'area gpt-4o-realtime-preview
supportata, come descritto nella sezione modelli supportati.
È possibile distribuire il modello dal catalogo dei modelli di Azure AI Studio o dal progetto in AI Studio. Seguire questa procedura per distribuire un gpt-4o-realtime-preview
modello dal catalogo dei modelli:
- Accedere a Studio AI e passare alla home page.
- Selezionare Catalogo modelli nella barra laterale sinistra.
- Cercare e selezionare il
gpt-4o-realtime-preview
modello dalla raccolta OpenAI di Azure. - Selezionare Distribuisci per aprire la finestra di distribuzione.
- Immettere un nome di distribuzione e selezionare una risorsa OpenAI di Azure.
- Selezionare
2024-10-01
dall'elenco a discesa Versione modello . - Modificare altre impostazioni predefinite a seconda dei requisiti.
- Seleziona Distribuisci. Si arriva alla pagina dei dettagli della distribuzione.
Ora che si dispone di una distribuzione del gpt-4o-realtime-preview
modello, è possibile usare il playground audio in tempo reale di AI Studio o l'API In tempo reale per interagire con esso in tempo reale.
Usare l'audio in tempo reale GPT-4o
Suggerimento
Al momento, il modo più rapido per iniziare a sviluppare con l'API GPT-4o Realtime consiste nel scaricare il codice di esempio dal repository audio in tempo reale OpenAI GPT-4o di Azure in GitHub.
Per chattare con il modello distribuito gpt-4o-realtime-preview
nel playground audio in tempo reale di Azure AI Studio, seguire questa procedura:
Passare al progetto in Studio AI della piattaforma Azure.
Selezionare Playgrounds>Audio in tempo reale nel riquadro sinistro.
Selezionare il modello distribuito
gpt-4o-realtime-preview
dall'elenco a discesa Distribuzione .Selezionare Abilita microfono per consentire al browser di accedere al microfono. Se è già stata concessa l'autorizzazione, è possibile ignorare questo passaggio.
Facoltativamente, è possibile modificare il contenuto nella casella di testo Fornire le istruzioni del modello e il contesto . Fornire al modello le istruzioni sul comportamento e su qualsiasi contesto a cui deve fare riferimento durante la generazione di una risposta. È possibile descrivere la personalità dell'assistente, definire cosa deve e non deve rispondere e come formattare le risposte.
Facoltativamente, modificare le impostazioni, ad esempio soglia, riempimento del prefisso e durata del silenzio.
Selezionare Avvia ascolto per avviare la sessione. Puoi parlare con il microfono per avviare una chat.
Puoi interrompere la chat in qualsiasi momento parlando. È possibile terminare la chat selezionando il pulsante Arresta ascolto .
L'esempio Web JavaScript illustra come usare l'API GPT-4o Realtime per interagire con il modello in tempo reale. Il codice di esempio include una semplice interfaccia Web che acquisisce l'audio dal microfono dell'utente e lo invia al modello per l'elaborazione. Il modello risponde con testo e audio, che il codice di esempio esegue il rendering nell'interfaccia Web.
È possibile eseguire il codice di esempio in locale nel computer seguendo questa procedura. Per le istruzioni più aggiornate, vedere il repository in GitHub .
Se non è installato Node.js, scaricare e installare la versione LTS di Node.js.
Clonare il repository nel computer locale:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Passare alla cartella nell'editor
javascript/samples/web
di codice preferito.cd ./javascript/samples
Eseguire
download-pkg.ps1
odownload-pkg.sh
per scaricare i pacchetti necessari.Passare alla
web
cartella dalla./javascript/samples
cartella .cd ./web
Eseguire
npm install
per installare le dipendenze dei pacchetti.Eseguire
npm run dev
per avviare il server Web, spostandosi in qualsiasi richiesta di autorizzazioni del firewall in base alle esigenze.Passare a uno degli URI forniti dall'output della console (ad esempio
http://localhost:5173/
) in un browser.Immettere le informazioni seguenti nell'interfaccia Web:
- Endpoint: endpoint della risorsa di una risorsa OpenAI di Azure. Non è necessario aggiungere il
/realtime
percorso. Una struttura di esempio potrebbe esserehttps://my-azure-openai-resource-from-portal.openai.azure.com
. - Chiave API: chiave API corrispondente per la risorsa OpenAI di Azure.
- Distribuzione: nome del
gpt-4o-realtime-preview
modello distribuito nella sezione precedente. - Messaggio di sistema: facoltativamente, è possibile fornire un messaggio di sistema come "Si parla sempre come un pirata amichevole".
- Temperatura: facoltativamente, è possibile fornire una temperatura personalizzata.
- Voce: facoltativamente, è possibile selezionare una voce.
- Endpoint: endpoint della risorsa di una risorsa OpenAI di Azure. Non è necessario aggiungere il
Selezionare il pulsante Registra per avviare la sessione. Accettare le autorizzazioni per usare il microfono, se richiesto.
Verrà visualizzato un
<< Session Started >>
messaggio nell'output principale. Poi puoi parlare con il microfono per avviare una chat.Puoi interrompere la chat in qualsiasi momento parlando. È possibile terminare la chat selezionando il pulsante Arresta .
Contenuto correlato
- Altre informazioni sui tipi di distribuzione Azure OpenAI
- Altre informazioni sulle quote e i limiti di Azure OpenAI