Condividi tramite


API GPT-4o Realtime per la voce e l'audio (anteprima)

L'API GPT-4o in tempo reale di Azure OpenAI per il riconoscimento vocale e l'audio fa parte della famiglia di modelli GPT-4o che supporta interazioni conversazionali a bassa latenza, "riconoscimento vocale, riconoscimento vocale". L'API audio realtime GPT-4o è progettata per gestire interazioni conversazionali in tempo reale e a bassa latenza, rendendola ideale per i casi d'uso che coinvolgono interazioni live tra un utente e un modello, ad esempio agenti di supporto clienti, assistenti vocali e traduttori in tempo reale.

La maggior parte degli utenti dell'API Realtime deve distribuire e ricevere audio da un utente finale in tempo reale, incluse le applicazioni che usano WebRTC o un sistema di telefonia. L'API Realtime non è progettata per connettersi direttamente ai dispositivi degli utenti finali e si basa sulle integrazioni client per terminare i flussi audio dell'utente finale.

Modelli supportati

Attualmente solo gpt-4o-realtime-preview versione: 2024-10-01-preview supporta l'audio in tempo reale.

Il gpt-4o-realtime-preview modello è disponibile per le distribuzioni globali nelle aree Stati Uniti orientali 2 e Svezia centrale.

Importante

Il sistema archivia le richieste e i completamenti, come descritto nella sezione "Utilizzo dati e accesso per il monitoraggio degli abusi" delle Condizioni di prodotto specifiche del servizio per il servizio Azure OpenAI, ad eccezione del fatto che l'eccezione limitata non è applicabile. Il monitoraggio degli abusi verrà attivato per l'uso dell'API gpt-4o-realtime-preview anche per i clienti che altrimenti sono approvati per il monitoraggio degli abusi modificati.

Supporto dell'API

Il supporto per l'API Realtime è stato aggiunto per la prima volta nella versione 2024-10-01-previewdell'API .

Nota

Per altre informazioni sull'API e sull'architettura, vedere il repository audio in tempo reale OpenAI GPT-4o di Azure su GitHub.

Prerequisiti

Distribuire un modello per l'audio in tempo reale

Prima di poter usare l'audio in tempo reale GPT-4o, è necessaria una distribuzione del modello in un'area gpt-4o-realtime-preview supportata, come descritto nella sezione modelli supportati.

È possibile distribuire il modello dal catalogo dei modelli di Azure AI Studio o dal progetto in AI Studio. Seguire questa procedura per distribuire un gpt-4o-realtime-preview modello dal catalogo dei modelli:

  1. Accedere a Studio AI e passare alla home page.
  2. Selezionare Catalogo modelli nella barra laterale sinistra.
  3. Cercare e selezionare il gpt-4o-realtime-preview modello dalla raccolta OpenAI di Azure.
  4. Selezionare Distribuisci per aprire la finestra di distribuzione.
  5. Immettere un nome di distribuzione e selezionare una risorsa OpenAI di Azure.
  6. Selezionare 2024-10-01 dall'elenco a discesa Versione modello .
  7. Modificare altre impostazioni predefinite a seconda dei requisiti.
  8. Seleziona Distribuisci. Si arriva alla pagina dei dettagli della distribuzione.

Ora che si dispone di una distribuzione del gpt-4o-realtime-preview modello, è possibile usare il playground audio in tempo reale di AI Studio o l'API In tempo reale per interagire con esso in tempo reale.

Usare l'audio in tempo reale GPT-4o

Suggerimento

Al momento, il modo più rapido per iniziare a sviluppare con l'API GPT-4o Realtime consiste nel scaricare il codice di esempio dal repository audio in tempo reale OpenAI GPT-4o di Azure in GitHub.

Per chattare con il modello distribuito gpt-4o-realtime-preview nel playground audio in tempo reale di Azure AI Studio, seguire questa procedura:

  1. Passare al progetto in Studio AI della piattaforma Azure.

  2. Selezionare Playgrounds>Audio in tempo reale nel riquadro sinistro.

  3. Selezionare il modello distribuito gpt-4o-realtime-preview dall'elenco a discesa Distribuzione .

  4. Selezionare Abilita microfono per consentire al browser di accedere al microfono. Se è già stata concessa l'autorizzazione, è possibile ignorare questo passaggio.

    Screenshot del playground audio in tempo reale con il modello distribuito selezionato.

  5. Facoltativamente, è possibile modificare il contenuto nella casella di testo Fornire le istruzioni del modello e il contesto . Fornire al modello le istruzioni sul comportamento e su qualsiasi contesto a cui deve fare riferimento durante la generazione di una risposta. È possibile descrivere la personalità dell'assistente, definire cosa deve e non deve rispondere e come formattare le risposte.

  6. Facoltativamente, modificare le impostazioni, ad esempio soglia, riempimento del prefisso e durata del silenzio.

  7. Selezionare Avvia ascolto per avviare la sessione. Puoi parlare con il microfono per avviare una chat.

    Screenshot del playground audio in tempo reale con il pulsante di avvio dell'ascolto e l'accesso al microfono abilitato.

  8. Puoi interrompere la chat in qualsiasi momento parlando. È possibile terminare la chat selezionando il pulsante Arresta ascolto .

L'esempio Web JavaScript illustra come usare l'API GPT-4o Realtime per interagire con il modello in tempo reale. Il codice di esempio include una semplice interfaccia Web che acquisisce l'audio dal microfono dell'utente e lo invia al modello per l'elaborazione. Il modello risponde con testo e audio, che il codice di esempio esegue il rendering nell'interfaccia Web.

È possibile eseguire il codice di esempio in locale nel computer seguendo questa procedura. Per le istruzioni più aggiornate, vedere il repository in GitHub .

  1. Se non è installato Node.js, scaricare e installare la versione LTS di Node.js.

  2. Clonare il repository nel computer locale:

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. Passare alla cartella nell'editor javascript/samples/web di codice preferito.

    cd ./javascript/samples
    
  4. Eseguire download-pkg.ps1 o download-pkg.sh per scaricare i pacchetti necessari.

  5. Passare alla web cartella dalla ./javascript/samples cartella .

    cd ./web
    
  6. Eseguire npm install per installare le dipendenze dei pacchetti.

  7. Eseguire npm run dev per avviare il server Web, spostandosi in qualsiasi richiesta di autorizzazioni del firewall in base alle esigenze.

  8. Passare a uno degli URI forniti dall'output della console (ad esempio http://localhost:5173/) in un browser.

  9. Immettere le informazioni seguenti nell'interfaccia Web:

    • Endpoint: endpoint della risorsa di una risorsa OpenAI di Azure. Non è necessario aggiungere il /realtime percorso. Una struttura di esempio potrebbe essere https://my-azure-openai-resource-from-portal.openai.azure.com.
    • Chiave API: chiave API corrispondente per la risorsa OpenAI di Azure.
    • Distribuzione: nome del gpt-4o-realtime-preview modello distribuito nella sezione precedente.
    • Messaggio di sistema: facoltativamente, è possibile fornire un messaggio di sistema come "Si parla sempre come un pirata amichevole".
    • Temperatura: facoltativamente, è possibile fornire una temperatura personalizzata.
    • Voce: facoltativamente, è possibile selezionare una voce.
  10. Selezionare il pulsante Registra per avviare la sessione. Accettare le autorizzazioni per usare il microfono, se richiesto.

  11. Verrà visualizzato un << Session Started >> messaggio nell'output principale. Poi puoi parlare con il microfono per avviare una chat.

  12. Puoi interrompere la chat in qualsiasi momento parlando. È possibile terminare la chat selezionando il pulsante Arresta .