Delen via


Naslaginformatie over audio-gebeurtenissen

Opmerking

Dit artikel verwijst naar de Microsoft Foundry-portal (klassiek).

馃攧 Schakel over naar de documentatie van Microsoft Foundry (nieuw) als u de nieuwe portal gebruikt.

Opmerking

Dit artikel verwijst naar de Microsoft Foundry-portal (nieuw).

Realtimegebeurtenissen worden gebruikt om te communiceren tussen de client en de server in realtime audiotoepassingen. De gebeurtenissen worden verzonden als JSON-objecten via verschillende eindpunten, zoals WebSockets of WebRTC. De gebeurtenissen worden gebruikt om de gesprekken, audiobuffers en antwoorden in realtime te beheren.

U kunt audioclient- en serverevenementen gebruiken met deze API's:

Tenzij anders opgegeven, zijn de gebeurtenissen die in dit document worden beschreven, van toepassing op beide API's.

Client-gebeurtenissen

Er zijn negen client gebeurtenissen die van de client naar de server kunnen worden verzonden:

Gebeurtenis Beschrijving
RealtimeClientEventConversationsItemAanmaken De client conversation.item.create gebeurtenis wordt gebruikt om een nieuw item toe te voegen aan de context van het gesprek, inclusief berichten, functie-aanroepen en antwoorden op functieoproepen.
RealtimeClientEventGespreksItemVerwijderen De client conversation.item.delete gebeurtenis wordt gebruikt om een item uit de gespreksgeschiedenis te verwijderen.
RealtimeClientEvenementGespreksItemOpvragen De client conversation.item.retrieve gebeurtenis wordt gebruikt om een item op te halen uit de gespreksgeschiedenis.
RealtimeClientEventConversationItemTruncate De clientgebeurtenis conversation.item.truncate wordt gebruikt voor het afkappen van de audio van een vorige assistentbericht.
RealtimeClientEventInputAudioBufferToevoegen De client input_audio_buffer.append gebeurtenis wordt gebruikt om audiobytes toe te voegen aan de invoeraudiobuffer.
RealtimeClientEventInputAudioBufferClear De client input_audio_buffer.clear gebeurtenis wordt gebruikt om de audiobytes in de buffer te wissen.
RealtimeClientEventInputAudioBufferCommit De client-gebeurtenis input_audio_buffer.commit wordt gebruikt om de audiobuffer voor gebruikersinvoer door te voeren.
RealtimeClientEventOutputAudioBuffer Clear De client output_audio_buffer.clear gebeurtenis wordt gebruikt om de audiobytes in de uitvoerbuffer te wissen.

Deze gebeurtenis is alleen van toepassing op WebRTC.
RealtimeClientEventResponseCancel De clientgebeurtenis response.cancel wordt gebruikt om een reactie in uitvoering te annuleren.
RealtimeClientEventResponseCreate De client response.create gebeurtenis wordt gebruikt om de server te instrueren een antwoord te maken via modeldeductie.
RealtimeClientEventSessionUpdate De client session.update gebeurtenis wordt gebruikt om de standaardconfiguratie van de sessie bij te werken.

RealtimeClientGebeurtenisGesprekItemAanmaken

De client conversation.item.create gebeurtenis wordt gebruikt om een nieuw item toe te voegen aan de context van het gesprek, inclusief berichten, functie-aanroepen en antwoorden op functieoproepen. Deze gebeurtenis kan worden gebruikt om een geschiedenis van het gesprek te vullen en nieuwe items mid-stream toe te voegen. Deze gebeurtenis kan momenteel geen audioberichten van assistenten vullen.

Als dit lukt, reageert de server met een conversation.item.created gebeurtenis, anders wordt er een error gebeurtenis verzonden.

Gebeurtenisstructuur

{
  "type": "conversation.item.create",
  "previous_item_id": "<previous_item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.create.
vorige_item_id touw De id van het voorgaande item waarna het nieuwe item wordt ingevoegd. Als dit niet is ingesteld, wordt het nieuwe item toegevoegd aan het einde van het gesprek. Als dit is ingesteld, kan een item worden ingevoegd tijdens een gesprek. Als de id niet kan worden gevonden, wordt er een fout geretourneerd en wordt het item niet toegevoegd.
artikel RealtimeConversationRequestItem Het item dat moet worden toegevoegd aan het gesprek.

RealtimeClientEventGespreksItemVerwijderen

De client conversation.item.delete gebeurtenis wordt gebruikt om een item uit de gespreksgeschiedenis te verwijderen.

De server reageert met een conversation.item.deleted gebeurtenis, tenzij het item niet bestaat in de gespreksgeschiedenis, in welk geval de server reageert met een fout.

Gebeurtenisstructuur

{
  "type": "conversation.item.delete",
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.delete.
item_id touw De id van het item dat moet worden verwijderd.

RealtimeClientEventGesprekItemOphalen

De client conversation.item.retrieve gebeurtenis wordt gebruikt om de weergave van de server van een specifiek item in de gespreksgeschiedenis op te halen. Deze gebeurtenis is bijvoorbeeld handig om gebruikersgeluid te inspecteren na ruisonderdrukking en VAD.

Als de client gebeurtenis is geslaagd, reageert de server met een conversation.item.retrieved gebeurtenis. Als het item niet bestaat in de gespreksgeschiedenis, reageert de server met een fout.

Gebeurtenisstructuur

{
  "type": "conversation.item.retrieve",
  "item_id": "<item_id>",
  "event_id": "<event_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.retrieve.
item_id touw De id van het item dat moet worden opgehaald.
event_id touw De ID van de gebeurtenis.

Real-time Client Evenement Gespreksitem Afkorten

De clientgebeurtenis conversation.item.truncate wordt gebruikt voor het afkappen van de audio van een vorige assistentbericht. De server produceert sneller dan realtime audio, dus deze gebeurtenis is handig wanneer de gebruiker onderbreekt om audio af tekappen die naar de client is verzonden, maar nog niet is afgespeeld. Het begrip van de audio van de server met het afspelen van de client wordt gesynchroniseerd.

Als u audio afkapt, wordt het transcript van de tekst aan de serverzijde verwijderd om ervoor te zorgen dat er geen tekst in de context staat waarover de gebruiker niet weet.

Als de client gebeurtenis is geslaagd, reageert de server met een conversation.item.truncated gebeurtenis.

Gebeurtenisstructuur

{
  "type": "conversation.item.truncate",
  "item_id": "<item_id>",
  "content_index": 0,
  "audio_end_ms": 0
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.truncate.
item_id touw De id van het item van het assistentbericht dat moet worden afgekapt. Alleen items voor assistentberichten kunnen worden afgekapt.
inhoudsopgave integer De index van het inhoudsonderdeel dat moet worden afgekapt. Stel deze eigenschap in op '0'.
audio_end_ms integer Inclusief duur tot aan welke audio wordt afgekapt, in milliseconden. Als de audio_end_ms groter is dan de werkelijke audioduur, reageert de server met een fout.

RealtimeClientGebeurtenisInvoerAudioBufferToevoegen

De client input_audio_buffer.append gebeurtenis wordt gebruikt om audiobytes toe te voegen aan de invoeraudiobuffer. De audiobuffer is tijdelijke opslag waarnaar u kunt schrijven en later doorvoeren.

In de modus Server VAD (Spraakactiviteitsdetectie) wordt de audiobuffer gebruikt om spraak te detecteren en bepaalt de server wanneer deze moet worden doorgevoerd. Wanneer server-VAD is uitgeschakeld, kan de client kiezen hoeveel audio in elke gebeurtenis moet worden geplaatst tot maximaal 15 MiB. Als u bijvoorbeeld kleinere segmenten van de client streamt, kan de VAD sneller reageren.

In tegenstelling tot de meeste andere client gebeurtenissen, verzendt de server geen bevestigingsreactie naar de client input_audio_buffer.append gebeurtenis.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.append",
  "audio": "<audio>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn input_audio_buffer.append.
geluid touw Met Base64 gecodeerde audiobytes. Deze waarde moet de indeling hebben die is opgegeven door het input_audio_format veld in de sessieconfiguratie.

RealtimeClientEventInputAudioBuffer Clear

De client input_audio_buffer.clear gebeurtenis wordt gebruikt om de audiobytes in de buffer te wissen.

De server reageert met een input_audio_buffer.cleared gebeurtenis.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.clear"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn input_audio_buffer.clear.

RealtimeClientGebeurtenisInvoerAudioBufferCommit

De client-gebeurtenis input_audio_buffer.commit wordt gebruikt om de audiobuffer voor gebruikersinvoer door te voeren, waardoor er een nieuw gebruikersberichtitem in het gesprek wordt gemaakt. Audio wordt getranscribeerd als input_audio_transcription deze is geconfigureerd voor de sessie.

Wanneer de client zich in de VAD-modus van de server bevindt, hoeft deze gebeurtenis niet te worden verzonden. De server voert de audiobuffer automatisch door. Zonder server-VAD moet de client de audiobuffer doorvoeren om een gebruikersberichtitem te maken. Deze client gebeurtenis produceert een fout als de invoer audiobuffer leeg is.

Als u de invoeraudiobuffer doorvoert, wordt er geen antwoord van het model gemaakt.

De server reageert met een input_audio_buffer.committed gebeurtenis.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.commit"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn input_audio_buffer.commit.

RealtimeClientEventUitvoerAudioBufferWissen

De client output_audio_buffer.clear gebeurtenis wordt gebruikt om de audiobytes in de buffer te wissen.

Opmerking

Deze gebeurtenis is alleen van toepassing op WebRTC.

Deze gebeurtenis moet worden voorafgegaan door een response.cancel clientgebeurtenis om het genereren van het huidige antwoord te stoppen.

De server stopt met het genereren van audio en reageert met een output_audio_buffer.cleared gebeurtenis.

Gebeurtenisstructuur

{
  "type": "output_audio_buffer.clear"
}

Eigenschappen

Veld Typologie Beschrijving
event_id touw De id van de gebeurtenis die de fout heeft veroorzaakt.
soort touw Het gebeurtenistype moet zijn output_audio_buffer.clear.

RealtimeKlantEvenementAntwoordAnnuleren

De clientgebeurtenis response.cancel wordt gebruikt om een reactie in uitvoering te annuleren.

De server reageert met een response.cancelled gebeurtenis of een fout als er geen reactie is om te annuleren.

Gebeurtenisstructuur

{
  "type": "response.cancel"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.cancel.

RealtimeClientEventResponseAanmaak

De client response.create gebeurtenis wordt gebruikt om de server te instrueren een antwoord te maken via modeldeductie. Wanneer de sessie is geconfigureerd in de server-VAD-modus, maakt de server automatisch antwoorden.

Een antwoord bevat ten minste 茅茅n item, en kan twee bevatten, in welk geval de tweede een functie-aanroep is. Deze items worden toegevoegd aan de gespreksgeschiedenis.

De server reageert met een response.created gebeurtenis, een of meer item- en inhoudsevenementen (zoals conversation.item.created en response.content_part.added) en ten slotte een response.done gebeurtenis om aan te geven dat het antwoord is voltooid.

Opmerking

De client-gebeurtenis response.create bevat deductieconfiguratie zoals instructions, en temperature. Deze velden kunnen alleen de configuratie van de sessie voor dit antwoord overschrijven.

Gebeurtenisstructuur

{
  "type": "response.create"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.create.
antwoord RealtimeResponseOptions De antwoordopties.

RealtimeClientEvenementSessieUpdate

De client session.update gebeurtenis wordt gebruikt om de standaardconfiguratie van de sessie bij te werken. De client kan deze gebeurtenis op elk gewenst moment verzenden om de sessieconfiguratie bij te werken en elk veld kan op elk gewenst moment worden bijgewerkt, met uitzondering van spraak.

Alleen velden die aanwezig zijn, worden bijgewerkt. Als u een veld (zoals instructions), wilt wissen, geeft u een lege tekenreeks door.

De server reageert met een session.updated gebeurtenis die de volledige effectieve configuratie bevat.

Gebeurtenisstructuur

{
  "type": "session.update"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn session.update.
sessie RealtimeRequestSession De sessieconfiguratie.

Server-gebeurtenissen

Er zijn 28 servergebeurtenissen die kunnen worden ontvangen van de server:

Gebeurtenis Beschrijving
RealtimeServerEventGesprekAangemaakt De servergebeurtenis conversation.created wordt direct na het maken van de sessie geretourneerd. Er wordt 茅茅n gesprek per sessie gemaakt.
RealtimeServerGebeurtenisGesprekItemAangemaakt De servergebeurtenis conversation.item.created wordt geretourneerd wanneer een gespreksitem wordt gemaakt.
RealtimeServerEventGesprekItemOpgehaald Het server-evenement conversation.item.retrieved wordt teruggegeven wanneer een gespreksitem wordt opgehaald.
RealtimeServerEventGespreksitemVerwijderd De servergebeurtenis conversation.item.deleted wordt geretourneerd wanneer de client een item in het gesprek met een conversation.item.delete gebeurtenis heeft verwijderd.
RealtimeServerGebeurtenisGesprekItemInvoerAudioTranscriptieVoltooid De server conversation.item.input_audio_transcription.completed gebeurtenis is het resultaat van audiotranscriptie voor spraak die naar de audiobuffer is geschreven.
RealtimeServerEventGesprekItemInvoerAudioTranscriptieMislukt De servergebeurtenis conversation.item.input_audio_transcription.failed wordt geretourneerd wanneer de invoer van audiotranscriptie is geconfigureerd en een transcriptieaanvraag voor een gebruikersbericht is mislukt.
RealtimeServerEventConversationItemTruncated De servergebeurtenis conversation.item.truncated wordt geretourneerd wanneer de client een eerder audioberichtitem met een assistent afkapt met een conversation.item.truncate gebeurtenis.
RealtimeServerEventError De servergebeurtenis error wordt geretourneerd wanneer er een fout optreedt, wat een clientprobleem of een serverprobleem kan zijn.
RealtimeServerEventInputAudioBuffer Cleared De servergebeurtenis input_audio_buffer.cleared wordt geretourneerd wanneer de client de invoeraudiobuffer wist met een input_audio_buffer.clear gebeurtenis.
Instellen van de Invoeraudiobuffer van RealtimeServerEvenement De servergebeurtenis input_audio_buffer.committed wordt geretourneerd wanneer een invoeraudiobuffer wordt doorgevoerd door de client of automatisch in de server-VAD-modus.
RealtimeServerEventInputAudioBufferSpeechStarted De servergebeurtenis input_audio_buffer.speech_started wordt geretourneerd in server_vad de modus wanneer spraak wordt gedetecteerd in de audiobuffer.
RealtimeServerEventInputAudioBufferSpraakGestopt De servergebeurtenis input_audio_buffer.speech_stopped wordt geretourneerd in server_vad de modus wanneer de server het einde van de spraak in de audiobuffer detecteert.
RealtimeServerEventOutputAudioBuffer Gewist De servergebeurtenis output_audio_buffer.cleared wordt geretourneerd wanneer de gebruiker een onderbreking heeft veroorzaakt (input_audio_buffer.speech_started) of wanneer de client de output_audio_buffer.clear gebeurtenis heeft verzonden om het huidige audioantwoord handmatig te stoppen.

Deze gebeurtenis is alleen van toepassing op WebRTC.
RealtimeServerGebeurtenisUitvoerAudioBufferGestart De servergebeurtenis output_audio_buffer.started wordt geretourneerd wanneer de server begint met het streamen van audio naar de client. Deze gebeurtenis wordt verzonden nadat een audio-inhoudsonderdeel is toegevoegd (response.content_part.added) aan het antwoord.

Deze gebeurtenis is alleen van toepassing op WebRTC.
RealtimeServerEvenementUitvoerAudioBufferGestopt De servergebeurtenis output_audio_buffer.stopped wordt geretourneerd wanneer de uitvoeraudiobuffer volledig is leeggemaakt op de server en er geen audio meer beschikbaar is.

Deze gebeurtenis is alleen van toepassing op WebRTC.
RealtimeServerEventSnelheidslimietenBijgewerkt De server rate_limits.updated gebeurtenis wordt verzonden aan het begin van een reactie om de bijgewerkte frequentielimieten aan te geven.
RealtimeServerEventResponseAudioDelta De servergebeurtenis response.audio.delta wordt geretourneerd wanneer de door het model gegenereerde audio wordt bijgewerkt.
RealtimeServerEventResponseAudioDone De servergebeurtenis response.audio.done wordt geretourneerd wanneer de door het model gegenereerde audio wordt uitgevoerd.
RealtimeServerEventResponseAudioTranscriptDelta De servergebeurtenis response.audio_transcript.delta wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer wordt bijgewerkt.
RealtimeServerEventResponseAudioTranscriptDone De servergebeurtenis response.audio_transcript.done wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer klaar is met streamen.
RealtimeServerEventResponsInhoudsdeelToegevoegd De servergebeurtenis response.content_part.added wordt geretourneerd wanneer een nieuw inhoudsonderdeel wordt toegevoegd aan een assistentberichtitem.
RealtimeServerEventResponseContentPartDone De servergebeurtenis response.content_part.done wordt geretourneerd wanneer een inhoudsonderdeel klaar is met streamen.
RealtimeServerEventResponsAangemaakt De servergebeurtenis response.created wordt geretourneerd wanneer er een nieuw antwoord wordt gemaakt. Dit is de eerste gebeurtenis van het maken van een antwoord, waarbij het antwoord de eerste status heeft.in_progress
RealtimeServerEventResponseDone De servergebeurtenis response.done wordt geretourneerd wanneer er een antwoord wordt gestreamd.
RealtimeServerEventResponseFunctionCallArgumentsDelta De servergebeurtenis response.function_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten worden bijgewerkt.
RealtimeServerEventResponsFunctieAanroepArgumentenKlaar De servergebeurtenis response.function_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten klaar zijn met streamen.
RealtimeServerGebeurtenisResponsUitvoerItemToegevoegd De servergebeurtenis response.output_item.added wordt geretourneerd wanneer er een nieuw item wordt gemaakt tijdens het genereren van het antwoord.
RealtimeServerEventResponseOutputItemDone De servergebeurtenis response.output_item.done wordt geretourneerd wanneer een item klaar is met streamen.
RealtimeServerEventResponseTextDelta De servergebeurtenis response.text.delta wordt geretourneerd wanneer de door het model gegenereerde tekst wordt bijgewerkt.
RealtimeServerEventResponseTextDone De servergebeurtenis response.text.done wordt geretourneerd wanneer de door het model gegenereerde tekst wordt gestreamd.
RealtimeServerEventSessionCreated De server session.created gebeurtenis is de eerste server gebeurtenis wanneer u een nieuwe verbinding met de Realtime-API tot stand brengt. Met deze gebeurtenis wordt een nieuwe sessie gemaakt en geretourneerd met de standaardsessieconfiguratie.
Real-time Server Evenementensessie Bijgewerkt De servergebeurtenis session.updated wordt geretourneerd wanneer een sessie wordt bijgewerkt door de client. Als er een fout optreedt, verzendt de server in plaats daarvan een error gebeurtenis.

RealtimeServerEvenementGesprekAangemaakt

De servergebeurtenis conversation.created wordt direct na het maken van de sessie geretourneerd. Er wordt 茅茅n gesprek per sessie gemaakt.

Gebeurtenisstructuur

{
  "type": "conversation.created",
  "conversation": {
    "id": "<id>",
    "object": "<object>"
  }
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.created.
gesprek Voorwerp De gespreksresource.

Gesprekseigenschappen

Veld Typologie Beschrijving
identiteitskaart touw De unieke id van het gesprek.
Voorwerp touw Het objecttype moet zijn realtime.conversation.

Gespreksonderdeel aangemaakt op Real-Time Server Event

De servergebeurtenis conversation.item.created wordt geretourneerd wanneer een gespreksitem wordt gemaakt. Er zijn verschillende scenario's die deze gebeurtenis produceren:

  • De server genereert een antwoord, dat, indien geslaagd, een of twee items produceert, wat van het type message (rol assistant) of het type function_callis.
  • De invoeraudiobuffer wordt doorgevoerd door de client of de server (in server_vad de modus). De server neemt de inhoud van de invoeraudiobuffer en voegt deze toe aan een nieuw gebruikersberichtitem.
  • De client heeft een conversation.item.create gebeurtenis verzonden om een nieuw item toe te voegen aan het gesprek.

Gebeurtenisstructuur

{
  "type": "conversation.item.created",
  "previous_item_id": "<previous_item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.created.
vorige_item_id touw Met de id van het voorgaande item in de gesprekscontext kan de client de volgorde van het gesprek begrijpen.
artikel RealtimeConversationResponseItem Het item dat is gemaakt.

RealtimeServerEvenementConversatieItemOpgehaald

Het server-evenement conversation.item.retrieved wordt teruggegeven wanneer een gespreksitem wordt opgehaald.

Gebeurtenisstructuur

{
  "type": "conversation.item.retrieved",
  "previous_item_id": "<previous_item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.retrieved.
event_id touw De ID van de gebeurtenis.
artikel RealtimeConversationResponseItem Het item dat is opgehaald.

RealtimeServerEvenementGesprekItemVerwijderd

De servergebeurtenis conversation.item.deleted wordt geretourneerd wanneer de client een item in het gesprek met een conversation.item.delete gebeurtenis heeft verwijderd. Deze gebeurtenis wordt gebruikt om het begrip van de gespreksgeschiedenis van de server te synchroniseren met de weergave van de client.

Gebeurtenisstructuur

{
  "type": "conversation.item.deleted",
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.deleted.
item_id touw De id van het item dat is verwijderd.

RealtimeServerEvenementGesprekInvoerAudioTranscriptieVoltooid

De server conversation.item.input_audio_transcription.completed gebeurtenis is het resultaat van audiotranscriptie voor spraak die naar de audiobuffer is geschreven.

Transcriptie begint wanneer de invoeraudiobuffer wordt doorgevoerd door de client of server (in server_vad de modus). Transcriptie wordt asynchroon uitgevoerd bij het maken van een antwoord, zodat deze gebeurtenis v贸贸r of na de reactie-gebeurtenissen kan komen.

Realtime-API-modellen accepteren audio direct, en daarom is invoertranscriptie een apart proces dat wordt uitgevoerd op een afzonderlijk spraakherkenningsmodel, zoals whisper-1. Het transcript kan dus enigszins afwijken van de interpretatie van het model en moet worden behandeld als een ruwe handleiding.

Gebeurtenisstructuur

{
  "type": "conversation.item.input_audio_transcription.completed",
  "item_id": "<item_id>",
  "content_index": 0,
  "transcript": "<transcript>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.completed.
item_id touw De id van het gebruikersberichtitem met de audio.
inhoudsopgave integer De index van het inhoudsonderdeel met de audio.
afschrift touw De getranscribeerde tekst.

RealtimeServerEventGesprekItemInvoerAudioTranscriptieMislukt

De servergebeurtenis conversation.item.input_audio_transcription.failed wordt geretourneerd wanneer de invoer van audiotranscriptie is geconfigureerd en een transcriptieaanvraag voor een gebruikersbericht is mislukt. Deze gebeurtenis staat los van andere error gebeurtenissen, zodat de client het gerelateerde item kan identificeren.

Gebeurtenisstructuur

{
  "type": "conversation.item.input_audio_transcription.failed",
  "item_id": "<item_id>",
  "content_index": 0,
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>"
  }
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.failed.
item_id touw De id van het item van het gebruikersbericht.
inhoudsopgave integer De index van het inhoudsonderdeel met de audio.
fout Voorwerp Details van de transcriptiefout.

Zie geneste eigenschappen in de volgende tabel.

Fouteigenschappen

Veld Typologie Beschrijving
soort touw Het type fout.
code touw Foutcode, indien van toepassing.
bericht touw Een door mensen leesbaar foutbericht.
Param touw Parameter met betrekking tot de fout, indien van toepassing.

RealtimeServerEvenementGesprekItemIngekort

De servergebeurtenis conversation.item.truncated wordt geretourneerd wanneer de client een eerder audioberichtitem met een assistent afkapt met een conversation.item.truncate gebeurtenis. Deze gebeurtenis wordt gebruikt om het begrip van de audio van de server te synchroniseren met het afspelen van de client.

Met deze gebeurtenis wordt de audio afgekapt en wordt de transcriptie van de tekst aan de serverzijde verwijderd om ervoor te zorgen dat er geen tekst is in de context waarover de gebruiker niet weet.

Gebeurtenisstructuur

{
  "type": "conversation.item.truncated",
  "item_id": "<item_id>",
  "content_index": 0,
  "audio_end_ms": 0
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn conversation.item.truncated.
item_id touw De id van het berichtitem van de assistent dat is afgekapt.
inhoudsopgave integer De index van het inhoudsonderdeel dat is afgekapt.
audio_end_ms integer De duur totdat de audio is afgekapt, in milliseconden.

Realtime Server Event Fout

De servergebeurtenis error wordt geretourneerd wanneer er een fout optreedt, wat een clientprobleem of een serverprobleem kan zijn. De meeste fouten kunnen worden hersteld en de sessie blijft geopend.

Gebeurtenisstructuur

{
  "type": "error",
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>",
    "event_id": "<event_id>"
  }
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn error.
fout Voorwerp Details van de fout.

Zie geneste eigenschappen in de volgende tabel.

Fouteigenschappen

Veld Typologie Beschrijving
soort touw Het type fout. 'invalid_request_error' en 'server_error' zijn bijvoorbeeld fouttypen.
code touw Foutcode, indien van toepassing.
bericht touw Een door mensen leesbaar foutbericht.
Param touw Parameter met betrekking tot de fout, indien van toepassing.
event_id touw De id van de client gebeurtenis die de fout heeft veroorzaakt, indien van toepassing.

RealtimeServerEventInputAudioBuffer Cleared

De servergebeurtenis input_audio_buffer.cleared wordt geretourneerd wanneer de client de invoeraudiobuffer wist met een input_audio_buffer.clear gebeurtenis.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.cleared"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn input_audio_buffer.cleared.

RealtimeServerGebeurtenisInvoerAudioBufferGecommit

De servergebeurtenis input_audio_buffer.committed wordt geretourneerd wanneer een invoeraudiobuffer wordt doorgevoerd door de client of automatisch in de server-VAD-modus. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt. Er wordt dus ook een conversation.item.created gebeurtenis naar de client verzonden.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.committed",
  "previous_item_id": "<previous_item_id>",
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn input_audio_buffer.committed.
vorige_item_id touw De id van het voorgaande item waarna het nieuwe item wordt ingevoegd.
item_id touw De id van het gebruikersberichtitem dat is gemaakt.

RealtimeServerEventInvoerAudioBufferSpraakGestart

De servergebeurtenis input_audio_buffer.speech_started wordt geretourneerd in server_vad de modus wanneer spraak wordt gedetecteerd in de audiobuffer. Deze gebeurtenis kan zich voordoen wanneer audio aan de buffer wordt toegevoegd (tenzij spraak al is gedetecteerd).

Opmerking

De client kan deze gebeurtenis gebruiken om het afspelen van audio te onderbreken of visuele feedback te geven aan de gebruiker.

De client verwacht een input_audio_buffer.speech_stopped gebeurtenis te ontvangen wanneer spraak stopt. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt. De item_id is ook opgenomen in de input_audio_buffer.speech_stopped gebeurtenis, tenzij de client de audiobuffer handmatig doorvoert tijdens vad-activering.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.speech_started",
  "audio_start_ms": 0,
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn input_audio_buffer.speech_started.
audio_start_ms (starttijdstip_audio_ms) integer Milliseconden vanaf het begin van alle audio die tijdens de sessie naar de buffer is geschreven toen spraak voor het eerst werd gedetecteerd. Deze eigenschap komt overeen met het begin van de audio die naar het model wordt verzonden en bevat dus de prefix_padding_ms geconfigureerde in de sessie.
item_id touw De id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt.

RealtimeServerGebeurtenisInvoerAudioBufferSpraakGestopt

De servergebeurtenis input_audio_buffer.speech_stopped wordt geretourneerd in server_vad de modus wanneer de server het einde van de spraak in de audiobuffer detecteert.

De server verzendt ook een conversation.item.created gebeurtenis met het gebruikersberichtitem dat is gemaakt op basis van de audiobuffer.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.speech_stopped",
  "audio_end_ms": 0,
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn input_audio_buffer.speech_stopped.
audio_end_ms integer Milliseconden sinds de sessie is gestart toen spraak werd gestopt. Deze eigenschap komt overeen met het einde van de audio die naar het model wordt verzonden en bevat dus de min_silence_duration_ms geconfigureerde in de sessie.
item_id touw De id van het gebruikersberichtitem dat is gemaakt.

RealtimeServerEventOutputAudioBufferVerwijderd

De servergebeurtenis output_audio_buffer.cleared wordt geretourneerd wanneer de uitvoeraudiobuffer wordt gewist.

Opmerking

Deze gebeurtenis is alleen van toepassing op WebRTC.

Dit gebeurt in VAD-modus wanneer de gebruiker de (input_audio_buffer.speech_started) heeft onderbroken, of wanneer de client het output_audio_buffer.clear event heeft verzonden om de huidige audiorespons handmatig af te breken.

Gebeurtenisstructuur

{
  "type": "output_audio_buffer.cleared"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn output_audio_buffer.cleared.
event_id touw De ID van de servergebeurtenis.
antwoord_id touw De unieke ID van het antwoord dat de audio heeft voortgebracht.

RealtimeServerGebeurtenisUitvoerAudioBufferGestart

De servergebeurtenis output_audio_buffer.started wordt geretourneerd wanneer de server begint met het streamen van audio naar de client. Deze gebeurtenis wordt verzonden nadat een audio-inhoudsonderdeel is toegevoegd (response.content_part.added) aan het antwoord.

Opmerking

Deze gebeurtenis is alleen van toepassing op WebRTC.

Gebeurtenisstructuur

{
  "type": "output_audio_buffer.started",
  "event_id": "<item_id>",
  "response_id": "<response_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn output_audio_buffer.started.
event_id touw De ID van de servergebeurtenis.
antwoord_id touw De unieke ID van het antwoord dat de audio heeft voortgebracht.

RealtimeServerEventUitvoerAudioBufferGestopt

De servergebeurtenis output_audio_buffer.stopped wordt geretourneerd wanneer de uitvoeraudiobuffer volledig is leeggemaakt op de server en er geen audio meer beschikbaar is.

Opmerking

Deze gebeurtenis is alleen van toepassing op WebRTC.

Deze gebeurtenis wordt geretourneerd nadat de volledige antwoordgegevens via de response.done gebeurtenis naar de client zijn verzonden.

Gebeurtenisstructuur

{
  "type": "output_audio_buffer.stopped",
  "audio_end_ms": 0,
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn output_audio_buffer.stopped.
event_id touw De ID van de servergebeurtenis.
antwoord_id touw De unieke ID van het antwoord dat de audio heeft voortgebracht.

Bijgewerkte Limieten voor Real-time Servergebeurtenissnelheid

De server rate_limits.updated gebeurtenis wordt verzonden aan het begin van een reactie om de bijgewerkte frequentielimieten aan te geven.

Wanneer een antwoord wordt gemaakt, zijn sommige tokens gereserveerd voor de uitvoertokens. De frequentielimieten die hier worden weergegeven, weerspiegelen die reservering, die vervolgens dienovereenkomstig wordt aangepast zodra het antwoord is voltooid.

Gebeurtenisstructuur

{
  "type": "rate_limits.updated",
  "rate_limits": [
    {
      "name": "<name>",
      "limit": 0,
      "remaining": 0,
      "reset_seconds": 0
    }
  ]
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn rate_limits.updated.
limieten voor snelheden reeks van RealtimeServerEventRateLimitsUpdatedRateLimitsItem De lijst met frequentielimietgegevens.

RealtimeServerEventResponseAudioDelta

De servergebeurtenis response.audio.delta wordt geretourneerd wanneer de door het model gegenereerde audio wordt bijgewerkt.

Gebeurtenisstructuur

{
  "type": "response.audio.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.audio.delta.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
inhoudsopgave integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta touw Met Base64 gecodeerde audiogegevens delta.

RealtimeServerGebeurtenisAntwoordAudioAfgerond

De servergebeurtenis response.audio.done wordt geretourneerd wanneer de door het model gegenereerde audio wordt uitgevoerd.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.audio.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.audio.done.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
inhoudsopgave integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.

RealtimeServerEventResponseAudioTranscriptDelta

De servergebeurtenis response.audio_transcript.delta wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer wordt bijgewerkt.

Gebeurtenisstructuur

{
  "type": "response.audio_transcript.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.audio_transcript.delta.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
inhoudsopgave integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta touw De transcript delta.

Realtime Server Gebeurtenis Reactie Audio Transcript Klaar

De servergebeurtenis response.audio_transcript.done wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer klaar is met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.audio_transcript.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "transcript": "<transcript>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.audio_transcript.done.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
inhoudsopgave integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
afschrift touw Het laatste transcript van de audio.

RealtimeServerEventAntwoordInhoudDeelToegevoegd

De servergebeurtenis response.content_part.added wordt geretourneerd wanneer een nieuw inhoudsonderdeel wordt toegevoegd aan een assistentberichtitem tijdens het genereren van het antwoord.

Gebeurtenisstructuur

{
  "type": "response.content_part.added",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.content_part.added.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item waaraan het inhoudsonderdeel is toegevoegd.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
inhoudsopgave integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
deel RealtimeContentPart Het inhoudsonderdeel dat is toegevoegd.

Eigenschappen van onderdelen

Veld Typologie Beschrijving
soort RealtimeContentPartType

RealtimeServerEvenementAntwoordInhoudsDeelVoltooid

De servergebeurtenis response.content_part.done wordt geretourneerd wanneer een inhoudsonderdeel klaar is met streamen in een assistentberichtitem.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.content_part.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.content_part.done.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
inhoudsopgave integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
deel RealtimeContentPart Het inhoudsonderdeel dat wordt uitgevoerd.

Eigenschappen van onderdelen

Veld Typologie Beschrijving
soort RealtimeContentPartType

RealtimeServerEvenementAntwoordAangemaakt

De servergebeurtenis response.created wordt geretourneerd wanneer er een nieuw antwoord wordt gemaakt. Dit is de eerste gebeurtenis van het maken van een antwoord, waarbij het antwoord de eerste status heeft.in_progress

Gebeurtenisstructuur

{
  "type": "response.created"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.created.
antwoord RealtimeResponse Het antwoordobject.

RealtimeServerEvenementAntwoordKlaar

De servergebeurtenis response.done wordt geretourneerd wanneer er een antwoord wordt gestreamd. Deze gebeurtenis wordt altijd verzonden, ongeacht de uiteindelijke status. Het antwoordobject dat in de response.done gebeurtenis is opgenomen, bevat alle uitvoeritems in het antwoord, maar laat de onbewerkte audiogegevens weg.

Gebeurtenisstructuur

{
  "type": "response.done"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.done.
antwoord RealtimeResponse Het antwoordobject.

RealtimeServerGebeurtenisReactieFunctieAanroepArgumentenDelta

De servergebeurtenis response.function_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten worden bijgewerkt.

Gebeurtenisstructuur

{
  "type": "response.function_call_arguments.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "call_id": "<call_id>",
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.function_call_arguments.delta.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item van de functie-aanroep.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
oproep_id touw De id van de functie-aanroep.
delta touw De argumenten verschillen als een JSON-tekenreeks.

RealtimeServerEventResponsFunctieAanroepArgumentenVoltooid

De servergebeurtenis response.function_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten klaar zijn met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.function_call_arguments.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "call_id": "<call_id>",
  "arguments": "<arguments>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.function_call_arguments.done.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item van de functie-aanroep.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
oproep_id touw De id van de functie-aanroep.
Argumenten touw De laatste argumenten als een JSON-tekenreeks.

RealtimeServerGebeurtenisAntwoordUitvoerItemToegevoegd

De servergebeurtenis response.output_item.added wordt geretourneerd wanneer er een nieuw item wordt gemaakt tijdens het genereren van het antwoord.

Gebeurtenisstructuur

{
  "type": "response.output_item.added",
  "response_id": "<response_id>",
  "output_index": 0
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.output_item.added.
antwoord_id touw De id van het antwoord waartoe het item behoort.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
artikel RealtimeConversationResponseItem Het item dat is toegevoegd.

RealtimeServerEventResponsUitvoerItemKlaar

De servergebeurtenis response.output_item.done wordt geretourneerd wanneer een item klaar is met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.output_item.done",
  "response_id": "<response_id>",
  "output_index": 0
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.output_item.done.
antwoord_id touw De id van het antwoord waartoe het item behoort.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
artikel RealtimeConversationResponseItem Het item dat is gestreamd.

RealtimeServerEventResponseTextDelta

De servergebeurtenis response.text.delta wordt geretourneerd wanneer de door het model gegenereerde tekst wordt bijgewerkt. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.

Gebeurtenisstructuur

{
  "type": "response.text.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.text.delta.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
inhoudsopgave integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta touw De tekst delta.

RealtimeServerEvenementReactieTekstKlaar

De servergebeurtenis response.text.done wordt geretourneerd wanneer de door het model gegenereerde tekst wordt gestreamd. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.text.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "text": "<text>"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn response.text.done.
antwoord_id touw De id van het antwoord.
item_id touw De id van het item.
uitvoer_index integer De index van het uitvoeritem in het antwoord.
inhoudsopgave integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
Tekst touw De uiteindelijke tekstinhoud.

RealtimeServerGebeurtenisSessieAangemaakt

De server session.created gebeurtenis is de eerste server gebeurtenis wanneer u een nieuwe verbinding met de Realtime-API tot stand brengt. Met deze gebeurtenis wordt een nieuwe sessie gemaakt en geretourneerd met de standaardsessieconfiguratie.

Gebeurtenisstructuur

{
  "type": "session.created"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn session.created.
sessie RealtimeResponseSession Het sessieobject.

RealtimeServerEvenementSessieBijgewerkt

De servergebeurtenis session.updated wordt geretourneerd wanneer een sessie wordt bijgewerkt door de client. Als er een fout optreedt, verzendt de server in plaats daarvan een error gebeurtenis.

Gebeurtenisstructuur

{
  "type": "session.updated"
}

Eigenschappen

Veld Typologie Beschrijving
soort touw Het gebeurtenistype moet zijn session.updated.
sessie RealtimeResponseSession Het sessieobject.

Onderdeel

Realtime audioformaat

Toegestane waarden:

  • pcm16
  • g711_ulaw
  • g711_alaw

Realtime audio-invoer transcripitiemodel

Toegestane waarden:

  • whisper-1
  • gpt-4o-transcribe
  • gpt-4o-mini-transcribe
  • gpt-4o-transcribe-diarize
  • gpt-4o-mini-transcribe-2025-12-15

InstellingenVoorRealtimeAudioInputTranscriptie

Veld Typologie Beschrijving
Taal touw De taal van de invoeraudio. Het leveren van de invoertaal in ISO-639-1-indeling (zoals en) verbetert de nauwkeurigheid en latentie.
model RealtimeAudioInputTranscriptionModel Het model voor transcriptie van audio-invoer. Bijvoorbeeld: whisper-1.
aanmoediging touw De opdracht voor de transcriptie van invoer audio. Optionele tekst om de stijl van het model te begeleiden of door te gaan met een vorig audiosegment. Voor het whisper-1 model is de prompt een lijst met trefwoorden. Voor de gpt-4o-transcribe-series-modellen en gpt-4o-transcribe-diarize -modellen is de prompt een vrije tekenreeks, zoals 'verwacht woorden met betrekking tot technologie'.

Instellingen voor Realtime Audio Invoer Geluidsonderdrukking

Veld Typologie Beschrijving
soort touw Type van ruisvermindering. Geef near_field op voor close-talking microfoons, zoals hoofdtelefoons of far_field voor microfoons in verre velden, zoals laptop- of vergaderruimtemicrofoons.

RealtimeClientEvent

Veld Typologie Beschrijving
soort RealtimeClientEventType Het type client-gebeurtenis.
event_id touw De unieke id van de gebeurtenis. De client kan de id opgeven om de gebeurtenis te identificeren.

RealtimeClientEventType

Toegestane waarden:

  • session.update
  • input_audio_buffer.append
  • input_audio_buffer.commit
  • input_audio_buffer.clear
  • conversation.item.create
  • conversation.item.delete
  • conversation.item.truncate
  • response.create
  • response.cancel

RealtijdInhoudDeel

Veld Typologie Beschrijving
soort RealtimeContentPartType Het inhoudstype.

Een eigenschap van het function object.

Toegestane waarden: input_text, input_audio, item_reference, . text
Tekst touw De tekstinhoud. Deze eigenschap is van toepassing op de input_text en text inhoudstypen.
identiteitskaart touw Id van een eerder gespreksitem waarnaar moet worden verwezen in zowel client- als serveritems. Deze eigenschap is van toepassing op het item_reference inhoudstype in response.create gebeurtenissen.
geluid touw De met base64 gecodeerde audiobytes. Deze eigenschap is van toepassing op het input_audio inhoudstype.
afschrift touw Het transcript van de audio. Deze eigenschap is van toepassing op het input_audio inhoudstype.

RealtimeContentPartType

Toegestane waarden:

  • input_text
  • input_audio
  • text
  • audio

RealtimeConversationItemBase

Het item dat moet worden toegevoegd aan het gesprek.

In deze tabel worden alle RealtimeConversationItem eigenschappen beschreven. De eigenschappen die per gebeurtenis van toepassing zijn, zijn afhankelijk van het RealtimeItemType.

Veld Typologie Beschrijving
identiteitskaart touw De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.
soort RealtimeItemType Het type item.

Toegestane waarden: message, function_callfunction_call_output
Voorwerp touw De id voor het API-object dat wordt geretourneerd. De waarde is realtime.itemaltijd.
stand van zaken RealtimeItemStatus De status van het item. Dit veld heeft geen invloed op het gesprek, maar wordt geaccepteerd voor consistentie met de conversation.item.created gebeurtenis.

Toegestane waarden: completed, incomplete
rol RealtimeMessageRole De rol van de afzender van het bericht. Deze eigenschap is alleen van toepassing op message items.

Toegestane waarden: system, userassistant
inhoud reeks van RealtimeContentPart De inhoud van het bericht. Deze eigenschap is alleen van toepassing op message items.

- Berichtitems van rol system ondersteunen alleen input_text inhoud.
- Berichtitems van rolondersteuning userinput_text en input_audio -inhoud.
- Berichtitems van rolondersteuningsinhoud assistanttext .
oproep_id touw De id van de functie-aanroep (voor function_call en function_call_output items). Als een function_call_output item wordt doorgegeven, controleert de server of een function_call item met dezelfde id bestaat in de gespreksgeschiedenis.
naam touw De naam van de functie die wordt aangeroepen (voor function_call items).
Argumenten touw De argumenten van de functieoproep (voor function_call items).
uitvoer touw De uitvoer van de functie-aanroep (voor function_call_output items).

RealtimeGespreksVerzoekItem

U gebruikt het RealtimeConversationRequestItem object om een nieuw item in het gesprek te maken via de gebeurtenis conversation.item.create .

Veld Typologie Beschrijving
soort RealtimeItemType Het type item.
identiteitskaart touw De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeConversationResponseItem

Het RealtimeConversationResponseItem object vertegenwoordigt een item in het gesprek. Deze wordt gebruikt in een aantal van de server gebeurtenissen, zoals:

Veld Typologie Beschrijving
Voorwerp touw De id voor het geretourneerde API-object.

Toegestane waarden: realtime.item
soort RealtimeItemType Het type item.

Toegestane waarden: message, function_callfunction_call_output
identiteitskaart touw De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

Deze eigenschap kan null worden gebruikt.

RealtimeFunctionTool

De definitie van een functiehulpprogramma dat wordt gebruikt door het realtime-eindpunt.

Veld Typologie Beschrijving
soort touw Het type hulpprogramma.

Toegestane waarden: function
naam touw De naam van de functie.
beschrijving touw De beschrijving van de functie, inclusief gebruiksrichtlijnen. Gebruik deze functie bijvoorbeeld om de huidige tijd op te halen.
parameters Voorwerp De parameters van de functie in de vorm van een JSON-object.

RealtimeItemStatus

Toegestane waarden:

  • in_progress
  • completed
  • incomplete

RealtimeItemType

Toegestane waarden:

  • message
  • function_call
  • function_call_output

RealtimeMessageRole

Toegestane waarden:

  • system
  • user
  • assistant

RealtimeAanvraagAssistentBerichtItem

Veld Typologie Beschrijving
rol touw De rol van het bericht.

Toegestane waarden: assistant
inhoud reeks van RealtimeRequestTextContentPart De inhoud van het bericht.

RealtimeVerzoekAudioInhoudDeel

Veld Typologie Beschrijving
soort touw Het type inhoudsonderdeel.

Toegestane waarden: input_audio
afschrift touw Het transcript van de audio.

RealtimeRequestFunctionCallItem

Veld Typologie Beschrijving
soort touw Het type item.

Toegestane waarden: function_call
naam touw De naam van het item van de functie-aanroep.
oproep_id touw De id van het item van de functie-aanroep.
Argumenten touw De argumenten van het functie-aanroepitem.
stand van zaken RealtimeItemStatus De status van het item.

RealtimeRequestFunctionCallOutputItem

Veld Typologie Beschrijving
soort touw Het type item.

Toegestane waarden: function_call_output
oproep_id touw De id van het item van de functie-aanroep.
uitvoer touw De uitvoer van het functie-aanroepitem.

RealtimeVerzoekBerichtItem

Veld Typologie Beschrijving
soort touw Het type item.

Toegestane waarden: message
rol RealtimeMessageRole De rol van het bericht.
stand van zaken RealtimeItemStatus De status van het item.

Real-time Verzoekbericht Referentie-item

Veld Typologie Beschrijving
soort touw Het type item.

Toegestane waarden: message
identiteitskaart touw De ID van het berichtitem.

RealtimeRequestSession

U gebruikt het RealtimeRequestSession object wanneer u de sessieconfiguratie wilt bijwerken via de sessie.update-gebeurtenis .

Veld Typologie Beschrijving
Modaliteiten gegevensreeks De modaliteiten die de sessie ondersteunt.

Toegestane waarden: text, audio

Is bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling die zowel tekst- als audiomodaliteiten mogelijk maakt. Als u alleen tekst wilt inschakelen, stelt u deze in "modalities": ["text"]. U kunt alleen audio niet inschakelen.
aanwijzingen touw De instructies (het systeembericht) om de tekst- en audioreacties van het model te begeleiden.

Hier volgen enkele voorbeelden van instructies voor het begeleiden van inhoud en indeling van tekst- en audioantwoorden:
"instructions": "be succinct"
"instructions": "act friendly"
"instructions": "here are examples of good responses"

Hier volgen enkele voorbeeldinstructies om het audiogedrag te begeleiden:
"instructions": "talk quickly"
"instructions": "inject emotion into your voice"
"instructions": "laugh frequently"

Hoewel het model deze instructies mogelijk niet altijd volgt, bieden ze richtlijnen voor het gewenste gedrag.
stem RealtimeVoice De stem die wordt gebruikt voor het modelantwoord voor de sessie.

Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
invoer_audioformaat RealtimeAudioFormat De indeling voor de invoeraudio.
audio-uitvoerformaat RealtimeAudioFormat De indeling voor de uitvoeraudio.
invoer_audio_ruisreductie RealtimeAudioInputAudioRuisminderingsinstellingen Configuratie voor geluidsruisonderdrukking voor invoer. Dit kan worden ingesteld op null om uit te schakelen. Ruisreductiefilters verwerken de audio voordat deze aan de invoeraudiobuffer wordt toegevoegd en naar VAD en het model wordt verzonden. Het filteren van de audio kan de VAD verbeteren en de nauwkeurigheid van draaidetectie (fout-positieven verminderen) en modelprestaties verbeteren door de perceptie van de invoeraudio te verbeteren.

Deze eigenschap kan null worden gebruikt.
invoer_audiotranscriptie RealtimeAudioInputTranscriptie-instellingen De configuratie voor audiotranscriptie van invoer. De configuratie is standaard null (uit). Transcriptie van invoeraudio is niet systeemeigen voor het model, omdat het model rechtstreeks audio verbruikt. Transcriptie wordt asynchroon uitgevoerd via het /audio/transcriptions eindpunt en moet worden behandeld als richtlijnen voor invoeraudio-inhoud in plaats van precies wat het model heeft gehoord. Voor aanvullende richtlijnen voor de transcriptieservice kan de client desgewenst de taal instellen en vragen om transcriptie.

Deze eigenschap kan null worden gebruikt.
bochtendetectie RealtimeTurnDetection De instellingen voor draaidetectie voor de sessie.

Deze eigenschap kan null worden gebruikt.
gereedschappen matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
gereedschapskeuze RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.

Toegestane waarden: auto, noneen required. Anders kunt u de naam opgeven van de functie die u wilt gebruiken.
temperatuur nummer De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot 0.6 .1.2 Standaardwaarde is 0.8.
maximale_respons-uitvoer_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

Standaardwaarde is "inf".

RealtijdVerzoekSysteemBerichtItem

Veld Typologie Beschrijving
rol touw De rol van het bericht.

Toegestane waarden: system
inhoud reeks van RealtimeRequestTextContentPart De inhoud van het bericht.

RealtimeVerzoekTekstInhoudDeel

Veld Typologie Beschrijving
soort touw Het type inhoudsonderdeel.

Toegestane waarden: input_text
Tekst touw De tekstinhoud.

RealtimeVerzoekGebruikersBerichtItem

Veld Typologie Beschrijving
rol touw De rol van het bericht.

Toegestane waarden: user
inhoud reeks van RealtimeRequestTextContentPart of RealtimeRequestAudioContentPart De inhoud van het bericht.

RealtimeResponse

Veld Typologie Beschrijving
Voorwerp touw Het antwoordobject.

Toegestane waarden: realtime.response
identiteitskaart touw De unieke id van het antwoord.
stand van zaken RealtimeResponseStatus De status van het antwoord.

De standaardstatuswaarde is in_progress.
statusgegevens RealtimeResponseStatusDetails De details van de antwoordstatus.

Deze eigenschap kan null worden gebruikt.
uitvoer reeks van RealtimeConversationResponseItem De uitvoeritems van het antwoord.
gebruik Voorwerp Gebruiksstatistieken voor het antwoord. Elke Realtime API-sessie onderhoudt een gesprekscontext en voegt nieuwe items toe aan het gesprek. Uitvoer van vorige bochten (tekst- en audiotokens) is invoer voor latere beurten.

Zie vervolgens geneste eigenschappen.
+ totaal_aantallen integer Het totale aantal tokens in het antwoord, inclusief invoer- en uitvoertekst en audiotokens.

Een eigenschap van het usage object.
+ invoertokens integer Het aantal invoertokens dat in het antwoord wordt gebruikt, inclusief tekst- en audiotokens.

Een eigenschap van het usage object.
+ uitvoer_tokens integer Het aantal uitvoertokens dat in het antwoord wordt verzonden, inclusief tekst- en audiotokens.

Een eigenschap van het usage object.
+ input_token_details Voorwerp Details over de invoertokens die in het antwoord worden gebruikt.

Een eigenschap van het usage object.

Zie vervolgens geneste eigenschappen.
+ in cache opgeslagen tokens integer Het aantal tokens in de cache dat in het antwoord wordt gebruikt.

Een eigenschap van het input_token_details object.
+ tekst_tokens integer Het aantal teksttokens dat in het antwoord wordt gebruikt.

Een eigenschap van het input_token_details object.
+ audio_tokens integer Het aantal audiotokens dat in het antwoord wordt gebruikt.

Een eigenschap van het input_token_details object.
+ output_token_details (uitvoer_token_details) Voorwerp Details over de uitvoertokens die in het antwoord worden gebruikt.

Een eigenschap van het usage object.

Zie vervolgens geneste eigenschappen.
+ tekst_tokens integer Het aantal teksttokens dat in het antwoord wordt gebruikt.

Een eigenschap van het output_token_details object.
+ audio_tokens integer Het aantal audiotokens dat in het antwoord wordt gebruikt.

Een eigenschap van het output_token_details object.

RealtimeReactieAudioInhoudDeel

Veld Typologie Beschrijving
soort touw Het type inhoudsonderdeel.

Toegestane waarden: audio
afschrift touw Het transcript van de audio.

Deze eigenschap kan null worden gebruikt.

RealtimeResponseBase

De antwoordresource.

RealtimeResponseFunctionCallItem

Veld Typologie Beschrijving
soort touw Het type item.

Toegestane waarden: function_call
naam touw De naam van het item van de functie-aanroep.
oproep_id touw De id van het item van de functie-aanroep.
Argumenten touw De argumenten van het functie-aanroepitem.
stand van zaken RealtimeItemStatus De status van het item.

RealtimeResponseFunctieOproepUitvoerItem

Veld Typologie Beschrijving
soort touw Het type item.

Toegestane waarden: function_call_output
oproep_id touw De id van het item van de functie-aanroep.
uitvoer touw De uitvoer van het functie-aanroepitem.

Real-time Response Bericht Item

Veld Typologie Beschrijving
soort touw Het type item.

Toegestane waarden: message
rol RealtimeMessageRole De rol van het bericht.
inhoud gegevensreeks De inhoud van het bericht.

Array-items: RealtimeResponseTextContentPart
stand van zaken RealtimeItemStatus De status van het item.

RealtimeReactieOpties

Veld Typologie Beschrijving
Modaliteiten gegevensreeks De modaliteiten die de sessie ondersteunt.

Toegestane waarden: text, audio

Is bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling die zowel tekst- als audiomodaliteiten mogelijk maakt. Als u alleen tekst wilt inschakelen, stelt u deze in "modalities": ["text"]. U kunt alleen audio niet inschakelen.
aanwijzingen touw De instructies (het systeembericht) om de tekst- en audioreacties van het model te begeleiden.

Hier volgen enkele voorbeelden van instructies voor het begeleiden van inhoud en indeling van tekst- en audioantwoorden:
"instructions": "be succinct"
"instructions": "act friendly"
"instructions": "here are examples of good responses"

Hier volgen enkele voorbeeldinstructies om het audiogedrag te begeleiden:
"instructions": "talk quickly"
"instructions": "inject emotion into your voice"
"instructions": "laugh frequently"

Hoewel het model deze instructies mogelijk niet altijd volgt, bieden ze richtlijnen voor het gewenste gedrag.
stem RealtimeVoice De stem die wordt gebruikt voor het modelantwoord voor de sessie.

Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
audio-uitvoerformaat RealtimeAudioFormat De indeling voor de uitvoeraudio.
gereedschappen matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
gereedschapskeuze RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.
temperatuur nummer De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot 0.6 .1.2 Standaardwaarde is 0.8.
maximale__uitvoer_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

Standaardwaarde is "inf".
gesprek touw Hiermee bepaalt u aan welk gesprek het antwoord wordt toegevoegd. De ondersteunde waarden zijn auto en none.

De auto waarde (of deze eigenschap niet instellen) zorgt ervoor dat de inhoud van het antwoord wordt toegevoegd aan het standaardgesprek van de sessie.

Stel deze eigenschap in om none een out-of-band-antwoord te maken waarin items niet worden toegevoegd aan het standaardgesprek. Raadpleeg de handleiding voor meer informatie.

Standaard ingesteld op "auto"
metagegevens kaart Set van maximaal 16 sleutel-waardeparen die aan een object kunnen worden gekoppeld. Dit kan handig zijn voor het opslaan van aanvullende informatie over het object in een gestructureerde indeling. Sleutels mogen maximaal 64 tekens lang zijn en waarden mogen maximaal 512 tekens lang zijn.

Bijvoorbeeld: metadata: { topic: "classification" }
invoer gegevensreeks Invoeritems die moeten worden opgenomen in de prompt voor het model. Hiermee maakt u een nieuwe context voor dit antwoord, zonder het standaardgesprek op te geven. Kan verwijzingen naar items uit het standaardgesprek bevatten.

Array-items: RealtimeConversationItemBase

RealtimeResponseSession

Het RealtimeResponseSession object vertegenwoordigt een sessie in de Realtime-API. Deze wordt gebruikt in een aantal van de server gebeurtenissen, zoals:

Veld Typologie Beschrijving
Voorwerp touw Het sessieobject.

Toegestane waarden: realtime.session
identiteitskaart touw De unieke id van de sessie.
model touw Het model dat wordt gebruikt voor de sessie.
Modaliteiten gegevensreeks De modaliteiten die de sessie ondersteunt.

Toegestane waarden: text, audio

Is bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling die zowel tekst- als audiomodaliteiten mogelijk maakt. Als u alleen tekst wilt inschakelen, stelt u deze in "modalities": ["text"]. U kunt alleen audio niet inschakelen.
aanwijzingen touw De instructies (het systeembericht) om de tekst- en audioreacties van het model te begeleiden.

Hier volgen enkele voorbeelden van instructies voor het begeleiden van inhoud en indeling van tekst- en audioantwoorden:
"instructions": "be succinct"
"instructions": "act friendly"
"instructions": "here are examples of good responses"

Hier volgen enkele voorbeeldinstructies om het audiogedrag te begeleiden:
"instructions": "talk quickly"
"instructions": "inject emotion into your voice"
"instructions": "laugh frequently"

Hoewel het model deze instructies mogelijk niet altijd volgt, bieden ze richtlijnen voor het gewenste gedrag.
stem RealtimeVoice De stem die wordt gebruikt voor het modelantwoord voor de sessie.

Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
invoer_audioformaat RealtimeAudioFormat De indeling voor de invoeraudio.
audio-uitvoerformaat RealtimeAudioFormat De indeling voor de uitvoeraudio.
invoer_audiotranscriptie RealtimeAudioInputTranscriptie-instellingen De instellingen voor transcriptie van audio-invoer.

Deze eigenschap kan null worden gebruikt.
bochtendetectie RealtimeTurnDetection De instellingen voor draaidetectie voor de sessie.

Deze eigenschap kan null worden gebruikt.
gereedschappen matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
gereedschapskeuze RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.
temperatuur nummer De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot 0.6 .1.2 Standaardwaarde is 0.8.
maximale_respons-uitvoer_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

RealtimeResponseStatus

Toegestane waarden:

  • in_progress
  • completed
  • cancelled
  • incomplete
  • failed

Details van de status van realtime reacties

Veld Typologie Beschrijving
soort RealtimeResponseStatus De status van het antwoord.

RealtimeReactieTekstInhoudsDeel

Veld Typologie Beschrijving
soort touw Het type inhoudsonderdeel.

Toegestane waarden: text
Tekst touw De tekstinhoud.

RealtimeServerEvent

Veld Typologie Beschrijving
soort RealtimeServerEventType Het type server-gebeurtenis.
event_id touw De unieke id van de server-gebeurtenis.

Real-timeServergebeurtenisSnelheidslimietenBijgewerkteSnelheidslimietenItem

Veld Typologie Beschrijving
naam touw De eigenschapsnaam van de frequentielimiet waarover dit item informatie bevat.
grens integer De maximaal geconfigureerde limiet voor deze eigenschap voor frequentielimiet.
resterend integer Het resterende quotum dat beschikbaar is voor de geconfigureerde limiet voor deze frequentielimieteigenschap.
reset_seconden nummer De resterende tijd, in seconden, totdat deze frequentielimieteigenschap opnieuw wordt ingesteld.

RealtimeServerEvenementtype

Toegestane waarden:

  • session.created
  • session.updated
  • conversation.created
  • conversation.item.created
  • conversation.item.deleted
  • conversation.item.truncated
  • response.created
  • response.done
  • rate_limits.updated
  • response.output_item.added
  • response.output_item.done
  • response.content_part.added
  • response.content_part.done
  • response.audio.delta
  • response.audio.done
  • response.audio_transcript.delta
  • response.audio_transcript.done
  • response.text.delta
  • response.text.done
  • response.function_call_arguments.delta
  • response.function_call_arguments.done
  • input_audio_buffer.speech_started
  • input_audio_buffer.speech_stopped
  • conversation.item.input_audio_transcription.completed
  • conversation.item.input_audio_transcription.failed
  • input_audio_buffer.committed
  • input_audio_buffer.cleared
  • error

Realtime-server VAD-draaiomkeerdetectie

Veld Typologie Beschrijving
soort touw Het type draaidetectie.

Toegestane waarden: server_vad
threshold nummer De activeringsdrempel voor de detectie van de vad-server. In lawaaierige omgevingen moet u mogelijk de drempelwaarde verhogen om fout-positieven te voorkomen. In rustige omgevingen moet u mogelijk de drempelwaarde verlagen om fout-negatieven te voorkomen.

Standaardwaarde is 0.5. U kunt de drempelwaarde instellen op een waarde tussen 0.0 en 1.0.
prefix_padding_ms touw De duur van spraakaudio (in milliseconden) die v贸贸r het begin van de gedetecteerde spraak moet worden opgenomen.

Standaardwaarde is 300.
stilte_duur_ms touw De duur van stilte (in milliseconden) om het einde van de spraak te detecteren. U wilt het einde van de spraak zo snel mogelijk detecteren, maar niet te snel om te voorkomen dat het laatste deel van de spraak wordt afgekapt.

Het model reageert sneller als u deze waarde instelt op een lager getal, maar het laatste deel van de spraak kan worden afgekapt. Als u deze waarde instelt op een hoger getal, wacht het model langer om het einde van de spraak te detecteren, maar het kan langer duren om te reageren.

RealtimeSessionBase

Configuratie van realtime sessieobject.

RealtimeTool

De basisweergave van een realtime tooldefinitie.

Veld Typologie Beschrijving
soort RealtimeToolType Het type hulpprogramma.

RealtimeToolChoice

De gecombineerde set beschikbare weergaven voor een realtimeparameter tool_choice , die zowel letterlijke opties voor tekenreeksen als 'auto' en gestructureerde verwijzingen naar gedefinieerde hulpprogramma's omvat.

RealtimeToolChoiceFunctionObject

De weergave van een realtime tool_choice selecteren van een benoemd functiehulpprogramma.

Veld Typologie Beschrijving
soort touw Het type van de tool_choice.

Toegestane waarden: function
functie Voorwerp Het functiehulpprogramma dat u wilt selecteren.

Zie vervolgens geneste eigenschappen.
+ naam touw De naam van het functiehulpprogramma.

Een eigenschap van het function object.

RealtimeToolKeuzeLetterlijk

De beschikbare set opties voor letterlijke tekenreeksen tool_choice op modusniveau voor het realtime-eindpunt.

Toegestane waarden:

  • auto
  • none
  • required

RealtimeToolChoiceObject

Een basisweergave voor een realtime tool_choice selecteren van een benoemd hulpprogramma.

Veld Typologie Beschrijving
soort RealtimeToolType Het type van de tool_choice.

RealtimeToolType

Het ondersteunde hulpprogrammatypediscriminatoren voor realtime-hulpprogramma's. Momenteel worden alleen hulpprogramma's voor functies ondersteund.

Toegestane waarden:

  • function

RealtimeBochtDetectie

Veld Typologie Beschrijving
soort RealtimeTurnDetectionType Het type draaidetectie.

Toegestane waarden: semantic_vad of server_vad
threshold nummer De activeringsdrempel voor de vad van de server (server_vad) omdraaidetectie. In lawaaierige omgevingen moet u mogelijk de drempelwaarde verhogen om fout-positieven te voorkomen. In rustige omgevingen moet u mogelijk de drempelwaarde verlagen om fout-negatieven te voorkomen.

Standaardwaarde is 0.5. U kunt de drempelwaarde instellen op een waarde tussen 0.0 en 1.0.

Deze eigenschap is alleen van toepassing op server_vad draaidetectie.
prefix_padding_ms touw De duur van spraakaudio (in milliseconden) die v贸贸r het begin van de gedetecteerde spraak moet worden opgenomen.

De standaardwaarde is 300 milliseconden.

Deze eigenschap is alleen van toepassing op server_vad draaidetectie.
stilte_duur_ms touw De duur van stilte (in milliseconden) om het einde van de spraak te detecteren. U wilt het einde van de spraak zo snel mogelijk detecteren, maar niet te snel om te voorkomen dat het laatste deel van de spraak wordt afgekapt.

Het model reageert sneller als u deze waarde instelt op een lager getal, maar het laatste deel van de spraak kan worden afgekapt. Als u deze waarde instelt op een hoger getal, wacht het model langer om het einde van de spraak te detecteren, maar het kan langer duren om te reageren.

De standaardwaarde is 200 milliseconden.

Deze eigenschap is alleen van toepassing op server_vad draaidetectie.
maak_antwoord booleaan Hiermee wordt aangegeven of de server automatisch een antwoord maakt wanneer VAD is ingeschakeld en spraak stopt.

Standaardwaarde is true.
onderbrekingsreactie booleaan Geeft aan of de server automatisch een doorlopend antwoord met uitvoer naar het standaardgesprek (auto) onderbreekt wanneer er een VAD-startgebeurtenis plaatsvindt.

Standaardwaarde is true.
gretigheid touw De gretigheid van het model om te reageren en de gebruiker te onderbreken. Geef low op om langer te wachten totdat de gebruiker doorgaat met spreken. Geef high op om de audio zo snel mogelijk te segmenteren voor snellere antwoorden. De standaardwaarde is auto gelijk aan gemiddeld.

Deze eigenschap is alleen van toepassing op semantic_vad draaidetectie.

RealtimeBochtdetectieType

Toegestane waarden:

  • semantic_vad - Semantische VAD detecteert wanneer de gebruiker klaar is met spreken op basis van de woorden die ze hebben uitgesproken. De invoeraudio wordt beoordeeld op basis van de waarschijnlijkheid dat de gebruiker klaar is met spreken. Wanneer de kans laag is, wacht het model op een time-out. Wanneer de kans hoog is, hoeft u niet te wachten.
  • server_vad - De server evalueert gebruikersaudio van de client. De server gebruikt die audio automatisch om het genereren van reacties te initi毛ren voor toepasselijke gesprekken wanneer er een einde aan spraak wordt gedetecteerd.

RealtimeVoice

Toegestane waarden:

  • alloy
  • ash
  • ballad
  • coral
  • echo
  • sage
  • shimmer
  • verse