Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Naslaginformatie over voice live-API
De Voice Live-API biedt realtime bidirectionele communicatie voor spraaktoepassingen met behulp van WebSocket-verbindingen. Deze API ondersteunt geavanceerde functies, waaronder spraakherkenning, tekst-naar-spraaksynthese, avatarstreaming, animatiegegevens en uitgebreide mogelijkheden voor audioverwerking.
De API maakt gebruik van gebeurtenissen in JSON-indeling die via WebSocket-verbindingen worden verzonden om gesprekken, audiostreams, avatarinteracties en realtime antwoorden te beheren. Gebeurtenissen worden gecategoriseerd in clientgebeurtenissen (verzonden van client naar server) en servergebeurtenissen (verzonden van server naar client).
Belangrijke functies
- Realtime audioverwerking: ondersteuning voor meerdere audio-indelingen, waaronder PCM16 met verschillende samplefrequenties en G.711 codecs
- Geavanceerde spraakopties: OpenAI-stemmen, aangepaste Stemmen van Azure, Standaardstemmen van Azure en persoonlijke Stemmen van Azure
- Avatar-integratie: avatarstreaming op basis van WebRTC met video, animatie en blendshapes
- Intelligente schakeldetectie: meerdere VAD-opties, waaronder semantische VAD van Azure en detectie aan de serverzijde
- Audioverbetering: ingebouwde ruisonderdrukking en echo-annulering
- Functie aanroepen: Integratie van hulpprogramma's voor verbeterde gespreksmogelijkheden
- Flexibel sessiebeheer: configureerbare modaliteiten, instructies en antwoordparameters
Client-gebeurtenissen
De Voice Live-API ondersteunt de volgende clientgebeurtenissen die van de client naar de server kunnen worden verzonden:
| Event | Description |
|---|---|
| session.update | De sessieconfiguratie bijwerken, inclusief spraak, modaliteiten, schakeldetectie en andere instellingen |
| session.avatar.connect | Avatar-verbinding tot stand brengen door client-SDP voor WebRTC-onderhandeling te bieden |
| input_audio_buffer.append | Audiobytes toevoegen aan de invoeraudiobuffer |
| input_audio_buffer.commit | De invoeraudiobuffer doorvoeren voor verwerking |
| input_audio_buffer.clear | De audiobuffer voor invoer wissen |
| conversation.item.create | Een nieuw item toevoegen aan de gesprekscontext |
| conversation.item.retrieve | Een specifiek item ophalen uit het gesprek |
| conversation.item.truncate | Een audiobericht van een assistent afkappen |
| conversation.item.delete | Een item uit het gesprek verwijderen |
| response.create | De server opdracht geven om een antwoord te maken via modeldeductie |
| response.cancel | Een actieve reactie annuleren |
session.update
Werk de configuratie van de sessie bij. Deze gebeurtenis kan op elk gewenst moment worden verzonden om instellingen zoals spraak, modaliteiten, draaidetectie, hulpprogramma's en andere sessieparameters te wijzigen. Zodra een sessie is geïnitialiseerd met een bepaald model, kan deze niet meer worden gewijzigd in een ander model.
Gebeurtenisstructuur
{
"type": "session.update",
"session": {
"modalities": ["text", "audio"],
"voice": {
"type": "openai",
"name": "alloy"
},
"instructions": "You are a helpful assistant. Be concise and friendly.",
"input_audio_format": "pcm16",
"output_audio_format": "pcm16",
"input_audio_sampling_rate": 24000,
"turn_detection": {
"type": "azure_semantic_vad",
"threshold": 0.5,
"prefix_padding_ms": 300,
"silence_duration_ms": 500
},
"temperature": 0.8,
"max_response_output_tokens": "inf"
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "session.update" zijn |
| sessie | RealtimeRequestSession | Sessieconfiguratieobject met velden die moeten worden bijgewerkt |
Voorbeeld met Azure Custom Voice
{
"type": "session.update",
"session": {
"voice": {
"type": "azure-custom",
"name": "my-custom-voice",
"endpoint_id": "12345678-1234-1234-1234-123456789012",
"temperature": 0.7,
"style": "cheerful"
},
"input_audio_noise_reduction": {
"type": "azure_deep_noise_suppression"
},
"avatar": {
"character": "lisa",
"customized": false,
"video": {
"resolution": {
"width": 1920,
"height": 1080
},
"bitrate": 2000000
}
}
}
}
session.avatar.connect
Maak een avatarverbinding door de SDP -aanbieding (Session Description Protocol) van de client op te geven voor webRTC-mediaonderhandeling. Deze gebeurtenis is vereist bij het gebruik van avatarfuncties.
Gebeurtenisstructuur
{
"type": "session.avatar.connect",
"client_sdp": "<client_sdp>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "session.avatar.connect" zijn |
| client_sdp | touw | De SDP-aanbieding van de client voor het tot stand maken van webRTC-verbindingen, gecodeerd met base64 |
input_audio_buffer.append
Voeg audiobytes toe aan de audiobuffer voor invoer.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.append",
"audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA="
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "input_audio_buffer.append" zijn |
| audio | touw | Met Base64 gecodeerde audiogegevens |
input_audio_buffer.commit
Voer de invoeraudiobuffer door voor verwerking.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.commit"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "input_audio_buffer.commit" zijn |
input_audio_buffer.clear
Wis de invoeraudiobuffer.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.clear"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "input_audio_buffer.clear" zijn |
conversation.item.create
Voeg een nieuw item toe aan de gesprekscontext. Dit kan berichten, functieoproepen en antwoorden van functieoproepen zijn. Items kunnen worden ingevoegd op specifieke posities in de gespreksgeschiedenis.
Gebeurtenisstructuur
{
"type": "conversation.item.create",
"previous_item_id": "item_ABC123",
"item": {
"id": "item_DEF456",
"type": "message",
"role": "user",
"content": [
{
"type": "input_text",
"text": "Hello, how are you?"
}
]
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "conversation.item.create" zijn |
| vorige_item_id | touw | Optional. Id van het item waarna u dit item wilt invoegen. Als dit niet is opgegeven, voegt u deze toe aan het einde |
| item | RealtimeConversationRequestItem | Het item dat moet worden toegevoegd aan het gesprek |
Voorbeeld met audio-inhoud
{
"type": "conversation.item.create",
"item": {
"type": "message",
"role": "user",
"content": [
{
"type": "input_audio",
"audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA=",
"transcript": "Hello there"
}
]
}
}
Voorbeeld met uitvoer van functieoproep
{
"type": "conversation.item.create",
"item": {
"type": "function_call_output",
"call_id": "call_123",
"output": "{\"location\": \"San Francisco\", \"temperature\": \"70\"}"
}
}
Voorbeeld met MCP-goedkeuringsantwoord
{
"type": "conversation.item.create",
"item": {
"type": "mcp_approval_response",
"approval_request_id": "mcp_approval_req_456",
"approve": true,
}
}
conversation.item.retrieve
Een specifiek item ophalen uit de gespreksgeschiedenis. Dit is handig voor het inspecteren van verwerkte audio na ruisonderdrukking en VAD.
Gebeurtenisstructuur
{
"type": "conversation.item.retrieve",
"item_id": "item_ABC123"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "conversation.item.retrieve" zijn |
| item_id | touw | De id van het item dat moet worden opgehaald |
conversation.item.truncate
De audio-inhoud van een assistentbericht afkappen. Dit is handig voor het stoppen van afspelen op een specifiek punt en het synchroniseren van het begrip van de server met de status van de client.
Gebeurtenisstructuur
{
"type": "conversation.item.truncate",
"item_id": "item_ABC123",
"content_index": 0,
"audio_end_ms": 5000
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "conversation.item.truncate" zijn |
| item_id | touw | De id van het assistentberichtitem dat moet worden afgekapt |
| content_index | integer | De index van het inhoudsonderdeel dat moet worden afgekapt |
| audio_end_ms | integer | De duur totdat de audio wordt afgekapt, in milliseconden |
conversation.item.delete
Een item verwijderen uit de gespreksgeschiedenis.
Gebeurtenisstructuur
{
"type": "conversation.item.delete",
"item_id": "item_ABC123"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "conversation.item.delete" zijn |
| item_id | touw | De id van het item dat moet worden verwijderd |
response.create
Geef de server de opdracht om een antwoord te maken via modeldeductie. Met deze gebeurtenis kunt u antwoordspecifieke configuratie opgeven die de standaardinstellingen voor sessies overschrijft.
Gebeurtenisstructuur
{
"type": "response.create",
"response": {
"modalities": ["text", "audio"],
"instructions": "Be extra helpful and detailed.",
"voice": {
"type": "openai",
"name": "alloy"
},
"output_audio_format": "pcm16",
"temperature": 0.7,
"max_response_output_tokens": 1000
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.create" zijn |
| response | RealtimeResponseOptions | Optionele antwoordconfiguratie die de standaardinstellingen voor sessies overschrijft |
Voorbeeld met keuze van hulpprogramma
{
"type": "response.create",
"response": {
"modalities": ["text"],
"tools": [
{
"type": "function",
"name": "get_current_time",
"description": "Get the current time",
"parameters": {
"type": "object",
"properties": {}
}
}
],
"tool_choice": "get_current_time",
"temperature": 0.3
}
}
Voorbeeld met animatie
{
"type": "response.create",
"response": {
"modalities": ["audio", "animation"],
"animation": {
"model_name": "default",
"outputs": ["blendshapes", "viseme_id"]
},
"voice": {
"type": "azure-custom",
"name": "my-expressive-voice",
"endpoint_id": "12345678-1234-1234-1234-123456789012",
"style": "excited"
}
}
}
response.cancel
Annuleer een reactie die wordt uitgevoerd. Hierdoor wordt het genereren van reacties en gerelateerde audio-uitvoer onmiddellijk gestopt.
Gebeurtenisstructuur
{
"type": "response.cancel"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.cancel" zijn |
input_audio_buffer.append
De client input_audio_buffer.append gebeurtenis wordt gebruikt om audiobytes toe te voegen aan de invoeraudiobuffer. De audiobuffer is tijdelijke opslag waarnaar u kunt schrijven en later doorvoeren.
In de modus Server VAD (Spraakactiviteitsdetectie) wordt de audiobuffer gebruikt om spraak te detecteren en bepaalt de server wanneer deze moet worden doorgevoerd. Wanneer server-VAD is uitgeschakeld, kan de client kiezen hoeveel audio in elke gebeurtenis moet worden geplaatst tot maximaal 15 MiB. Als u bijvoorbeeld kleinere segmenten van de client streamt, kan de VAD sneller reageren.
In tegenstelling tot de meeste andere client gebeurtenissen, verzendt de server geen bevestigingsreactie naar de client input_audio_buffer.append gebeurtenis.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.append",
"audio": "<audio>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn input_audio_buffer.append. |
| audio | touw | Met Base64 gecodeerde audiobytes. Deze waarde moet de indeling hebben die is opgegeven door het input_audio_format veld in de sessieconfiguratie. |
input_audio_buffer.clear
De client input_audio_buffer.clear gebeurtenis wordt gebruikt om de audiobytes in de buffer te wissen.
De server reageert met een input_audio_buffer.cleared gebeurtenis.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.clear"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn input_audio_buffer.clear. |
input_audio_buffer.commit
De client-gebeurtenis input_audio_buffer.commit wordt gebruikt om de audiobuffer voor gebruikersinvoer door te voeren, waardoor er een nieuw gebruikersberichtitem in het gesprek wordt gemaakt. Audio wordt getranscribeerd als input_audio_transcription deze is geconfigureerd voor de sessie.
Wanneer de client zich in de VAD-modus van de server bevindt, hoeft deze gebeurtenis niet te worden verzonden. De server voert de audiobuffer automatisch door. Zonder server-VAD moet de client de audiobuffer doorvoeren om een gebruikersberichtitem te maken. Deze client gebeurtenis produceert een fout als de invoer audiobuffer leeg is.
Als u de invoeraudiobuffer doorvoert, wordt er geen antwoord van het model gemaakt.
De server reageert met een input_audio_buffer.committed gebeurtenis.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.commit"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn input_audio_buffer.commit. |
Server gebeurtenissen
De Voice Live-API verzendt de volgende servergebeurtenissen om de status, antwoorden en gegevens te communiceren met de client:
| Event | Description |
|---|---|
| fout | Geeft aan dat er een fout is opgetreden tijdens de verwerking |
| waarschuwing | Geeft aan dat er een waarschuwing is opgetreden die de gespreksstroom niet onderbreekt |
| session.created | Verzonden wanneer een nieuwe sessie tot stand is gebracht |
| session.updated | Verzonden wanneer sessieconfiguratie wordt bijgewerkt |
| session.avatar.connecting | Geeft aan dat de avatar WebRTC-verbinding tot stand is gebracht |
| conversatie.item.aangemaakt | Verzonden wanneer een nieuw item wordt toegevoegd aan het gesprek |
| conversation.item.retrieved | Antwoord op conversation.item.retrieve-aanvraag |
| conversation.item.truncated | Bevestigt afkapping van items |
| conversation.item.deleted | Verwijdering van item bevestigen |
| conversation.item.input_audio_transcription.completed | Audiotranscriptie van invoer is voltooid |
| conversation.item.input_audio_transcription.delta | Audiotranscriptie van streaming-invoer |
| conversation.item.input_audio_transcription.failed | Audiotranscriptie van invoer is mislukt |
| input_audio_buffer.commit | Invoeraudiobuffer was voor verwerking |
| input_audio_buffer.gewist | Invoeraudiobuffer is gewist |
| input_audio_buffer.speech_started | Spraak gedetecteerd in invoeraudiobuffer (VAD) |
| input_audio_buffer.speech_stopped | Spraak is beëindigd in de audiobuffer voor invoer (VAD) |
| response.created | Nieuwe reactiegeneratie is gestart |
| response.done | Het genereren van antwoorden is voltooid |
| reactie.uitvoer_item.toegevoegd | Nieuw uitvoeritem toegevoegd aan antwoord |
| response.output_item.done | Het uitvoeritem is voltooid |
| response.content_part.added | Nieuw inhoudsonderdeel toegevoegd aan uitvoeritem |
| response.content_part.done | Het inhoudsonderdeel is voltooid |
| response.text.delta | Tekstinhoud streamen van het model |
| response.text.done | Tekstinhoud is voltooid |
| response.audio_transcript.delta | Audiotranscriptie streamen |
| response.audio_transcript.done | Audiotranscriptie is voltooid |
| response.audio.delta | Audio-inhoud streamen vanuit het model |
| response.audio.done | Audio-inhoud is voltooid |
| response.animation_blendshapes.delta | Streaming-animatie-blendshapes-gegevens |
| response.animation_blendshapes.done | De gegevens van animatie-blendshapes zijn voltooid |
| response.audio_timestamp.delta | Informatie over het streamen van audiotijdstempel |
| response.audio_timestamp.done | Informatie over de tijdstempel van audio is voltooid |
| response.animation_viseme.delta | Streaminganimatievisugegevens |
| response.animation_viseme.done | Animatievisulaatgegevens zijn voltooid |
| response.function_call_arguments.delta | Argumenten voor aanroepen van streamingfuncties |
| response.function_call_arguments.done | Argumenten voor functieoproep zijn voltooid |
| mcp_list_tools.in_progress | Vermelding van MCP-hulpprogramma's wordt uitgevoerd |
| mcp_list_tools.completed | McP-hulpprogrammalijst is voltooid |
| mcp_list_tools.failed | Vermelding van MCP-hulpprogramma's is mislukt |
| response.mcp_call_arguments.delta | McP-aanroepargumenten streamen |
| response.mcp_call_arguments.done | MCP-aanroepargumenten zijn voltooid |
| response.mcp_call.in_progress | MCP-aanroep wordt uitgevoerd |
| response.mcp_call.completed | MCP-aanroep is voltooid |
| response.mcp_call.failed | MCP-aanroep is mislukt |
session.created
Verzonden wanneer een nieuwe sessie tot stand is gebracht. Dit is de eerste gebeurtenis die is ontvangen nadat u verbinding hebt gemaakt met de API.
Gebeurtenisstructuur
{
"type": "session.created",
"session": {
"id": "sess_ABC123DEF456",
"object": "realtime.session",
"model": "gpt-realtime",
"modalities": ["text", "audio"],
"instructions": "You are a helpful assistant.",
"voice": {
"type": "openai",
"name": "alloy"
},
"input_audio_format": "pcm16",
"output_audio_format": "pcm16",
"input_audio_sampling_rate": 24000,
"turn_detection": {
"type": "azure_semantic_vad",
"threshold": 0.5,
"prefix_padding_ms": 300,
"silence_duration_ms": 500
},
"temperature": 0.8,
"max_response_output_tokens": "inf"
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "session.created" zijn |
| sessie | RealtimeResponseSession | Het gemaakte sessieobject |
session.updated
Verzonden wanneer de sessieconfiguratie is bijgewerkt als reactie op een session.update client gebeurtenis.
Gebeurtenisstructuur
{
"type": "session.updated",
"session": {
"id": "sess_ABC123DEF456",
"voice": {
"type": "azure-custom",
"name": "my-voice",
"endpoint_id": "12345678-1234-1234-1234-123456789012"
},
"temperature": 0.7,
"avatar": {
"character": "lisa",
"customized": false
}
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "session.updated" zijn |
| sessie | RealtimeResponseSession | Het bijgewerkte sessieobject |
session.avatar.connecting
Geeft aan dat er een avatar WebRTC-verbinding tot stand is gebracht. Deze gebeurtenis wordt verzonden als reactie op een session.avatar.connect client gebeurtenis.
Gebeurtenisstructuur
{
"type": "session.avatar.connecting",
"server_sdp": "<server_sdp>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "session.avatar.connecting" zijn |
conversation.item.created
Verzonden wanneer een nieuw item wordt toegevoegd aan het gesprek, via een client-gebeurtenis conversation.item.create of automatisch tijdens het genereren van reacties.
Gebeurtenisstructuur
{
"type": "conversation.item.created",
"previous_item_id": "item_ABC123",
"item": {
"id": "item_DEF456",
"object": "realtime.item",
"type": "message",
"status": "completed",
"role": "user",
"content": [
{
"type": "input_text",
"text": "Hello, how are you?"
}
]
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "conversation.item.created" zijn |
| vorige_item_id | touw | Id van het item waarna dit item is ingevoegd |
| item | RealtimeConversationResponseItem | Het gemaakte gespreksitem |
Voorbeeld met audio-item
{
"type": "conversation.item.created",
"item": {
"id": "item_GHI789",
"type": "message",
"status": "completed",
"role": "user",
"content": [
{
"type": "input_audio",
"audio": null,
"transcript": "What's the weather like today?"
}
]
}
}
conversation.item.retrieved
Verzonden als reactie op een conversation.item.retrieve client gebeurtenis, waarbij het aangevraagde gespreksitem wordt opgegeven.
Gebeurtenisstructuur
{
"type": "conversation.item.retrieved",
"item": {
"id": "item_ABC123",
"object": "realtime.item",
"type": "message",
"status": "completed",
"role": "assistant",
"content": [
{
"type": "audio",
"audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA=",
"transcript": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}
]
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "conversation.item.retrieved" zijn |
| item | RealtimeConversationResponseItem | Het opgehaalde gespreksitem |
conversation.item.truncated
De servergebeurtenis conversation.item.truncated wordt geretourneerd wanneer de client een eerder audioberichtitem met een assistent afkapt met een conversation.item.truncate gebeurtenis. Deze gebeurtenis wordt gebruikt om het begrip van de audio van de server te synchroniseren met het afspelen van de client.
Met deze gebeurtenis wordt de audio afgekapt en wordt de transcriptie van de tekst aan de serverzijde verwijderd om ervoor te zorgen dat er geen tekst is in de context waarover de gebruiker niet weet.
Gebeurtenisstructuur
{
"type": "conversation.item.truncated",
"item_id": "<item_id>",
"content_index": 0,
"audio_end_ms": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn conversation.item.truncated. |
| item_id | touw | De id van het berichtitem van de assistent dat is afgekapt. |
| content_index | integer | De index van het inhoudsonderdeel dat is afgekapt. |
| audio_end_ms | integer | De duur totdat de audio is afgekapt, in milliseconden. |
conversation.item.deleted
Verzonden als reactie op een conversation.item.delete clientgebeurtenis, waarbij wordt bevestigd dat het opgegeven item uit het gesprek is verwijderd.
Gebeurtenisstructuur
{
"type": "conversation.item.deleted",
"item_id": "item_ABC123"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "conversation.item.deleted" zijn |
| item_id | touw | Id van het verwijderde item |
response.created
Verzonden wanneer een nieuwe reactiegeneratie begint. Dit is de eerste gebeurtenis in een reactievolgorde.
Gebeurtenisstructuur
{
"type": "response.created",
"response": {
"id": "resp_ABC123",
"object": "realtime.response",
"status": "in_progress",
"status_details": null,
"output": [],
"usage": {
"total_tokens": 0,
"input_tokens": 0,
"output_tokens": 0
}
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.created" zijn |
| response | RealtimeResponse | Het antwoordobject dat is gemaakt |
response.done
Verzonden wanneer het genereren van antwoorden is voltooid. Deze gebeurtenis bevat het laatste antwoord met alle uitvoeritems en gebruiksstatistieken.
Gebeurtenisstructuur
{
"type": "response.done",
"response": {
"id": "resp_ABC123",
"object": "realtime.response",
"status": "completed",
"status_details": null,
"output": [
{
"id": "item_DEF456",
"object": "realtime.item",
"type": "message",
"status": "completed",
"role": "assistant",
"content": [
{
"type": "text",
"text": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}
]
}
],
"usage": {
"total_tokens": 87,
"input_tokens": 52,
"output_tokens": 35,
"input_token_details": {
"cached_tokens": 0,
"text_tokens": 45,
"audio_tokens": 7
},
"output_token_details": {
"text_tokens": 15,
"audio_tokens": 20
}
}
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.done" zijn |
| response | RealtimeResponse | Het voltooide antwoordobject |
response.output_item.added
Verzonden wanneer er tijdens het genereren een nieuw uitvoeritem wordt toegevoegd aan het antwoord.
Gebeurtenisstructuur
{
"type": "response.output_item.added",
"response_id": "resp_ABC123",
"output_index": 0,
"item": {
"id": "item_DEF456",
"object": "realtime.item",
"type": "message",
"status": "in_progress",
"role": "assistant",
"content": []
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.output_item.added" zijn |
| response_id | touw | Id van het antwoord waartoe dit item behoort |
| output_index | integer | Index van het item in de uitvoermatrix van het antwoord |
| item | RealtimeConversationResponseItem | Het uitvoeritem dat is toegevoegd |
response.output_item.done
Verzonden wanneer een uitvoeritem is voltooid.
Gebeurtenisstructuur
{
"type": "response.output_item.done",
"response_id": "resp_ABC123",
"output_index": 0,
"item": {
"id": "item_DEF456",
"object": "realtime.item",
"type": "message",
"status": "completed",
"role": "assistant",
"content": [
{
"type": "text",
"text": "Hello! I'm doing well, thank you for asking."
}
]
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.output_item.done" zijn |
| response_id | touw | Id van het antwoord waartoe dit item behoort |
| output_index | integer | Index van het item in de uitvoermatrix van het antwoord |
| item | RealtimeConversationResponseItem | Het voltooide uitvoeritem |
response.content_part.added
De servergebeurtenis response.content_part.added wordt geretourneerd wanneer een nieuw inhoudsonderdeel wordt toegevoegd aan een assistentberichtitem tijdens het genereren van het antwoord.
Gebeurtenisstructuur
{
"type": "response.content_part.added",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"part": {
"type": "text",
"text": ""
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.content_part.added" zijn |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item waartoe dit inhoudsonderdeel behoort |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van dit inhoudsonderdeel in het item |
| deel | RealtimeContentPart | Het inhoudsonderdeel dat is toegevoegd |
response.content_part.done
De servergebeurtenis response.content_part.done wordt geretourneerd wanneer een inhoudsonderdeel klaar is met streamen in een assistentberichtitem.
Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.
Gebeurtenisstructuur
{
"type": "response.content_part.done",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"part": {
"type": "text",
"text": "Hello! I'm doing well, thank you for asking."
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.content_part.done" zijn |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item waartoe dit inhoudsonderdeel behoort |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van dit inhoudsonderdeel in het item |
| deel | RealtimeContentPart | Het voltooide inhoudsonderdeel |
response.text.delta
Tekstinhoud streamen vanuit het model. Incrementeel verzonden naarmate het model tekst genereert.
Gebeurtenisstructuur
{
"type": "response.text.delta",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"delta": "Hello! I'm"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.text.delta" zijn |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
| delta | touw | Incrementele tekstinhoud |
response.text.done
Verzonden wanneer het genereren van tekstinhoud is voltooid.
Gebeurtenisstructuur
{
"type": "response.text.done",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"text": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.text.done" zijn |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
| Tekst | touw | De volledige tekstinhoud |
response.audio.delta
Audio-inhoud streamen van het model. Audio wordt geleverd als base64-gecodeerde gegevens.
Gebeurtenisstructuur
{
"type": "response.audio.delta",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"delta": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA="
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.audio.delta" zijn |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
| delta | touw | Segment met base64-gecodeerde audiogegevens |
response.audio.done
Verzonden wanneer het genereren van audio-inhoud is voltooid.
Gebeurtenisstructuur
{
"type": "response.audio.done",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.audio.done" zijn |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
response.audio_transcript.delta
Streamingtranscriptie van de gegenereerde audio-inhoud.
Gebeurtenisstructuur
{
"type": "response.audio_transcript.delta",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"delta": "Hello! I'm doing"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.audio_transcript.delta" zijn |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
| delta | touw | Incrementele transcriptietekst |
response.audio_transcript.done
Verzonden wanneer het genereren van audiotranscripties is voltooid.
Gebeurtenisstructuur
{
"type": "response.audio_transcript.done",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"transcript": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "response.audio_transcript.done" zijn |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
| afschrift | touw | De volledige transcriptietekst |
conversation.item.input_audio_transcription.completed
De server conversation.item.input_audio_transcription.completed gebeurtenis is het resultaat van audiotranscriptie voor spraak die naar de audiobuffer is geschreven.
Transcriptie begint wanneer de invoeraudiobuffer wordt doorgevoerd door de client of server (in server_vad de modus). Transcriptie wordt asynchroon uitgevoerd bij het maken van een antwoord, zodat deze gebeurtenis vóór of na de reactie-gebeurtenissen kan komen.
Realtime-API-modellen accepteren audio direct, en daarom is invoertranscriptie een apart proces dat wordt uitgevoerd op een afzonderlijk spraakherkenningsmodel, zoals whisper-1. Het transcript kan dus enigszins afwijken van de interpretatie van het model en moet worden behandeld als een ruwe handleiding.
Gebeurtenisstructuur
{
"type": "conversation.item.input_audio_transcription.completed",
"item_id": "<item_id>",
"content_index": 0,
"transcript": "<transcript>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.completed. |
| item_id | touw | De id van het gebruikersberichtitem met de audio. |
| content_index | integer | De index van het inhoudsonderdeel met de audio. |
| afschrift | touw | De getranscribeerde tekst. |
conversation.item.input_audio_transcription.delta
De servergebeurtenis conversation.item.input_audio_transcription.delta wordt geretourneerd wanneer audiotranscriptie voor invoer is geconfigureerd en er een transcriptieaanvraag voor een gebruikersbericht wordt uitgevoerd. Deze gebeurtenis biedt gedeeltelijke transcriptieresultaten zodra ze beschikbaar komen.
Gebeurtenisstructuur
{
"type": "conversation.item.input_audio_transcription.delta",
"item_id": "<item_id>",
"content_index": 0,
"delta": "<delta>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.delta. |
| item_id | touw | De id van het item van het gebruikersbericht. |
| content_index | integer | De index van het inhoudsonderdeel met de audio. |
| delta | touw | De incrementele transcriptietekst. |
conversation.item.input_audio_transcription.failed
De servergebeurtenis conversation.item.input_audio_transcription.failed wordt geretourneerd wanneer de invoer van audiotranscriptie is geconfigureerd en een transcriptieaanvraag voor een gebruikersbericht is mislukt. Deze gebeurtenis staat los van andere error gebeurtenissen, zodat de client het gerelateerde item kan identificeren.
Gebeurtenisstructuur
{
"type": "conversation.item.input_audio_transcription.failed",
"item_id": "<item_id>",
"content_index": 0,
"error": {
"code": "<code>",
"message": "<message>",
"param": "<param>"
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.failed. |
| item_id | touw | De id van het item van het gebruikersbericht. |
| content_index | integer | De index van het inhoudsonderdeel met de audio. |
| fout | Voorwerp | Details van de transcriptiefout. Zie geneste eigenschappen in de volgende tabel. |
Fouteigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type fout. |
| code | touw | Foutcode, indien van toepassing. |
| message | touw | Een door mensen leesbaar foutbericht. |
| param | touw | Parameter met betrekking tot de fout, indien van toepassing. |
response.animation_blendshapes.delta
De servergebeurtenis response.animation_blendshapes.delta wordt geretourneerd wanneer het model animatie-blendshapes-gegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele blendshapes-gegevens zodra deze beschikbaar zijn.
Gebeurtenisstructuur
{
"type": "response.animation_blendshapes.delta",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"frame_index": 0,
"frames": [
[0.0, 0.1, 0.2, ..., 1.0]
...
]
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.animation_blendshapes.delta. |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
| frame_index | integer | Index van het eerste frame in deze batch frames |
| Frames | matrix van matrix van float | Matrix van blendshapeframes, elk frame is een matrix van blendshape-waarden |
response.animation_blendshapes.done
De servergebeurtenis response.animation_blendshapes.done wordt geretourneerd wanneer het model klaar is met het genereren van animatie-blendshapes-gegevens als onderdeel van een antwoord.
Gebeurtenisstructuur
{
"type": "response.animation_blendshapes.done",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.animation_blendshapes.done. |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
response.audio_timestamp.delta
De servergebeurtenis response.audio_timestamp.delta wordt geretourneerd wanneer het model audiotijdstempelgegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele tijdstempelgegevens voor uitvoeraudio en tekstuitlijning zodra deze beschikbaar is.
Gebeurtenisstructuur
{
"type": "response.audio_timestamp.delta",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"audio_offset_ms": 0,
"audio_duration_ms": 500,
"text": "Hello",
"timestamp_type": "word"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.audio_timestamp.delta. |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
| audio_offset_ms | integer | Audio-offset in milliseconden vanaf het begin van de audio |
| audio_duration_ms | integer | Duur van het audiosegment in milliseconden |
| Tekst | touw | Het tekstsegment dat overeenkomt met dit audiotijdstempel |
| timestamp_type | touw | Het type tijdstempel, momenteel wordt alleen 'woord' ondersteund |
response.audio_timestamp.done
Verzonden wanneer het genereren van audiotijdstempels is voltooid.
Gebeurtenisstructuur
{
"type": "response.audio_timestamp.done",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.audio_timestamp.done. |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
response.animation_viseme.delta
De servergebeurtenis response.animation_viseme.delta wordt geretourneerd wanneer het model animatievisemegegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele visemegegevens zodra deze beschikbaar zijn.
Gebeurtenisstructuur
{
"type": "response.animation_viseme.delta",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0,
"audio_offset_ms": 0,
"viseme_id": 1
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.animation_viseme.delta. |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
| audio_offset_ms | integer | Audio-offset in milliseconden vanaf het begin van de audio |
| viseme_id | integer | De viseme-id die overeenkomt met de mondvorm voor animatie |
response.animation_viseme.done
De servergebeurtenis response.animation_viseme.done wordt geretourneerd wanneer het model klaar is met het genereren van animatie-visemegegevens als onderdeel van een antwoord.
Gebeurtenisstructuur
{
"type": "response.animation_viseme.done",
"response_id": "resp_ABC123",
"item_id": "item_DEF456",
"output_index": 0,
"content_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.animation_viseme.done. |
| response_id | touw | Id van het antwoord |
| item_id | touw | Id van het item |
| output_index | integer | Index van het item in het antwoord |
| content_index | integer | Index van het inhoudsonderdeel |
fout
De servergebeurtenis error wordt geretourneerd wanneer er een fout optreedt, wat een clientprobleem of een serverprobleem kan zijn. De meeste fouten kunnen worden hersteld en de sessie blijft geopend.
Gebeurtenisstructuur
{
"type": "error",
"error": {
"code": "<code>",
"message": "<message>",
"param": "<param>",
"event_id": "<event_id>"
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn error. |
| fout | Voorwerp | Details van de fout. Zie geneste eigenschappen in de volgende tabel. |
Fouteigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type fout. 'invalid_request_error' en 'server_error' zijn bijvoorbeeld fouttypen. |
| code | touw | Foutcode, indien van toepassing. |
| message | touw | Een door mensen leesbaar foutbericht. |
| param | touw | Parameter met betrekking tot de fout, indien van toepassing. |
| event_id | touw | De id van de client gebeurtenis die de fout heeft veroorzaakt, indien van toepassing. |
waarschuwing
De servergebeurtenis warning wordt geretourneerd wanneer er een waarschuwing optreedt die de gespreksstroom niet onderbreekt. Waarschuwingen zijn informatief en de sessie wordt normaal voortgezet.
Gebeurtenisstructuur
{
"type": "warning",
"warning": {
"code": "<code>",
"message": "<message>",
"param": "<param>"
}
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn warning. |
| waarschuwing | Voorwerp | Details van de waarschuwing. Zie geneste eigenschappen in de volgende tabel. |
Waarschuwingseigenschappen
| Veld | Typologie | Description |
|---|---|---|
| message | touw | Een leesbaar waarschuwingsbericht. |
| code | touw | Optional. Waarschuwingscode, indien van toepassing. |
| param | touw | Optional. Parameter met betrekking tot de waarschuwing, indien van toepassing. |
input_audio_buffer.gewist
De servergebeurtenis input_audio_buffer.cleared wordt geretourneerd wanneer de client de invoeraudiobuffer wist met een input_audio_buffer.clear gebeurtenis.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.cleared"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn input_audio_buffer.cleared. |
input_audio_buffer.commit
De servergebeurtenis input_audio_buffer.committed wordt geretourneerd wanneer een invoeraudiobuffer wordt doorgevoerd door de client of automatisch in de server-VAD-modus. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt. Er wordt dus ook een conversation.item.created gebeurtenis naar de client verzonden.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.committed",
"previous_item_id": "<previous_item_id>",
"item_id": "<item_id>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn input_audio_buffer.committed. |
| vorige_item_id | touw | De id van het voorgaande item waarna het nieuwe item wordt ingevoegd. |
| item_id | touw | De id van het gebruikersberichtitem dat is gemaakt. |
input_audio_buffer.speech_started
De servergebeurtenis input_audio_buffer.speech_started wordt geretourneerd in server_vad de modus wanneer spraak wordt gedetecteerd in de audiobuffer. Deze gebeurtenis kan zich voordoen wanneer audio aan de buffer wordt toegevoegd (tenzij spraak al is gedetecteerd).
Opmerking
De client kan deze gebeurtenis gebruiken om het afspelen van audio te onderbreken of visuele feedback te geven aan de gebruiker.
De client verwacht een input_audio_buffer.speech_stopped gebeurtenis te ontvangen wanneer spraak stopt. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt. De item_id is ook opgenomen in de input_audio_buffer.speech_stopped gebeurtenis, tenzij de client de audiobuffer handmatig doorvoert tijdens vad-activering.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.speech_started",
"audio_start_ms": 0,
"item_id": "<item_id>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn input_audio_buffer.speech_started. |
| audio_start_ms (starttijdstip_audio_ms) | integer | Milliseconden vanaf het begin van alle audio die tijdens de sessie naar de buffer is geschreven toen spraak voor het eerst werd gedetecteerd. Deze eigenschap komt overeen met het begin van de audio die naar het model wordt verzonden en bevat dus de prefix_padding_ms geconfigureerde in de sessie. |
| item_id | touw | De id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt. |
input_audio_buffer.speech_stopped
De servergebeurtenis input_audio_buffer.speech_stopped wordt geretourneerd in server_vad de modus wanneer de server het einde van de spraak in de audiobuffer detecteert.
De server verzendt ook een conversation.item.created gebeurtenis met het gebruikersberichtitem dat is gemaakt op basis van de audiobuffer.
Gebeurtenisstructuur
{
"type": "input_audio_buffer.speech_stopped",
"audio_end_ms": 0,
"item_id": "<item_id>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn input_audio_buffer.speech_stopped. |
| audio_end_ms | integer | Milliseconden sinds de sessie is gestart toen spraak werd gestopt. Deze eigenschap komt overeen met het einde van de audio die naar het model wordt verzonden en bevat dus de min_silence_duration_ms geconfigureerde in de sessie. |
| item_id | touw | De id van het gebruikersberichtitem dat is gemaakt. |
rate_limits.updated
De server rate_limits.updated gebeurtenis wordt verzonden aan het begin van een reactie om de bijgewerkte frequentielimieten aan te geven.
Wanneer een antwoord wordt gemaakt, zijn sommige tokens gereserveerd voor de uitvoertokens. De frequentielimieten die hier worden weergegeven, weerspiegelen die reservering, die vervolgens dienovereenkomstig wordt aangepast zodra het antwoord is voltooid.
Gebeurtenisstructuur
{
"type": "rate_limits.updated",
"rate_limits": [
{
"name": "<name>",
"limit": 0,
"remaining": 0,
"reset_seconds": 0
}
]
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn rate_limits.updated. |
| limieten voor snelheden | matrix van RealtimeRateLimitsItem | De lijst met frequentielimietgegevens. |
response.audio.delta
De servergebeurtenis response.audio.delta wordt geretourneerd wanneer de door het model gegenereerde audio wordt bijgewerkt.
Gebeurtenisstructuur
{
"type": "response.audio.delta",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"content_index": 0,
"delta": "<delta>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.audio.delta. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het item. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| content_index | integer | De index van het inhoudsonderdeel in de inhoudsmatrix van het item. |
| delta | touw | Met Base64 gecodeerde audiogegevens delta. |
response.audio.done
De servergebeurtenis response.audio.done wordt geretourneerd wanneer de door het model gegenereerde audio wordt uitgevoerd.
Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.
Gebeurtenisstructuur
{
"type": "response.audio.done",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"content_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.audio.done. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het item. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| content_index | integer | De index van het inhoudsonderdeel in de inhoudsmatrix van het item. |
response.audio_transcript.delta
De servergebeurtenis response.audio_transcript.delta wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer wordt bijgewerkt.
Gebeurtenisstructuur
{
"type": "response.audio_transcript.delta",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"content_index": 0,
"delta": "<delta>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.audio_transcript.delta. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het item. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| content_index | integer | De index van het inhoudsonderdeel in de inhoudsmatrix van het item. |
| delta | touw | De transcript delta. |
response.audio_transcript.done
De servergebeurtenis response.audio_transcript.done wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer klaar is met streamen.
Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.
Gebeurtenisstructuur
{
"type": "response.audio_transcript.done",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"content_index": 0,
"transcript": "<transcript>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.audio_transcript.done. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het item. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| content_index | integer | De index van het inhoudsonderdeel in de inhoudsmatrix van het item. |
| afschrift | touw | Het laatste transcript van de audio. |
response.function_call_arguments.delta
De servergebeurtenis response.function_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten worden bijgewerkt.
Gebeurtenisstructuur
{
"type": "response.function_call_arguments.delta",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"call_id": "<call_id>",
"delta": "<delta>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.function_call_arguments.delta. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het item van de functie-aanroep. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| call_id | touw | De id van de functie-aanroep. |
| delta | touw | De argumenten verschillen als een JSON-tekenreeks. |
response.function_call_arguments.done
De servergebeurtenis response.function_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten klaar zijn met streamen.
Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.
Gebeurtenisstructuur
{
"type": "response.function_call_arguments.done",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"call_id": "<call_id>",
"arguments": "<arguments>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.function_call_arguments.done. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het item van de functie-aanroep. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| call_id | touw | De id van de functie-aanroep. |
| arguments | touw | De laatste argumenten als een JSON-tekenreeks. |
mcp_list_tools.in_progress
De servergebeurtenis mcp_list_tools.in_progress wordt geretourneerd wanneer de service begint met het weergeven van beschikbare hulpprogramma's van een mcp-server.
Gebeurtenisstructuur
{
"type": "mcp_list_tools.in_progress",
"item_id": "<mcp_list_tools_item_id>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn mcp_list_tools.in_progress. |
| item_id | touw | De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt. |
mcp_list_tools.completed
De servergebeurtenis mcp_list_tools.completed wordt geretourneerd wanneer de service de beschikbare hulpprogramma's van een mcp-server heeft voltooid.
Gebeurtenisstructuur
{
"type": "mcp_list_tools.completed",
"item_id": "<mcp_list_tools_item_id>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn mcp_list_tools.completed. |
| item_id | touw | De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt. |
mcp_list_tools.failed
De servergebeurtenis mcp_list_tools.failed wordt geretourneerd wanneer de service de beschikbare hulpprogramma's van een mcp-server niet kan vermelden.
Gebeurtenisstructuur
{
"type": "mcp_list_tools.failed",
"item_id": "<mcp_list_tools_item_id>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn mcp_list_tools.failed. |
| item_id | touw | De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt. |
response.mcp_call_arguments.delta
De servergebeurtenis response.mcp_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde mcp-hulpprogramma-aanroepargumenten worden bijgewerkt.
Gebeurtenisstructuur
{
"type": "response.mcp_call_arguments.delta",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"delta": "<delta>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.mcp_call_arguments.delta. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het aanroepitem van het mcp-hulpprogramma. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| delta | touw | De argumenten verschillen als een JSON-tekenreeks. |
response.mcp_call_arguments.done
De servergebeurtenis response.mcp_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde mcp-hulpprogramma-aanroepargumenten klaar zijn met streamen.
Gebeurtenisstructuur
{
"type": "response.mcp_call_arguments.done",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"arguments": "<arguments>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.mcp_call_arguments.done. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het aanroepitem van het mcp-hulpprogramma. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| arguments | touw | De laatste argumenten als een JSON-tekenreeks. |
response.mcp_call.in_progress
De servergebeurtenis response.mcp_call.in_progress wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep wordt gestart met verwerken.
Gebeurtenisstructuur
{
"type": "response.mcp_call.in_progress",
"item_id": "<item_id>",
"output_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.mcp_call.in_progress. |
| item_id | touw | De id van het aanroepitem van het mcp-hulpprogramma. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
response.mcp_call.completed
De servergebeurtenis response.mcp_call.completed wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep is voltooid.
Gebeurtenisstructuur
{
"type": "response.mcp_call.completed",
"item_id": "<item_id>",
"output_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.mcp_call.completed. |
| item_id | touw | De id van het aanroepitem van het mcp-hulpprogramma. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
response.mcp_call.failed
De servergebeurtenis response.mcp_call.failed wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep mislukt.
Gebeurtenisstructuur
{
"type": "response.mcp_call.failed",
"item_id": "<item_id>",
"output_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.mcp_call.failed. |
| item_id | touw | De id van het aanroepitem van het mcp-hulpprogramma. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
response.output_item.added
De servergebeurtenis response.output_item.added wordt geretourneerd wanneer er een nieuw item wordt gemaakt tijdens het genereren van het antwoord.
Gebeurtenisstructuur
{
"type": "response.output_item.added",
"response_id": "<response_id>",
"output_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.output_item.added. |
| response_id | touw | De id van het antwoord waartoe het item behoort. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| item | RealtimeConversationResponseItem | Het item dat is toegevoegd. |
response.output_item.done
De servergebeurtenis response.output_item.done wordt geretourneerd wanneer een item klaar is met streamen.
Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.
Gebeurtenisstructuur
{
"type": "response.output_item.done",
"response_id": "<response_id>",
"output_index": 0
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.output_item.done. |
| response_id | touw | De id van het antwoord waartoe het item behoort. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| item | RealtimeConversationResponseItem | Het item dat is gestreamd. |
response.text.delta
De servergebeurtenis response.text.delta wordt geretourneerd wanneer de door het model gegenereerde tekst wordt bijgewerkt. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.
Gebeurtenisstructuur
{
"type": "response.text.delta",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"content_index": 0,
"delta": "<delta>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.text.delta. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het item. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| content_index | integer | De index van het inhoudsonderdeel in de inhoudsmatrix van het item. |
| delta | touw | De tekst delta. |
response.text.done
De servergebeurtenis response.text.done wordt geretourneerd wanneer de door het model gegenereerde tekst wordt gestreamd. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.
Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.
Gebeurtenisstructuur
{
"type": "response.text.done",
"response_id": "<response_id>",
"item_id": "<item_id>",
"output_index": 0,
"content_index": 0,
"text": "<text>"
}
Eigenschappen
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het gebeurtenistype moet zijn response.text.done. |
| response_id | touw | De id van het antwoord. |
| item_id | touw | De id van het item. |
| output_index | integer | De index van het uitvoeritem in het antwoord. |
| content_index | integer | De index van het inhoudsonderdeel in de inhoudsmatrix van het item. |
| Tekst | touw | De uiteindelijke tekstinhoud. |
Components
Audio-indelingen
Realtime audioformaat
Basisaudio-indeling die wordt gebruikt voor invoeraudio.
Toegestane waarden:
-
pcm16- 16-bits PCM-audio-indeling -
g711_ulaw- G.711 μ-law audio-indeling -
g711_alaw- G.711 A-law audio-indeling
RealtimeOutputAudioFormat
Audio-indeling die wordt gebruikt voor uitvoeraudio met specifieke samplingfrequenties.
Toegestane waarden:
-
pcm16- 16-bits PCM-audio-indeling met standaardsamplingfrequentie (24kHz) -
pcm16_8000hz- 16-bits PCM-audio-indeling met een samplingfrequentie van 8 kHz -
pcm16_16000hz- 16-bits PCM-audio-indeling met een samplingfrequentie van 16kHz -
g711_ulaw- G.711 μ-law audioformaat (mu-law) met een samplingfrequentie van 8kHz -
g711_alaw- G.711 A-law audio-indeling bij 8kHz samplingfrequentie
InstellingenVoorRealtimeAudioInputTranscriptie
Configuratie voor audiotranscriptie van invoer.
| Veld | Typologie | Description |
|---|---|---|
| model | touw | Het transcriptiemodel. Ondersteund met gpt-realtime en gpt-realtime-mini:whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe, gpt-4o-transcribe-diarizeOndersteund met alle andere modellen en agents: azure-speech |
| language | touw | Optionele taalcode in BCP-47 (bijvoorbeeld en-US) of ISO-639-1 (bijvoorbeeld en) of meerdere talen met automatische detectie (bijvoorbeeld en,zh).Zie ondersteunde talen voor spraak-naar-tekst in Azure voor aanbevolen gebruik van deze instelling. |
| custom_speech | Voorwerp | Optionele configuratie voor aangepaste spraakmodellen, alleen geldig voor azure-speech het model. |
| phrase_list | string[] | Optionele lijst met woordgroepentips voor herkenning van vooroordelen, alleen geldig voor azure-speech het model. |
| prompt | touw | Optionele prompttekst om transcriptie te begeleiden, alleen geldig voor whisper-1, gpt-4o-transcribegpt-4o-mini-transcribe en gpt-4o-transcribe-diarize modellen. |
RealtimeInputAudioNoiseReductionSettings
Dit kan het volgende zijn:
RealtimeOpenAINoiseReductie
OpenAI-ruisreductieconfiguratie met expliciet typeveld, alleen beschikbaar voor gpt-realtime en gpt-realtime-mini modellen.
| Veld | Typologie | Description |
|---|---|---|
| type | touw |
near_field of far_field |
RealtimeAzureDeepNoiseSuppression
Configuratie voor geluidsruisonderdrukking voor invoer.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "azure_deep_noise_suppression" zijn |
RealtimeInputAudioEchoCancellationSettings
Echo-annuleringsconfiguratie voor audioverwerking aan de serverzijde.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "server_echo_cancellation" zijn |
Spraakconfiguratie
RealtimeVoice
Samenvoeging van alle ondersteunde spraakconfiguraties.
Dit kan het volgende zijn:
RealtimeOpenAIVoice
OpenAI-spraakconfiguratie met expliciet typeveld.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "openai" zijn |
| naam | touw | OpenAI-stemnaam: , , , , , alloy, ashballadcoralechosageshimmerversemarincedar |
RealtimeAzureVoice
Basis voor Azure-spraakconfiguraties. Dit is een gediscrimineerde samenvoeging met verschillende typen:
RealtimeAzureStandardVoice
Standaard spraakconfiguratie van Azure.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "azure-standard" zijn |
| naam | touw | Spraaknaam (mag niet leeg zijn) |
| temperatuur | nummer | Optional. Temperatuur tussen 0,0 en 1.0 |
| custom_lexicon_url | touw | Optional. URL naar aangepast lexicon |
| custom_text_normalization_url | touw | Optional. URL naar aangepaste tekstnormalisatie |
| prefer_locales | string[] | Optional. Voorkeurslandinstellingen Voorkeurslandinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt. Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort. |
| locatie | touw | Optional. Landinstellingenspecificatie Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel bijvoorbeeld de landinstelling in op en-USTTS, dan gebruikt TTS altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is. |
| style | touw | Optional. Spraakstijl |
| toonhoogte | touw | Optional. Aanpassing van pitch |
| verhouding | touw | Optional. Aanpassing van spraaksnelheid |
| volume | touw | Optional. Volumeaanpassing |
RealtimeAzureCustomVoice
Aangepaste spraakconfiguratie van Azure (voorkeur voor aangepaste stemmen).
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "azure-custom" zijn |
| naam | touw | Spraaknaam (mag niet leeg zijn) |
| endpoint_id | touw | Eindpunt-id (mag niet leeg zijn) |
| temperatuur | nummer | Optional. Temperatuur tussen 0,0 en 1.0 |
| custom_lexicon_url | touw | Optional. URL naar aangepast lexicon |
| custom_text_normalization_url | touw | Optional. URL naar aangepaste tekstnormalisatie |
| prefer_locales | string[] | Optional. Voorkeurslandinstellingen Voorkeurslandinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt. Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort. |
| locatie | touw | Optional. Landinstellingenspecificatie Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel de landinstelling en-USbijvoorbeeld in op TTS, gebruikt altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is. |
| style | touw | Optional. Spraakstijl |
| toonhoogte | touw | Optional. Aanpassing van pitch |
| verhouding | touw | Optional. Aanpassing van spraaksnelheid |
| volume | touw | Optional. Volumeaanpassing |
Voorbeeld:
{
"type": "azure-custom",
"name": "my-custom-voice",
"endpoint_id": "12345678-1234-1234-1234-123456789012",
"temperature": 0.7,
"style": "cheerful",
"locale": "en-US"
}
RealtimeAzurePersonalVoice
Persoonlijke spraakconfiguratie van Azure.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "azure-personal" zijn |
| naam | touw | Spraaknaam (mag niet leeg zijn) |
| temperatuur | nummer | Optional. Temperatuur tussen 0,0 en 1.0 |
| model | touw | Onderliggend neuraal model: DragonLatestNeural, PhoenixLatestNeuralPhoenixV2Neural |
| custom_lexicon_url | touw | Optional. URL naar aangepast lexicon |
| custom_text_normalization_url | touw | Optional. URL naar aangepaste tekstnormalisatie |
| prefer_locales | string[] | Optional. Voorkeurslandinstellingen Voorkeur voor landinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt. Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort. |
| locatie | touw | Optional. Landinstellingenspecificatie Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel de landinstelling en-USbijvoorbeeld in op TTS, gebruikt altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is. |
| toonhoogte | touw | Optional. Aanpassing van pitch |
| verhouding | touw | Optional. Aanpassing van spraaksnelheid |
| volume | touw | Optional. Volumeaanpassing |
Draaidetectie
RealtimeBochtDetectie
Configuratie voor turndetectie. Dit is een gediscrimineerde vereniging die meerdere VAD-typen ondersteunt.
RealtimeServerVAD
Basis-VAD-schakeldetectie.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "server_vad" zijn |
| threshold | nummer | Optional. Activeringsdrempel (0.0-1.0) |
| prefix_padding_ms | integer | Optional. Audioopvulling voordat spraak wordt gestart |
| silence_duration_ms | integer | Optional. Stilteduur om spraakeinde te detecteren |
| end_of_utterance_detection | RealtimeEOUDetection | Optional. Configuratie voor detectie van end-of-utterance |
| maak_antwoord | booleaan | Optional. Schakel in of uit of er een antwoord wordt gegenereerd. |
| onderbrekingsreactie | booleaan | Optional. Onderbreking van barge in- of uitschakelen (standaard: onwaar) |
| auto_truncate | booleaan | Optional. Automatisch afkappen bij onderbreking (standaard: onwaar) |
RealtimeOpenAISemanticVAD
OpenAI semantische VAD-configuratie die gebruikmaakt van een model om te bepalen wanneer de gebruiker klaar is met spreken. Alleen beschikbaar voor gpt-realtime en gpt-realtime-mini modellen.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "semantic_vad" zijn |
| gretigheid | touw | Optional. Dit is een manier om te bepalen hoe geneigd het model is om de gebruiker te onderbreken door de maximale wachttijd in te stellen. In de transcriptiemodus, zelfs als het model niet reageert, is dit van invloed op de manier waarop de audio wordt gesegmenteerd. De volgende waarden zijn toegestaan: - auto (standaard) is gelijk aan medium,- low laat de gebruiker de tijd nemen om te spreken,- high zal de audio zo snel mogelijk in stukken verdelen.Als u wilt dat het model vaker reageert in de gespreksmodus, of als u sneller transcriptiegebeurtenissen wilt ontvangen in de transcriptiemodus, kunt u het eagerness-niveau instellen op high.Als u daarentegen de gebruiker ononderbroken wilt laten spreken in de gespreksmodus, of als u grotere transcriptiefragmenten in de transcriptiemodus wilt, kunt u de bereidheid instellen op low. |
| maak_antwoord | booleaan | Optional. Schakel in of uit of er een antwoord wordt gegenereerd. |
| onderbrekingsreactie | booleaan | Optional. Onderbreking van barge in- of uitschakelen (standaard: onwaar) |
RealtimeAzureSemanticVAD
Azure-semantische VAD, die bepaalt wanneer de gebruiker begint en spreekt met behulp van een semantisch spraakmodel, wat robuustere detectie biedt in luidruchtige omgevingen.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "azure_semantic_vad" zijn |
| threshold | nummer | Optional. Activeringsdrempel |
| prefix_padding_ms | integer | Optional. Audioopvulling vóór spraak |
| silence_duration_ms | integer | Optional. Stilteduur voor spraakeinde |
| end_of_utterance_detection | RealtimeEOUDetection | Optional. Configuratie van EOU-detectie |
| speech_duration_ms | integer | Optional. Minimale spraakduur |
| remove_filler_words | booleaan | Optional. Opvulwoorden verwijderen (standaard: onwaar) |
| Talen | string[] | Optional. Ondersteunt Engels. Andere talen worden genegeerd. |
| maak_antwoord | booleaan | Optional. Schakel in of uit of er een antwoord wordt gegenereerd. |
| onderbrekingsreactie | booleaan | Optional. Onderbreking van barge in- of uitschakelen (standaard: onwaar) |
| auto_truncate | booleaan | Optional. Automatisch afkappen bij onderbreking (standaard: onwaar) |
RealtimeAzureSemanticVADMulticonfigl
Azure semantische VAD (standaardvariant).
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "azure_semantic_vad_multilingual" zijn |
| threshold | nummer | Optional. Activeringsdrempel |
| prefix_padding_ms | integer | Optional. Audioopvulling vóór spraak |
| silence_duration_ms | integer | Optional. Stilteduur voor spraakeinde |
| end_of_utterance_detection | RealtimeEOUDetection | Optional. Configuratie van EOU-detectie |
| speech_duration_ms | integer | Optional. Minimale spraakduur |
| remove_filler_words | booleaan | Optional. Vulwoorden verwijderen (standaard: onwaar). |
| Talen | string[] | Optional. Ondersteunt Engels, Spaans, Frans, Italiaans, Duits (DE), Japans, Portugees, Chinees, Koreaans, Hindi. Andere talen worden genegeerd. |
| maak_antwoord | booleaan | Optional. Schakel in of uit of er een antwoord wordt gegenereerd. |
| onderbrekingsreactie | booleaan | Optional. Onderbreking van barge in- of uitschakelen (standaard: onwaar) |
| auto_truncate | booleaan | Optional. Automatisch afkappen bij onderbreking (standaard: onwaar) |
RealtimeEOUDetection
Azure End-of-Utterance (EOU) kan aangeven wanneer de eindgebruiker stopte met spreken terwijl natuurlijke pauzes mogelijk zijn. De detectie van het einde van een uiting kan voortijdige beurt-eind-signalen aanzienlijk verminderen zonder merkbare latentie voor de gebruiker toe te voegen.
| Veld | Typologie | Description |
|---|---|---|
| model | touw | Kan ondersteuning bieden semantic_detection_v1 voor Engels of semantic_detection_v1_multilingual ondersteuning bieden voor Engels, Spaans, Frans, Italiaans, Duits (DE), Japans, Portugees, Chinees, Koreaans, Hindi |
| threshold_level | touw | Optional. Detectiedrempelniveau (low, mediumhigh endefault), de standaardwaarde is gelijk aan medium de instelling. Met een lagere instelling is de kans groter dat de zin is voltooid. |
| timeout_ms (milliseconden) | nummer | Optional. Maximale tijd in milliseconden om te wachten op meer spraak van de gebruiker. De standaardwaarde is 1000 ms. |
Avatarconfiguratie
RealtimeAvatarConfig
Configuratie voor avatarstreaming en gedrag.
| Veld | Typologie | Description |
|---|---|---|
| ice_servers | RealtimeIceServer[] | Optional. ICE-servers voor WebRTC |
| character | touw | Tekennaam of id voor de avatar |
| style | touw | Optional. Avatarstijl (emotionele toon, spreekstijl) |
| Aangepaste | booleaan | Of de avatar is aangepast |
| video | RealtimeVideoParams | Optional. Videoconfiguratie |
| Scène | RealtimeAvatarScene | Optional. Configuratie voor het zoomniveau, de positie, de draaiing en de bewegingsamplitude van de avatar in het videoframe |
| output_protocol | touw | Optional. Outputprotocol voor avatarstreaming. De standaardwaarde is webrtc |
| output_audit_audio | booleaan | Optional. Wanneer deze optie is ingeschakeld, stuurt u auditaudio door via WebSocket voor controle-/foutopsporingsdoeleinden, zelfs wanneer avatar-uitvoer wordt geleverd via WebRTC. De standaardwaarde is false |
RealtimeIceServer
ICE-serverconfiguratie voor webRTC-verbindingsonderhandeling.
| Veld | Typologie | Description |
|---|---|---|
| URLs | string[] | ICE-server-URL's (TURN- of STUN-eindpunten) |
| username | touw | Optional. Gebruikersnaam voor verificatie |
| credential | touw | Optional. Referentie voor verificatie |
RealtimeVideoParams
Parameters voor videostreaming voor avatar.
| Veld | Typologie | Description |
|---|---|---|
| bitrate | integer | Optional. Bitrate in bits per seconde (standaard: 2000000) |
| Codec | touw | Optional. Videocodec, momenteel alleen h264 (standaard: h264) |
| gewas | RealtimeVideoCrop | Optional. Instellingen voor bijsnijden |
| resolutie | RealtimeVideoResolution | Optional. Oplossingsinstellingen |
RealtimeVideoCrop
Definitie van rechthoek bijsnijden van video.
| Veld | Typologie | Description |
|---|---|---|
| top_left | integer[] | Linkerbovenhoek [x, y], niet-negatieve gehele getallen |
| bottom_right | integer[] | Rechterbenedenhoek [x, y], niet-negatieve gehele getallen |
RealtimeVideoResolution
Specificatie van videoresolutie.
| Veld | Typologie | Description |
|---|---|---|
| width | integer | Breedte in pixels (moet 0 zijn > ) |
| height | integer | Hoogte in pixels (moet 0 zijn > ) |
RealtimeAvatarScene
Configuratie voor het zoomniveau, positie, draaiing en bewegingsamplitude van avatar in het videoframe.
| Veld | Typologie | Description |
|---|---|---|
| in-/uitzoomen | nummer | Optional. Zoomniveau van de avatar. Bereik is (0, +∞). Waarden kleiner dan 1 uitzoomen, waarden groter dan 1 inzoomen. De standaardwaarde is 0 |
| position_x | nummer | Optional. Horizontale positie van de avatar. Bereik is [-1, 1], als een verhouding van de breedte van het frame. Negatieve waarden worden naar links verplaatst, positieve waarden naar rechts gaan. De standaardwaarde is 0 |
| position_y | nummer | Optional. Verticale positie van de avatar. Bereik is [-1, 1], als een verhouding van de framehoogte. Negatieve waarden worden omhoog verplaatst, positieve waarden omlaag gaan. De standaardwaarde is 0 |
| rotation_x | nummer | Optional. Draaien rond de X-as (pitch). Het bereik is [-π, π] in radialen. Negatieve waarden draaien omhoog, positieve waarden draaien omlaag. De standaardwaarde is 0 |
| rotation_y | nummer | Optional. Draaien rond de Y-as (yaw). Het bereik is [-π, π] in radialen. Negatieve waarden draaien links, positieve waarden draaien naar rechts. De standaardwaarde is 0 |
| rotation_z | nummer | Optional. Draaien rond de Z-as (roll). Het bereik is [-π, π] in radialen. Negatieve waarden draaien anticlockwise, positieve waarden draaien rechtsom. De standaardwaarde is 0 |
| Amplitude | nummer | Optional. Amplitude van de avatarbeweging. Bereik is (0, 1]. Waarden in (0, 1) gemiddelde verminderde amplitude, 1 betekent volledige amplitude. De standaardwaarde is 0 |
Animatieconfiguratie
Realtime-animatie
Configuratie voor animatie-uitvoer, waaronder blendshapes en visemes.
| Veld | Typologie | Description |
|---|---|---|
| model_name | touw | Optional. Naam animatiemodel (standaard: "default") |
| Uitgangen | RealtimeAnimationOutputType[] | Optional. Uitvoertypen (standaard: ["blendshapes"]) |
RealtimeAnimationOutputType
Typen animatiegegevens die moeten worden uitgevoerd.
Toegestane waarden:
-
blendshapes- Gegevens van gezichtsmixvormen -
viseme_id- Gegevens van Viseme-id
Sessieconfiguratie
RealtimeRequestSession
Sessieconfiguratieobject gebruikt in session.update gebeurtenissen.
| Veld | Typologie | Description |
|---|---|---|
| model | touw | Optional. Modelnaam die moet worden gebruikt |
| Modaliteiten | RealtimeModality[] | Optional. De ondersteunde modaliteiten voor de sessie. Zo is 'modaliteiten': ["tekst", "audio"] de standaardinstelling waarmee zowel tekst- als audiomodaliteiten mogelijk zijn. Als u alleen tekst wilt inschakelen, stelt u 'modaliteiten' in: ["text"]. Als u avataruitvoer wilt inschakelen, stelt u 'modaliteiten' in: ["text", "audio", "avatar"]. U kunt alleen audio niet inschakelen. |
| animatie | Realtime-animatie | Optional. Animatieconfiguratie |
| voice | RealtimeVoice | Optional. Spraakconfiguratie |
| aanwijzingen | touw | Optional. Systeeminstructies voor het model. De instructies kunnen de uitvoeraudio begeleiden als OpenAI-stemmen worden gebruikt, maar mogelijk niet van toepassing zijn op Azure-stemmen. |
| input_audio_sampling_rate | integer | Optional. Invoergeluidsamplingfrequentie in Hz (standaard: 24000 voor pcm16, 8000 voor g711_ulaw en g711_alaw) |
| input_audio_format | RealtimeAudioFormat | Optional. Audio-indeling voor invoer (standaard: pcm16) |
| output_audio_format | RealtimeOutputAudioFormat | Optional. Audio-indeling voor uitvoer (standaard: pcm16) |
| input_audio_noise_reduction | RealtimeInputAudioNoiseReductionSettings | Configuratie voor geluidsruisonderdrukking voor invoer. Dit kan worden ingesteld op null om uit te schakelen. Ruisreductiefilters verwerken de audio voordat deze aan de invoeraudiobuffer wordt toegevoegd en naar VAD en het model wordt verzonden. Het filteren van de audio kan de VAD verbeteren en de nauwkeurigheid van draaidetectie (fout-positieven verminderen) en modelprestaties verbeteren door de perceptie van de invoeraudio te verbeteren. Deze eigenschap kan null worden gebruikt. |
| input_audio_echo_cancellation | RealtimeInputAudioEchoCancellationSettings | Configuratie voor het annuleren van audio-echo-invoer. Dit kan worden ingesteld op null om uit te schakelen. Deze echoannulering aan de servicezijde kan helpen de kwaliteit van de invoeraudio te verbeteren door de impact van echo en reverberatie te verminderen. Deze eigenschap kan null worden gebruikt. |
| input_audio_transcription | RealtimeAudioInputTranscriptie-instellingen | De configuratie voor audiotranscriptie van invoer. De configuratie is standaard null (uit). Transcriptie van invoeraudio is niet systeemeigen voor het model, omdat het model rechtstreeks audio verbruikt. Transcriptie wordt asynchroon uitgevoerd via het /audio/transcriptions eindpunt en moet worden behandeld als richtlijnen voor invoeraudio-inhoud in plaats van precies wat het model heeft gehoord. Voor aanvullende richtlijnen voor de transcriptieservice kan de client desgewenst de taal instellen en vragen om transcriptie.Deze eigenschap kan null worden gebruikt. |
| turn_detection | RealtimeTurnDetection | De instellingen voor draaidetectie voor de sessie. Dit kan worden ingesteld op null om uit te schakelen. |
| gereedschappen | matrix van RealtimeTool | De hulpprogramma's die beschikbaar zijn voor het model voor de sessie. |
| tool_choice | RealtimeToolChoice | De keuze voor het hulpprogramma voor de sessie. Toegestane waarden: auto, noneen required. Anders kunt u de naam opgeven van de functie die u wilt gebruiken. |
| temperatuur | nummer | De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8. |
| max_response_output_tokens | geheel getal of "inf" | Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen. Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan. Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".Standaardwaarde is "inf". |
| inspanning bij redeneren | ReasoningEffort | Optional. Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg het Azure Foundry-document voor meer informatie. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord. |
| avatar | RealtimeAvatarConfig | Optional. Avatar-configuratie |
| output_audio_timestamp_types | RealtimeAudioTimestampType[] | Optional. Tijdstempeltypen voor uitvoeraudio |
RealtimeModality
Ondersteunde sessiemodaliteiten.
Toegestane waarden:
-
text- Tekstinvoer/uitvoer -
audio- Audio-invoer/-uitvoer -
animation- Animatie-uitvoer -
avatar- Avatar video-uitvoer
RealtimeAudioTimestampType
Typen uitvoertijdstempels die worden ondersteund in audioantwoordinhoud.
Toegestane waarden:
-
word- Tijdstempels per woord in de uitvoeraudio
ReasoningEffort
Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg de modeldocumentatie voor ondersteunde waarden voor elk model. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.
Toegestane waarden:
-
none- Geen redeneringsinspanning -
minimal- Minimale redeneringsinspanning -
low- Lage redeneringsinspanning - snellere antwoorden met minder redenering -
medium- Gemiddelde redeneringsinspanning - evenwicht tussen snelheid en redeneringsdiepte -
high- Hoge redeneringsinspanning - grondigere redenering, kan langer duren -
xhigh- Extra hoge redeneringsinspanning - maximale redeneringsdiepte
Hulpprogrammaconfiguratie
We ondersteunen twee typen hulpprogramma's: functie-aanroepen en MCP-hulpprogramma's waarmee u verbinding kunt maken met een mcp-server.
RealtimeTool
Hulpprogrammadefinitie voor het aanroepen van functies.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "function" zijn |
| naam | touw | Functienaam |
| beschrijving | touw | Richtlijnen voor functiebeschrijving en gebruik |
| parameters | Voorwerp | Functieparameters als JSON-schemaobject |
RealtimeToolChoice
Strategie voor selectie van hulpprogramma's.
Dit kan het volgende zijn:
-
"auto"- Laat het model kiezen -
"none"- Gebruik geen hulpprogramma's -
"required"- Moet een hulpprogramma gebruiken -
{ "type": "function", "name": "function_name" }- Specifieke functie gebruiken
MCPTool
CONFIGURATIE van MCP-hulpprogramma's.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "mcp" zijn |
| server_label | touw | Verplicht. Het label van de MCP-server. |
| server_url | touw | Verplicht. De server-URL van de MCP-server. |
| toegestane_hulpmiddelen | string[] | Optional. De lijst met toegestane namen van hulpprogramma's. Als dit niet is opgegeven, zijn alle hulpprogramma's toegestaan. |
| headers | Voorwerp | Optional. Extra headers die moeten worden opgenomen in MCP-aanvragen. |
| autorisatie | touw | Optional. Autorisatietoken voor MCP-aanvragen. |
| goedkeuring vereist | tekenreeks of woordenlijst | Optional. Als deze optie is ingesteld op een tekenreeks, moet de waarde zijn never of always. Als deze optie is ingesteld op een woordenlijst, moet deze een indeling {"never": ["<tool_name_1>", "<tool_name_2>"], "always": ["<tool_name_3>"]}hebben. De standaardwaarde is always. Als dit is ingesteld alwaysop, vereist de uitvoering van het hulpprogramma goedkeuring, wordt mcp_approval_request verzonden naar de client wanneer het mcp-argument is voltooid en wordt alleen uitgevoerd wanneer mcp_approval_response met approve=true is ontvangen. Wanneer dit is ingesteld never, wordt het hulpprogramma automatisch uitgevoerd zonder goedkeuring. |
RealtimeConversationResponseItem
Dit is een samenvoegtype dat een van de volgende opties kan zijn:
RealtimeConversationUserMessageItem
Gebruikersberichtitem.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | De unieke id van het item. |
| type | touw | Moet "message" zijn |
| Voorwerp | touw | Moet "conversation.item" zijn |
| rol | touw | Moet "user" zijn |
| inhoud | RealtimeInputTextContentPart | De inhoud van het bericht. |
| status | RealtimeItemStatus | De status van het item. |
RealtimeConversationAssistantMessageItem
Berichtitem assistent.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | De unieke id van het item. |
| type | touw | Moet "message" zijn |
| Voorwerp | touw | Moet "conversation.item" zijn |
| rol | touw | Moet "assistant" zijn |
| inhoud | RealtimeOutputTextContentPart[] of RealtimeOutputAudioContentPart[] | De inhoud van het bericht. |
| status | RealtimeItemStatus | De status van het item. |
RealtimeConversationSystemMessageItem
Systeemberichtitem.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | De unieke id van het item. |
| type | touw | Moet "message" zijn |
| Voorwerp | touw | Moet "conversation.item" zijn |
| rol | touw | Moet "system" zijn |
| inhoud | RealtimeInputTextContentPart[] | De inhoud van het bericht. |
| status | RealtimeItemStatus | De status van het item. |
RealtimeConversationFunctionCallItem
Aanvraagitem voor functieoproep.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | De unieke id van het item. |
| type | touw | Moet "function_call" zijn |
| Voorwerp | touw | Moet "conversation.item" zijn |
| naam | touw | De naam van de functie die moet worden aangeroepen. |
| arguments | touw | De argumenten voor de functie-aanroep als een JSON-tekenreeks. |
| call_id | touw | De unieke id van de functie-aanroep. |
| status | RealtimeItemStatus | De status van het item. |
RealtimeConversationFunctionCallOutputItem
Antwoorditem van functieoproep.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | De unieke id van het item. |
| type | touw | Moet "function_call_output" zijn |
| Voorwerp | touw | Moet "conversation.item" zijn |
| naam | touw | De naam van de functie die is aangeroepen. |
| output | touw | De uitvoer van de functie-aanroep. |
| call_id | touw | De unieke id van de functie-aanroep. |
| status | RealtimeItemStatus | De status van het item. |
RealtimeConversationMCPListToolsItem
McP-lijsthulpprogramma's antwoorditem.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | De unieke id van het item. |
| type | touw | Moet "mcp_list_tools" zijn |
| server_label | touw | Het label van de MCP-server. |
RealtimeConversationMCPCallItem
MCP-oproepantwoorditem.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | De unieke id van het item. |
| type | touw | Moet "mcp_call" zijn |
| server_label | touw | Het label van de MCP-server. |
| naam | touw | De naam van het hulpprogramma dat moet worden aangeroepen. |
| approval_request_id | touw | De goedkeuringsaanvraag-id voor de MCP-aanroep. |
| arguments | touw | De argumenten voor de MCP-aanroep. |
| output | touw | De uitvoer van de MCP-aanroep. |
| fout | Voorwerp | De foutdetails als de MCP-aanroep is mislukt. |
RealtimeConversationMCPApprovalRequestItem
MCP-goedkeuringsaanvraagitem.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | De unieke id van het item. |
| type | touw | Moet "mcp_approval_request" zijn |
| server_label | touw | Het label van de MCP-server. |
| naam | touw | De naam van het hulpprogramma dat moet worden aangeroepen. |
| arguments | touw | De argumenten voor de MCP-aanroep. |
RealtimeItemStatus
Status van gespreksitems.
Toegestane waarden:
-
in_progress- Momenteel verwerkt -
completed-Voltooid -
incomplete- Onvolledig (onderbroken of mislukt)
RealtijdInhoudDeel
Inhoudsonderdeel binnen een bericht.
RealtimeInputTextContentPart
Tekstinhoudsonderdeel.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "input_text" zijn |
| Tekst | touw | De tekstinhoud |
RealtimeOutputTextContentPart
Tekstinhoudsonderdeel.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "text" zijn |
| Tekst | touw | De tekstinhoud |
RealtimeInputAudioContentPart
Audio-inhoudsonderdeel.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "input_audio" zijn |
| audio | touw | Optional. Met Base64 gecodeerde audiogegevens |
| afschrift | touw | Optional. Audiotranscriptie |
RealtimeOutputAudioContentPart
Audio-inhoudsonderdeel.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Moet "audio" zijn |
| audio | touw | Met Base64 gecodeerde audiogegevens |
| afschrift | touw | Optional. Audiotranscriptie |
Antwoordobjecten
RealtimeResponse
Antwoordobject dat een modeldeductieantwoord vertegenwoordigt.
| Veld | Typologie | Description |
|---|---|---|
| identiteitskaart | touw | Optional. Antwoord-id |
| Voorwerp | touw | Optional. Altijd "realtime.response" |
| status | RealtimeResponseStatus | Optional. Antwoordstatus |
| statusgegevens | RealtimeResponseStatusDetails | Optional. Statusgegevens |
| output | RealtimeConversationResponseItem[] | Optional. Uitvoeritems |
| usage | RealtimeUsage | Optional. Gebruiksstatistieken van tokens |
| conversation_id | touw | Optional. Gekoppelde gespreks-id |
| voice | RealtimeVoice | Optional. Spraak die wordt gebruikt voor antwoord |
| Modaliteiten | string[] | Optional. Gebruikte modaliteiten |
| output_audio_format | RealtimeOutputAudioFormat | Optional. Gebruikte audio-indeling |
| temperatuur | nummer | Optional. Gebruikte temperatuur |
| max_response_output_tokens | geheel getal of "inf" | Optional. Maximum aantal gebruikte tokens |
RealtimeResponseStatus
Antwoordstatuswaarden.
Toegestane waarden:
-
in_progress- Antwoord wordt gegenereerd -
completed- Antwoord is voltooid -
cancelled- Antwoord is geannuleerd -
incomplete- Antwoord onvolledig (onderbroken) -
failed- Antwoord mislukt met fout
RealtimeUsage
Gebruiksstatistieken van tokens.
| Veld | Typologie | Description |
|---|---|---|
| total_tokens | integer | Totaal aantal gebruikte tokens |
| input_tokens | integer | Gebruikte invoertokens |
| output_tokens | integer | Gegenereerde uitvoertokens |
| input_token_details | TokenDetails | Uitsplitsing van invoertokens |
| output_token_details | TokenDetails | Uitsplitsing van uitvoertokens |
TokenDetails
Gedetailleerde uitsplitsing van tokengebruik.
| Veld | Typologie | Description |
|---|---|---|
| cached_tokens | integer | Optional. Gebruikte tokens in cache |
| text_tokens | integer | Optional. Gebruikte teksttokens |
| audio_tokens | integer | Optional. Gebruikte audiotokens |
Foutafhandeling
RealtimeErrorDetails
Foutinformatieobject.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Fouttype (bijvoorbeeld "invalid_request_error", "server_error") |
| code | touw | Optional. Specifieke foutcode |
| message | touw | Beschrijving van door mensen leesbare fout |
| param | touw | Optional. Parameter met betrekking tot de fout |
| event_id | touw | Optional. Id van de client gebeurtenis die de fout heeft veroorzaakt |
RealtimeGespreksVerzoekItem
U gebruikt het RealtimeConversationRequestItem object om een nieuw item in het gesprek te maken via de gebeurtenis conversation.item.create .
Dit is een samenvoegtype dat een van de volgende opties kan zijn:
RealtimeSystemMessageItem
Een systeemberichtitem.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type item. Toegestane waarden: message |
| rol | touw | De rol van het bericht. Toegestane waarden: system |
| inhoud | matrix van RealtimeInputTextContentPart | De inhoud van het bericht. |
| identiteitskaart | touw | De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een. |
RealtimeUserMessageItem
Een gebruikersberichtitem.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type item. Toegestane waarden: message |
| rol | touw | De rol van het bericht. Toegestane waarden: user |
| inhoud | matrix van RealtimeInputTextContentPart of RealtimeInputAudioContentPart | De inhoud van het bericht. |
| identiteitskaart | touw | De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een. |
RealtimeAssistantMessageItem
Een assistentberichtitem.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type item. Toegestane waarden: message |
| rol | touw | De rol van het bericht. Toegestane waarden: assistant |
| inhoud | matrix van RealtimeOutputTextContentPart | De inhoud van het bericht. |
RealtimeFunctionCallItem
Een functie-aanroepitem.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type item. Toegestane waarden: function_call |
| naam | touw | De naam van de functie die moet worden aangeroepen. |
| arguments | touw | De argumenten van de functie-aanroep als een JSON-tekenreeks. |
| call_id | touw | De id van het item van de functie-aanroep. |
| identiteitskaart | touw | De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een. |
RealtimeFunctionCallOutputItem
Een uitvoeritem van een functie-aanroep.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type item. Toegestane waarden: function_call_output |
| call_id | touw | De id van het item van de functie-aanroep. |
| output | touw | De uitvoer van de functie-aanroep, dit is een vrije-vormtekenreeks met het functieresultaat, maar kan ook leeg zijn. |
| identiteitskaart | touw | De unieke id van het item. Als de client geen id opgeeft, genereert de server er een. |
RealtimeMCPApprovalResponseItem
Een MCP-goedkeuringsantwoorditem.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type item. Toegestane waarden: mcp_approval_response |
| approve | booleaan | Of de MCP-aanvraag is goedgekeurd. |
| approval_request_id | touw | De id van de MCP-goedkeuringsaanvraag. |
| identiteitskaart | touw | De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een. |
RealtimeFunctionTool
De definitie van een functiehulpprogramma dat wordt gebruikt door het realtime-eindpunt.
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type hulpprogramma. Toegestane waarden: function |
| naam | touw | De naam van de functie. |
| beschrijving | touw | De beschrijving van de functie, inclusief gebruiksrichtlijnen. Gebruik deze functie bijvoorbeeld om de huidige tijd op te halen. |
| parameters | Voorwerp | De parameters van de functie in de vorm van een JSON-object. |
RealtimeItemStatus
Toegestane waarden:
in_progresscompletedincomplete
RealtimeReactieAudioInhoudDeel
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type inhoudsonderdeel. Toegestane waarden: audio |
| afschrift | touw | Het transcript van de audio. Deze eigenschap kan null worden gebruikt. |
RealtimeResponseFunctionCallItem
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type item. Toegestane waarden: function_call |
| naam | touw | De naam van het item van de functie-aanroep. |
| call_id | touw | De id van het item van de functie-aanroep. |
| arguments | touw | De argumenten van het functie-aanroepitem. |
| status | RealtimeItemStatus | De status van het item. |
RealtimeResponseFunctieOproepUitvoerItem
| Veld | Typologie | Description |
|---|---|---|
| type | touw | Het type item. Toegestane waarden: function_call_output |
| call_id | touw | De id van het item van de functie-aanroep. |
| output | touw | De uitvoer van het functie-aanroepitem. |
RealtimeReactieOpties
| Veld | Typologie | Description |
|---|---|---|
| Modaliteiten | gegevensreeks | De modaliteiten die de sessie ondersteunt. Toegestane waarden: text, audioIs bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling die zowel tekst- als audiomodaliteiten mogelijk maakt. Als u alleen tekst wilt inschakelen, stelt u deze in "modalities": ["text"]. U kunt alleen audio niet inschakelen. |
| aanwijzingen | touw | De instructies (het systeembericht) om de antwoorden van het model te begeleiden. |
| voice | RealtimeVoice | De stem die wordt gebruikt voor het modelantwoord voor de sessie. Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd. |
| gereedschappen | matrix van RealtimeTool | De hulpprogramma's die beschikbaar zijn voor het model voor de sessie. |
| tool_choice | RealtimeToolChoice | De keuze voor het hulpprogramma voor de sessie. |
| temperatuur | nummer | De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8. |
| max_response_output_tokens | geheel getal of "inf" | Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen. Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan. Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".Standaardwaarde is "inf". |
| inspanning bij redeneren | ReasoningEffort | Optional. Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg de modeldocumentatie voor ondersteunde waarden voor elk model. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord. |
| gesprek | touw | Hiermee bepaalt u aan welk gesprek het antwoord wordt toegevoegd. De ondersteunde waarden zijn auto en none.De auto waarde (of deze eigenschap niet instellen) zorgt ervoor dat de inhoud van het antwoord wordt toegevoegd aan het standaardgesprek van de sessie.Stel deze eigenschap in om none een out-of-band-antwoord te maken waarin items niet worden toegevoegd aan het standaardgesprek. Standaard ingesteld op "auto" |
| metadata | kaart | Set van maximaal 16 sleutel-waardeparen die aan een object kunnen worden gekoppeld. Dit kan handig zijn voor het opslaan van aanvullende informatie over het object in een gestructureerde indeling. Sleutels mogen maximaal 64 tekens lang zijn en waarden mogen maximaal 512 tekens lang zijn. Bijvoorbeeld: metadata: { topic: "classification" } |
RealtimeResponseSession
Het RealtimeResponseSession object vertegenwoordigt een sessie in de Realtime-API. Deze wordt gebruikt in een aantal van de server gebeurtenissen, zoals:
| Veld | Typologie | Description |
|---|---|---|
| Voorwerp | touw | Het sessieobject. Toegestane waarden: realtime.session |
| identiteitskaart | touw | De unieke id van de sessie. |
| model | touw | Het model dat wordt gebruikt voor de sessie. |
| Modaliteiten | gegevensreeks | De modaliteiten die de sessie ondersteunt. Toegestane waarden: text, audioIs bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling die zowel tekst- als audiomodaliteiten mogelijk maakt. Als u alleen tekst wilt inschakelen, stelt u deze in "modalities": ["text"]. U kunt alleen audio niet inschakelen. |
| aanwijzingen | touw | De instructies (het systeembericht) om de tekst- en audioreacties van het model te begeleiden. Hier volgen enkele voorbeelden van instructies voor het begeleiden van inhoud en indeling van tekst- en audioantwoorden: "instructions": "be succinct""instructions": "act friendly""instructions": "here are examples of good responses"Hier volgen enkele voorbeeldinstructies om het audiogedrag te begeleiden: "instructions": "talk quickly""instructions": "inject emotion into your voice""instructions": "laugh frequently"Hoewel het model deze instructies mogelijk niet altijd volgt, bieden ze richtlijnen voor het gewenste gedrag. |
| voice | RealtimeVoice | De stem die wordt gebruikt voor het modelantwoord voor de sessie. Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd. |
| input_audio_sampling_rate | integer | De samplingfrequentie voor de invoeraudio. |
| input_audio_format | RealtimeAudioFormat | De indeling voor de invoeraudio. |
| output_audio_format | RealtimeAudioFormat | De indeling voor de uitvoeraudio. |
| input_audio_transcription | RealtimeAudioInputTranscriptie-instellingen | De instellingen voor transcriptie van audio-invoer. Deze eigenschap kan null worden gebruikt. |
| turn_detection | RealtimeTurnDetection | De instellingen voor draaidetectie voor de sessie. Deze eigenschap kan null worden gebruikt. |
| gereedschappen | matrix van RealtimeTool | De hulpprogramma's die beschikbaar zijn voor het model voor de sessie. |
| tool_choice | RealtimeToolChoice | De keuze voor het hulpprogramma voor de sessie. |
| temperatuur | nummer | De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8. |
| max_response_output_tokens | geheel getal of "inf" | Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen. Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan. Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf". |
Details van de status van realtime reacties
| Veld | Typologie | Description |
|---|---|---|
| type | RealtimeResponseStatus | De status van het antwoord. |
RealtimeRateLimitsItem
| Veld | Typologie | Description |
|---|---|---|
| naam | touw | De eigenschapsnaam van de frequentielimiet waarover dit item informatie bevat. |
| limit | integer | De maximaal geconfigureerde limiet voor deze eigenschap voor frequentielimiet. |
| resterend | integer | Het resterende quotum dat beschikbaar is voor de geconfigureerde limiet voor deze frequentielimieteigenschap. |
| reset_seconden | nummer | De resterende tijd, in seconden, totdat deze frequentielimieteigenschap opnieuw wordt ingesteld. |
Verwante resources
- De snelstartgids Voice Live uitproberen
- De quickstart voor Voice Live-agents uitproberen
- Meer informatie over het gebruik van de Voice Live-API