Delen via


Naslaginformatie over voice live-API 2025-10-01

De Voice Live-API biedt realtime bidirectionele communicatie voor spraaktoepassingen met behulp van WebSocket-verbindingen. Deze API ondersteunt geavanceerde functies, waaronder spraakherkenning, tekst-naar-spraaksynthese, avatarstreaming, animatiegegevens en uitgebreide mogelijkheden voor audioverwerking.

De API maakt gebruik van gebeurtenissen in JSON-indeling die via WebSocket-verbindingen worden verzonden om gesprekken, audiostreams, avatarinteracties en realtime antwoorden te beheren. Gebeurtenissen worden gecategoriseerd in clientgebeurtenissen (verzonden van client naar server) en servergebeurtenissen (verzonden van server naar client).

Belangrijke functies

  • Realtime audioverwerking: ondersteuning voor meerdere audio-indelingen, waaronder PCM16 met verschillende samplefrequenties en G.711 codecs
  • Geavanceerde spraakopties: OpenAI-stemmen, aangepaste Stemmen van Azure, Standaardstemmen van Azure en persoonlijke Stemmen van Azure
  • Avatar-integratie: avatarstreaming op basis van WebRTC met video, animatie en blendshapes
  • Intelligente schakeldetectie: meerdere VAD-opties, waaronder semantische VAD van Azure en detectie aan de serverzijde
  • Audioverbetering: ingebouwde ruisonderdrukking en echo-annulering
  • Functie aanroepen: Integratie van hulpprogramma's voor verbeterde gespreksmogelijkheden
  • Flexibel sessiebeheer: configureerbare modaliteiten, instructies en antwoordparameters

Client-gebeurtenissen

De Voice Live-API ondersteunt de volgende clientgebeurtenissen die van de client naar de server kunnen worden verzonden:

Event Description
session.update De sessieconfiguratie bijwerken, inclusief spraak, modaliteiten, schakeldetectie en andere instellingen
session.avatar.connect Avatar-verbinding tot stand brengen door client-SDP voor WebRTC-onderhandeling te bieden
input_audio_buffer.append Audiobytes toevoegen aan de invoeraudiobuffer
input_audio_buffer.commit De invoeraudiobuffer doorvoeren voor verwerking
input_audio_buffer.clear De audiobuffer voor invoer wissen
conversation.item.create Een nieuw item toevoegen aan de gesprekscontext
conversation.item.retrieve Een specifiek item ophalen uit het gesprek
conversation.item.truncate Een audiobericht van een assistent afkappen
conversation.item.delete Een item uit het gesprek verwijderen
response.create De server opdracht geven om een antwoord te maken via modeldeductie
response.cancel Een actieve reactie annuleren

session.update

Werk de configuratie van de sessie bij. Deze gebeurtenis kan op elk gewenst moment worden verzonden om instellingen zoals spraak, modaliteiten, draaidetectie, hulpprogramma's en andere sessieparameters te wijzigen. Zodra een sessie is geïnitialiseerd met een bepaald model, kan deze niet meer worden gewijzigd in een ander model.

Gebeurtenisstructuur

{
  "type": "session.update",
  "session": {
    "modalities": ["text", "audio"],
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "instructions": "You are a helpful assistant. Be concise and friendly.",
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "input_audio_sampling_rate": 24000,
    "turn_detection": {
      "type": "azure_semantic_vad",
      "threshold": 0.5,
      "prefix_padding_ms": 300,
      "silence_duration_ms": 500
    },
    "temperature": 0.8,
    "max_response_output_tokens": "inf"
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "session.update" zijn
sessie RealtimeRequestSession Sessieconfiguratieobject met velden die moeten worden bijgewerkt

Voorbeeld met Azure Custom Voice

{
  "type": "session.update",
  "session": {
    "voice": {
      "type": "azure-custom",
      "name": "my-custom-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012",
      "temperature": 0.7,
      "style": "cheerful"
    },
    "input_audio_noise_reduction": {
      "type": "azure_deep_noise_suppression"
    },
    "avatar": {
      "character": "lisa",
      "customized": false,
      "video": {
        "resolution": {
          "width": 1920,
          "height": 1080
        },
        "bitrate": 2000000
      }
    }
  }
}

session.avatar.connect

Maak een avatarverbinding door de SDP -aanbieding (Session Description Protocol) van de client op te geven voor webRTC-mediaonderhandeling. Deze gebeurtenis is vereist bij het gebruik van avatarfuncties.

Gebeurtenisstructuur

{
  "type": "session.avatar.connect",
  "client_sdp": "<client_sdp>"
}

Eigenschappen

Veld Typologie Description
type touw Moet "session.avatar.connect" zijn
client_sdp touw De SDP-aanbieding van de client voor het tot stand maken van webRTC-verbindingen, gecodeerd met base64

input_audio_buffer.append

Voeg audiobytes toe aan de audiobuffer voor invoer.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.append",
  "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA="
}

Eigenschappen

Veld Typologie Description
type touw Moet "input_audio_buffer.append" zijn
audio touw Met Base64 gecodeerde audiogegevens

input_audio_buffer.commit

Voer de invoeraudiobuffer door voor verwerking.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.commit"
}

Eigenschappen

Veld Typologie Description
type touw Moet "input_audio_buffer.commit" zijn

input_audio_buffer.clear

Wis de invoeraudiobuffer.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.clear"
}

Eigenschappen

Veld Typologie Description
type touw Moet "input_audio_buffer.clear" zijn

conversation.item.create

Voeg een nieuw item toe aan de gesprekscontext. Dit kan berichten, functieoproepen en antwoorden van functieoproepen zijn. Items kunnen worden ingevoegd op specifieke posities in de gespreksgeschiedenis.

Gebeurtenisstructuur

{
  "type": "conversation.item.create",
  "previous_item_id": "item_ABC123",
  "item": {
    "id": "item_DEF456",
    "type": "message",
    "role": "user",
    "content": [
      {
        "type": "input_text",
        "text": "Hello, how are you?"
      }
    ]
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "conversation.item.create" zijn
vorige_item_id touw Optional. Id van het item waarna u dit item wilt invoegen. Als dit niet is opgegeven, voegt u deze toe aan het einde
item RealtimeConversationRequestItem Het item dat moet worden toegevoegd aan het gesprek

Voorbeeld met audio-inhoud

{
  "type": "conversation.item.create",
  "item": {
    "type": "message",
    "role": "user",
    "content": [
      {
        "type": "input_audio",
        "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA=",
        "transcript": "Hello there"
      }
    ]
  }
}

Voorbeeld met uitvoer van functieoproep

{
  "type": "conversation.item.create",
  "item": {
    "type": "function_call_output",
    "call_id": "call_123",
    "output": "{\"location\": \"San Francisco\", \"temperature\": \"70\"}"
  }
}

Voorbeeld met MCP-goedkeuringsantwoord

{
  "type": "conversation.item.create",
  "item": {
    "type": "mcp_approval_response",
    "approval_request_id": "mcp_approval_req_456",
    "approve": true,
  }
}

conversation.item.retrieve

Een specifiek item ophalen uit de gespreksgeschiedenis. Dit is handig voor het inspecteren van verwerkte audio na ruisonderdrukking en VAD.

Gebeurtenisstructuur

{
  "type": "conversation.item.retrieve",
  "item_id": "item_ABC123"
}

Eigenschappen

Veld Typologie Description
type touw Moet "conversation.item.retrieve" zijn
item_id touw De id van het item dat moet worden opgehaald

conversation.item.truncate

De audio-inhoud van een assistentbericht afkappen. Dit is handig voor het stoppen van afspelen op een specifiek punt en het synchroniseren van het begrip van de server met de status van de client.

Gebeurtenisstructuur

{
  "type": "conversation.item.truncate",
  "item_id": "item_ABC123",
  "content_index": 0,
  "audio_end_ms": 5000
}

Eigenschappen

Veld Typologie Description
type touw Moet "conversation.item.truncate" zijn
item_id touw De id van het assistentberichtitem dat moet worden afgekapt
content_index integer De index van het inhoudsonderdeel dat moet worden afgekapt
audio_end_ms integer De duur totdat de audio wordt afgekapt, in milliseconden

conversation.item.delete

Een item verwijderen uit de gespreksgeschiedenis.

Gebeurtenisstructuur

{
  "type": "conversation.item.delete",
  "item_id": "item_ABC123"
}

Eigenschappen

Veld Typologie Description
type touw Moet "conversation.item.delete" zijn
item_id touw De id van het item dat moet worden verwijderd

response.create

Geef de server de opdracht om een antwoord te maken via modeldeductie. Met deze gebeurtenis kunt u antwoordspecifieke configuratie opgeven die de standaardinstellingen voor sessies overschrijft.

Gebeurtenisstructuur

{
  "type": "response.create",
  "response": {
    "modalities": ["text", "audio"],
    "instructions": "Be extra helpful and detailed.",
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "output_audio_format": "pcm16",
    "temperature": 0.7,
    "max_response_output_tokens": 1000
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.create" zijn
response RealtimeResponseOptions Optionele antwoordconfiguratie die de standaardinstellingen voor sessies overschrijft

Voorbeeld met keuze van hulpprogramma

{
  "type": "response.create",
  "response": {
    "modalities": ["text"],
    "tools": [
      {
        "type": "function",
        "name": "get_current_time",
        "description": "Get the current time",
        "parameters": {
          "type": "object",
          "properties": {}
        }
      }
    ],
    "tool_choice": "get_current_time",
    "temperature": 0.3
  }
}

Voorbeeld met animatie

{
  "type": "response.create",
  "response": {
    "modalities": ["audio", "animation"],
    "animation": {
      "model_name": "default",
      "outputs": ["blendshapes", "viseme_id"]
    },
    "voice": {
      "type": "azure-custom",
      "name": "my-expressive-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012",
      "style": "excited"
    }
  }
}

response.cancel

Annuleer een reactie die wordt uitgevoerd. Hierdoor wordt het genereren van reacties en gerelateerde audio-uitvoer onmiddellijk gestopt.

Gebeurtenisstructuur

{
  "type": "response.cancel"
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.cancel" zijn

input_audio_buffer.append

De client input_audio_buffer.append gebeurtenis wordt gebruikt om audiobytes toe te voegen aan de invoeraudiobuffer. De audiobuffer is tijdelijke opslag waarnaar u kunt schrijven en later doorvoeren.

In de modus Server VAD (Spraakactiviteitsdetectie) wordt de audiobuffer gebruikt om spraak te detecteren en bepaalt de server wanneer deze moet worden doorgevoerd. Wanneer server-VAD is uitgeschakeld, kan de client kiezen hoeveel audio in elke gebeurtenis moet worden geplaatst tot maximaal 15 MiB. Als u bijvoorbeeld kleinere segmenten van de client streamt, kan de VAD sneller reageren.

In tegenstelling tot de meeste andere client gebeurtenissen, verzendt de server geen bevestigingsreactie naar de client input_audio_buffer.append gebeurtenis.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.append",
  "audio": "<audio>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn input_audio_buffer.append.
audio touw Met Base64 gecodeerde audiobytes. Deze waarde moet de indeling hebben die is opgegeven door het input_audio_format veld in de sessieconfiguratie.

input_audio_buffer.clear

De client input_audio_buffer.clear gebeurtenis wordt gebruikt om de audiobytes in de buffer te wissen.

De server reageert met een input_audio_buffer.cleared gebeurtenis.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.clear"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn input_audio_buffer.clear.

input_audio_buffer.commit

De client-gebeurtenis input_audio_buffer.commit wordt gebruikt om de audiobuffer voor gebruikersinvoer door te voeren, waardoor er een nieuw gebruikersberichtitem in het gesprek wordt gemaakt. Audio wordt getranscribeerd als input_audio_transcription deze is geconfigureerd voor de sessie.

Wanneer de client zich in de VAD-modus van de server bevindt, hoeft deze gebeurtenis niet te worden verzonden. De server voert de audiobuffer automatisch door. Zonder server-VAD moet de client de audiobuffer doorvoeren om een gebruikersberichtitem te maken. Deze client gebeurtenis produceert een fout als de invoer audiobuffer leeg is.

Als u de invoeraudiobuffer doorvoert, wordt er geen antwoord van het model gemaakt.

De server reageert met een input_audio_buffer.committed gebeurtenis.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.commit"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn input_audio_buffer.commit.

Server gebeurtenissen

De Voice Live-API verzendt de volgende servergebeurtenissen om de status, antwoorden en gegevens te communiceren met de client:

Event Description
fout Geeft aan dat er een fout is opgetreden tijdens de verwerking
waarschuwing Geeft aan dat er een waarschuwing is opgetreden die de gespreksstroom niet onderbreekt
session.created Verzonden wanneer een nieuwe sessie tot stand is gebracht
session.updated Verzonden wanneer sessieconfiguratie wordt bijgewerkt
session.avatar.connecting Geeft aan dat de avatar WebRTC-verbinding tot stand is gebracht
conversatie.item.aangemaakt Verzonden wanneer een nieuw item wordt toegevoegd aan het gesprek
conversation.item.retrieved Antwoord op conversation.item.retrieve-aanvraag
conversation.item.truncated Bevestigt afkapping van items
conversation.item.deleted Verwijdering van item bevestigen
conversation.item.input_audio_transcription.completed Audiotranscriptie van invoer is voltooid
conversation.item.input_audio_transcription.delta Audiotranscriptie van streaming-invoer
conversation.item.input_audio_transcription.failed Audiotranscriptie van invoer is mislukt
input_audio_buffer.commit Invoeraudiobuffer was voor verwerking
input_audio_buffer.gewist Invoeraudiobuffer is gewist
input_audio_buffer.speech_started Spraak gedetecteerd in invoeraudiobuffer (VAD)
input_audio_buffer.speech_stopped Spraak is beëindigd in de audiobuffer voor invoer (VAD)
response.created Nieuwe reactiegeneratie is gestart
response.done Het genereren van antwoorden is voltooid
reactie.uitvoer_item.toegevoegd Nieuw uitvoeritem toegevoegd aan antwoord
response.output_item.done Het uitvoeritem is voltooid
response.content_part.added Nieuw inhoudsonderdeel toegevoegd aan uitvoeritem
response.content_part.done Het inhoudsonderdeel is voltooid
response.text.delta Tekstinhoud streamen van het model
response.text.done Tekstinhoud is voltooid
response.audio_transcript.delta Audiotranscriptie streamen
response.audio_transcript.done Audiotranscriptie is voltooid
response.audio.delta Audio-inhoud streamen vanuit het model
response.audio.done Audio-inhoud is voltooid
response.animation_blendshapes.delta Streaming-animatie-blendshapes-gegevens
response.animation_blendshapes.done De gegevens van animatie-blendshapes zijn voltooid
response.audio_timestamp.delta Informatie over het streamen van audiotijdstempel
response.audio_timestamp.done Informatie over de tijdstempel van audio is voltooid
response.animation_viseme.delta Streaminganimatievisugegevens
response.animation_viseme.done Animatievisulaatgegevens zijn voltooid
response.function_call_arguments.delta Argumenten voor aanroepen van streamingfuncties
response.function_call_arguments.done Argumenten voor functieoproep zijn voltooid
mcp_list_tools.in_progress Vermelding van MCP-hulpprogramma's wordt uitgevoerd
mcp_list_tools.completed McP-hulpprogrammalijst is voltooid
mcp_list_tools.failed Vermelding van MCP-hulpprogramma's is mislukt
response.mcp_call_arguments.delta McP-aanroepargumenten streamen
response.mcp_call_arguments.done MCP-aanroepargumenten zijn voltooid
response.mcp_call.in_progress MCP-aanroep wordt uitgevoerd
response.mcp_call.completed MCP-aanroep is voltooid
response.mcp_call.failed MCP-aanroep is mislukt

session.created

Verzonden wanneer een nieuwe sessie tot stand is gebracht. Dit is de eerste gebeurtenis die is ontvangen nadat u verbinding hebt gemaakt met de API.

Gebeurtenisstructuur

{
  "type": "session.created",
  "session": {
    "id": "sess_ABC123DEF456",
    "object": "realtime.session",
    "model": "gpt-realtime",
    "modalities": ["text", "audio"],
    "instructions": "You are a helpful assistant.",
    "voice": {
      "type": "openai",
      "name": "alloy"
    },
    "input_audio_format": "pcm16",
    "output_audio_format": "pcm16",
    "input_audio_sampling_rate": 24000,
    "turn_detection": {
      "type": "azure_semantic_vad",
      "threshold": 0.5,
      "prefix_padding_ms": 300,
      "silence_duration_ms": 500
    },
    "temperature": 0.8,
    "max_response_output_tokens": "inf"
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "session.created" zijn
sessie RealtimeResponseSession Het gemaakte sessieobject

session.updated

Verzonden wanneer de sessieconfiguratie is bijgewerkt als reactie op een session.update client gebeurtenis.

Gebeurtenisstructuur

{
  "type": "session.updated",
  "session": {
    "id": "sess_ABC123DEF456",
    "voice": {
      "type": "azure-custom",
      "name": "my-voice",
      "endpoint_id": "12345678-1234-1234-1234-123456789012"
    },
    "temperature": 0.7,
    "avatar": {
      "character": "lisa",
      "customized": false
    }
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "session.updated" zijn
sessie RealtimeResponseSession Het bijgewerkte sessieobject

session.avatar.connecting

Geeft aan dat er een avatar WebRTC-verbinding tot stand is gebracht. Deze gebeurtenis wordt verzonden als reactie op een session.avatar.connect client gebeurtenis.

Gebeurtenisstructuur

{
  "type": "session.avatar.connecting",
  "server_sdp": "<server_sdp>"
}

Eigenschappen

Veld Typologie Description
type touw Moet "session.avatar.connecting" zijn

conversation.item.created

Verzonden wanneer een nieuw item wordt toegevoegd aan het gesprek, via een client-gebeurtenis conversation.item.create of automatisch tijdens het genereren van reacties.

Gebeurtenisstructuur

{
  "type": "conversation.item.created",
  "previous_item_id": "item_ABC123",
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "user",
    "content": [
      {
        "type": "input_text",
        "text": "Hello, how are you?"
      }
    ]
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "conversation.item.created" zijn
vorige_item_id touw Id van het item waarna dit item is ingevoegd
item RealtimeConversationResponseItem Het gemaakte gespreksitem

Voorbeeld met audio-item

{
  "type": "conversation.item.created",
  "item": {
    "id": "item_GHI789",
    "type": "message",
    "status": "completed",
    "role": "user",
    "content": [
      {
        "type": "input_audio",
        "audio": null,
        "transcript": "What's the weather like today?"
      }
    ]
  }
}

conversation.item.retrieved

Verzonden als reactie op een conversation.item.retrieve client gebeurtenis, waarbij het aangevraagde gespreksitem wordt opgegeven.

Gebeurtenisstructuur

{
  "type": "conversation.item.retrieved",
  "item": {
    "id": "item_ABC123",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "assistant",
    "content": [
      {
        "type": "audio",
        "audio": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA=",
        "transcript": "Hello! I'm doing well, thank you for asking. How can I help you today?"
      }
    ]
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "conversation.item.retrieved" zijn
item RealtimeConversationResponseItem Het opgehaalde gespreksitem

conversation.item.truncated

De servergebeurtenis conversation.item.truncated wordt geretourneerd wanneer de client een eerder audioberichtitem met een assistent afkapt met een conversation.item.truncate gebeurtenis. Deze gebeurtenis wordt gebruikt om het begrip van de audio van de server te synchroniseren met het afspelen van de client.

Met deze gebeurtenis wordt de audio afgekapt en wordt de transcriptie van de tekst aan de serverzijde verwijderd om ervoor te zorgen dat er geen tekst is in de context waarover de gebruiker niet weet.

Gebeurtenisstructuur

{
  "type": "conversation.item.truncated",
  "item_id": "<item_id>",
  "content_index": 0,
  "audio_end_ms": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn conversation.item.truncated.
item_id touw De id van het berichtitem van de assistent dat is afgekapt.
content_index integer De index van het inhoudsonderdeel dat is afgekapt.
audio_end_ms integer De duur totdat de audio is afgekapt, in milliseconden.

conversation.item.deleted

Verzonden als reactie op een conversation.item.delete clientgebeurtenis, waarbij wordt bevestigd dat het opgegeven item uit het gesprek is verwijderd.

Gebeurtenisstructuur

{
  "type": "conversation.item.deleted",
  "item_id": "item_ABC123"
}

Eigenschappen

Veld Typologie Description
type touw Moet "conversation.item.deleted" zijn
item_id touw Id van het verwijderde item

response.created

Verzonden wanneer een nieuwe reactiegeneratie begint. Dit is de eerste gebeurtenis in een reactievolgorde.

Gebeurtenisstructuur

{
  "type": "response.created",
  "response": {
    "id": "resp_ABC123",
    "object": "realtime.response",
    "status": "in_progress",
    "status_details": null,
    "output": [],
    "usage": {
      "total_tokens": 0,
      "input_tokens": 0,
      "output_tokens": 0
    }
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.created" zijn
response RealtimeResponse Het antwoordobject dat is gemaakt

response.done

Verzonden wanneer het genereren van antwoorden is voltooid. Deze gebeurtenis bevat het laatste antwoord met alle uitvoeritems en gebruiksstatistieken.

Gebeurtenisstructuur

{
  "type": "response.done",
  "response": {
    "id": "resp_ABC123",
    "object": "realtime.response",
    "status": "completed",
    "status_details": null,
    "output": [
      {
        "id": "item_DEF456",
        "object": "realtime.item",
        "type": "message",
        "status": "completed",
        "role": "assistant",
        "content": [
          {
            "type": "text",
            "text": "Hello! I'm doing well, thank you for asking. How can I help you today?"
          }
        ]
      }
    ],
    "usage": {
      "total_tokens": 87,
      "input_tokens": 52,
      "output_tokens": 35,
      "input_token_details": {
        "cached_tokens": 0,
        "text_tokens": 45,
        "audio_tokens": 7
      },
      "output_token_details": {
        "text_tokens": 15,
        "audio_tokens": 20
      }
    }
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.done" zijn
response RealtimeResponse Het voltooide antwoordobject

response.output_item.added

Verzonden wanneer er tijdens het genereren een nieuw uitvoeritem wordt toegevoegd aan het antwoord.

Gebeurtenisstructuur

{
  "type": "response.output_item.added",
  "response_id": "resp_ABC123",
  "output_index": 0,
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "in_progress",
    "role": "assistant",
    "content": []
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.output_item.added" zijn
response_id touw Id van het antwoord waartoe dit item behoort
output_index integer Index van het item in de uitvoermatrix van het antwoord
item RealtimeConversationResponseItem Het uitvoeritem dat is toegevoegd

response.output_item.done

Verzonden wanneer een uitvoeritem is voltooid.

Gebeurtenisstructuur

{
  "type": "response.output_item.done",
  "response_id": "resp_ABC123",
  "output_index": 0,
  "item": {
    "id": "item_DEF456",
    "object": "realtime.item",
    "type": "message",
    "status": "completed",
    "role": "assistant",
    "content": [
      {
        "type": "text",
        "text": "Hello! I'm doing well, thank you for asking."
      }
    ]
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.output_item.done" zijn
response_id touw Id van het antwoord waartoe dit item behoort
output_index integer Index van het item in de uitvoermatrix van het antwoord
item RealtimeConversationResponseItem Het voltooide uitvoeritem

response.content_part.added

De servergebeurtenis response.content_part.added wordt geretourneerd wanneer een nieuw inhoudsonderdeel wordt toegevoegd aan een assistentberichtitem tijdens het genereren van het antwoord.

Gebeurtenisstructuur

{
  "type": "response.content_part.added",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "part": {
    "type": "text",
    "text": ""
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.content_part.added" zijn
response_id touw Id van het antwoord
item_id touw Id van het item waartoe dit inhoudsonderdeel behoort
output_index integer Index van het item in het antwoord
content_index integer Index van dit inhoudsonderdeel in het item
deel RealtimeContentPart Het inhoudsonderdeel dat is toegevoegd

response.content_part.done

De servergebeurtenis response.content_part.done wordt geretourneerd wanneer een inhoudsonderdeel klaar is met streamen in een assistentberichtitem.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.content_part.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "part": {
    "type": "text",
    "text": "Hello! I'm doing well, thank you for asking."
  }
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.content_part.done" zijn
response_id touw Id van het antwoord
item_id touw Id van het item waartoe dit inhoudsonderdeel behoort
output_index integer Index van het item in het antwoord
content_index integer Index van dit inhoudsonderdeel in het item
deel RealtimeContentPart Het voltooide inhoudsonderdeel

response.text.delta

Tekstinhoud streamen vanuit het model. Incrementeel verzonden naarmate het model tekst genereert.

Gebeurtenisstructuur

{
  "type": "response.text.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "Hello! I'm"
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.text.delta" zijn
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
delta touw Incrementele tekstinhoud

response.text.done

Verzonden wanneer het genereren van tekstinhoud is voltooid.

Gebeurtenisstructuur

{
  "type": "response.text.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "text": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.text.done" zijn
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
Tekst touw De volledige tekstinhoud

response.audio.delta

Audio-inhoud streamen van het model. Audio wordt geleverd als base64-gecodeerde gegevens.

Gebeurtenisstructuur

{
  "type": "response.audio.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "UklGRiQAAABXQVZFZm10IBAAAAABAAEARKwAAIhYAQACABAAZGF0YQAAAAA="
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.audio.delta" zijn
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
delta touw Segment met base64-gecodeerde audiogegevens

response.audio.done

Verzonden wanneer het genereren van audio-inhoud is voltooid.

Gebeurtenisstructuur

{
  "type": "response.audio.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.audio.done" zijn
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel

response.audio_transcript.delta

Streamingtranscriptie van de gegenereerde audio-inhoud.

Gebeurtenisstructuur

{
  "type": "response.audio_transcript.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "delta": "Hello! I'm doing"
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.audio_transcript.delta" zijn
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
delta touw Incrementele transcriptietekst

response.audio_transcript.done

Verzonden wanneer het genereren van audiotranscripties is voltooid.

Gebeurtenisstructuur

{
  "type": "response.audio_transcript.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "transcript": "Hello! I'm doing well, thank you for asking. How can I help you today?"
}

Eigenschappen

Veld Typologie Description
type touw Moet "response.audio_transcript.done" zijn
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
afschrift touw De volledige transcriptietekst

conversation.item.input_audio_transcription.completed

De server conversation.item.input_audio_transcription.completed gebeurtenis is het resultaat van audiotranscriptie voor spraak die naar de audiobuffer is geschreven.

Transcriptie begint wanneer de invoeraudiobuffer wordt doorgevoerd door de client of server (in server_vad de modus). Transcriptie wordt asynchroon uitgevoerd bij het maken van een antwoord, zodat deze gebeurtenis vóór of na de reactie-gebeurtenissen kan komen.

Realtime-API-modellen accepteren audio direct, en daarom is invoertranscriptie een apart proces dat wordt uitgevoerd op een afzonderlijk spraakherkenningsmodel, zoals whisper-1. Het transcript kan dus enigszins afwijken van de interpretatie van het model en moet worden behandeld als een ruwe handleiding.

Gebeurtenisstructuur

{
  "type": "conversation.item.input_audio_transcription.completed",
  "item_id": "<item_id>",
  "content_index": 0,
  "transcript": "<transcript>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.completed.
item_id touw De id van het gebruikersberichtitem met de audio.
content_index integer De index van het inhoudsonderdeel met de audio.
afschrift touw De getranscribeerde tekst.

conversation.item.input_audio_transcription.delta

De servergebeurtenis conversation.item.input_audio_transcription.delta wordt geretourneerd wanneer audiotranscriptie voor invoer is geconfigureerd en er een transcriptieaanvraag voor een gebruikersbericht wordt uitgevoerd. Deze gebeurtenis biedt gedeeltelijke transcriptieresultaten zodra ze beschikbaar komen.

Gebeurtenisstructuur

{
  "type": "conversation.item.input_audio_transcription.delta",
  "item_id": "<item_id>",
  "content_index": 0,
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.delta.
item_id touw De id van het item van het gebruikersbericht.
content_index integer De index van het inhoudsonderdeel met de audio.
delta touw De incrementele transcriptietekst.

conversation.item.input_audio_transcription.failed

De servergebeurtenis conversation.item.input_audio_transcription.failed wordt geretourneerd wanneer de invoer van audiotranscriptie is geconfigureerd en een transcriptieaanvraag voor een gebruikersbericht is mislukt. Deze gebeurtenis staat los van andere error gebeurtenissen, zodat de client het gerelateerde item kan identificeren.

Gebeurtenisstructuur

{
  "type": "conversation.item.input_audio_transcription.failed",
  "item_id": "<item_id>",
  "content_index": 0,
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>"
  }
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn conversation.item.input_audio_transcription.failed.
item_id touw De id van het item van het gebruikersbericht.
content_index integer De index van het inhoudsonderdeel met de audio.
fout Voorwerp Details van de transcriptiefout.

Zie geneste eigenschappen in de volgende tabel.

Fouteigenschappen

Veld Typologie Description
type touw Het type fout.
code touw Foutcode, indien van toepassing.
message touw Een door mensen leesbaar foutbericht.
param touw Parameter met betrekking tot de fout, indien van toepassing.

response.animation_blendshapes.delta

De servergebeurtenis response.animation_blendshapes.delta wordt geretourneerd wanneer het model animatie-blendshapes-gegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele blendshapes-gegevens zodra deze beschikbaar zijn.

Gebeurtenisstructuur

{
  "type": "response.animation_blendshapes.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "frame_index": 0,
  "frames": [
    [0.0, 0.1, 0.2, ..., 1.0]
    ...
  ]
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.animation_blendshapes.delta.
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
frame_index integer Index van het eerste frame in deze batch frames
Frames matrix van matrix van float Matrix van blendshapeframes, elk frame is een matrix van blendshape-waarden

response.animation_blendshapes.done

De servergebeurtenis response.animation_blendshapes.done wordt geretourneerd wanneer het model klaar is met het genereren van animatie-blendshapes-gegevens als onderdeel van een antwoord.

Gebeurtenisstructuur

{
  "type": "response.animation_blendshapes.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.animation_blendshapes.done.
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord

response.audio_timestamp.delta

De servergebeurtenis response.audio_timestamp.delta wordt geretourneerd wanneer het model audiotijdstempelgegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele tijdstempelgegevens voor uitvoeraudio en tekstuitlijning zodra deze beschikbaar is.

Gebeurtenisstructuur

{
  "type": "response.audio_timestamp.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "audio_offset_ms": 0,
  "audio_duration_ms": 500,
  "text": "Hello",
  "timestamp_type": "word"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.audio_timestamp.delta.
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
audio_offset_ms integer Audio-offset in milliseconden vanaf het begin van de audio
audio_duration_ms integer Duur van het audiosegment in milliseconden
Tekst touw Het tekstsegment dat overeenkomt met dit audiotijdstempel
timestamp_type touw Het type tijdstempel, momenteel wordt alleen 'woord' ondersteund

response.audio_timestamp.done

Verzonden wanneer het genereren van audiotijdstempels is voltooid.

Gebeurtenisstructuur

{
  "type": "response.audio_timestamp.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.audio_timestamp.done.
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel

response.animation_viseme.delta

De servergebeurtenis response.animation_viseme.delta wordt geretourneerd wanneer het model animatievisemegegevens genereert als onderdeel van een antwoord. Deze gebeurtenis biedt incrementele visemegegevens zodra deze beschikbaar zijn.

Gebeurtenisstructuur

{
  "type": "response.animation_viseme.delta",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0,
  "audio_offset_ms": 0,
  "viseme_id": 1
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.animation_viseme.delta.
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel
audio_offset_ms integer Audio-offset in milliseconden vanaf het begin van de audio
viseme_id integer De viseme-id die overeenkomt met de mondvorm voor animatie

response.animation_viseme.done

De servergebeurtenis response.animation_viseme.done wordt geretourneerd wanneer het model klaar is met het genereren van animatie-visemegegevens als onderdeel van een antwoord.

Gebeurtenisstructuur

{
  "type": "response.animation_viseme.done",
  "response_id": "resp_ABC123",
  "item_id": "item_DEF456",
  "output_index": 0,
  "content_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.animation_viseme.done.
response_id touw Id van het antwoord
item_id touw Id van het item
output_index integer Index van het item in het antwoord
content_index integer Index van het inhoudsonderdeel

fout

De servergebeurtenis error wordt geretourneerd wanneer er een fout optreedt, wat een clientprobleem of een serverprobleem kan zijn. De meeste fouten kunnen worden hersteld en de sessie blijft geopend.

Gebeurtenisstructuur

{
  "type": "error",
  "error": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>",
    "event_id": "<event_id>"
  }
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn error.
fout Voorwerp Details van de fout.

Zie geneste eigenschappen in de volgende tabel.

Fouteigenschappen

Veld Typologie Description
type touw Het type fout. 'invalid_request_error' en 'server_error' zijn bijvoorbeeld fouttypen.
code touw Foutcode, indien van toepassing.
message touw Een door mensen leesbaar foutbericht.
param touw Parameter met betrekking tot de fout, indien van toepassing.
event_id touw De id van de client gebeurtenis die de fout heeft veroorzaakt, indien van toepassing.

waarschuwing

De servergebeurtenis warning wordt geretourneerd wanneer er een waarschuwing optreedt die de gespreksstroom niet onderbreekt. Waarschuwingen zijn informatief en de sessie wordt normaal voortgezet.

Gebeurtenisstructuur

{
  "type": "warning",
  "warning": {
    "code": "<code>",
    "message": "<message>",
    "param": "<param>"
  }
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn warning.
waarschuwing Voorwerp Details van de waarschuwing. Zie geneste eigenschappen in de volgende tabel.

Waarschuwingseigenschappen

Veld Typologie Description
message touw Een leesbaar waarschuwingsbericht.
code touw Optional. Waarschuwingscode, indien van toepassing.
param touw Optional. Parameter met betrekking tot de waarschuwing, indien van toepassing.

input_audio_buffer.gewist

De servergebeurtenis input_audio_buffer.cleared wordt geretourneerd wanneer de client de invoeraudiobuffer wist met een input_audio_buffer.clear gebeurtenis.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.cleared"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn input_audio_buffer.cleared.

input_audio_buffer.commit

De servergebeurtenis input_audio_buffer.committed wordt geretourneerd wanneer een invoeraudiobuffer wordt doorgevoerd door de client of automatisch in de server-VAD-modus. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt. Er wordt dus ook een conversation.item.created gebeurtenis naar de client verzonden.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.committed",
  "previous_item_id": "<previous_item_id>",
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn input_audio_buffer.committed.
vorige_item_id touw De id van het voorgaande item waarna het nieuwe item wordt ingevoegd.
item_id touw De id van het gebruikersberichtitem dat is gemaakt.

input_audio_buffer.speech_started

De servergebeurtenis input_audio_buffer.speech_started wordt geretourneerd in server_vad de modus wanneer spraak wordt gedetecteerd in de audiobuffer. Deze gebeurtenis kan zich voordoen wanneer audio aan de buffer wordt toegevoegd (tenzij spraak al is gedetecteerd).

Opmerking

De client kan deze gebeurtenis gebruiken om het afspelen van audio te onderbreken of visuele feedback te geven aan de gebruiker.

De client verwacht een input_audio_buffer.speech_stopped gebeurtenis te ontvangen wanneer spraak stopt. De item_id eigenschap is de id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt. De item_id is ook opgenomen in de input_audio_buffer.speech_stopped gebeurtenis, tenzij de client de audiobuffer handmatig doorvoert tijdens vad-activering.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.speech_started",
  "audio_start_ms": 0,
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn input_audio_buffer.speech_started.
audio_start_ms (starttijdstip_audio_ms) integer Milliseconden vanaf het begin van alle audio die tijdens de sessie naar de buffer is geschreven toen spraak voor het eerst werd gedetecteerd. Deze eigenschap komt overeen met het begin van de audio die naar het model wordt verzonden en bevat dus de prefix_padding_ms geconfigureerde in de sessie.
item_id touw De id van het gebruikersberichtitem dat is gemaakt wanneer spraak stopt.

input_audio_buffer.speech_stopped

De servergebeurtenis input_audio_buffer.speech_stopped wordt geretourneerd in server_vad de modus wanneer de server het einde van de spraak in de audiobuffer detecteert.

De server verzendt ook een conversation.item.created gebeurtenis met het gebruikersberichtitem dat is gemaakt op basis van de audiobuffer.

Gebeurtenisstructuur

{
  "type": "input_audio_buffer.speech_stopped",
  "audio_end_ms": 0,
  "item_id": "<item_id>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn input_audio_buffer.speech_stopped.
audio_end_ms integer Milliseconden sinds de sessie is gestart toen spraak werd gestopt. Deze eigenschap komt overeen met het einde van de audio die naar het model wordt verzonden en bevat dus de min_silence_duration_ms geconfigureerde in de sessie.
item_id touw De id van het gebruikersberichtitem dat is gemaakt.

rate_limits.updated

De server rate_limits.updated gebeurtenis wordt verzonden aan het begin van een reactie om de bijgewerkte frequentielimieten aan te geven.

Wanneer een antwoord wordt gemaakt, zijn sommige tokens gereserveerd voor de uitvoertokens. De frequentielimieten die hier worden weergegeven, weerspiegelen die reservering, die vervolgens dienovereenkomstig wordt aangepast zodra het antwoord is voltooid.

Gebeurtenisstructuur

{
  "type": "rate_limits.updated",
  "rate_limits": [
    {
      "name": "<name>",
      "limit": 0,
      "remaining": 0,
      "reset_seconds": 0
    }
  ]
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn rate_limits.updated.
limieten voor snelheden matrix van RealtimeRateLimitsItem De lijst met frequentielimietgegevens.

response.audio.delta

De servergebeurtenis response.audio.delta wordt geretourneerd wanneer de door het model gegenereerde audio wordt bijgewerkt.

Gebeurtenisstructuur

{
  "type": "response.audio.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.audio.delta.
response_id touw De id van het antwoord.
item_id touw De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta touw Met Base64 gecodeerde audiogegevens delta.

response.audio.done

De servergebeurtenis response.audio.done wordt geretourneerd wanneer de door het model gegenereerde audio wordt uitgevoerd.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.audio.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.audio.done.
response_id touw De id van het antwoord.
item_id touw De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.

response.audio_transcript.delta

De servergebeurtenis response.audio_transcript.delta wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer wordt bijgewerkt.

Gebeurtenisstructuur

{
  "type": "response.audio_transcript.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.audio_transcript.delta.
response_id touw De id van het antwoord.
item_id touw De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta touw De transcript delta.

response.audio_transcript.done

De servergebeurtenis response.audio_transcript.done wordt geretourneerd wanneer de door het model gegenereerde transcriptie van audio-uitvoer klaar is met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.audio_transcript.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "transcript": "<transcript>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.audio_transcript.done.
response_id touw De id van het antwoord.
item_id touw De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
afschrift touw Het laatste transcript van de audio.

response.function_call_arguments.delta

De servergebeurtenis response.function_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten worden bijgewerkt.

Gebeurtenisstructuur

{
  "type": "response.function_call_arguments.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "call_id": "<call_id>",
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.function_call_arguments.delta.
response_id touw De id van het antwoord.
item_id touw De id van het item van de functie-aanroep.
output_index integer De index van het uitvoeritem in het antwoord.
call_id touw De id van de functie-aanroep.
delta touw De argumenten verschillen als een JSON-tekenreeks.

response.function_call_arguments.done

De servergebeurtenis response.function_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde functie-aanroepargumenten klaar zijn met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.function_call_arguments.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "call_id": "<call_id>",
  "arguments": "<arguments>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.function_call_arguments.done.
response_id touw De id van het antwoord.
item_id touw De id van het item van de functie-aanroep.
output_index integer De index van het uitvoeritem in het antwoord.
call_id touw De id van de functie-aanroep.
arguments touw De laatste argumenten als een JSON-tekenreeks.

mcp_list_tools.in_progress

De servergebeurtenis mcp_list_tools.in_progress wordt geretourneerd wanneer de service begint met het weergeven van beschikbare hulpprogramma's van een mcp-server.

Gebeurtenisstructuur

{
  "type": "mcp_list_tools.in_progress",
  "item_id": "<mcp_list_tools_item_id>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn mcp_list_tools.in_progress.
item_id touw De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

mcp_list_tools.completed

De servergebeurtenis mcp_list_tools.completed wordt geretourneerd wanneer de service de beschikbare hulpprogramma's van een mcp-server heeft voltooid.

Gebeurtenisstructuur

{
  "type": "mcp_list_tools.completed",
  "item_id": "<mcp_list_tools_item_id>"
}
Eigenschappen
Veld Typologie Description
type touw Het gebeurtenistype moet zijn mcp_list_tools.completed.
item_id touw De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

mcp_list_tools.failed

De servergebeurtenis mcp_list_tools.failed wordt geretourneerd wanneer de service de beschikbare hulpprogramma's van een mcp-server niet kan vermelden.

Gebeurtenisstructuur

{
  "type": "mcp_list_tools.failed",
  "item_id": "<mcp_list_tools_item_id>"
}
Eigenschappen
Veld Typologie Description
type touw Het gebeurtenistype moet zijn mcp_list_tools.failed.
item_id touw De id van het hulpprogramma-item voor de MCP-lijst dat wordt verwerkt.

response.mcp_call_arguments.delta

De servergebeurtenis response.mcp_call_arguments.delta wordt geretourneerd wanneer de door het model gegenereerde mcp-hulpprogramma-aanroepargumenten worden bijgewerkt.

Gebeurtenisstructuur

{
  "type": "response.mcp_call_arguments.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.mcp_call_arguments.delta.
response_id touw De id van het antwoord.
item_id touw De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.
delta touw De argumenten verschillen als een JSON-tekenreeks.

response.mcp_call_arguments.done

De servergebeurtenis response.mcp_call_arguments.done wordt geretourneerd wanneer de door het model gegenereerde mcp-hulpprogramma-aanroepargumenten klaar zijn met streamen.

Gebeurtenisstructuur

{
  "type": "response.mcp_call_arguments.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "arguments": "<arguments>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.mcp_call_arguments.done.
response_id touw De id van het antwoord.
item_id touw De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.
arguments touw De laatste argumenten als een JSON-tekenreeks.

response.mcp_call.in_progress

De servergebeurtenis response.mcp_call.in_progress wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep wordt gestart met verwerken.

Gebeurtenisstructuur

{
  "type": "response.mcp_call.in_progress",
  "item_id": "<item_id>",
  "output_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.mcp_call.in_progress.
item_id touw De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.

response.mcp_call.completed

De servergebeurtenis response.mcp_call.completed wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep is voltooid.

Gebeurtenisstructuur

{
  "type": "response.mcp_call.completed",
  "item_id": "<item_id>",
  "output_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.mcp_call.completed.
item_id touw De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.

response.mcp_call.failed

De servergebeurtenis response.mcp_call.failed wordt geretourneerd wanneer een MCP-hulpprogrammaaanroep mislukt.

Gebeurtenisstructuur

{
  "type": "response.mcp_call.failed",
  "item_id": "<item_id>",
  "output_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.mcp_call.failed.
item_id touw De id van het aanroepitem van het mcp-hulpprogramma.
output_index integer De index van het uitvoeritem in het antwoord.

response.output_item.added

De servergebeurtenis response.output_item.added wordt geretourneerd wanneer er een nieuw item wordt gemaakt tijdens het genereren van het antwoord.

Gebeurtenisstructuur

{
  "type": "response.output_item.added",
  "response_id": "<response_id>",
  "output_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.output_item.added.
response_id touw De id van het antwoord waartoe het item behoort.
output_index integer De index van het uitvoeritem in het antwoord.
item RealtimeConversationResponseItem Het item dat is toegevoegd.

response.output_item.done

De servergebeurtenis response.output_item.done wordt geretourneerd wanneer een item klaar is met streamen.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.output_item.done",
  "response_id": "<response_id>",
  "output_index": 0
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.output_item.done.
response_id touw De id van het antwoord waartoe het item behoort.
output_index integer De index van het uitvoeritem in het antwoord.
item RealtimeConversationResponseItem Het item dat is gestreamd.

response.text.delta

De servergebeurtenis response.text.delta wordt geretourneerd wanneer de door het model gegenereerde tekst wordt bijgewerkt. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.

Gebeurtenisstructuur

{
  "type": "response.text.delta",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "delta": "<delta>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.text.delta.
response_id touw De id van het antwoord.
item_id touw De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
delta touw De tekst delta.

response.text.done

De servergebeurtenis response.text.done wordt geretourneerd wanneer de door het model gegenereerde tekst wordt gestreamd. De tekst komt overeen met het text inhoudsgedeelte van een assistentberichtitem.

Deze gebeurtenis wordt ook geretourneerd wanneer een antwoord wordt onderbroken, onvolledig of geannuleerd.

Gebeurtenisstructuur

{
  "type": "response.text.done",
  "response_id": "<response_id>",
  "item_id": "<item_id>",
  "output_index": 0,
  "content_index": 0,
  "text": "<text>"
}

Eigenschappen

Veld Typologie Description
type touw Het gebeurtenistype moet zijn response.text.done.
response_id touw De id van het antwoord.
item_id touw De id van het item.
output_index integer De index van het uitvoeritem in het antwoord.
content_index integer De index van het inhoudsonderdeel in de inhoudsmatrix van het item.
Tekst touw De uiteindelijke tekstinhoud.

Components

Audio-indelingen

Realtime audioformaat

Basisaudio-indeling die wordt gebruikt voor invoeraudio.

Toegestane waarden:

  • pcm16 - 16-bits PCM-audio-indeling
  • g711_ulaw - G.711 μ-law audio-indeling
  • g711_alaw - G.711 A-law audio-indeling

RealtimeOutputAudioFormat

Audio-indeling die wordt gebruikt voor uitvoeraudio met specifieke samplingfrequenties.

Toegestane waarden:

  • pcm16 - 16-bits PCM-audio-indeling met standaardsamplingfrequentie (24kHz)
  • pcm16_8000hz - 16-bits PCM-audio-indeling met een samplingfrequentie van 8 kHz
  • pcm16_16000hz - 16-bits PCM-audio-indeling met een samplingfrequentie van 16kHz
  • g711_ulaw - G.711 μ-law audioformaat (mu-law) met een samplingfrequentie van 8kHz
  • g711_alaw - G.711 A-law audio-indeling bij 8kHz samplingfrequentie

InstellingenVoorRealtimeAudioInputTranscriptie

Configuratie voor audiotranscriptie van invoer.

Veld Typologie Description
model touw Het transcriptiemodel.
Ondersteund met gpt-realtime en gpt-realtime-mini:
whisper-1, gpt-4o-transcribe, gpt-4o-mini-transcribe, gpt-4o-transcribe-diarize
Ondersteund met alle andere modellen en agents: azure-speech
language touw Optionele taalcode in BCP-47 (bijvoorbeeld en-US) of ISO-639-1 (bijvoorbeeld en) of meerdere talen met automatische detectie (bijvoorbeeld en,zh).

Zie ondersteunde talen voor spraak-naar-tekst in Azure voor aanbevolen gebruik van deze instelling.
custom_speech Voorwerp Optionele configuratie voor aangepaste spraakmodellen, alleen geldig voor azure-speech het model.
phrase_list string[] Optionele lijst met woordgroepentips voor herkenning van vooroordelen, alleen geldig voor azure-speech het model.
prompt touw Optionele prompttekst om transcriptie te begeleiden, alleen geldig voor whisper-1, gpt-4o-transcribegpt-4o-mini-transcribe en gpt-4o-transcribe-diarize modellen.

RealtimeInputAudioNoiseReductionSettings

Dit kan het volgende zijn:

RealtimeOpenAINoiseReductie

OpenAI-ruisreductieconfiguratie met expliciet typeveld, alleen beschikbaar voor gpt-realtime en gpt-realtime-mini modellen.

Veld Typologie Description
type touw near_field of far_field

RealtimeAzureDeepNoiseSuppression

Configuratie voor geluidsruisonderdrukking voor invoer.

Veld Typologie Description
type touw Moet "azure_deep_noise_suppression" zijn

RealtimeInputAudioEchoCancellationSettings

Echo-annuleringsconfiguratie voor audioverwerking aan de serverzijde.

Veld Typologie Description
type touw Moet "server_echo_cancellation" zijn

Spraakconfiguratie

RealtimeVoice

Samenvoeging van alle ondersteunde spraakconfiguraties.

Dit kan het volgende zijn:

RealtimeOpenAIVoice

OpenAI-spraakconfiguratie met expliciet typeveld.

Veld Typologie Description
type touw Moet "openai" zijn
naam touw OpenAI-stemnaam: , , , , , alloy, ashballadcoralechosageshimmerversemarincedar

RealtimeAzureVoice

Basis voor Azure-spraakconfiguraties. Dit is een gediscrimineerde samenvoeging met verschillende typen:

RealtimeAzureStandardVoice

Standaard spraakconfiguratie van Azure.

Veld Typologie Description
type touw Moet "azure-standard" zijn
naam touw Spraaknaam (mag niet leeg zijn)
temperatuur nummer Optional. Temperatuur tussen 0,0 en 1.0
custom_lexicon_url touw Optional. URL naar aangepast lexicon
custom_text_normalization_url touw Optional. URL naar aangepaste tekstnormalisatie
prefer_locales string[] Optional. Voorkeurslandinstellingen
Voorkeurslandinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt.
Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locatie touw Optional. Landinstellingenspecificatie
Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel bijvoorbeeld de landinstelling in op en-USTTS, dan gebruikt TTS altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
style touw Optional. Spraakstijl
toonhoogte touw Optional. Aanpassing van pitch
verhouding touw Optional. Aanpassing van spraaksnelheid
volume touw Optional. Volumeaanpassing
RealtimeAzureCustomVoice

Aangepaste spraakconfiguratie van Azure (voorkeur voor aangepaste stemmen).

Veld Typologie Description
type touw Moet "azure-custom" zijn
naam touw Spraaknaam (mag niet leeg zijn)
endpoint_id touw Eindpunt-id (mag niet leeg zijn)
temperatuur nummer Optional. Temperatuur tussen 0,0 en 1.0
custom_lexicon_url touw Optional. URL naar aangepast lexicon
custom_text_normalization_url touw Optional. URL naar aangepaste tekstnormalisatie
prefer_locales string[] Optional. Voorkeurslandinstellingen
Voorkeurslandinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt.
Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locatie touw Optional. Landinstellingenspecificatie
Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel de landinstelling en-USbijvoorbeeld in op TTS, gebruikt altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
style touw Optional. Spraakstijl
toonhoogte touw Optional. Aanpassing van pitch
verhouding touw Optional. Aanpassing van spraaksnelheid
volume touw Optional. Volumeaanpassing

Voorbeeld:

{
  "type": "azure-custom",
  "name": "my-custom-voice",
  "endpoint_id": "12345678-1234-1234-1234-123456789012",
  "temperature": 0.7,
  "style": "cheerful",
  "locale": "en-US"
}
RealtimeAzurePersonalVoice

Persoonlijke spraakconfiguratie van Azure.

Veld Typologie Description
type touw Moet "azure-personal" zijn
naam touw Spraaknaam (mag niet leeg zijn)
temperatuur nummer Optional. Temperatuur tussen 0,0 en 1.0
model touw Onderliggend neuraal model: DragonLatestNeural, PhoenixLatestNeuralPhoenixV2Neural
custom_lexicon_url touw Optional. URL naar aangepast lexicon
custom_text_normalization_url touw Optional. URL naar aangepaste tekstnormalisatie
prefer_locales string[] Optional. Voorkeurslandinstellingen
Voorkeur voor landinstellingen wijzigen de accenten van talen. Als de waarde niet is ingesteld, gebruikt TTS standaardaccent van elke taal. Als TTS bijvoorbeeld Engels spreekt, wordt het Amerikaanse Engelse accent gebruikt. En wanneer u Spaans spreekt, wordt het Mexicaanse Spaanse accent gebruikt.
Als u de prefer_locales ["en-GB", "es-ES"]instelt, is het Engelse accent Brits Engels en is het Spaanse accent Europees Spaans. En TTS kan ook andere talen spreken, zoals Frans, Chinees, enzovoort.
locatie touw Optional. Landinstellingenspecificatie
Dwing de landinstelling af voor TTS-uitvoer. Als dit niet is ingesteld, gebruikt TTS altijd de opgegeven landinstelling om te spreken. Stel de landinstelling en-USbijvoorbeeld in op TTS, gebruikt altijd Amerikaans-Engels accent om de tekstinhoud te spreken, zelfs de tekstinhoud bevindt zich in een andere taal. En TTS zal stilte uitvoeren als de tekstinhoud in het Chinees is.
toonhoogte touw Optional. Aanpassing van pitch
verhouding touw Optional. Aanpassing van spraaksnelheid
volume touw Optional. Volumeaanpassing

Draaidetectie

RealtimeBochtDetectie

Configuratie voor turndetectie. Dit is een gediscrimineerde vereniging die meerdere VAD-typen ondersteunt.

RealtimeServerVAD

Basis-VAD-schakeldetectie.

Veld Typologie Description
type touw Moet "server_vad" zijn
threshold nummer Optional. Activeringsdrempel (0.0-1.0)
prefix_padding_ms integer Optional. Audioopvulling voordat spraak wordt gestart
silence_duration_ms integer Optional. Stilteduur om spraakeinde te detecteren
end_of_utterance_detection RealtimeEOUDetection Optional. Configuratie voor detectie van end-of-utterance
maak_antwoord booleaan Optional. Schakel in of uit of er een antwoord wordt gegenereerd.
onderbrekingsreactie booleaan Optional. Onderbreking van barge in- of uitschakelen (standaard: onwaar)
auto_truncate booleaan Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)
RealtimeOpenAISemanticVAD

OpenAI semantische VAD-configuratie die gebruikmaakt van een model om te bepalen wanneer de gebruiker klaar is met spreken. Alleen beschikbaar voor gpt-realtime en gpt-realtime-mini modellen.

Veld Typologie Description
type touw Moet "semantic_vad" zijn
gretigheid touw Optional. Dit is een manier om te bepalen hoe geneigd het model is om de gebruiker te onderbreken door de maximale wachttijd in te stellen. In de transcriptiemodus, zelfs als het model niet reageert, is dit van invloed op de manier waarop de audio wordt gesegmenteerd.
De volgende waarden zijn toegestaan:
- auto (standaard) is gelijk aan medium,
- low laat de gebruiker de tijd nemen om te spreken,
- high zal de audio zo snel mogelijk in stukken verdelen.

Als u wilt dat het model vaker reageert in de gespreksmodus, of als u sneller transcriptiegebeurtenissen wilt ontvangen in de transcriptiemodus, kunt u het eagerness-niveau instellen op high.
Als u daarentegen de gebruiker ononderbroken wilt laten spreken in de gespreksmodus, of als u grotere transcriptiefragmenten in de transcriptiemodus wilt, kunt u de bereidheid instellen op low.
maak_antwoord booleaan Optional. Schakel in of uit of er een antwoord wordt gegenereerd.
onderbrekingsreactie booleaan Optional. Onderbreking van barge in- of uitschakelen (standaard: onwaar)
RealtimeAzureSemanticVAD

Azure-semantische VAD, die bepaalt wanneer de gebruiker begint en spreekt met behulp van een semantisch spraakmodel, wat robuustere detectie biedt in luidruchtige omgevingen.

Veld Typologie Description
type touw Moet "azure_semantic_vad" zijn
threshold nummer Optional. Activeringsdrempel
prefix_padding_ms integer Optional. Audioopvulling vóór spraak
silence_duration_ms integer Optional. Stilteduur voor spraakeinde
end_of_utterance_detection RealtimeEOUDetection Optional. Configuratie van EOU-detectie
speech_duration_ms integer Optional. Minimale spraakduur
remove_filler_words booleaan Optional. Opvulwoorden verwijderen (standaard: onwaar)
Talen string[] Optional. Ondersteunt Engels. Andere talen worden genegeerd.
maak_antwoord booleaan Optional. Schakel in of uit of er een antwoord wordt gegenereerd.
onderbrekingsreactie booleaan Optional. Onderbreking van barge in- of uitschakelen (standaard: onwaar)
auto_truncate booleaan Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)
RealtimeAzureSemanticVADMulticonfigl

Azure semantische VAD (standaardvariant).

Veld Typologie Description
type touw Moet "azure_semantic_vad_multilingual" zijn
threshold nummer Optional. Activeringsdrempel
prefix_padding_ms integer Optional. Audioopvulling vóór spraak
silence_duration_ms integer Optional. Stilteduur voor spraakeinde
end_of_utterance_detection RealtimeEOUDetection Optional. Configuratie van EOU-detectie
speech_duration_ms integer Optional. Minimale spraakduur
remove_filler_words booleaan Optional. Vulwoorden verwijderen (standaard: onwaar).
Talen string[] Optional. Ondersteunt Engels, Spaans, Frans, Italiaans, Duits (DE), Japans, Portugees, Chinees, Koreaans, Hindi. Andere talen worden genegeerd.
maak_antwoord booleaan Optional. Schakel in of uit of er een antwoord wordt gegenereerd.
onderbrekingsreactie booleaan Optional. Onderbreking van barge in- of uitschakelen (standaard: onwaar)
auto_truncate booleaan Optional. Automatisch afkappen bij onderbreking (standaard: onwaar)

RealtimeEOUDetection

Azure End-of-Utterance (EOU) kan aangeven wanneer de eindgebruiker stopte met spreken terwijl natuurlijke pauzes mogelijk zijn. De detectie van het einde van een uiting kan voortijdige beurt-eind-signalen aanzienlijk verminderen zonder merkbare latentie voor de gebruiker toe te voegen.

Veld Typologie Description
model touw Kan ondersteuning bieden semantic_detection_v1 voor Engels of semantic_detection_v1_multilingual ondersteuning bieden voor Engels, Spaans, Frans, Italiaans, Duits (DE), Japans, Portugees, Chinees, Koreaans, Hindi
threshold_level touw Optional. Detectiedrempelniveau (low, mediumhigh endefault), de standaardwaarde is gelijk aan medium de instelling. Met een lagere instelling is de kans groter dat de zin is voltooid.
timeout_ms (milliseconden) nummer Optional. Maximale tijd in milliseconden om te wachten op meer spraak van de gebruiker. De standaardwaarde is 1000 ms.

Avatarconfiguratie

RealtimeAvatarConfig

Configuratie voor avatarstreaming en gedrag.

Veld Typologie Description
ice_servers RealtimeIceServer[] Optional. ICE-servers voor WebRTC
character touw Tekennaam of id voor de avatar
style touw Optional. Avatarstijl (emotionele toon, spreekstijl)
Aangepaste booleaan Of de avatar is aangepast
video RealtimeVideoParams Optional. Videoconfiguratie
Scène RealtimeAvatarScene Optional. Configuratie voor het zoomniveau, de positie, de draaiing en de bewegingsamplitude van de avatar in het videoframe
output_protocol touw Optional. Outputprotocol voor avatarstreaming. De standaardwaarde is webrtc
output_audit_audio booleaan Optional. Wanneer deze optie is ingeschakeld, stuurt u auditaudio door via WebSocket voor controle-/foutopsporingsdoeleinden, zelfs wanneer avatar-uitvoer wordt geleverd via WebRTC. De standaardwaarde is false

RealtimeIceServer

ICE-serverconfiguratie voor webRTC-verbindingsonderhandeling.

Veld Typologie Description
URLs string[] ICE-server-URL's (TURN- of STUN-eindpunten)
username touw Optional. Gebruikersnaam voor verificatie
credential touw Optional. Referentie voor verificatie

RealtimeVideoParams

Parameters voor videostreaming voor avatar.

Veld Typologie Description
bitrate integer Optional. Bitrate in bits per seconde (standaard: 2000000)
Codec touw Optional. Videocodec, momenteel alleen h264 (standaard: h264)
gewas RealtimeVideoCrop Optional. Instellingen voor bijsnijden
resolutie RealtimeVideoResolution Optional. Oplossingsinstellingen

RealtimeVideoCrop

Definitie van rechthoek bijsnijden van video.

Veld Typologie Description
top_left integer[] Linkerbovenhoek [x, y], niet-negatieve gehele getallen
bottom_right integer[] Rechterbenedenhoek [x, y], niet-negatieve gehele getallen

RealtimeVideoResolution

Specificatie van videoresolutie.

Veld Typologie Description
width integer Breedte in pixels (moet 0 zijn > )
height integer Hoogte in pixels (moet 0 zijn > )

RealtimeAvatarScene

Configuratie voor het zoomniveau, positie, draaiing en bewegingsamplitude van avatar in het videoframe.

Veld Typologie Description
in-/uitzoomen nummer Optional. Zoomniveau van de avatar. Bereik is (0, +∞). Waarden kleiner dan 1 uitzoomen, waarden groter dan 1 inzoomen. De standaardwaarde is 0
position_x nummer Optional. Horizontale positie van de avatar. Bereik is [-1, 1], als een verhouding van de breedte van het frame. Negatieve waarden worden naar links verplaatst, positieve waarden naar rechts gaan. De standaardwaarde is 0
position_y nummer Optional. Verticale positie van de avatar. Bereik is [-1, 1], als een verhouding van de framehoogte. Negatieve waarden worden omhoog verplaatst, positieve waarden omlaag gaan. De standaardwaarde is 0
rotation_x nummer Optional. Draaien rond de X-as (pitch). Het bereik is [-π, π] in radialen. Negatieve waarden draaien omhoog, positieve waarden draaien omlaag. De standaardwaarde is 0
rotation_y nummer Optional. Draaien rond de Y-as (yaw). Het bereik is [-π, π] in radialen. Negatieve waarden draaien links, positieve waarden draaien naar rechts. De standaardwaarde is 0
rotation_z nummer Optional. Draaien rond de Z-as (roll). Het bereik is [-π, π] in radialen. Negatieve waarden draaien anticlockwise, positieve waarden draaien rechtsom. De standaardwaarde is 0
Amplitude nummer Optional. Amplitude van de avatarbeweging. Bereik is (0, 1]. Waarden in (0, 1) gemiddelde verminderde amplitude, 1 betekent volledige amplitude. De standaardwaarde is 0

Animatieconfiguratie

Realtime-animatie

Configuratie voor animatie-uitvoer, waaronder blendshapes en visemes.

Veld Typologie Description
model_name touw Optional. Naam animatiemodel (standaard: "default")
Uitgangen RealtimeAnimationOutputType[] Optional. Uitvoertypen (standaard: ["blendshapes"])

RealtimeAnimationOutputType

Typen animatiegegevens die moeten worden uitgevoerd.

Toegestane waarden:

  • blendshapes - Gegevens van gezichtsmixvormen
  • viseme_id - Gegevens van Viseme-id

Sessieconfiguratie

RealtimeRequestSession

Sessieconfiguratieobject gebruikt in session.update gebeurtenissen.

Veld Typologie Description
model touw Optional. Modelnaam die moet worden gebruikt
Modaliteiten RealtimeModality[] Optional. De ondersteunde modaliteiten voor de sessie.

Zo is 'modaliteiten': ["tekst", "audio"] de standaardinstelling waarmee zowel tekst- als audiomodaliteiten mogelijk zijn. Als u alleen tekst wilt inschakelen, stelt u 'modaliteiten' in: ["text"]. Als u avataruitvoer wilt inschakelen, stelt u 'modaliteiten' in: ["text", "audio", "avatar"]. U kunt alleen audio niet inschakelen.
animatie Realtime-animatie Optional. Animatieconfiguratie
voice RealtimeVoice Optional. Spraakconfiguratie
aanwijzingen touw Optional. Systeeminstructies voor het model. De instructies kunnen de uitvoeraudio begeleiden als OpenAI-stemmen worden gebruikt, maar mogelijk niet van toepassing zijn op Azure-stemmen.
input_audio_sampling_rate integer Optional. Invoergeluidsamplingfrequentie in Hz (standaard: 24000 voor pcm16, 8000 voor g711_ulaw en g711_alaw)
input_audio_format RealtimeAudioFormat Optional. Audio-indeling voor invoer (standaard: pcm16)
output_audio_format RealtimeOutputAudioFormat Optional. Audio-indeling voor uitvoer (standaard: pcm16)
input_audio_noise_reduction RealtimeInputAudioNoiseReductionSettings Configuratie voor geluidsruisonderdrukking voor invoer. Dit kan worden ingesteld op null om uit te schakelen. Ruisreductiefilters verwerken de audio voordat deze aan de invoeraudiobuffer wordt toegevoegd en naar VAD en het model wordt verzonden. Het filteren van de audio kan de VAD verbeteren en de nauwkeurigheid van draaidetectie (fout-positieven verminderen) en modelprestaties verbeteren door de perceptie van de invoeraudio te verbeteren.

Deze eigenschap kan null worden gebruikt.
input_audio_echo_cancellation RealtimeInputAudioEchoCancellationSettings Configuratie voor het annuleren van audio-echo-invoer. Dit kan worden ingesteld op null om uit te schakelen. Deze echoannulering aan de servicezijde kan helpen de kwaliteit van de invoeraudio te verbeteren door de impact van echo en reverberatie te verminderen.

Deze eigenschap kan null worden gebruikt.
input_audio_transcription RealtimeAudioInputTranscriptie-instellingen De configuratie voor audiotranscriptie van invoer. De configuratie is standaard null (uit). Transcriptie van invoeraudio is niet systeemeigen voor het model, omdat het model rechtstreeks audio verbruikt. Transcriptie wordt asynchroon uitgevoerd via het /audio/transcriptions eindpunt en moet worden behandeld als richtlijnen voor invoeraudio-inhoud in plaats van precies wat het model heeft gehoord. Voor aanvullende richtlijnen voor de transcriptieservice kan de client desgewenst de taal instellen en vragen om transcriptie.

Deze eigenschap kan null worden gebruikt.
turn_detection RealtimeTurnDetection De instellingen voor draaidetectie voor de sessie. Dit kan worden ingesteld op null om uit te schakelen.
gereedschappen matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.

Toegestane waarden: auto, noneen required. Anders kunt u de naam opgeven van de functie die u wilt gebruiken.
temperatuur nummer De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

Standaardwaarde is "inf".
inspanning bij redeneren ReasoningEffort Optional. Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg het Azure Foundry-document voor meer informatie. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.
avatar RealtimeAvatarConfig Optional. Avatar-configuratie
output_audio_timestamp_types RealtimeAudioTimestampType[] Optional. Tijdstempeltypen voor uitvoeraudio

RealtimeModality

Ondersteunde sessiemodaliteiten.

Toegestane waarden:

  • text - Tekstinvoer/uitvoer
  • audio - Audio-invoer/-uitvoer
  • animation - Animatie-uitvoer
  • avatar - Avatar video-uitvoer

RealtimeAudioTimestampType

Typen uitvoertijdstempels die worden ondersteund in audioantwoordinhoud.

Toegestane waarden:

  • word - Tijdstempels per woord in de uitvoeraudio

ReasoningEffort

Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg de modeldocumentatie voor ondersteunde waarden voor elk model. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.

Toegestane waarden:

  • none - Geen redeneringsinspanning
  • minimal - Minimale redeneringsinspanning
  • low - Lage redeneringsinspanning - snellere antwoorden met minder redenering
  • medium - Gemiddelde redeneringsinspanning - evenwicht tussen snelheid en redeneringsdiepte
  • high - Hoge redeneringsinspanning - grondigere redenering, kan langer duren
  • xhigh - Extra hoge redeneringsinspanning - maximale redeneringsdiepte

Hulpprogrammaconfiguratie

We ondersteunen twee typen hulpprogramma's: functie-aanroepen en MCP-hulpprogramma's waarmee u verbinding kunt maken met een mcp-server.

RealtimeTool

Hulpprogrammadefinitie voor het aanroepen van functies.

Veld Typologie Description
type touw Moet "function" zijn
naam touw Functienaam
beschrijving touw Richtlijnen voor functiebeschrijving en gebruik
parameters Voorwerp Functieparameters als JSON-schemaobject

RealtimeToolChoice

Strategie voor selectie van hulpprogramma's.

Dit kan het volgende zijn:

  • "auto" - Laat het model kiezen
  • "none" - Gebruik geen hulpprogramma's
  • "required" - Moet een hulpprogramma gebruiken
  • { "type": "function", "name": "function_name" } - Specifieke functie gebruiken

MCPTool

CONFIGURATIE van MCP-hulpprogramma's.

Veld Typologie Description
type touw Moet "mcp" zijn
server_label touw Verplicht. Het label van de MCP-server.
server_url touw Verplicht. De server-URL van de MCP-server.
toegestane_hulpmiddelen string[] Optional. De lijst met toegestane namen van hulpprogramma's. Als dit niet is opgegeven, zijn alle hulpprogramma's toegestaan.
headers Voorwerp Optional. Extra headers die moeten worden opgenomen in MCP-aanvragen.
autorisatie touw Optional. Autorisatietoken voor MCP-aanvragen.
goedkeuring vereist tekenreeks of woordenlijst Optional.
Als deze optie is ingesteld op een tekenreeks, moet de waarde zijn never of always.
Als deze optie is ingesteld op een woordenlijst, moet deze een indeling {"never": ["<tool_name_1>", "<tool_name_2>"], "always": ["<tool_name_3>"]}hebben.
De standaardwaarde is always.
Als dit is ingesteld alwaysop, vereist de uitvoering van het hulpprogramma goedkeuring, wordt mcp_approval_request verzonden naar de client wanneer het mcp-argument is voltooid en wordt alleen uitgevoerd wanneer mcp_approval_response met approve=true is ontvangen.
Wanneer dit is ingesteld never, wordt het hulpprogramma automatisch uitgevoerd zonder goedkeuring.

RealtimeConversationResponseItem

Dit is een samenvoegtype dat een van de volgende opties kan zijn:

RealtimeConversationUserMessageItem

Gebruikersberichtitem.

Veld Typologie Description
identiteitskaart touw De unieke id van het item.
type touw Moet "message" zijn
Voorwerp touw Moet "conversation.item" zijn
rol touw Moet "user" zijn
inhoud RealtimeInputTextContentPart De inhoud van het bericht.
status RealtimeItemStatus De status van het item.

RealtimeConversationAssistantMessageItem

Berichtitem assistent.

Veld Typologie Description
identiteitskaart touw De unieke id van het item.
type touw Moet "message" zijn
Voorwerp touw Moet "conversation.item" zijn
rol touw Moet "assistant" zijn
inhoud RealtimeOutputTextContentPart[] of RealtimeOutputAudioContentPart[] De inhoud van het bericht.
status RealtimeItemStatus De status van het item.

RealtimeConversationSystemMessageItem

Systeemberichtitem.

Veld Typologie Description
identiteitskaart touw De unieke id van het item.
type touw Moet "message" zijn
Voorwerp touw Moet "conversation.item" zijn
rol touw Moet "system" zijn
inhoud RealtimeInputTextContentPart[] De inhoud van het bericht.
status RealtimeItemStatus De status van het item.

RealtimeConversationFunctionCallItem

Aanvraagitem voor functieoproep.

Veld Typologie Description
identiteitskaart touw De unieke id van het item.
type touw Moet "function_call" zijn
Voorwerp touw Moet "conversation.item" zijn
naam touw De naam van de functie die moet worden aangeroepen.
arguments touw De argumenten voor de functie-aanroep als een JSON-tekenreeks.
call_id touw De unieke id van de functie-aanroep.
status RealtimeItemStatus De status van het item.

RealtimeConversationFunctionCallOutputItem

Antwoorditem van functieoproep.

Veld Typologie Description
identiteitskaart touw De unieke id van het item.
type touw Moet "function_call_output" zijn
Voorwerp touw Moet "conversation.item" zijn
naam touw De naam van de functie die is aangeroepen.
output touw De uitvoer van de functie-aanroep.
call_id touw De unieke id van de functie-aanroep.
status RealtimeItemStatus De status van het item.

RealtimeConversationMCPListToolsItem

McP-lijsthulpprogramma's antwoorditem.

Veld Typologie Description
identiteitskaart touw De unieke id van het item.
type touw Moet "mcp_list_tools" zijn
server_label touw Het label van de MCP-server.

RealtimeConversationMCPCallItem

MCP-oproepantwoorditem.

Veld Typologie Description
identiteitskaart touw De unieke id van het item.
type touw Moet "mcp_call" zijn
server_label touw Het label van de MCP-server.
naam touw De naam van het hulpprogramma dat moet worden aangeroepen.
approval_request_id touw De goedkeuringsaanvraag-id voor de MCP-aanroep.
arguments touw De argumenten voor de MCP-aanroep.
output touw De uitvoer van de MCP-aanroep.
fout Voorwerp De foutdetails als de MCP-aanroep is mislukt.

RealtimeConversationMCPApprovalRequestItem

MCP-goedkeuringsaanvraagitem.

Veld Typologie Description
identiteitskaart touw De unieke id van het item.
type touw Moet "mcp_approval_request" zijn
server_label touw Het label van de MCP-server.
naam touw De naam van het hulpprogramma dat moet worden aangeroepen.
arguments touw De argumenten voor de MCP-aanroep.

RealtimeItemStatus

Status van gespreksitems.

Toegestane waarden:

  • in_progress - Momenteel verwerkt
  • completed -Voltooid
  • incomplete - Onvolledig (onderbroken of mislukt)

RealtijdInhoudDeel

Inhoudsonderdeel binnen een bericht.

RealtimeInputTextContentPart

Tekstinhoudsonderdeel.

Veld Typologie Description
type touw Moet "input_text" zijn
Tekst touw De tekstinhoud

RealtimeOutputTextContentPart

Tekstinhoudsonderdeel.

Veld Typologie Description
type touw Moet "text" zijn
Tekst touw De tekstinhoud

RealtimeInputAudioContentPart

Audio-inhoudsonderdeel.

Veld Typologie Description
type touw Moet "input_audio" zijn
audio touw Optional. Met Base64 gecodeerde audiogegevens
afschrift touw Optional. Audiotranscriptie

RealtimeOutputAudioContentPart

Audio-inhoudsonderdeel.

Veld Typologie Description
type touw Moet "audio" zijn
audio touw Met Base64 gecodeerde audiogegevens
afschrift touw Optional. Audiotranscriptie

Antwoordobjecten

RealtimeResponse

Antwoordobject dat een modeldeductieantwoord vertegenwoordigt.

Veld Typologie Description
identiteitskaart touw Optional. Antwoord-id
Voorwerp touw Optional. Altijd "realtime.response"
status RealtimeResponseStatus Optional. Antwoordstatus
statusgegevens RealtimeResponseStatusDetails Optional. Statusgegevens
output RealtimeConversationResponseItem[] Optional. Uitvoeritems
usage RealtimeUsage Optional. Gebruiksstatistieken van tokens
conversation_id touw Optional. Gekoppelde gespreks-id
voice RealtimeVoice Optional. Spraak die wordt gebruikt voor antwoord
Modaliteiten string[] Optional. Gebruikte modaliteiten
output_audio_format RealtimeOutputAudioFormat Optional. Gebruikte audio-indeling
temperatuur nummer Optional. Gebruikte temperatuur
max_response_output_tokens geheel getal of "inf" Optional. Maximum aantal gebruikte tokens

RealtimeResponseStatus

Antwoordstatuswaarden.

Toegestane waarden:

  • in_progress - Antwoord wordt gegenereerd
  • completed - Antwoord is voltooid
  • cancelled - Antwoord is geannuleerd
  • incomplete - Antwoord onvolledig (onderbroken)
  • failed - Antwoord mislukt met fout

RealtimeUsage

Gebruiksstatistieken van tokens.

Veld Typologie Description
total_tokens integer Totaal aantal gebruikte tokens
input_tokens integer Gebruikte invoertokens
output_tokens integer Gegenereerde uitvoertokens
input_token_details TokenDetails Uitsplitsing van invoertokens
output_token_details TokenDetails Uitsplitsing van uitvoertokens

TokenDetails

Gedetailleerde uitsplitsing van tokengebruik.

Veld Typologie Description
cached_tokens integer Optional. Gebruikte tokens in cache
text_tokens integer Optional. Gebruikte teksttokens
audio_tokens integer Optional. Gebruikte audiotokens

Foutafhandeling

RealtimeErrorDetails

Foutinformatieobject.

Veld Typologie Description
type touw Fouttype (bijvoorbeeld "invalid_request_error", "server_error")
code touw Optional. Specifieke foutcode
message touw Beschrijving van door mensen leesbare fout
param touw Optional. Parameter met betrekking tot de fout
event_id touw Optional. Id van de client gebeurtenis die de fout heeft veroorzaakt

RealtimeGespreksVerzoekItem

U gebruikt het RealtimeConversationRequestItem object om een nieuw item in het gesprek te maken via de gebeurtenis conversation.item.create .

Dit is een samenvoegtype dat een van de volgende opties kan zijn:

RealtimeSystemMessageItem

Een systeemberichtitem.

Veld Typologie Description
type touw Het type item.

Toegestane waarden: message
rol touw De rol van het bericht.

Toegestane waarden: system
inhoud matrix van RealtimeInputTextContentPart De inhoud van het bericht.
identiteitskaart touw De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeUserMessageItem

Een gebruikersberichtitem.

Veld Typologie Description
type touw Het type item.

Toegestane waarden: message
rol touw De rol van het bericht.

Toegestane waarden: user
inhoud matrix van RealtimeInputTextContentPart of RealtimeInputAudioContentPart De inhoud van het bericht.
identiteitskaart touw De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeAssistantMessageItem

Een assistentberichtitem.

Veld Typologie Description
type touw Het type item.

Toegestane waarden: message
rol touw De rol van het bericht.

Toegestane waarden: assistant
inhoud matrix van RealtimeOutputTextContentPart De inhoud van het bericht.

RealtimeFunctionCallItem

Een functie-aanroepitem.

Veld Typologie Description
type touw Het type item.

Toegestane waarden: function_call
naam touw De naam van de functie die moet worden aangeroepen.
arguments touw De argumenten van de functie-aanroep als een JSON-tekenreeks.
call_id touw De id van het item van de functie-aanroep.
identiteitskaart touw De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeFunctionCallOutputItem

Een uitvoeritem van een functie-aanroep.

Veld Typologie Description
type touw Het type item.

Toegestane waarden: function_call_output
call_id touw De id van het item van de functie-aanroep.
output touw De uitvoer van de functie-aanroep, dit is een vrije-vormtekenreeks met het functieresultaat, maar kan ook leeg zijn.
identiteitskaart touw De unieke id van het item. Als de client geen id opgeeft, genereert de server er een.

RealtimeMCPApprovalResponseItem

Een MCP-goedkeuringsantwoorditem.

Veld Typologie Description
type touw Het type item.

Toegestane waarden: mcp_approval_response
approve booleaan Of de MCP-aanvraag is goedgekeurd.
approval_request_id touw De id van de MCP-goedkeuringsaanvraag.
identiteitskaart touw De unieke id van het item. De client kan de id opgeven om context aan de serverzijde te beheren. Als de client geen id opgeeft, genereert de server er een.

RealtimeFunctionTool

De definitie van een functiehulpprogramma dat wordt gebruikt door het realtime-eindpunt.

Veld Typologie Description
type touw Het type hulpprogramma.

Toegestane waarden: function
naam touw De naam van de functie.
beschrijving touw De beschrijving van de functie, inclusief gebruiksrichtlijnen. Gebruik deze functie bijvoorbeeld om de huidige tijd op te halen.
parameters Voorwerp De parameters van de functie in de vorm van een JSON-object.

RealtimeItemStatus

Toegestane waarden:

  • in_progress
  • completed
  • incomplete

RealtimeReactieAudioInhoudDeel

Veld Typologie Description
type touw Het type inhoudsonderdeel.

Toegestane waarden: audio
afschrift touw Het transcript van de audio.

Deze eigenschap kan null worden gebruikt.

RealtimeResponseFunctionCallItem

Veld Typologie Description
type touw Het type item.

Toegestane waarden: function_call
naam touw De naam van het item van de functie-aanroep.
call_id touw De id van het item van de functie-aanroep.
arguments touw De argumenten van het functie-aanroepitem.
status RealtimeItemStatus De status van het item.

RealtimeResponseFunctieOproepUitvoerItem

Veld Typologie Description
type touw Het type item.

Toegestane waarden: function_call_output
call_id touw De id van het item van de functie-aanroep.
output touw De uitvoer van het functie-aanroepitem.

RealtimeReactieOpties

Veld Typologie Description
Modaliteiten gegevensreeks De modaliteiten die de sessie ondersteunt.

Toegestane waarden: text, audio

Is bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling die zowel tekst- als audiomodaliteiten mogelijk maakt. Als u alleen tekst wilt inschakelen, stelt u deze in "modalities": ["text"]. U kunt alleen audio niet inschakelen.
aanwijzingen touw De instructies (het systeembericht) om de antwoorden van het model te begeleiden.
voice RealtimeVoice De stem die wordt gebruikt voor het modelantwoord voor de sessie.

Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
gereedschappen matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.
temperatuur nummer De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

Standaardwaarde is "inf".
inspanning bij redeneren ReasoningEffort Optional. Beperkingen voor redenering voor redeneringsmodellen. Raadpleeg de modeldocumentatie voor ondersteunde waarden voor elk model. Het verminderen van redeneringsinspanningen kan leiden tot snellere antwoorden en minder tokens die worden gebruikt voor redenering in een antwoord.
gesprek touw Hiermee bepaalt u aan welk gesprek het antwoord wordt toegevoegd. De ondersteunde waarden zijn auto en none.

De auto waarde (of deze eigenschap niet instellen) zorgt ervoor dat de inhoud van het antwoord wordt toegevoegd aan het standaardgesprek van de sessie.

Stel deze eigenschap in om none een out-of-band-antwoord te maken waarin items niet worden toegevoegd aan het standaardgesprek.

Standaard ingesteld op "auto"
metadata kaart Set van maximaal 16 sleutel-waardeparen die aan een object kunnen worden gekoppeld. Dit kan handig zijn voor het opslaan van aanvullende informatie over het object in een gestructureerde indeling. Sleutels mogen maximaal 64 tekens lang zijn en waarden mogen maximaal 512 tekens lang zijn.

Bijvoorbeeld: metadata: { topic: "classification" }

RealtimeResponseSession

Het RealtimeResponseSession object vertegenwoordigt een sessie in de Realtime-API. Deze wordt gebruikt in een aantal van de server gebeurtenissen, zoals:

Veld Typologie Description
Voorwerp touw Het sessieobject.

Toegestane waarden: realtime.session
identiteitskaart touw De unieke id van de sessie.
model touw Het model dat wordt gebruikt voor de sessie.
Modaliteiten gegevensreeks De modaliteiten die de sessie ondersteunt.

Toegestane waarden: text, audio

Is bijvoorbeeld "modalities": ["text", "audio"] de standaardinstelling die zowel tekst- als audiomodaliteiten mogelijk maakt. Als u alleen tekst wilt inschakelen, stelt u deze in "modalities": ["text"]. U kunt alleen audio niet inschakelen.
aanwijzingen touw De instructies (het systeembericht) om de tekst- en audioreacties van het model te begeleiden.

Hier volgen enkele voorbeelden van instructies voor het begeleiden van inhoud en indeling van tekst- en audioantwoorden:
"instructions": "be succinct"
"instructions": "act friendly"
"instructions": "here are examples of good responses"

Hier volgen enkele voorbeeldinstructies om het audiogedrag te begeleiden:
"instructions": "talk quickly"
"instructions": "inject emotion into your voice"
"instructions": "laugh frequently"

Hoewel het model deze instructies mogelijk niet altijd volgt, bieden ze richtlijnen voor het gewenste gedrag.
voice RealtimeVoice De stem die wordt gebruikt voor het modelantwoord voor de sessie.

Zodra de stem in de sessie wordt gebruikt voor het audioantwoord van het model, kan deze niet meer worden gewijzigd.
input_audio_sampling_rate integer De samplingfrequentie voor de invoeraudio.
input_audio_format RealtimeAudioFormat De indeling voor de invoeraudio.
output_audio_format RealtimeAudioFormat De indeling voor de uitvoeraudio.
input_audio_transcription RealtimeAudioInputTranscriptie-instellingen De instellingen voor transcriptie van audio-invoer.

Deze eigenschap kan null worden gebruikt.
turn_detection RealtimeTurnDetection De instellingen voor draaidetectie voor de sessie.

Deze eigenschap kan null worden gebruikt.
gereedschappen matrix van RealtimeTool De hulpprogramma's die beschikbaar zijn voor het model voor de sessie.
tool_choice RealtimeToolChoice De keuze voor het hulpprogramma voor de sessie.
temperatuur nummer De steekproeftemperatuur voor het model. De toegestane temperatuurwaarden zijn beperkt tot [0,6, 1.2]. De standaardwaarde is 0,8.
max_response_output_tokens geheel getal of "inf" Het maximum aantal uitvoertokens per assistentantwoord, inclusief hulpprogramma-aanroepen.

Geef een geheel getal op tussen 1 en 4096 om de uitvoertokens te beperken. Anders stelt u de waarde in op 'inf' om het maximum aantal tokens toe te staan.

Als u bijvoorbeeld de uitvoertokens wilt beperken tot 1000, stelt u in "max_response_output_tokens": 1000. Als u het maximum aantal tokens wilt toestaan, stelt u het in "max_response_output_tokens": "inf".

Details van de status van realtime reacties

Veld Typologie Description
type RealtimeResponseStatus De status van het antwoord.

RealtimeRateLimitsItem

Veld Typologie Description
naam touw De eigenschapsnaam van de frequentielimiet waarover dit item informatie bevat.
limit integer De maximaal geconfigureerde limiet voor deze eigenschap voor frequentielimiet.
resterend integer Het resterende quotum dat beschikbaar is voor de geconfigureerde limiet voor deze frequentielimieteigenschap.
reset_seconden nummer De resterende tijd, in seconden, totdat deze frequentielimieteigenschap opnieuw wordt ingesteld.