Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Wat is de Voice Live-API?
De Voice Live-API is een oplossing waarmee spraak-naar-spraak-interacties van hoge kwaliteit met lage latentie voor spraakagenten mogelijk zijn. De API is ontworpen voor ontwikkelaars die op zoek zijn naar schaalbare en efficiënte spraakgestuurde ervaringen, omdat het niet meer nodig is om meerdere onderdelen handmatig te organiseren. Door spraakherkenning, generatieve AI en tekst-naar-spraak-functionaliteiten te integreren in één geïntegreerde interface, biedt het een end-to-end oplossing voor het creëren van naadloze ervaringen.
De Voice Live API wordt volledig beheerd, dus u hoeft de orkestratie van de back-end of integratie van onderdelen niet te verzorgen. Ontwikkelaars bieden audio-invoer en ontvangen audio-uitvoer, avatarafbeeldingen en actietriggers, allemaal met minimale vertraging. U hoeft geen generatieve AI-modellen te implementeren of te beheren, omdat de API de onderliggende infrastructuur afhandelt.
Spraak-naar-spraak-ervaringen begrijpen
Spraak-naar-spraaktechnologie is een revolutie in de manier waarop mensen met systemen communiceren en intuïtieve oplossingen op basis van spraak bieden. Traditionele implementaties zijn betrokken bij het combineren van verschillende modules, zoals spraak-naar-tekst, dialoogvensterbeheer, tekst-naar-spraak en meer. Dergelijke ketening kan leiden tot een grotere technische complexiteit en waargenomen latentie door eindgebruikers.
Met verbeteringen in grote taalmodellen (LLM's) en multimodale AI consolideert de Voice Live-API deze functies, waardoor werkstromen voor ontwikkelaars worden vereenvoudigd. Deze aanpak verbetert realtime interacties en zorgt voor hoogwaardige, natuurlijke communicatie, waardoor deze geschikt is voor industrieën die directe, spraakgerichte oplossingen vereisen.
Belangrijke scenario's voor Voice Live-API
Azure AI Voice Live-API is ideaal voor scenario's waarin spraakgestuurde interacties de gebruikerservaring verbeteren. Voorbeelden zijn:
- Contactcenters: Ontwikkel interactieve spraakbots voor klantondersteuning, productcatalogusnavigatie en selfserviceoplossingen.
- Autoassistenten: Maak hands-free, spraakassistenten in de auto mogelijk voor opdrachtuitvoering, navigatie en algemene vragen.
- Onderwijs: Het creëren van spraakgestuurde leerassistenten en virtuele docenten voor interactieve training en educatie.
- Openbare diensten: bouw stemagenten om burgers te helpen met administratieve query's en informatie over openbare diensten.
- Human resources: Verbeter HR-processen met spraakfuncties voor ondersteuning van werknemers, carrièreontwikkeling en training.
Functies van de Voice Live-API
De Voice Live-API bevat een uitgebreide set functies ter ondersteuning van diverse gebruiksvoorbeelden en zorgt voor superieure spraakinteracties:
- Bij grote regionale dekking: ondersteunt meer dan 140 talen voor spraak-naar-tekst en biedt meer dan 600 standaardstemmen in meer dan 150 talen voor tekst-naar-spraak, wat wereldwijde toegankelijkheid waarborgt.
- Aanpasbare invoer en uitvoer: gebruik een woordgroepenlijst voor eenvoudige Just-In-Time-aanpassing van audio-invoer of aangepaste spraakmodellen voor geavanceerde afstemming van spraakherkenning. Gebruik aangepaste stem om unieke, merkgerichte stemmen te maken voor audio-uitvoer. Zie Voice Live-invoer en -uitvoer aanpassen voor meer informatie.
- Flexibele generatieve AI-modelopties: Kies uit meerdere modellen, waaronder GPT-5, GPT-4.1, GPT-4o, Phi en meer afgestemd op gespreksvereisten.
-
Geavanceerde gespreksfuncties:
- Ruisonderdrukking: vermindert omgevingsgeluiden voor duidelijkere communicatie.
- Echo-annulering: hiermee voorkomt u dat de agent zijn eigen antwoorden ophaalt.
- Robuuste onderbrekingsdetectie: zorgt voor nauwkeurige herkenning van onderbrekingen tijdens gesprekken.
- Geavanceerde detectie van einde beurt: staat natuurlijke pauzes toe zonder de interacties voortijdig af te sluiten.
- Avatar-integratie: biedt standaard- of aanpasbare avatars die zijn gesynchroniseerd met audio-uitvoer, met een visuele identiteit voor spraakagenten.
- Functie aanroepen: maakt externe acties, het gebruik van hulpprogramma's en geaarde antwoorden mogelijk met behulp van het VoiceRAG-patroon.
API-ontwerp en -compatibiliteit
De Voice Live-API is ontworpen voor compatibiliteit met de Azure OpenAI Realtime-API. De ondersteunde realtimegebeurtenissen komen meestal overeen met de Azure OpenAI Realtime API-gebeurtenissen, met enkele uitzonderingen die worden beschreven in de Voice Live-API die u moet begeleiden.
Functies die uniek zijn voor de Voice Live-API zijn optioneel en additief. U kunt Azure Speech in Foundry Tools-mogelijkheden toevoegen, zoals ruisonderdrukking, echoannulering en geavanceerde end-of-turn detectie voor uw bestaande toepassingen zonder uw bestaande architectuur te wijzigen.
De API wordt ondersteund via WebSocket-gebeurtenissen, waardoor een eenvoudige server-naar-server-integratie mogelijk is. Uw back-end- of middelste service maakt verbinding met de Voice Live-API via WebSockets. U kunt de WebSocket-berichten rechtstreeks gebruiken om te communiceren met de API.
Ondersteunde modellen en regio's
Als u de intelligentie van uw spraakagent wilt inschakelen, hebt u flexibiliteit en keuze in het generatieve AI-model tussen GPT-Realtime, GPT-5, GPT-4.1, Phi en meer opties. Verschillende generatieve AI-modellen bieden verschillende soorten mogelijkheden, intelligentieniveaus, snelheid en latentie van deductie en kosten. Afhankelijk van wat het belangrijkst is voor uw bedrijf en use-case, kiest u het model dat het beste bij uw behoeften past.
Alle systeemeigen ondersteunde modellen worden volledig beheerd, dus u hoeft geen modellen te implementeren, zich zorgen te maken over capaciteitsplanning of doorvoer in te richten. Gebruik het model dat u nodig hebt en de Voice Live-API zorgt voor de rest.
De Voice Live-API ondersteunt de volgende modellen. Zie de Azure Speech-serviceregio's voor ondersteunde regio's.
| Modelleren | Beschrijving |
|---|---|
gpt-realtime |
GPT realtime + optie om Azure-tekst te gebruiken voor spraakstemmen, inclusief aangepaste stem voor audio. |
gpt-realtime-mini |
GPT mini realtime + optie om Azure-tekst te gebruiken voor spraakstemmen, inclusief aangepaste stem voor audio. |
gpt-4o |
GPT-4o + audio-invoer via Azure-spraak naar tekst + audio-uitvoer via Azure-tekst naar spraakstemmen, inclusief aangepaste stem. |
gpt-4o-mini |
GPT-4o mini + audio-invoer via Azure spraak naar tekst + audio-uitvoer via Azure-tekst naar spraakstemmen, inclusief aangepaste stem. |
gpt-4.1 |
GPT-4.1 + audio-invoer via Azure spraak naar tekst + audio-uitvoer via Azure-tekst naar spraakstemmen, inclusief aangepaste stem. |
gpt-4.1-mini |
GPT-4.1 mini + audio-invoer via Azure-spraak naar tekst en audio-uitvoer via Azure-tekst naar spraakstemmen, inclusief aangepaste stem. |
gpt-5 |
GPT-5 + audio-invoer via Azure-spraak naar tekst + audio-uitvoer via Azure-tekst naar spraakstemmen, inclusief aangepaste stem. |
gpt-5-mini |
GPT-5 mini + audio-invoer via Azure spraak-naar-tekst + audio-uitvoer via Azure tekst-naar-spraakstemmen, inclusief aangepaste stemmen. |
gpt-5-nano |
GPT-5 nano + audio-invoer via Azure-spraak naar tekst + audio-uitvoer via Azure-tekst-naar-spraakstemmen, inclusief aangepaste stem. |
gpt-5-chat |
GPT-5 chat + audio-invoer via Azure spraak-naar-tekst + audio-uitvoer via Azure tekst-naar-spraakstemmen, inclusief aangepaste stemmen. |
phi4-mm-realtime |
Phi4-mm + audio-uitvoer via Azure-tekst naar spraakstemmen, inclusief aangepaste stem. |
phi4-mini |
Phi4-mm + audio-invoer via Azure-spraak naar tekst + audio-uitvoer via Azure-tekst naar spraakstemmen, inclusief aangepaste stem. |
Voice Live-API vergelijken met andere spraak-naar-spraak-oplossingen
De Voice Live-API is een alternatief voor het organiseren van meerdere onderdelen, zoals spraakherkenning, generatieve AI en tekst naar spraak. Deze indeling kan complex en tijdrovend zijn, waarvoor aanzienlijke technische inspanningen nodig zijn om te integreren en te onderhouden. De Voice Live-API vereenvoudigt dit proces door één interface te bieden voor al deze onderdelen. Ontwikkelaars kunnen zich richten op het bouwen van hun toepassingen in plaats van de onderliggende infrastructuur te beheren.
Om aan uw vereisten te voldoen, kunt u uw eigen oplossing bouwen of de Voice Live-API gebruiken. In deze tabel worden de benaderingen vergeleken:
| Toepassingsvereiste | Doe het zelf | Voice Live API |
|---|---|---|
| Brede lokale dekking met hoge nauwkeurigheid (invoer via audio) | ✅ | ✅ |
| Merk- en karakterpersoonlijkheid behouden (audio-uitvoer) | ✅ | ✅ |
| Verbeteringen in gesprekken | ❌ | ✅ |
| Keuze uit generatieve AI-modellen | ✅ | ✅ |
| Visuele uitvoer met tekst-naar-spraak-avatar | ✅ | ✅ |
| Lage technische kosten | ❌ | ✅ |
| Lage latentie waargenomen door eindgebruiker | ❌ | ✅ |
Prijsstelling
De prijzen voor de Voice Live-API worden van kracht op 1 juli 2025.
Prijzen voor de Voice Live-API zijn gelaagd (Pro, Basic en Lite) op basis van het gebruikte generatieve AI-model. Je selecteert geen niveau. U kiest een generatief AI-model en de bijbehorende prijzen zijn van toepassing:
| Prijscategorie | Modellen |
|---|---|
| Voice Live Pro |
gpt-realtime
gpt-4o, gpt-4.1, gpt-5gpt-5-chat |
| Voice Live Basis |
gpt-realtime-mini,gpt-4o-mini,gpt-4.1-mini,gpt-5-mini |
| Voice Live Lite |
gpt-5-nano,phi4-mm-realtime, phi4-mini |
Als u ervoor kiest om aangepaste spraak, aangepaste stem of een aangepaste avatar te gebruiken voor uw spraakinvoer of -uitvoer, worden er afzonderlijk kosten in rekening gebracht voor modeltraining en hosting. Raadpleeg de prijzen van Speech Services voor meer informatie.
Belangrijk
Aangepaste spraaktoegang is beperkt op basis van geschiktheids- en gebruikscriteria. Vraag toegang aan op het intakeformulier.
Belangrijk
Aangepaste tekst-naar-spraak-avatartoegang is beperkt op basis van geschiktheids- en gebruikscriteria. Vraag toegang aan op het intakeformulier.
Voorbeeld van prijsscenario's
Hier volgen enkele voorbeelden van prijsscenario's om inzicht te krijgen in de kosten van de Voice Live-API:
Scenario 1
Een klantenserviceagent die is gebouwd met standaard Azure Speech-invoer, GPT-4.1, aangepaste Azure Speech-uitvoer en een aangepaste avatar.
Er worden kosten in rekening gebracht tegen het tarief van Voice Live Pro voor:
- Tekst
- Audio met Azure Speech - Standard
- Audio met Azure Speech - Op maat gemaakte
Er worden afzonderlijke kosten in rekening gebracht voor de training en modelhosting van:
- Aangepaste stem – professioneel
- Aangepaste avatar
Scenario 2
Een leeragent die is gebouwd met gpt-realtime systeemeigen audio-invoer en standaard Azure Speech-uitvoer.
Er worden kosten in rekening gebracht tegen het tarief van Voice Live Pro voor:
- Tekst
- Systeemeigen audio met
gpt-realtime - Audio met Azure Speech - Standard
Scenario 3
Een talentinterviewagent gebouwd met gpt-realtime-mini systeemeigen audio-invoer, standaard Azure Speech-uitvoer en een standaard avatar.
Er worden kosten in rekening gebracht tegen het basistarief van Voice Live voor:
- Tekst
- Systeemeigen audio met
gpt-realtime-mini - Audio met Azure Speech - Standard
Er worden afzonderlijke kosten in rekening gebracht voor:
- Avatar voor tekst naar spraak (standaard)
Scenario 4
Een assistent in de auto die is gebouwd met phi4-mm-realtime en aangepaste spraak van Azure.
Er worden kosten in rekening gebracht tegen het Voice Live Lite-tarief voor:
- Tekst
- Systeemeigen audio met
phi4-mm-realtime
Er worden kosten in rekening gebracht tegen het tarief van Voice Live Pro voor:
- Audio met Azure Speech - Op maat gemaakte
Er worden afzonderlijke kosten in rekening gebracht voor de training en modelhosting van:
- Aangepaste stem – professioneel
Tokengebruik en kostenraming
Tokens zijn de eenheden die generatieve AI-modellen gebruiken om invoer te verwerken en uitvoer te genereren.
U kunt het tokengebruik schatten voor verschillende modelfamilies met de Voice Live-API op basis van de audiolengte. De volgende tokenberekeningen zijn van toepassing op elke modelfamilie:
| Modelfamilie | Invoeraudio (tokens per seconde) | Uitvoeraudio (tokens per seconde) |
|---|---|---|
| Azure OpenAI-modellen | ~10 tokens | ~20 tokens |
| Phi-modellen | ~12,5 tokens | ~20 tokens |
Er worden ook kosten in rekening gebracht voor audio- en tekstinvoer in de cache, inclusief de prompt en de context van de gesprekken.
Verwante inhoud
- Meer informatie over het gebruik van de Voice Live-API
- Probeer de Voice Live API quickstart
- Zie de Voice Live API-referentie