Sdílet prostřednictvím


Rozhraní VOICE Live API pro hlasové agenty v reálném čase

Co je rozhraní VOICE Live API?

Rozhraní VOICE Live API je řešení, které umožňuje interakce hlasových agentů s nízkou latencí a vysokou kvalitou řeči na řeč. Rozhraní API je navržené pro vývojáře, kteří hledají škálovatelné a efektivní prostředí řízené hlasem, protože eliminuje nutnost ruční orchestrace více komponent. Díky integraci rozpoznávání řeči, generování umělé inteligence a funkcí převodu textu na řeč do jednoho sjednoceného rozhraní poskytuje ucelené řešení pro vytváření bezproblémových prostředí.

Rozhraní VOICE Live API je plně spravované, takže nemusíte zpracovávat orchestraci back-endu ani integraci komponent. Vývojáři poskytují zvukový vstup a přijímají zvukový výstup, vizuály avatarů a triggery akcí – to vše s minimální latencí. Nemusíte nasazovat ani spravovat žádné modely generování AI, protože rozhraní API zpracovává základní infrastrukturu.

Pochopit zkušenosti s převodem řeči na řeč

Technologie převodu řeči na řeč mění způsob interakce lidí se systémy a nabízí intuitivní hlasová řešení. Tradiční implementace zahrnovaly kombinování různorodých modulů, jako jsou převod řeči na text, správa dialogových oken, převod textu na řeč a další. Takové řetězení může vést ke zvýšené technické složitosti a k vnímanému zpoždění pro koncového uživatele.

Díky pokroku ve velkých jazykových modelech (LLM) a multimodální umělé inteligenci rozhraní API služby Voice Live tyto funkce slučuje a zjednodušuje pracovní postupy pro vývojáře. Tento přístup vylepšuje interakce v reálném čase a zajišťuje vysoce kvalitní, přirozenou komunikaci, díky čemuž je vhodná pro odvětví vyžadující okamžitá řešení s podporou hlasu.

Klíčové scénáře pro rozhraní Voice Live API

Rozhraní AZURE AI Voice Live API je ideální pro scénáře, kdy hlasové interakce zlepšují uživatelské prostředí. Mezi příklady patří:

  • Kontaktní centra: Vývoj interaktivních hlasových robotů pro zákaznickou podporu, navigaci v katalogu produktů a samoobslužná řešení.
  • Automobilový asistenti: Povolte hands-free hlasové asistenty v autě pro spouštění příkazů, navigaci a obecné dotazy.
  • Vzdělávání: Pro interaktivní školení a vzdělávání můžete vytvářet doprovodné materiály a virtuální vyučující s podporou hlasu.
  • Veřejné služby: Vytváření hlasových agentů, kteří budou občanům pomáhat se správními dotazy a informacemi o veřejných službách.
  • Lidské zdroje: Vylepšete procesy personálního oddělení pomocí hlasových nástrojů pro podporu zaměstnanců, rozvoj kariéry a školení.

Funkce rozhraní Voice Live API

Rozhraní Voice Live API obsahuje komplexní sadu funkcí pro podporu různých případů použití a zajištění vynikajících hlasových interakcí:

  • Široké pokrytí národního prostředí: Podporuje více než 140 národních prostředí pro převod řeči na text a nabízí více než 600 standardních hlasů ve více než 150 národních prostředích pro převod textu na řeč a zajišťuje globální přístupnost.
  • Přizpůsobitelný vstup a výstup: Pomocí seznamu frází můžete snadno přizpůsobit vstup zvuku nebo vlastní modely řeči pro pokročilé vyladění rozpoznávání řeči. Pomocí vlastního hlasu vytvářejte jedinečné hlasy sladěné se značkou pro zvukový výstup. Další informace najdete v tématu Přizpůsobení hlasového vstupu a výstupu.
  • Flexibilní možnosti generujícího modelu AI: Vyberte si z více modelů, včetně GPT-5, GPT-4.1, GPT-4o, Phi a více přizpůsobených konverzačním požadavkům.
  • Pokročilé konverzační funkce:
    • Potlačení šumu: Snižuje šum prostředí pro jasnější komunikaci.
    • Potlačení ozvěny: Zabrání agentovi v zachytávání vlastních odpovědí.
    • Robustní detekce přerušení: Zajišťuje přesné rozpoznávání přerušení během konverzací.
    • Pokročilá detekce konce otáčení: Umožňuje přirozené pozastavení bez předčasného uzavření interakcí.
  • Integrace avataru: Poskytuje standardní nebo přizpůsobitelné avatary synchronizované se zvukovým výstupem a nabízí vizuální identitu pro hlasové agenty.
  • Volání funkcí: Umožňuje externí akce, používání nástrojů a uzemněné odpovědi pomocí vzoru VoiceRAG.

Návrh a kompatibilita rozhraní API

Rozhraní VOICE Live API je navržené pro kompatibilitu s rozhraním API Azure OpenAI v reálném čase. Podporované události v reálném čase většinou odpovídají událostem rozhraní API v reálném čase Azure OpenAI, s některými výjimkami popsanými v průvodci Voice Live API.

Funkce, které jsou jedinečné pro rozhraní VOICE Live API, jsou volitelné a doplňkové. Do stávajících aplikací můžete přidat funkce Azure Speech in Foundry Tools, jako je potlačení šumu, zrušení ozvěny a pokročilé zjišťování ukončení změn, aniž byste změnili stávající architekturu.

Rozhraní API se podporuje prostřednictvím událostí Protokolu WebSocket, což umožňuje snadnou integraci mezi servery. Vaše back-endová služba nebo služba střední vrstvy se připojuje k rozhraní VOICE Live API přes webSockety. Zprávy Protokolu WebSocket můžete použít přímo k interakci s rozhraním API.

Podporované modely a oblasti

Pro zvýšení inteligence hlasového agenta máte flexibilitu a volbu v generativním modelu AI mezi GPT-Realtime, GPT-5, GPT-4.1, Phi a dalšími možnostmi. Různé modely generující umělou inteligenci poskytují různé typy funkcí, úrovně inteligentních funkcí, rychlost a latenci odvozování a nákladů. V závislosti na tom, co je nejdůležitější pro váš obchodní případ a případ použití, zvolte model, který nejlépe vyhovuje vašim potřebám.

Všechny nativně podporované modely jsou plně spravované, takže nemusíte nasazovat modely, starat se o plánování kapacity nebo zřídit propustnost. Použijte model, který potřebujete, a rozhraní VOICE Live API se postará o zbytek.

Rozhraní VOICE Live API podporuje následující modely. Podporované oblasti najdete v oblastech služby Azure Speech.

Vzor Popis
gpt-realtime GPT v režimu reálného času + možnost použití hlasů Azure pro převod textu na řeč, včetně vlastního hlasu pro zvuk.
gpt-realtime-mini GPT mini v reálném čase + možnost používat hlasy Azure Text-to-Speech, včetně vlastního hlasu k vytváření zvukového obsahu.
gpt-4o GPT-4o + hlasový vstup prostřednictvím Azure Speech to Text + zvukový výstup prostřednictvím Azure Text to Speech, včetně možnosti vlastních hlasů.
gpt-4o-mini GPT-4o mini + zvukový vstup přes přepisy z Azure řeči na text + zvukový výstup pomocí Azure převodu textu na řeč, včetně možnosti vlastního hlasu.
gpt-4.1 GPT-4.1 + hlasový vstup prostřednictvím Azure Speech to Text + zvukový výstup prostřednictvím Azure Text to Speech hlasů včetně vlastního hlasu.
gpt-4.1-mini GPT-4.1 mini + audio vstup prostřednictvím Azure přepis řeči na text + zvukový výstup prostřednictvím Azure text na řeč a zahrnuje vlastní hlas.
gpt-5 GPT-5 + zvukový vstup prostřednictvím Azure převodu řeči na text + zvukový výstup prostřednictvím Azure převodu textu na hlas, včetně možnosti vlastního hlasu.
gpt-5-mini GPT-5 mini + zvukový vstup prostřednictvím převodu řeči Azure na text + zvukový výstup prostřednictvím převodu textu Azure na řeč včetně vlastního hlasu.
gpt-5-nano GPT-5 nano + hlasový vstup prostřednictvím Řeč na text pomocí Azure + audio výstup s využitím hlasů Azure včetně přizpůsobeného hlasu.
gpt-5-chat GPT-5 chat + hlasový vstup prostřednictvím Azure Speech to Text + zvukový výstup prostřednictvím Azure Text to Speech, včetně vlastního hlasu.
phi4-mm-realtime Phi4-mm + zvukový výstup prostřednictvím hlasů Azure pro převod textu na řeč, včetně vlastního hlasu.
phi4-mini Phi4-mm + hlasový vstup prostřednictvím Azure Speech to Text + zvukový výstup prostřednictvím Azure Text to Speech, včetně vlastního hlasu.

Porovnání rozhraní Voice Live API s jinými řešeními pro převod řeči na řeč

Rozhraní VOICE Live API je alternativou k orchestraci více komponent, jako je rozpoznávání řeči, generování umělé inteligence a převod textu na řeč. Tato orchestrace může být složitá a časově náročná, což vyžaduje významné technické úsilí k integraci a údržbě. Rozhraní VOICE Live API tento proces zjednodušuje tím, že poskytuje jediné rozhraní pro všechny tyto komponenty. Vývojáři se můžou soustředit na vytváření svých aplikací a ne na správu základní infrastruktury.

Abyste splnili své požadavky, můžete buď vytvořit vlastní řešení, nebo použít rozhraní VOICE Live API. Tato tabulka porovnává přístupy:

Požadavek na aplikaci Udělejte to sami Hlasové živé rozhraní API
Široké pokrytí národního prostředí s vysokou přesností (zvukový vstup)
Zachování osobnosti značky a znaku (zvukový výstup)
Konverzační vylepšení
Volba generativních modelů umělé inteligence
Vizuální výstup s avatarem pro převod textu na řeč
Nízké technické náklady
Nízká latence vnímaná koncovým uživatelem

Cenotvorba

Ceny rozhraní VOICE Live API se projeví 1. července 2025.

Ceny rozhraní VOICE Live API jsou vrstvené (Pro, Basic a Lite) na základě použitého modelu generování AI. Nevyberete úroveň. Zvolíte generativní model umělé inteligence a použijí se odpovídající cenové podmínky.

Cenová kategorie Modely
Voice Live Pro gpt-realtime, gpt-4o, gpt-4.1, , gpt-5gpt-5-chat
Voice Live základní gpt-realtime-mini, gpt-4o-mini, , gpt-4.1-minigpt-5-mini
Voice Live lite gpt-5-nano,phi4-mm-realtime, phi4-mini

Pokud se rozhodnete pro vstup nebo výstup řeči používat vlastní řeč, vlastní hlas nebo vlastní avatar, účtují se vám poplatky za trénování a hostování modelů zvlášť. Podrobnosti najdete v cenách služeb Speech .

Důležité

Vlastní hlasový přístup je omezený na základě způsobilosti a kritérií použití. Požádejte o přístup ve formuláři pro příjem.

Důležité

Vlastní text na přístup avatara řeči je omezený na základě kritérií způsobilosti a použití. Požádejte o přístup ve formuláři pro příjem.

Příklady cenových scénářů

Tady je několik ukázkových cenových scénářů, které vám pomůžou pochopit, jak se rozhraní Voice Live API účtuje:

Scénář 1

Agent zákaznických služeb vytvořený se standardním vstupem Azure Speech, GPT-4.1, vlastním výstupem služby Azure Speech a vlastním avatarem.

Poplatky se vám účtují podle tarifu Voice Live pro:

  • Text
  • Zvuk s využitím Služby Azure Speech – Standard
  • Zvuk s využitím Služby Azure Speech – vlastní

Za trénování a hostování modelů se vám účtují zvlášť tyto poplatky:

  • Vlastní hlas – profesionální
  • Vlastní avatar

Scénář 2

Výukový agent vytvořený s nativním zvukovým vstupem a standardním gpt-realtime výstupem Azure Speech.

Poplatky se vám účtují podle tarifu Voice Live pro:

  • Text
  • Nativní zvuk s využitím gpt-realtime
  • Zvuk s využitím Služby Azure Speech – Standard

Scénář 3

Talent interview agent vytvořený s nativním zvukovým vstupem a standardním výstupem gpt-realtime-mini Azure Speech a standardním avatarem.

Naúčtujete vám základní sazbu služby Voice Live za:

  • Text
  • Nativní zvuk s využitím gpt-realtime-mini
  • Zvuk s využitím Služby Azure Speech – Standard

Účtují se vám zvlášť tyto poplatky:

  • Avatar převodu textu na řeč (standardní)

Scénář 4

Asistent v autě, vytvořený s phi4-mm-realtime a vlastní hlasovou technologií Azure.

Poplatky se vám účtují podle tarifu Voice Live lite za:

  • Text
  • Nativní zvuk s využitím phi4-mm-realtime

Poplatky se vám účtují podle tarifu Voice Live pro:

  • Zvuk s využitím Služby Azure Speech – vlastní

Za trénování a hostování modelů se vám účtují zvlášť tyto poplatky:

  • Vlastní hlas – profesionální

Odhad využití tokenů a nákladů

Tokeny jsou jednotky, které generativní modely AI používají ke zpracování vstupu a generování výstupu. 

Využití tokenů můžete odhadnout pro různé modelové rodiny s rozhraním VOICE Live API na základě délky zvuku. Následující výpočty tokenů platí pro každou řadu modelů:

Modelová rodina Vstupní zvuk (tokeny za sekundu) Výstupní zvuk (tokeny za sekundu)
Modely Azure OpenAI ~10 tokenů ~20 tokenů
Modely Phi ~12,5 tokenů ~20 tokenů

Za uložené zvukové a textové vstupy v mezipaměti jsou vám také účtovány poplatky, včetně zadání a kontextu konverzací.