Interfejs API głosu na żywo dla agentów głosowych w czasie rzeczywistym (wersja zapoznawcza)

2025-07-10

Uwaga / Notatka

Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie jest zalecana w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą nie być obsługiwane lub mogą mieć ograniczone możliwości. Aby uzyskać więcej informacji, zobacz Warunki dodatkowe korzystania z testowych wersji Microsoft Azure.

Co to jest głosowe API na żywo?

Interfejs API głosowy na żywo to rozwiązanie umożliwiające interakcje głosowe z niskim opóźnieniem i wysoką jakością dla agentów głosowych. Interfejs API jest przeznaczony dla deweloperów poszukujących skalowalnych i wydajnych środowisk opartych na głosach, ponieważ eliminuje konieczność ręcznego organizowania wielu składników. Dzięki integracji funkcji rozpoznawania mowy, generatywnej sztucznej inteligencji i zamiany tekstu na mowę w jeden, ujednolicony interfejs zapewnia kompleksowe rozwiązanie do tworzenia spójnych doświadczeń.

Zrozumienie doświadczeń związanych z przekształcaniem mowy na mowę

Technologia mowy zrewolucjonizuje sposób interakcji ludzi z systemami, oferując intuicyjne rozwiązania oparte na głosach. Tradycyjne implementacje polegają na połączeniu różnych modułów, takich jak zamiana mowy na tekst, rozpoznawanie intencji, zarządzanie oknami dialogowymi, zamiana tekstu na mowę i nie tylko. Takie łączenie może prowadzić do zwiększenia złożoności inżynieryjnej i opóźnienia postrzeganego przez użytkownika końcowego.

Dzięki postępom w wielkich modelach językowych (LLMs) i wielomodalnej sztucznej inteligencji, interfejs API na żywo głosowy konsoliduje te funkcje, upraszczając przepływy pracy dla deweloperów. Takie podejście zwiększa interakcje w czasie rzeczywistym i zapewnia wysoką jakość, naturalną komunikację, dzięki czemu jest odpowiedni dla branż wymagających natychmiastowych rozwiązań z obsługą głosu.

Kluczowe scenariusze dotyczące interfejsu API na żywo głosowego

Interfejs API usługi głosu w czasie rzeczywistym Azure AI jest idealny w scenariuszach, w których interakcje głosowe zwiększają doświadczenie użytkownika. Oto kilka przykładów:

Centra kontaktów: opracowywanie interaktywnych botów głosowych na potrzeby obsługi klienta, nawigacji katalogu produktów i rozwiązań samoobsługowych.
Asystentzy motoryzacyjni: włącz asystentów głosowych bez rąk, w samochodzie na potrzeby wykonywania poleceń, nawigacji i ogólnych zapytań.
Edukacja: Twórz towarzysze nauki z obsługą głosu i wirtualne nauczyciele na potrzeby interaktywnego szkolenia i edukacji.
Usługi publiczne: twórz agentów głosowych, aby pomóc obywatelom w zakresie zapytań administracyjnych i informacji o usługach publicznych.
Kadry: ulepszanie procesów kadr za pomocą narzędzi obsługujących głos na potrzeby wsparcia pracowników, rozwoju kariery i szkoleń.

Funkcje API do głosowej transmisji na żywo

Interfejs API na żywo głosowy zawiera kompleksowy zestaw funkcji do obsługi różnych przypadków użycia i zapewnia lepszą interakcję głosową:

Szerokie pokrycie ustawień regionalnych: obsługuje ponad 15 ustawień regionalnych na potrzeby przekształcania mowy na tekst i oferuje ponad 600 standardowych głosów w ponad 140 ustawieniach regionalnych na potrzeby przekształcania tekstu na mowę w celu zapewnienia globalnej dostępności.
Dostosowywalne dane wejściowe i wyjściowe: użyj listy fraz do lekkiej personalizacji na bieżąco w danych wejściowych audio. Użyj niestandardowego głosu, aby utworzyć unikatowe, dopasowane do marki głosy dla wyjściowego dźwięku.
Elastyczne opcje modelu generowania sztucznej inteligencji: wybierz spośród wielu modeli, w tym GPT-4o, GPT-4o-mini i Phi, dostosowane do wymagań konwersacyjnych.
Zaawansowane funkcje konwersacyjne:
- Tłumienie szumu: zmniejsza hałas w środowisku w celu jaśniejszej komunikacji.
- Anulowanie echa: uniemożliwia agentowi pobieranie własnych odpowiedzi.
- Niezawodne wykrywanie przerw: zapewnia dokładne rozpoznawanie przerw podczas konwersacji.
- Zaawansowane wykrywanie końca obrotu: umożliwia naturalne przerwy bez przedwczesnego zakończenia interakcji.
Integracja awatara: zapewnia standardowe lub dostosowywalne awatary zsynchronizowane z danymi wyjściowymi audio, oferując tożsamość wizualną agentów głosowych.
Wywoływanie funkcji: umożliwia wykonywanie akcji zewnętrznych, korzystanie z narzędzi i uzyskiwanie solidnych odpowiedzi przy użyciu wzorca VoiceRAG.

Jak to działa

Interfejs API głosowy na żywo jest w pełni zarządzany, eliminując potrzebę obsługi orkiestracji zaplecza czy integracji komponentów. Deweloperzy udostępniają dane wejściowe audio i odbierają dane wyjściowe audio, wizualizacje awatara i wyzwalacze akcji — wszystkie z minimalnym opóźnieniem. Nie musisz wdrażać ani zarządzać żadnymi modelami generacyjnymi sztucznej inteligencji, ponieważ interfejs API obsługuje całą podstawową infrastrukturę.

Projektowanie i zgodność interfejsu API

Interfejs API głosu na żywo został zaprojektowany pod kątem zgodności z interfejsem API usługi Azure OpenAI Realtime. Obsługiwane zdarzenia w czasie rzeczywistym są w większości zgodne z zdarzeniami interfejsu API usługi Azure OpenAI Realtime, z pewnymi wyjątkami opisanymi w przewodniku o używaniu głosowego interfejsu API na żywo.

Funkcje unikatowe dla interfejsu API głosowego na żywo są zaprojektowane tak, aby były opcjonalne i dodatkowe. Do istniejących aplikacji można dodawać funkcje usługi Azure AI Speech, takie jak tłumienie szumów, anulowanie echa i zaawansowane wykrywanie końca tury, bez konieczności zmieniania istniejącej architektury.

API jest obsługiwane za pomocą zdarzeń protokołu WebSocket, co umożliwia łatwą integrację serwer-serwer. Usługa zaplecza lub warstwy środkowej łączy się z głosowym interfejsem API na żywo za pośrednictwem protokołu WebSocket. Komunikaty protokołu WebSocket można używać bezpośrednio do interakcji z interfejsem API.

Obsługiwane modele i regiony

Aby inteligencja Twojego agenta głosowego działała skutecznie, masz elastyczność i możliwość wyboru modelu generatywnej sztucznej inteligencji spośród GPT-4o, GPT-4o-mini i Phi. Różne modele generowania sztucznej inteligencji zapewniają różne typy możliwości, poziomy inteligencji, szybkość/opóźnienie wnioskowania i koszt. W zależności od tego, co ma największe znaczenie dla Twojej firmy i przypadku użycia, możesz wybrać model, który najlepiej odpowiada Twoim potrzebom.

Wszystkie natywnie obsługiwane modele — GPT-4o, GPT-4o-mini i Phi — są w pełni zarządzane, co oznacza, że nie trzeba wdrażać modeli, martwić się o planowanie pojemności lub aprowizowanie przepływności. Możesz użyć potrzebnego modelu, a interfejs API głosu na żywo zajmie się resztą.

Interfejs API głosu na żywo obsługuje następujące modele. Aby uzyskać informacje o obsługiwanych regionach, zobacz regiony usługi Azure AI Speech.

Model	Opis
`gpt-4o-realtime-preview`	GPT-4o w czasie rzeczywistym i opcja używania tekstu platformy Azure do rozpoznawania mowy głosów, w tym głosu niestandardowego na potrzeby dźwięku.
`gpt-4o-mini-realtime-preview`	GPT-4o mini w czasie rzeczywistym i opcja używania tekstu platformy Azure do mowy głosów, w tym głosu niestandardowego dla dźwięku.
`gpt-4o`	GPT-4o + wejściowe audio przekształcane na tekst za pomocą Azure + wyjściowe audio przekształcane na mowę za pomocą głosów Azure, w tym głosów niestandardowych.
`gpt-4o-mini`	GPT-4o mini + wejście audio przez Azure Speech to Text + wyjście audio przez Azure Text to Speech, w tym głos niestandardowy.
`gpt-4.1`	GPT-4.1 + wejście audio za pośrednictwem Azure Speech-to-Text + wyjście audio poprzez Azure Text-to-Speech, w tym głosy niestandardowe.
`gpt-4.1-mini`	GPT-4.1 mini + wejście audio poprzez Azure Speech to Text + wyjście audio poprzez Azure Text to Speech, w tym głosu niestandardowego.
`gpt-4.1-nano`	Wejściowe audio GPT-4.1 nano za pomocą Azure speech to text + wyjściowe audio za pomocą Azure text to speech, w tym głos niestandardowy.
`phi4-mm-realtime`	Dane wyjściowe Phi4-mm + audio za pośrednictwem tekstu platformy Azure do głosów mowy, w tym głosu niestandardowego.
`phi4-mini`	Phi4-mm + dane wejściowe audio za pośrednictwem mowy platformy Azure do tekstu i dźwięku za pośrednictwem tekstu platformy Azure do głosów mowy, w tym głosu niestandardowego.

Porównanie API głosowego na żywo z innymi rozwiązaniami przekształcającymi mowę na mowę

Interfejs API głosu na żywo jest alternatywą dla koordynowania wielu składników, takich jak rozpoznawanie mowy, generatywna sztuczna inteligencja i zamiana tekstu na mowę. Orkiestracja może być złożona i czasochłonna, co wymaga znacznego nakładu pracy inżynieryjnej w celu zintegrowania i konserwacji. API do obsługi głosu na żywo upraszcza ten proces, udostępniając jeden interfejs dla wszystkich tych składników, co pozwala deweloperom skupić się na tworzeniu aplikacji zamiast zarządzania podstawową infrastrukturą.

Aby spełnić wymagania, możesz utworzyć własne rozwiązanie lub użyć interfejsu API na żywo głosowego. Ta tabela porównuje podejścia:

Wymaganie dotyczące aplikacji	Zrób to samodzielnie	Interfejs API na żywo głosowy
Szeroka obsługa lokalizacji z wysoką dokładnością (dźwiękowe wejście)	✅	✅
Zachowaj osobowość marki i osobowość postaci (wyjście audio)	✅	✅
Ulepszenia konwersacyjne	❌	✅
Wybór modeli generacyjnych sztucznej inteligencji	✅	✅
Wizualne dane wyjściowe z awatarem do syntezy mowy	✅	✅
Niski koszt inżynierii	❌	✅
Małe opóźnienia postrzegane przez użytkownika końcowego	❌	✅

Ceny

Opłaty za głosowe API live obowiązują od 1 lipca 2025 r.

Ceny dla interfejsu API głosowego na żywo są zróżnicowane (Pro, Basic i Lite) w zależności od używanego modelu generatywnej sztucznej inteligencji.

Nie wybierasz poziomu. Wybierasz generatywny model AI, a odpowiednia cena ma zastosowanie.

Kategoria cennika	Modele
Voice Live Pro	`gpt-4o-realtime-preview`, `gpt-4o`, `gpt-4.1`
Podstawowa wersja Voice Live	`gpt-4o-mini-realtime-preview`, `gpt-4o-mini`, `gpt-4.1-mini`
Voice live lite	`gpt-4.1-nano`, `phi4-mm-realtime`, `phi4-mini`

Jeśli zdecydujesz się używać niestandardowego głosu do generowania mowy, opłaty za trenowanie i hostowanie niestandardowego modelu głosu są naliczane osobno. Aby uzyskać szczegółowe informacje, zapoznaj się z cennikiem Zamiana tekstu na mowę — Custom Voice — Professional . Głos niestandardowy jest funkcją o ograniczonym dostępie. Dowiedz się więcej na temat tworzenia niestandardowych głosów.

Awatary są naliczane oddzielnie z cennikiem interaktywnego awatara opublikowanego tutaj.

Aby uzyskać więcej informacji na temat zasad naliczania opłat za trenowanie niestandardowego głosu i awatara, zapoznaj się z tą notą cenową.

Przykładowe scenariusze cenowe

Oto kilka przykładowych scenariuszy cenowych, które ułatwiają zrozumienie sposobu naliczania opłat za interfejs API na żywo za głos:

Scenariusz 1

Agent obsługi klienta utworzony przy użyciu standardowych danych wejściowych usługi Azure AI Speech, GPT-4.1, niestandardowych danych wyjściowych usługi Azure AI Speech i niestandardowego awatara.

Opłaty są naliczane według stawki Live Voice Pro za:

Tekst
Dźwięk z usługą Azure AI Speech — Standardowa
Dźwięk przy użyciu usługi Azure AI Speech – dostosowany.

Opłaty są naliczane oddzielnie za szkolenie i hosting modelu:

Głos niestandardowy — profesjonalny
Niestandardowy awatar

Scenariusz 2

Agent szkoleniowy utworzony przy użyciu gpt-4o-realtime-preview natywnych danych wejściowych audio i standardowych danych wyjściowych usługi Azure AI Speech.

Opłaty są naliczane za głosową stawkę pro za:

Tekst
Natywny dźwięk z gpt-4o-realtime-preview
Dźwięk z usługą Azure AI Speech — Standardowa

Scenariusz 3

Agent do rozmów z talentami zbudowany z użyciem gpt-4o-mini-realtime-preview natywnych danych wejściowych audio, standardowego wyjścia mowy Azure AI i standardowego awatara.

Opłaty są naliczane według podstawowej stawki za połączenia głosowe na żywo za:

Tekst
Natywny dźwięk z gpt-4o-mini-realtime-preview
Dźwięk z usługą Azure AI Speech — Standardowa

Opłaty są naliczane oddzielnie za:

Awatar tekst-na-mowę (standardowy)

Scenariusz 4

Asystent w samochodzie zbudowany przy użyciu phi4-mm-realtime i niestandardowego głosu Azure.

Opłata jest naliczana według taryfy Voice Live Lite za:

Tekst
Natywny dźwięk z phi4-mm-realtime

Opłaty są naliczane według stawki Voice Live Pro za:

Dźwięk przy użyciu usługi Azure AI Speech – dostosowany.

Opłaty są naliczane oddzielnie za szkolenie i hosting modelu:

Głos niestandardowy — profesjonalny

Użycie tokenu i szacowanie kosztów

Tokeny to jednostki, które generujące modele sztucznej inteligencji używają do przetwarzania danych wejściowych i generowania danych wyjściowych. 

Użycie tokenu dla różnych rodzin modeli można oszacować przy użyciu interfejsu API na żywo głosowego na podstawie długości dźwięku. Następujące obliczenia tokenu mają zastosowanie do każdej rodziny modeli:

Rodzina modeli	Dźwięk wejściowy (tokeny na sekundę)	Dźwięk wyjściowy (tokeny na sekundę)
Modele usługi Azure OpenAI	~10 tokenów	~20 tokenów
Modele Phi	Ok. 12,5 tokenów	~20 tokenów

Opłaty są również naliczane za buforowane dane wejściowe audio i tekstowe, w tym monit i kontekst konwersacji.

Dowiedz się więcej o sposobie korzystania z interfejsu API na żywo głosowego
Wypróbuj szybki start głosowego API na żywo
Zobacz dokumentację zdarzeń audio