Udostępnij za pomocą


Interfejs API głosu na żywo dla agentów głosowych w czasie rzeczywistym

Co to jest interfejs API do obsługi głosu na żywo?

Interfejs API na żywo to rozwiązanie umożliwiające interakcje mowa-mowa z niewielkimi opóźnieniami i wysoką jakością dla agentów głosowych. Interfejs API jest przeznaczony dla deweloperów poszukujących skalowalnych i wydajnych środowisk opartych na głosach, ponieważ eliminuje konieczność ręcznego organizowania wielu składników. Dzięki integracji funkcji rozpoznawania mowy, generatywnej sztucznej inteligencji i zamiany tekstu na mowę w jeden, ujednolicony interfejs zapewnia kompleksowe rozwiązanie do tworzenia spójnych doświadczeń.

Zrozumienie doświadczeń związanych z przekształcaniem mowy na mowę

Technologia mowy zrewolucjonizuje sposób interakcji ludzi z systemami, oferując intuicyjne rozwiązania oparte na głosach. Tradycyjne implementacje polegają na połączeniu różnych modułów, takich jak zamiana mowy na tekst, zarządzanie oknami dialogowymi, zamiana tekstu na mowę i nie tylko. Takie łączenie może prowadzić do zwiększenia złożoności inżynieryjnej i opóźnienia postrzeganego przez użytkownika końcowego.

Dzięki postępom w dużych modelach językowych (LLMs) i wielomodalnej sztucznej inteligencji, interfejs API Voice na żywo konsoliduje te funkcje, upraszczając przepływy pracy dla deweloperów. Takie podejście zwiększa interakcje w czasie rzeczywistym i zapewnia wysoką jakość, naturalną komunikację, dzięki czemu jest odpowiedni dla branż wymagających natychmiastowych rozwiązań z obsługą głosu.

Kluczowe scenariusze dotyczące interfejsu API na żywo głosowego

Interfejs API usługi Azure AI Voice w czasie rzeczywistym jest idealny w scenariuszach, w których interakcje głosowe poprawiają doświadczenie użytkownika. Oto kilka przykładów:

  • Centra kontaktów: opracowywanie interaktywnych botów głosowych na potrzeby obsługi klienta, nawigacji katalogu produktów i rozwiązań samoobsługowych.
  • Asystentzy motoryzacyjni: włącz asystentów głosowych bez rąk, w samochodzie na potrzeby wykonywania poleceń, nawigacji i ogólnych zapytań.
  • Edukacja: Twórz towarzysze nauki z obsługą głosu i wirtualne nauczyciele na potrzeby interaktywnego szkolenia i edukacji.
  • Usługi publiczne: twórz agentów głosowych, aby pomóc obywatelom w zakresie zapytań administracyjnych i informacji o usługach publicznych.
  • Kadry: ulepszanie procesów kadr za pomocą narzędzi obsługujących głos na potrzeby wsparcia pracowników, rozwoju kariery i szkoleń.

Funkcje interfejsu API głosu na żywo

Interfejs API na żywo głosowy zawiera kompleksowy zestaw funkcji obsługujących różne przypadki użycia i zapewniających doskonałe interakcje głosowe.

  • Szerokie pokrycie ustawień regionalnych: obsługuje ponad 140 ustawień regionalnych na potrzeby zamiany mowy na tekst i oferuje ponad 600 standardowych głosów w ponad 150 ustawieniach regionalnych na potrzeby zamiany tekstu na mowę, zapewniając globalną dostępność.
  • Dostosowywalne dane wejściowe i wyjściowe: użyj listy fraz do lekkiego dostosowywania na żądanie w przypadku danych wejściowych audio lub niestandardowych modeli mowy do zaawansowanego dostrajania rozpoznawania mowy. Użyj niestandardowego głosu, aby utworzyć unikatowe, dopasowane do marki głosy dla wyjściowego dźwięku. Aby dowiedzieć się więcej, zobacz Jak dostosować głosowe dane wejściowe i wyjściowe na żywo .
  • Elastyczne opcje modelu generowania sztucznej inteligencji: wybierz spośród wielu modeli, w tym GPT-5, GPT-4.1, GPT-4o, Phi i bardziej dostosowanych do wymagań konwersacyjnych.
  • Zaawansowane funkcje konwersacyjne:
    • Tłumienie szumu: zmniejsza hałas w środowisku w celu jaśniejszej komunikacji.
    • Anulowanie echa: uniemożliwia agentowi pobieranie własnych odpowiedzi.
    • Niezawodne wykrywanie przerw: zapewnia dokładne rozpoznawanie przerw podczas konwersacji.
    • Zaawansowane wykrywanie końca obrotu: umożliwia naturalne przerwy bez przedwczesnego zakończenia interakcji.
  • Integracja awatara: zapewnia standardowe lub dostosowywalne awatary zsynchronizowane z danymi wyjściowymi audio, oferując tożsamość wizualną agentów głosowych.
  • Wywoływanie funkcji: umożliwia wykonywanie akcji zewnętrznych, korzystanie z narzędzi i uzyskiwanie solidnych odpowiedzi przy użyciu wzorca VoiceRAG.

Jak to działa

Voice API na żywo jest w pełni zarządzane, eliminując konieczność zarządzania orkiestracją backendu lub integracją komponentów. Deweloperzy udostępniają dane wejściowe audio i odbierają dane wyjściowe audio, wizualizacje awatara i wyzwalacze akcji — wszystkie z minimalnym opóźnieniem. Nie musisz wdrażać ani zarządzać żadnymi modelami generacyjnymi sztucznej inteligencji, ponieważ interfejs API obsługuje podstawową infrastrukturę.

Projektowanie i zgodność interfejsu API

Interfejs API Voice na żywo został zaprojektowany pod kątem zgodności z interfejsem API Azure OpenAI Realtime. Obsługiwane zdarzenia w czasie rzeczywistym są w większości zgodne z zdarzeniami interfejsu API Azure OpenAI Realtime, z pewnymi wyjątkami opisanymi w przewodniku dotyczącym interfejsu API Voice Live.

Funkcje unikatowe dla Voice Live API zostały zaprojektowane jako opcjonalne i dodatkowe. Możesz dodać Azure Speech do funkcji Foundry Tools, takich jak tłumienie szumu, anulowanie echa i zaawansowane wykrywanie końca wypowiedzi w istniejących aplikacjach bez konieczności zmiany istniejącej architektury.

API jest obsługiwane za pomocą zdarzeń protokołu WebSocket, co umożliwia łatwą integrację serwer-serwer. Usługa zaplecza lub warstwy środkowej łączy się z interfejsem API na żywo Voice za pośrednictwem WebSocketów. Komunikaty protokołu WebSocket można używać bezpośrednio do interakcji z interfejsem API.

Obsługiwane modele i regiony

Aby zapewnić inteligencję agenta głosowego, masz elastyczność i wybór w modelu generowania sztucznej inteligencji między GPT-Realtime, GPT-5, GPT-4.1, Phi i inne opcje. Różne modele generowania sztucznej inteligencji zapewniają różne typy możliwości, poziomy inteligencji, szybkość/opóźnienie wnioskowania i koszt. W zależności od tego, co ma największe znaczenie dla Twojej firmy i przypadku użycia, możesz wybrać model, który najlepiej odpowiada Twoim potrzebom.

Wszystkie natywnie obsługiwane modele są w pełni zarządzane, co oznacza, że nie trzeba wdrażać modeli, martwić się o planowanie pojemności lub aprowizację przepływności. Możesz użyć potrzebnego modelu, a Voice Live API zajmuje się resztą.

API live Voice obsługuje następujące modele. Aby uzyskać informacje o obsługiwanych regionach, zobacz regiony usługi Azure Speech.

Model Opis
gpt-realtime Funkcja GPT w czasie rzeczywistym oraz opcja używania głosów platformy Azure do syntezowania mowy, w tym głosów niestandardowych dla audio.
gpt-realtime-mini GPT mini real-time + opcja używania głosów w usłudze Azure do syntezowania mowy, w tym niestandardowego głosu dla audio.
gpt-4o GPT-4o + wejściowe audio przekształcane na tekst za pomocą Azure + wyjściowe audio przekształcane na mowę za pomocą głosów Azure, w tym głosów niestandardowych.
gpt-4o-mini GPT-4o mini + wejście audio przez Azure Speech to Text + wyjście audio przez Azure Text to Speech, w tym głos niestandardowy.
gpt-4.1 GPT-4.1 + wejście audio za pośrednictwem Azure Speech-to-Text + wyjście audio poprzez Azure Text-to-Speech, w tym głosy niestandardowe.
gpt-4.1-mini GPT-4.1 mini + wejście audio poprzez Azure Speech to Text + wyjście audio poprzez Azure Text to Speech, w tym głosu niestandardowego.
gpt-5 GPT-5 + wejście audio przez funkcję zamiany mowy na tekst platformy Azure + wyjście audio przez głosy lektorskie platformy Azure, w tym opcje głosów niestandardowych.
gpt-5-mini GPT-5 mini + wejście audio przez Azure Speech to Text + wyjście audio przez Azure Text to Speech, w tym z możliwością użycia głosów niestandardowych.
gpt-5-nano Dane wejściowe audio GPT-5 nano za pomocą usługi Azure Speech to Text oraz dane wyjściowe audio generowane za pomocą usługi Azure Text to Speech, w tym z wykorzystaniem niestandardowych głosów.
gpt-5-chat Chat GPT-5 + wejście audio przez konwersję mowy na tekst Azure + wyjście audio za pomocą głosów tekst-na-mowę Azure, w tym głosów niestandardowych.
phi4-mm-realtime Dane wyjściowe Phi4-mm + audio za pośrednictwem tekstu platformy Azure do głosów mowy, w tym głosu niestandardowego.
phi4-mini Phi4-mm + dane wejściowe audio za pośrednictwem mowy platformy Azure do tekstu i dźwięku za pośrednictwem tekstu platformy Azure do głosów mowy, w tym głosu niestandardowego.

Porównanie Voice Live API z innymi rozwiązaniami mowy na mowę

Interfejs API głosu na żywo to alternatywa dla organizowania wielu składników, takich jak rozpoznawanie mowy, generowanie sztucznej inteligencji i zamiana tekstu na mowę. Orkiestracja może być złożona i czasochłonna, co wymaga znacznego nakładu pracy inżynieryjnej w celu zintegrowania i konserwacji. Interfejs API głosu na żywo upraszcza ten proces, udostępniając jeden interfejs dla wszystkich tych składników, co pozwala deweloperom skupić się na tworzeniu aplikacji, a nie zarządzaniu podstawową infrastrukturą.

Aby spełnić wymagania, możesz utworzyć własne rozwiązanie lub użyć interfejsu API voice live. Ta tabela porównuje podejścia:

Wymaganie dotyczące aplikacji Zrób to samodzielnie Interfejs API na żywo głosowy
Szeroka obsługa lokalizacji z wysoką dokładnością (dźwiękowe wejście)
Zachowaj osobowość marki i osobowość postaci (wyjście audio)
Ulepszenia konwersacyjne
Wybór modeli generacyjnych sztucznej inteligencji
Wizualne dane wyjściowe z awatarem do syntezy mowy
Niski koszt inżynierii
Małe opóźnienia postrzegane przez użytkownika końcowego

Ceny

Ceny Voice API na żywo obowiązują od 1 lipca 2025 r.

Cennik głosowego interfejsu API na żywo jest warstwowy (Pro, Basic i Lite) i oparty na używanym modelu generatywnej sztucznej inteligencji.

Nie wybierasz poziomu. Wybierasz generatywny model AI, a odpowiednia cena ma zastosowanie.

Kategoria cennika Modele
Voice Live Pro gpt-realtime, , gpt-4o, gpt-4.1, , gpt-5gpt-5-chat
Podstawowa wersja Voice Live gpt-realtime-mini, , gpt-4o-mini, , gpt-4.1-minigpt-5-mini
Voice live lite gpt-5-nano,phi4-mm-realtime, phi4-mini

Jeśli zdecydujesz się używać niestandardowej mowy, niestandardowego głosu lub niestandardowego awatara dla danych wejściowych i/lub wyjściowych mowy, opłaty są naliczane oddzielnie na potrzeby trenowania i hostowania modelu. Aby uzyskać szczegółowe informacje, zapoznaj się z cennikiem usług Speech Services .

Ważne

Niestandardowy dostęp głosowy jest ograniczony na podstawie kryteriów uprawnień i użycia. Zażądaj dostępu w formularzu do wprowadzania.

Ważne

Dostęp niestandardowego tekstu do awatara mowy jest ograniczony na podstawie kryteriów uprawnień i użycia. Zażądaj dostępu w formularzu do wprowadzania.

Przykładowe scenariusze cenowe

Oto kilka przykładowych scenariuszy cenowych, które ułatwiają zrozumienie sposobu naliczania opłat za interfejs API głosowy na żywo:

Scenariusz 1

Agent obsługi klienta utworzony przy użyciu standardowych danych wejściowych usługi Azure Speech, GPT-4.1, niestandardowych danych wyjściowych usługi Azure Speech i niestandardowego awatara.

Opłaty są naliczane według stawki Live Voice Pro za:

  • Tekst
  • Dźwięk za pomocą usługi Azure Speech — Standardowa
  • Dźwięk z usługą Azure Speech - dostosowane

Opłaty są naliczane oddzielnie za szkolenie i hosting modelu:

  • Głos niestandardowy — profesjonalny
  • Niestandardowy awatar

Scenariusz 2

Agent szkoleniowy utworzony przy użyciu gpt-realtime natywnego wejścia audio i standardowego wyjścia usługi Azure Speech.

Opłaty są naliczane według stawki Live Voice Pro za:

  • Tekst
  • Natywny dźwięk z gpt-realtime
  • Dźwięk za pomocą usługi Azure Speech — Standardowa

Scenariusz 3

Agent do przeprowadzania wywiadów z talentami wykorzystujący gpt-realtime-mini natywne wejście audio oraz standardowe wyjście Azure Speech i standardowy awatar.

Opłaty są naliczane według podstawowej stawki za połączenia głosowe na żywo za:

  • Tekst
  • Natywny dźwięk z gpt-realtime-mini
  • Dźwięk za pomocą usługi Azure Speech — Standardowa

Opłaty są naliczane oddzielnie za:

  • Awatar tekst-na-mowę (standardowy)

Scenariusz 4

Asystent w samochodzie zbudowany przy użyciu phi4-mm-realtime i niestandardowego głosu Azure.

Opłata jest naliczana według taryfy Voice Live Lite za:

  • Tekst
  • Natywny dźwięk z phi4-mm-realtime

Opłaty są naliczane według stawki Live Voice Pro za:

  • Dźwięk z usługą Azure Speech — dostosowane

Opłaty są naliczane oddzielnie za szkolenie i hosting modelu:

  • Głos niestandardowy — profesjonalny

Użycie tokenu i szacowanie kosztów

Tokeny to jednostki, które generujące modele sztucznej inteligencji używają do przetwarzania danych wejściowych i generowania danych wyjściowych. 

Można oszacować zużycie tokenów dla różnych rodzin modeli za pomocą Voice live API w oparciu o długość nagrania. Następujące obliczenia tokenu mają zastosowanie do każdej rodziny modeli:

Rodzina modeli Dźwięk wejściowy (tokeny na sekundę) Dźwięk wyjściowy (tokeny na sekundę)
Modele usługi Azure OpenAI ~10 tokenów ~20 tokenów
Modele Phi Ok. 12,5 tokenów ~20 tokenów

Opłaty są również naliczane za buforowane dane wejściowe audio i tekstowe, w tym monit i kontekst konwersacji.