@azure/ai-voicelive package

Klasy

VoiceLiveAuthenticationError	Klasa błędu uwierzytelniania dla operacji Voice Live
VoiceLiveClient	Klient VoiceLive zapewnia zarządzanie sesjami dla możliwości konwersacyjnej AI w czasie rzeczywistym. Ten klient działa jako fabryka do tworzenia instancji VoiceLiveSession, które obsługują rzeczywiste połączenia WebSocket oraz interakcje w czasie rzeczywistym z usługą.
VoiceLiveConnectionError	Podstawowa klasa błędu dla operacji Voice Live WebSocket
VoiceLiveError	Ogólna klasa błędu Voice Live
VoiceLiveProtocolError	Klasa błędu protokołu dla operacji wiadomości na żywo w Voice Live
VoiceLiveSession	Reprezentuje sesję opartą na WebSocket do komunikacji głosowej w czasie rzeczywistym z usługą Azure VoiceLive. Ten kurs zarządza połączeniem, obsługuje komunikację w czasie rzeczywistym i zapewnia dostęp do wszystkich interaktywnych funkcji, w tym streamingu audio, zarządzania rozmowami oraz kontroli awatarów.

Interfejsów

AgentConfig	Konfiguracja dla agenta.
AgentSessionConfig	Konfiguracja tworzenia sesji z agentem jako głównym aktorem AI. Podczas korzystania z sesji agenta konfiguracja agenta (narzędzia, instrukcje, temperatura itp.) jest zarządzana w portalu Foundry, a nie w kodzie sesji.
Animation	Konfiguracja wyjść animacji, w tym metadane blendshape'ów i wizemów.
AssistantMessageItem	Wiadomość asystenta w ramach rozmowy.
AudioEchoCancellation	Konfiguracja anulowania echa na potrzeby przetwarzania dźwięku po stronie serwera.
AudioInputTranscriptionOptions	Konfiguracja transkrypcji dźwięku wejściowego.
AudioNoiseReduction	Konfiguracja redukcji szumu dźwięku wejściowego.
AudioStreamOptions
AvatarConfig	Konfiguracja streamingu awatara oraz zachowanie podczas sesji.
AzureCustomVoice	Azure custom voice configuration.
AzurePersonalVoice	Konfiguracja osobistego głosu platformy Azure.
AzureSemanticDetection	Wykrywanie końca wypowiedzi platformy Azure (ustawienie domyślne).
AzureSemanticDetectionEn	Azure semantic end-of-utterance detection (English-optimized).
AzureSemanticDetectionMultilingual	Azure semantic end-of-utterance detection (multilingual).
AzureSemanticVad	Server Speech Detection (Azure semantic VAD, domyślny wariant).
AzureSemanticVadEn	Server Speech Detection (Azure semantic VAD, tylko po angielsku).
AzureSemanticVadMultilingual	Server Speech Detection (Azure semantic VAD).
AzureStandardVoice	Standardowa konfiguracja głosu platformy Azure.
AzureVoice	Podstawowe informacje na potrzeby konfiguracji głosowych platformy Azure.
Background	Definiuje tło wideo, zarówno w jednolitym kolorze, jak i w postaci URL obrazu (wzajemnie wykluczające się).
CachedTokenDetails	Szczegóły dotyczące wykorzystania tokenów wyjściowych.
ClientEvent	Wydarzenie dla klienta Voicelive.
ClientEventConversationItemCreate	Dodaj nowy element do kontekstu rozmowy, w tym wiadomości, wywołania funkcji oraz odpowiedzi na wywołania funkcji. To zdarzenie może być używane zarówno do wypełniania "historii" rozmowy, jak i do dodawania nowych elementów w trakcie transmisji, ale ma obecne ograniczenie, że nie może wypełniać komunikatów audio asystenta. Jeśli zakończy się sukcesem, serwer odpowie zdarzeniem `conversation.item.created` , w przeciwnym razie zostanie wysłane zdarzenie `error` .
ClientEventConversationItemDelete	Wyślij to zdarzenie, gdy chcesz usunąć dowolny element z historii rozmów. Serwer odpowie zdarzeniem `conversation.item.deleted` , chyba że element nie istnieje w historii rozmów, wtedy serwer odpowie błędem.
ClientEventConversationItemRetrieve	Wyślij to zdarzenie, gdy chcesz odzyskać reprezentację serwera konkretnego elementu w historii rozmów. Jest to przydatne na przykład do inspekcji dźwięku użytkownika po redukcji szumów i VAD. Serwer odpowie zdarzeniem `conversation.item.retrieved` , chyba że element nie istnieje w historii rozmów, wtedy serwer odpowie błędem.
ClientEventConversationItemTruncate	Wyślij to zdarzenie, aby skrócić dźwięk poprzedniej wiadomości asystenta. Serwer generuje dźwięk szybciej niż voicelive, więc to zdarzenie jest przydatne, gdy użytkownik przerywa dźwięk, który już został wysłany do klienta, ale jeszcze nie został odtworzony. To zsynchronizuje rozumienie dźwięku przez serwer z odtwarzaniem klienta. Skracanie dźwięku usuwa transkrypcję tekstu po stronie serwera, aby upewnić się, że nie ma tekstu w kontekście, który nie został usłyszany przez użytkownika. Jeśli się powiedzie, serwer odpowie zdarzeniem `conversation.item.truncated` .
ClientEventInputAudioBufferAppend	Wyślij to zdarzenie, aby dodać bajty audio do bufora audio wejściowego. Bufor audio jest magazynem tymczasowym, do którego można zapisywać dane, a następnie zatwierdzać. W trybie serwera VAD bufor audio służy do wykrywania mowy, a serwer decyduje, kiedy zatwierdzić mowę. Gdy VAD serwera jest wyłączony, musisz ręcznie zatwierdzać bufor audio. Klient może wybrać, ile dźwięku umieścić w każdym zdarzeniu do maksymalnie 15 MiB, na przykład przesyłanie mniejszych fragmentów z klienta może pozwolić VAD-owi być bardziej responsywnym. W przeciwieństwie do innych utworzonych zdarzeń klienckich, serwer nie wysyła odpowiedzi potwierdzającej na to zdarzenie.
ClientEventInputAudioBufferClear	Wyślij to zdarzenie, aby usunąć bajty audio w buforze. Serwer odpowie zdarzeniem `input_audio_buffer.cleared` .
ClientEventInputAudioBufferCommit	Wyślij to zdarzenie, aby zatwierdzać bufor audio wejściowy użytkownika, co utworzy nowy element wiadomości użytkownika w rozmowie. To zdarzenie wywoła błąd, jeśli bufor audio wejściowy jest pusty. W trybie serwera VAD klient nie musi wysyłać tego zdarzenia, serwer automatycznie zatwierdza bufor audio. Zatwierdzenie bufora audio wejściowego wywoła transkrypcję audio wejściowej (jeśli jest włączona w konfiguracji sesji), ale nie generuje odpowiedzi z modelu. Serwer odpowie zdarzeniem `input_audio_buffer.committed` .
ClientEventInputAudioClear	Usuwa cały dźwięk wejściowy, który jest obecnie streamowany.
ClientEventInputAudioTurnAppend	Dodaje dane audio do trwającej tury wejściowej.
ClientEventInputAudioTurnCancel	Anuluje toczący się ruch audio wejściowy.
ClientEventInputAudioTurnEnd	Oznacza koniec tury wejścia audio.
ClientEventInputAudioTurnStart	Oznacza początek nowego zwrotu wejścia audio.
ClientEventResponseCancel	Wyślij to zdarzenie, aby anulować odpowiedź w trakcie trwania. Serwer odpowie zdarzeniem `response.cancelled` lub błędem, jeśli nie będzie odpowiedzi na anulowanie.
ClientEventResponseCreate	To zdarzenie instruuje serwer do utworzenia odpowiedzi, co oznacza wywołanie wnioskowania modelu. W trybie VAD serwera serwer automatycznie tworzy odpowiedzi. Odpowiedź będzie zawierać co najmniej jeden Przedmiot, a może mieć dwa, w takim przypadku drugi będzie wywołaniem funkcji. Te elementy zostaną dołączone do historii rozmów. Serwer odpowie `response.created` zdarzeniem, zdarzeniami dotyczącymi przedmiotów i stworzonych treści, a na końcu zdarzeniem `response.done` sygnalizującym zakończenie odpowiedzi. Zdarzenie `response.create` obejmuje konfigurację wnioskowania taką jak `instructions`, oraz `temperature`. Te pola nadpisują konfigurację Sesji tylko dla tej odpowiedzi.
ClientEventSessionAvatarConnect	Wysyłane, gdy klient łączy się i dostarcza swój SDP (Session Description Protocol) Do negocjacji medialnych związanych z Avatarem.
ClientEventSessionUpdate	Wyślij to zdarzenie, aby zaktualizować domyślną konfigurację sesji. Klient może wysłać to zdarzenie w dowolnym momencie, aby zaktualizować dowolne pole, z wyjątkiem `voice`. Należy jednak zauważyć, że po inicjalizacji sesji z określonym `model`, nie można jej zmienić na inny model za pomocą `session.update`. Gdy serwer otrzyma , `session.update`odpowie zdarzeniem pokazującym `session.updated` pełną, skuteczną konfigurację. Aktualizowane są tylko dostępne pola. Aby oczyścić pole takie jak `instructions`, przekaż pusty ciąg znaków.
ConnectOptions
ConnectedEventArgs	Argumenty podawane po nawiązaniu połączenia
ConnectionContext	Informacje kontekstowe przekazywane obsługiwaczom powiązanym z połączeniem
ContentPart	Podstawa dla każdej części zawartości; rozróżnione przez `type`.
ConversationItemBase	Element, który ma zostać dodany do konwersacji.
ConversationRequestItem	Podstawa dla każdego przedmiotu odpowiedzi; rozróżnione przez `type`.
CreateSessionOptions
DisconnectedEventArgs	Argumenty dostarczane po utracie połączenia
EouDetection	Konfiguracja detekcji semantycznej na poziomie najwyższego poziomu dla detekcji semantycznej na końcu wypowiedzi (EOU).
ErrorEventArgs	Argumenty dostarczane w przypadku błędu
ErrorResponse	Standardowa obwiednia odpowiedzi na błędy.
FunctionCallItem	Element wywołania funkcji w rozmowie.
FunctionCallOutputItem	Wywołanie funkcji wywołuje element wyjściowy w ramach rozmowy.
FunctionTool	Definicja narzędzia funkcji używanego przez endpoint voicelive.
IceServer	Konfiguracja serwera ICE na potrzeby negocjacji połączenia WebRTC.
InputAudioContentPart	Część dotycząca wprowadzania treści audio.
InputTextContentPart	Część dotycząca wprowadzania tekstu.
InputTokenDetails	Szczegóły dotyczące wykorzystania tokenów wejściowych.
InterimResponseConfigBase	Podstawowy model konfiguracji interim response.
LlmInterimResponseConfig	Konfiguracja do generowania tymczasowych odpowiedzi opartych na LLM. Wykorzystuje LLM do generowania kontekstowo świadomych odpowiedzi tymczasowych, gdy spełniony jest dowolny warunek wyzwalający.
LogProbProperties	Pojedynczy log prawdopodobieństwa dla tokena.
MCPApprovalResponseRequestItem	Element żądania reprezentujący odpowiedź na wniosek o zatwierdzenie MCP.
MCPServer	Definicja serwera MCP używanego przez punkt końcowy voicelive.
MCPTool	Reprezentuje definicję narzędzia mcp.
MessageContentPart	Podstawa dla każdej części treści przekazu; rozróżnione przez `type`.
MessageItem	Wiadomość w rozmowie.
OpenAIVoice	Konfiguracja głosu OpenAI z jawnym polem typu. Zapewnia to zunifikowany interfejs dla głosów OpenAI, uzupełniający istniejący OAIVoice oparty na łańcuchach znaków pod względem kompatybilności wstecznej.
OutputTextContentPart	Część z tekstem wyjściowym.
OutputTokenDetails	Szczegóły dotyczące wykorzystania tokenów wyjściowych.
RequestAudioContentPart	Część z treścią audio na prośbę. Jest to obsługiwane wyłącznie przez modele czasu rzeczywistego (np. gpt-realtime). Dla modeli tekstowych użyj `input_text` zamiast tego.
RequestImageContentPart	Część dotycząca wprowadzania treści obrazowych.
RequestSession	Podstawa do konfiguracji sesji współdzielonej między żądaniem a odpowiedzią.
RequestTextContentPart	Część tekstowa na prośbę.
Response	Zasób odpowiedzi.
ResponseAudioContentPart	Fragment treści audio jako odpowiedź.
ResponseCancelledDetails	Szczegóły dotyczące anulowanej odpowiedzi.
ResponseCreateParams	Stwórz nową odpowiedź VoiceLive z tymi parametrami
ResponseFailedDetails	Szczegóły po nieudanej odpowiedzi.
ResponseFunctionCallItem	Element wywołania funkcji w rozmowie.
ResponseFunctionCallOutputItem	Wywołanie funkcji wywołuje element wyjściowy w ramach rozmowy.
ResponseIncompleteDetails	Szczegóły w przypadku niepełnej odpowiedzi.
ResponseItem	Podstawa dla każdego przedmiotu odpowiedzi; rozróżnione przez `type`.
ResponseMCPApprovalRequestItem	Element odpowiedzi reprezentujący żądanie zatwierdzenia wywołania narzędzia MCP.
ResponseMCPApprovalResponseItem	Element odpowiedzi reprezentujący odpowiedź na wniosek o zatwierdzenie MCP.
ResponseMCPCallItem	Element odpowiedzi reprezentujący wywołanie do narzędzia MCP.
ResponseMCPListToolItem	Element odpowiedzi, który wymienia narzędzia dostępne na serwerze MCP.
ResponseMessageItem	Podstawowy typ wiadomości w rozmowie.
ResponseSession	Podstawa konfiguracji sesji w odpowiedzi.
ResponseStatusDetails	Baza do wszystkich szczegółów odpowiedzi bez sukcesu.
ResponseTextContentPart	Część tekstowa jako odpowiedź.
SendEventOptions
ServerEvent	Wydarzenie serwera VoiceLive.
ServerEventConversationItemCreated	Zwraca się, gdy zostanie utworzony element rozmowy. Istnieje kilka scenariuszy, które generują to zdarzenie: Serwer generuje Odpowiedź, która w przypadku powodzenia wygeneruje jeden lub dwa Przedmioty, które będą typu `message` (rola `assistant`) lub typu `function_call`. Bufor audio wejściowy został zatwierdzony, zarówno przez klienta, jak i serwer (w `server_vad` trybie pracy). Serwer bierze zawartość bufora audio wejściowego i dodaje ją do nowego elementu wiadomości użytkownika. Klient wysłał zdarzenie `conversation.item.create` , aby dodać nowy element do rozmowy.
ServerEventConversationItemDeleted	Zwraca się, gdy klient usuwa element w rozmowie z wydarzeniem `conversation.item.delete` . To zdarzenie służy do synchronizowania historii konwersacji serwera z widokiem klienta.
ServerEventConversationItemInputAudioTranscriptionCompleted	To zdarzenie jest wyjściem transkrypcji audio dla użytkownika zapisanego do bufora audio użytkownika. Transkrypcja rozpoczyna się, gdy wejściowy bufor audio jest zatwierdzany przez klienta lub serwer (w `server_vad` trybie). Transkrypcja działa asynchronicznie wraz z tworzeniem Response, więc to zdarzenie może nastąpić przed lub po wydarzeniach Response. Modele API VoiceLive akceptują dźwięk natywnie, dlatego transkrypcja wejściowa jest osobnym procesem uruchamianym na osobnym modelu ASR (Automatic Speech Recognition). Transkrypcja może nieco odbiegać od interpretacji modelu i powinna być traktowana jako przybliżony przewodnik.
ServerEventConversationItemInputAudioTranscriptionDelta	Zwraca się, gdy wartość tekstowa części transkrypcji audio wejściowej jest aktualizowana.
ServerEventConversationItemInputAudioTranscriptionFailed	Zwraca się, gdy transkrypcja audio wejściowa zostanie skonfigurowana, a żądanie transkrypcji wiadomości użytkownika zakończy się niepowodzeniem. Te zdarzenia są oddzielne od innych `error` zdarzeń, aby klient mógł zidentyfikować powiązany Element.
ServerEventConversationItemRetrieved	Zwracane, gdy element rozmowy zostanie pobrany z .`conversation.item.retrieve`
ServerEventConversationItemTruncated	Zwraca się, gdy wcześniejszy element wiadomości audio asystenta jest skracany przez klienta zdarzeniem `conversation.item.truncate` . To zdarzenie służy do synchronizowania zrozumienia dźwięku serwera z odtwarzaniem klienta. Ta akcja skróci dźwięk i usunie transkrypcję tekstu po stronie serwera, aby upewnić się, że nie ma tekstu w kontekście, który nie został usłyszany przez użytkownika.
ServerEventError	Zwraca się, gdy wystąpi błąd, który może być problemem klienta lub serwera. Większość błędów jest do odzyskania, a sesja pozostanie otwarta; zalecamy implementatorom domyślne monitorowanie i logowanie komunikatów o błędach.
ServerEventErrorDetails	Szczegóły błędu.
ServerEventInputAudioBufferCleared	Zwraca się, gdy klient wyczyści bufor audio za pomocą zdarzenia.`input_audio_buffer.clear`
ServerEventInputAudioBufferCommitted	Zwracany po zatwierdzeniu bufora audio wejściowego, czy to przez klienta, czy automatycznie w trybie serwera VAD. Właściwością `item_id` jest identyfikator elementu wiadomości użytkownika, który zostanie utworzony, więc zdarzenie `conversation.item.created` zostanie również wysłane do klienta.
ServerEventInputAudioBufferSpeechStarted	Wysyłane przez serwer w trybie działania `server_vad` , aby wskazać, że wykryto mowę w buforze audio. Może się to zdarzyć za każdym razem, gdy do bufora dodany jest dźwięk (chyba że mowa jest już wykryta). Klient może chcieć użyć tego zdarzenia do przerwania odtwarzania dźwięku lub przekazania użytkownikowi wizualnej informacji zwrotnej. Klient powinien oczekiwać odebrania `input_audio_buffer.speech_stopped` zdarzenia po zatrzymaniu mowy. Właściwość `item_id` to identyfikator elementu wiadomości użytkownika, który zostanie utworzony po zakończeniu mowy i również zostanie uwzględniony w zdarzeniu `input_audio_buffer.speech_stopped` (chyba że klient ręcznie zatwierdzi bufor audio podczas aktywacji VAD).
ServerEventInputAudioBufferSpeechStopped	Wraca w tryb, `server_vad` gdy serwer wykryje koniec mowy w buforze audio. Serwer wyśle również zdarzenie `conversation.item.created` z elementem wiadomości użytkownika utworzonym z bufora audio.
ServerEventMcpListToolsCompleted	Komunikat o ukończeniu listy narzędzi MCP.
ServerEventMcpListToolsFailed	Komunikat o niepowodzeniu na liście narzędzi MCP.
ServerEventMcpListToolsInProgress	MCP lista narzędzi w trakcie rozgrywek.
ServerEventResponseAnimationBlendshapeDelta	Reprezentuje delta aktualizację klatek animacji blendshape dla konkretnego wyjścia odpowiedzi.
ServerEventResponseAnimationBlendshapeDone	Oznacza zakończenie przetwarzania animacji blendshape dla konkretnego wyjścia odpowiedzi.
ServerEventResponseAnimationVisemeDelta	Oznacza aktualizację delty identyfikatora viseme dla animacji opartej na dźwięku.
ServerEventResponseAnimationVisemeDone	Oznacza zakończenie dostarczenia animacji wizemy dla odpowiedzi.
ServerEventResponseAudioDelta	Zwraca się po aktualizacji dźwięku generowanego przez model.
ServerEventResponseAudioDone	Zwraca się, gdy dźwięk generowany przez model jest gotowy. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.
ServerEventResponseAudioTimestampDelta	Oznacza delta czasu na poziomie słów audio dla odpowiedzi.
ServerEventResponseAudioTimestampDone	Oznacza zakończenie dostarczania czasu dźwięku na odpowiedź.
ServerEventResponseAudioTranscriptDelta	Zwracane po aktualizacji transkrypcji wydanych dźwięków generowanych przez model.
ServerEventResponseAudioTranscriptDone	Zwracane, gdy wygenerowana przez model transkrypcja wyjścia audio zakończy się strumieniowaniem. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.
ServerEventResponseContentPartAdded	Zwraca, gdy nowa część treści jest dodawana do elementu wiadomości asystenta podczas generowania odpowiedzi.
ServerEventResponseContentPartDone	Zwraca się, gdy część treści zakończy transmisję w elemencie wiadomości asystenta. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.
ServerEventResponseCreated	Zwraca się, gdy utworzono nową odpowiedź. Pierwsze zdarzenie tworzenia odpowiedzi, gdzie odpowiedź znajduje się w stanie początkowym .`in_progress`
ServerEventResponseDone	Zwraca się, gdy odpowiedź zakończy streamowanie. Zawsze emitowane, bez względu na ostateczny stan. Obiekt Response zawarty `response.done` w wydarzeniu będzie zawierał wszystkie elementy wyjściowe w Odpowiedzi, ale pominie surowe dane audio.
ServerEventResponseFunctionCallArgumentsDelta	Zwraca się, gdy argumenty wywołań funkcji generowanych przez model są aktualizowane.
ServerEventResponseFunctionCallArgumentsDone	Zwraca się, gdy argumenty wywołania funkcji generowanych przez model zakończą streaming. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.
ServerEventResponseMcpCallArgumentsDelta	Reprezentuje aktualizację delty argumentów dla wywołania narzędzia MCP.
ServerEventResponseMcpCallArgumentsDone	Oznacza zakończenie argumentów dla wywołania narzędzia MCP.
ServerEventResponseMcpCallCompleted	Oznacza, że połączenie MCP zostało zakończone.
ServerEventResponseMcpCallFailed	Wskazuje, że połączenie MCP się nie powiodło.
ServerEventResponseMcpCallInProgress	Wskazuje, że połączenie MCP jest w trakcie.
ServerEventResponseOutputItemAdded	Zwracany, gdy podczas generowania Odpowiedzi powstaje nowy Przedmiot.
ServerEventResponseOutputItemDone	Zwraca się, gdy przedmiot zakończy streaming. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.
ServerEventResponseTextDelta	Zwraca się, gdy wartość tekstowa części "tekstowej" zostaje zaktualizowana.
ServerEventResponseTextDone	Zwraca się, gdy wartość tekstowa części "tekstowej" zakończy transmisję. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.
ServerEventSessionAvatarConnecting	Wysyłany podczas nawiązywania połączenia medialnego z awatarem przez serwer i udziela odpowiedzi SDP.
ServerEventSessionCreated	Zwraca się po utworzeniu sesji. Emitowane automatycznie po nawiązaniu nowego połączenia jako pierwsze zdarzenie serwera. To zdarzenie będzie zawierać domyślną konfigurację sesji.
ServerEventSessionUpdated	Zwraca się, gdy sesja zostanie zaktualizowana o `session.update` zdarzenie, chyba że wystąpi błąd.
ServerVad	Podstawowy model wykrywania skrętów oparty na VAD.
SessionBase	Konfiguracja obiektu sesji VoiceLive.
SessionContext	Informacje kontekstowe udostępniane obsługiwaczom związanym z sesją
StartSessionOptions
StaticInterimResponseConfig	Konfiguracja statycznego generowania odpowiedzi tymczasowych. Losowo wybiera spośród skonfigurowanych tekstów po spełnieniu dowolnego warunku wyzwalacza.
SystemMessageItem	Element wiadomości systemowej w ramach rozmowy.
TokenUsage	Ogólne statystyki użycia odpowiedzi.
Tool	Podstawowa reprezentacja definicji narzędzia voicelive.
ToolChoiceFunctionSelection	Reprezentacja voicelive tool_choice wybór nazwanego narzędzia funkcji.
ToolChoiceSelection	Podstawowa reprezentacja dla VoiceLive tool_choice wybierania nazwanego narzędzia.
TurnDetection	Najwyższy poziom unii konfiguracji wykrywania skrętów.
TurnOptions
UserMessageItem	Element wiadomości użytkownika w ramach rozmowy.
VideoCrop	Definiuje prostokąt wideo za pomocą współrzędnych lewego górnego i prawego dołu.
VideoParams	Parametry przesyłania strumieniowego wideo dla awatara.
VideoResolution	Rozdzielczość strumienia wideo w pikselach.
VoiceLiveClientOptions
VoiceLiveErrorDetails	Obiekt błędu zwracany w przypadku awarii API.
VoiceLiveSessionHandlers	Funkcje handlera dla zdarzeń sesji VoiceLive według wzorców Azure SDK. WSZYSTKIE opiekunki są opcjonalne – implementuj tylko te wydarzenia, na których ci zależy! Każdy handler otrzymuje silnie wpisane dane zdarzeń oraz informacje kontekstowe.
VoiceLiveSessionOptions
VoiceLiveSubscription	Oznacza aktywną subskrypcję wydarzeń sesji VoiceLive

Aliasy typu

AnimationOutputType	Określa typy danych animacji do wygenerowania. KnownAnimationOutputType może być używany zamiennie z AnimationOutputType, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę blendshapes: Typ wyjścia blendshapes. viseme_id: Typ wyjścia Viseme ID.
AudioTimestampType	Typy sygnatur czasowych danych wyjściowych obsługiwane w zawartości odpowiedzi audio. KnownAudioTimestampType może być używany zamiennie z AudioTimestampType, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę słowo: Znaczniki czasu na słowo w audio wyjściowym.
AvatarConfigTypes	Typy konfiguracji awatara KnownAvatarConfigTypes mogą być używane zamiennie z AvatarConfigTypes, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę wideo-awatar: awatar wideo foto-awatar: foto-awatar
AvatarOutputProtocol	Protokoły wyjściowe konfiguracji awatara KnownAvatarOutputProtocol może być używany zamiennie z AvatarOutputProtocol, a ten enum zawiera znane wartości, które obsługuje usługa. Znane wartości obsługiwane przez usługę webRTC: protokół WebRTC, przesyła strumienie audio/wideo przez WebRTC websocket: protokół WebSocket, wysyła ramki wideo przez WebSocket
AzureVoiceType	Połączenie wszystkich obsługiwanych typów głosu Azure. KnownAzureVoiceType może być używany zamiennie z AzureVoiceType, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę azure-custom: Azure custom voice. Azure-standard: Azure standard Voice. azure-personal: Azure personal voice.
AzureVoiceUnion	Alias dla AzureVoiceUnion
ClientEventType	Typy zdarzeń klientów używane w protokole VoiceLive. KnownClientEventType może być używany zamiennie z ClientEventType, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę session.update input_audio_buffer.append input_audio_buffer.commit input_audio_buffer.clear input_audio.turn.start input_audio.turn.append input_audio.turn.end input_audio.turn.cancel input_audio. Czyste conversation.item.create conversation.item.retrieve conversation.item.truncate conversation.item.delete response.create response.cancel session.avatar.connect mcp_approval_response
ClientEventUnion	Alias dla ClientEventUnion
ContentPartType	Typ treściCzęść
ContentPartUnion	Alias dla ContentPartUnion
ConversationRequestItemUnion	Alias dla ConversationRequestItemUnion
EouDetectionUnion	Alias dla EouDetectionUnion
EouThresholdLevel	Ustawienia progowe dla semantycznego wykrywania końcowej wypowiedzi w Azure. KnownEouThresholdLevel może być używany zamiennie z EouThresholdLevel, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę niski: Niski próg czułości. średni: Średni próg czułości. wysoki: Wysoki próg czułości. domyślnie: Domyślny próg czułości.
InputAudioFormat	Obsługiwane typy formatów audio wejściowych. KnownInputAudioFormat może być używany zamiennie z InputAudioFormat, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę pcm16: 16-bitowy format audio PCM z domyślną częstotliwością próbkowania (24kHz) g711_ulaw: G.711 format audio μ-law (mu-law) z częstotliwością próbkowania 8kHz g711_alaw: Format audio G.711 A-law przy częstotliwości próbkowania 8kHz
InterimResponseConfig	Suma konfiguracji konfiguracji tymczasowych odpowiedzi.
InterimResponseConfigBaseUnion	Alias for InterimResponseConfigBaseUnion
InterimResponseConfigType	Typy konfiguracji interim. KnownInterimResponseConfigType może być używany zamiennie z InterimResponseConfigType, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę static_interim_response: Statyczny typ konfiguracji odpowiedzi tymczasowej. llm_interim_response: Tymczasowy typ konfiguracji odpowiedzi oparty na LLM.
InterimResponseTrigger	Wyzwalacze, które mogą aktywować tymczasowe generowanie odpowiedzi. KnownInterimResponseTrigger może być używany zamiennie z InterimResponseTrigger, ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę Opóźnienia: Wyzwalanie odpowiedzi tymczasowej, gdy opóźnienie przekroczy próg. Narzędzie: Wywołaj odpowiedź tymczasową, gdy wywołanie narzędzia jest wykonywane.
ItemParamStatus	Wskazuje status przetwarzania elementu lub parametru. KnownItemParamStatus może być używany zamiennie z ItemParamStatus, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę ukończone: Element lub parametr jest nadal przetwarzany. niekompletne: Element lub parametr nie jest jeszcze kompletny.
ItemType	Typ elementu
MCPApprovalType	Dostępny zestaw typów zatwierdzeń MCP. Znany MCPApprovalType może być używany zamiennie z MCPApprovalType, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę nigdy: Zgoda nigdy nie jest wymagana. zawsze: Zawsze wymagana jest zgoda.
MessageContentPartUnion	Alias dla MessageContentPartUnion
MessageItemUnion	Alias dla MessageItemUnion
MessageRole	Typ MessageRole
Modality	Wspierane metody sesji. Znana Modalność może być używana zamiennie z Modalnością, a to enum zawiera znane wartości, które obsługuje usługa. Znane wartości obsługiwane przez usługę tekst: Formacja tekstowa. audio: Metoda dźwięku. Animacja: Modalność animacji. Awatar: Modalność Awatara.
OAIVoice	Obsługiwane nazwy głosowe OpenAI (enum stringów). KnownOAIVoice może być używany zamiennie z OAIVoice, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę Alloy: Głos Alloy. ash: Głos Ash. ballada: Ballard. koralowy: Koralowy głos. echo: Echo głos. mędrzec: Głos mędrca. Shimmer: Shimmer Voice. Wers: Głos zwrotkowy. marin: Głos Marin. cedar: Cedar Voice.
OutputAudioFormat	Obsługiwane typy formatów audio wyjściowych. KnownOutputAudioFormat może być używany zamiennie z OutputAudioFormat, ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę pcm16: 16-bitowy format audio PCM z domyślną częstotliwością próbkowania (24kHz) pcm16_8000hz: 16-bitowy format dźwięku PCM z częstotliwością próbkowania 8kHz pcm16_16000hz: 16-bitowy format dźwięku PCM z częstotliwością próbkowania 16kHz g711_ulaw: G.711 format audio μ-law (mu-law) z częstotliwością próbkowania 8kHz g711_alaw: Format audio G.711 A-law przy częstotliwości próbkowania 8kHz
PersonalVoiceModels	Modele PersonalVoice KnownPersonalVoiceModels mogą być używane zamiennie z PersonalVoiceModels, a ten enum zawiera znane wartości, które usługa wspiera. Znane wartości obsługiwane przez usługę DragonLatestNeural: Użyj najnowszego modelu Dragon. PhoenixLatestNeural: Użyj najnowszego modelu Phoenix. PhoenixV2Neural: Użyj modelu Phoenix V2.
PhotoAvatarBaseModes	Tryby bazowe foto awatara KnownPhotoAvatarBaseModes mogą być używane zamiennie z PhotoAvatarBaseModes, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę Vasa-1: Model VASA-1
ReasoningEffort	Ogranicza nakład pracy na rozumowanie modeli rozumowania. Zapoznaj się z dokumentacją modelu pod kątem obsługiwanych wartości dla każdego modelu. Zmniejszenie nakładu pracy w zakresie rozumowania może spowodować szybsze reagowanie i mniej tokenów używanych podczas rozumowania w odpowiedzi. KnowReasoningEffort może być używany zamiennie z ReasoningEffort, a ten enum zawiera znane wartości, które usługa wspiera. Znane wartości obsługiwane przez usługę Brak: Brak próby rozumowania. minimalne: Minimalny wysiłek rozumowania. niski: Niski wysiłek rozumowania – szybsze odpowiedzi przy mniejszej ilości rozumowania. średni: Średni wysiłek rozumowania – zrównoważony między szybkością a głębią rozumowania. wysoki: Wysoki wysiłek rozumowania – bardziej szczegółowe rozumowanie, może zająć więcej czasu. xhigh: Wyjątkowo wysoki wysiłek rozumowania – maksymalna głębia rozumowania.
RequestImageContentPartDetail	Określa poziom szczegółowości obrazu. Może to być wartość "auto", "niska", "wysoka" lub nieznana wartość przyszła. KnownRequestImageContentPartDetail może być używany zamiennie z RequestImageContentPartDetail, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę auto: Automatycznie wybierz odpowiedni poziom szczegółów. niski: Używaj niższego poziomu szczegółowości, aby zmniejszyć przepustowość lub koszty. wysoki: Stosuj wyższy poziom szczegółowości — potencjalnie bardziej wymagający zasobów.
ResponseItemStatus	Wskazuje status przetwarzania elementu odpowiedzi. KnownResponseItemStatus może być używany zamiennie z ResponseItemStatus, ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę in_progress: Przedmiot w trakcie realizacji. ukończone: Przedmiot został w pełni przetworzony i jest kompletny. niekompletne: Przedmiot został przetworzony, ale jest niekompletny.
ResponseItemUnion	Alias dla ResponseItemUnion
ResponseStatus	Status terminalny odpowiedzi. KnownResponseStatus może być używany zamiennie z ResponseStatus, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę Zakończone Anulowane nie powiodło się Niekompletna in_progress
ResponseStatusDetailsUnion	Alias dla ResponseStatusDetailsUnion
ServerEventType	Typy zdarzeń serwerowych używane w protokole VoiceLive. KnownServerEventType może być używany zamiennie z ServerEventType, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę błąd session.avatar.connecting session.created session.updated conversation.item.input_audio_transcription.completed conversation.item.input_audio_transcription.delta conversation.item.input_audio_transcription.failed rozmowa.element.utworzony conversation.item.retrieved conversation.item.obcięty conversation.item.deleted input_audio_buffer.committed input_audio_buffer.wyczyszczone input_audio_buffer.speech_started input_audio_buffer.speech_stopped response.created response.done odpowiedź.output_item.dodany odpowiedź.output_element.zakończone response.content_part.added response.content_part.done response.text.delta response.text.done response.audio_transcript.delta response.audio_transcript.done response.audio.delta response.audio.done response.animation_blendshapes.delta response.animation_blendshapes.done response.audio_timestamp.delta response.audio_timestamp.done response.animation_viseme.delta response.animation_viseme.done response.function_call_arguments.delta response.function_call_arguments.done mcp_list_tools.in_progress mcp_list_tools.completed mcp_list_tools.failed response.mcp_call_arguments.delta response.mcp_call_arguments.done response.mcp_call.in_progress response.mcp_call.completed response.mcp_call.failed
ServerEventUnion	Alias dla ServerEventUnion
SessionTarget	Target dla sesji Voice Live, określając model lub agenta. Zastosowanie `{ model: string }` do sesji skoncentrowanych na modelach, gdzie głównym aktorem jest LLM. Zastosowanie `{ agent: AgentSessionConfig }` do sesji skoncentrowanych na agencie, gdzie agent jest głównym aktorem. Przykład Sesja skoncentrowana na modelu `import { DefaultAzureCredential } from "@azure/identity"; import { VoiceLiveClient } from "@azure/ai-voicelive"; const credential = new DefaultAzureCredential(); const endpoint = "https://your-resource.cognitiveservices.azure.com"; const client = new VoiceLiveClient(endpoint, credential); const session = client.createSession({ model: "gpt-4o-realtime-preview" });` Przykład Sesja skoncentrowana na agencie `import { DefaultAzureCredential } from "@azure/identity"; import { VoiceLiveClient } from "@azure/ai-voicelive"; const credential = new DefaultAzureCredential(); const endpoint = "https://your-resource.cognitiveservices.azure.com"; const client = new VoiceLiveClient(endpoint, credential); const session = client.createSession({ agent: { agentName: "my-agent", projectName: "my-project" }, });`
ToolChoice	Zestaw dostępnych reprezentacji dla parametru tool_choice voicelive, obejmujący zarówno literalne opcje ciągów łańcuchowych, takie jak 'auto', jak i ustrukturyzowane odwołania do zdefiniowanych narzędzi.
ToolChoiceLiteral	Dostępny zestaw opcji tool_choice na poziomie trybu, literalnych łańcuchów dla endpointu voicelive. KnownToolChoiceLiteral może być używany zamiennie z ToolChoiceLiteral, a ten enum zawiera znane wartości, które usługa obsługuje. Znane wartości obsługiwane przez usługę auto: Określa, że model powinien swobodnie decydować, które narzędzie lub narzędzia, jeśli w ogóle, wywołać. brak: Określa, że model nie powinien wywoływać żadnych narzędzi. wymagany: Określa, że model powinien wywoływać co najmniej jedno narzędzie.
ToolChoiceSelectionUnion	Alias dla ToolChoiceSelectionUnion
ToolType	Obsługiwane narzędzia typu dyskryminatory dla narzędzi voicelive. Obecnie obsługiwane są tylko narzędzia "function". KnownToolType może być używany zamiennie z ToolType, a ten enum zawiera znane wartości obsługiwane przez usługę. Znane wartości obsługiwane przez usługę funkcja MCP
ToolUnion	Alias dla ToolUnion
TurnDetectionType	Typ wykrywania zwrotu
TurnDetectionUnion	Alias dla TurnDetectionUnion
Voice	Unii wszystkich obsługiwanych konfiguracji głosowych.

Enums

ConnectionState	Enumeracja stanu połączenia dla zarządzania cyklem życia
KnownAnimationOutputType	Określa typy danych animacji do wygenerowania.
KnownAudioTimestampType	Typy sygnatur czasowych danych wyjściowych obsługiwane w zawartości odpowiedzi audio.
KnownAvatarConfigTypes	Typy konfiguracji awatara
KnownAvatarOutputProtocol	Protokoły wyjściowe konfiguracji awatara
KnownAzureVoiceType	Połączenie wszystkich obsługiwanych typów głosu Azure.
KnownClientEventType	Typy zdarzeń klientów używane w protokole VoiceLive.
KnownContentPartType	Znane wartości ContentPartType akceptowane przez usługę.
KnownEouThresholdLevel	Ustawienia progowe dla semantycznego wykrywania końcowej wypowiedzi w Azure.
KnownInputAudioFormat	Obsługiwane typy formatów audio wejściowych.
KnownInterimResponseConfigType	Typy konfiguracji interim.
KnownInterimResponseTrigger	Wyzwalacze, które mogą aktywować tymczasowe generowanie odpowiedzi.
KnownItemParamStatus	Wskazuje status przetwarzania elementu lub parametru.
KnownItemType	Znane wartości ItemType akceptowane przez usługę.
KnownMCPApprovalType	Dostępny zestaw typów zatwierdzeń MCP.
KnownMessageRole	Znane wartości MessageRole , które usługa akceptuje.
KnownModality	Wspierane metody sesji.
KnownOAIVoice	Obsługiwane nazwy głosowe OpenAI (enum stringów).
KnownOutputAudioFormat	Obsługiwane typy formatów audio wyjściowych.
KnownPersonalVoiceModels	Modele PersonalVoice
KnownPhotoAvatarBaseModes	Tryby bazowe foto awatara
KnownReasoningEffort	Ogranicza nakład pracy na rozumowanie modeli rozumowania. Zapoznaj się z dokumentacją modelu pod kątem obsługiwanych wartości dla każdego modelu. Zmniejszenie nakładu pracy w zakresie rozumowania może spowodować szybsze reagowanie i mniej tokenów używanych podczas rozumowania w odpowiedzi.
KnownRequestImageContentPartDetail	Określa poziom szczegółowości obrazu. Może to być wartość "auto", "niska", "wysoka" lub nieznana wartość przyszła.
KnownResponseItemStatus	Wskazuje status przetwarzania elementu odpowiedzi.
KnownResponseStatus	Status terminalny odpowiedzi.
KnownServerEventType	Typy zdarzeń serwerowych używane w protokole VoiceLive.
KnownToolChoiceLiteral	Dostępny zestaw opcji tool_choice na poziomie trybu, literalnych łańcuchów dla endpointu voicelive.
KnownToolType	Obsługiwane narzędzia typu dyskryminatory dla narzędzi voicelive. Obecnie obsługiwane są tylko narzędzia "function".
KnownTurnDetectionType	Znane wartości TurnDetectionType akceptowane przez usługę.
VoiceLiveErrorCodes	Kody błędów dla operacji Voice Live WebSocket

Functions

classifyConnectionError(unknown)	Klasyfikacja błędów połączenia
classifyProtocolError(Error, string)	Klasyfikacja błędów protokołu
isAgentSessionTarget(SessionTarget)	Typ guard sprawdzi, czy SessionTarget określa sesję agenta.
isModelSessionTarget(SessionTarget)	Typ guard sprawdzi, czy SessionTarget określa sesję modelową.

Szczegóły funkcji

classifyConnectionError(unknown)

Klasyfikacja błędów połączenia

function classifyConnectionError(error: unknown): VoiceLiveConnectionError

Parametry

error: unknown

Zwraca

VoiceLiveConnectionError

classifyProtocolError(Error, string)

Klasyfikacja błędów protokołu

function classifyProtocolError(error: Error, messageType: string): VoiceLiveProtocolError

Parametry

error: Error

messageType: string

Zwraca

VoiceLiveProtocolError

isAgentSessionTarget(SessionTarget)

Typ guard sprawdzi, czy SessionTarget określa sesję agenta.

function isAgentSessionTarget(target: SessionTarget): target

Parametry

target: SessionTarget

Cel sesji do sprawdzenia

Zwraca

target

Prawdziwe, jeśli cel określa sesję agenta

isModelSessionTarget(SessionTarget)

Typ guard sprawdzi, czy SessionTarget określa sesję modelową.

function isModelSessionTarget(target: SessionTarget): target

Parametry

target: SessionTarget

Cel sesji do sprawdzenia

Zwraca

target

Prawdziwe, jeśli cel określa sesję modelu

Opinia

Czy ta strona była pomocna?

Udostępnij za pośrednictwem

@azure/ai-voicelive package

Klasy

Interfejsów

Aliasy typu

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Znane wartości obsługiwane przez usługę

Enums

Functions

Szczegóły funkcji

classifyConnectionError(unknown)

Parametry

Zwraca

classifyProtocolError(Error, string)

Parametry

Zwraca

isAgentSessionTarget(SessionTarget)

Parametry

Zwraca

isModelSessionTarget(SessionTarget)

Parametry

Zwraca

Opinia