Udostępnij za pośrednictwem


@azure/ai-voicelive package

Klasy

VoiceLiveAuthenticationError

Klasa błędu uwierzytelniania dla operacji Voice Live

VoiceLiveClient

Klient VoiceLive zapewnia zarządzanie sesjami dla możliwości konwersacyjnej AI w czasie rzeczywistym.

Ten klient działa jako fabryka do tworzenia instancji VoiceLiveSession, które obsługują rzeczywiste połączenia WebSocket oraz interakcje w czasie rzeczywistym z usługą.

VoiceLiveConnectionError

Podstawowa klasa błędu dla operacji Voice Live WebSocket

VoiceLiveError

Ogólna klasa błędu Voice Live

VoiceLiveProtocolError

Klasa błędu protokołu dla operacji wiadomości na żywo w Voice Live

VoiceLiveSession

Reprezentuje sesję opartą na WebSocket do komunikacji głosowej w czasie rzeczywistym z usługą Azure VoiceLive.

Ten kurs zarządza połączeniem, obsługuje komunikację w czasie rzeczywistym i zapewnia dostęp do wszystkich interaktywnych funkcji, w tym streamingu audio, zarządzania rozmowami oraz kontroli awatarów.

Interfejsów

AgentConfig

Konfiguracja dla agenta.

AgentSessionConfig

Konfiguracja tworzenia sesji z agentem jako głównym aktorem AI.

Podczas korzystania z sesji agenta konfiguracja agenta (narzędzia, instrukcje, temperatura itp.) jest zarządzana w portalu Foundry, a nie w kodzie sesji.

Animation

Konfiguracja wyjść animacji, w tym metadane blendshape'ów i wizemów.

AssistantMessageItem

Wiadomość asystenta w ramach rozmowy.

AudioEchoCancellation

Konfiguracja anulowania echa na potrzeby przetwarzania dźwięku po stronie serwera.

AudioInputTranscriptionOptions

Konfiguracja transkrypcji dźwięku wejściowego.

AudioNoiseReduction

Konfiguracja redukcji szumu dźwięku wejściowego.

AudioStreamOptions
AvatarConfig

Konfiguracja streamingu awatara oraz zachowanie podczas sesji.

AzureCustomVoice

Azure custom voice configuration.

AzurePersonalVoice

Konfiguracja osobistego głosu platformy Azure.

AzureSemanticDetection

Wykrywanie końca wypowiedzi platformy Azure (ustawienie domyślne).

AzureSemanticDetectionEn

Azure semantic end-of-utterance detection (English-optimized).

AzureSemanticDetectionMultilingual

Azure semantic end-of-utterance detection (multilingual).

AzureSemanticVad

Server Speech Detection (Azure semantic VAD, domyślny wariant).

AzureSemanticVadEn

Server Speech Detection (Azure semantic VAD, tylko po angielsku).

AzureSemanticVadMultilingual

Server Speech Detection (Azure semantic VAD).

AzureStandardVoice

Standardowa konfiguracja głosu platformy Azure.

AzureVoice

Podstawowe informacje na potrzeby konfiguracji głosowych platformy Azure.

Background

Definiuje tło wideo, zarówno w jednolitym kolorze, jak i w postaci URL obrazu (wzajemnie wykluczające się).

CachedTokenDetails

Szczegóły dotyczące wykorzystania tokenów wyjściowych.

ClientEvent

Wydarzenie dla klienta Voicelive.

ClientEventConversationItemCreate

Dodaj nowy element do kontekstu rozmowy, w tym wiadomości, wywołania funkcji oraz odpowiedzi na wywołania funkcji. To zdarzenie może być używane zarówno do wypełniania "historii" rozmowy, jak i do dodawania nowych elementów w trakcie transmisji, ale ma obecne ograniczenie, że nie może wypełniać komunikatów audio asystenta. Jeśli zakończy się sukcesem, serwer odpowie zdarzeniem conversation.item.created , w przeciwnym razie zostanie wysłane zdarzenie error .

ClientEventConversationItemDelete

Wyślij to zdarzenie, gdy chcesz usunąć dowolny element z historii rozmów. Serwer odpowie zdarzeniem conversation.item.deleted , chyba że element nie istnieje w historii rozmów, wtedy serwer odpowie błędem.

ClientEventConversationItemRetrieve

Wyślij to zdarzenie, gdy chcesz odzyskać reprezentację serwera konkretnego elementu w historii rozmów. Jest to przydatne na przykład do inspekcji dźwięku użytkownika po redukcji szumów i VAD. Serwer odpowie zdarzeniem conversation.item.retrieved , chyba że element nie istnieje w historii rozmów, wtedy serwer odpowie błędem.

ClientEventConversationItemTruncate

Wyślij to zdarzenie, aby skrócić dźwięk poprzedniej wiadomości asystenta. Serwer generuje dźwięk szybciej niż voicelive, więc to zdarzenie jest przydatne, gdy użytkownik przerywa dźwięk, który już został wysłany do klienta, ale jeszcze nie został odtworzony. To zsynchronizuje rozumienie dźwięku przez serwer z odtwarzaniem klienta. Skracanie dźwięku usuwa transkrypcję tekstu po stronie serwera, aby upewnić się, że nie ma tekstu w kontekście, który nie został usłyszany przez użytkownika. Jeśli się powiedzie, serwer odpowie zdarzeniem conversation.item.truncated .

ClientEventInputAudioBufferAppend

Wyślij to zdarzenie, aby dodać bajty audio do bufora audio wejściowego. Bufor audio jest magazynem tymczasowym, do którego można zapisywać dane, a następnie zatwierdzać. W trybie serwera VAD bufor audio służy do wykrywania mowy, a serwer decyduje, kiedy zatwierdzić mowę. Gdy VAD serwera jest wyłączony, musisz ręcznie zatwierdzać bufor audio.

Klient może wybrać, ile dźwięku umieścić w każdym zdarzeniu do maksymalnie 15 MiB, na przykład przesyłanie mniejszych fragmentów z klienta może pozwolić VAD-owi być bardziej responsywnym. W przeciwieństwie do innych utworzonych zdarzeń klienckich, serwer nie wysyła odpowiedzi potwierdzającej na to zdarzenie.

ClientEventInputAudioBufferClear

Wyślij to zdarzenie, aby usunąć bajty audio w buforze. Serwer odpowie zdarzeniem input_audio_buffer.cleared .

ClientEventInputAudioBufferCommit

Wyślij to zdarzenie, aby zatwierdzać bufor audio wejściowy użytkownika, co utworzy nowy element wiadomości użytkownika w rozmowie. To zdarzenie wywoła błąd, jeśli bufor audio wejściowy jest pusty. W trybie serwera VAD klient nie musi wysyłać tego zdarzenia, serwer automatycznie zatwierdza bufor audio. Zatwierdzenie bufora audio wejściowego wywoła transkrypcję audio wejściowej (jeśli jest włączona w konfiguracji sesji), ale nie generuje odpowiedzi z modelu. Serwer odpowie zdarzeniem input_audio_buffer.committed .

ClientEventInputAudioClear

Usuwa cały dźwięk wejściowy, który jest obecnie streamowany.

ClientEventInputAudioTurnAppend

Dodaje dane audio do trwającej tury wejściowej.

ClientEventInputAudioTurnCancel

Anuluje toczący się ruch audio wejściowy.

ClientEventInputAudioTurnEnd

Oznacza koniec tury wejścia audio.

ClientEventInputAudioTurnStart

Oznacza początek nowego zwrotu wejścia audio.

ClientEventResponseCancel

Wyślij to zdarzenie, aby anulować odpowiedź w trakcie trwania. Serwer odpowie zdarzeniem response.cancelled lub błędem, jeśli nie będzie odpowiedzi na anulowanie.

ClientEventResponseCreate

To zdarzenie instruuje serwer do utworzenia odpowiedzi, co oznacza wywołanie wnioskowania modelu. W trybie VAD serwera serwer automatycznie tworzy odpowiedzi. Odpowiedź będzie zawierać co najmniej jeden Przedmiot, a może mieć dwa, w takim przypadku drugi będzie wywołaniem funkcji. Te elementy zostaną dołączone do historii rozmów. Serwer odpowie response.created zdarzeniem, zdarzeniami dotyczącymi przedmiotów i stworzonych treści, a na końcu zdarzeniem response.done sygnalizującym zakończenie odpowiedzi. Zdarzenie response.create obejmuje konfigurację wnioskowania taką jak instructions, oraz temperature. Te pola nadpisują konfigurację Sesji tylko dla tej odpowiedzi.

ClientEventSessionAvatarConnect

Wysyłane, gdy klient łączy się i dostarcza swój SDP (Session Description Protocol)

Do negocjacji medialnych związanych z Avatarem.

ClientEventSessionUpdate

Wyślij to zdarzenie, aby zaktualizować domyślną konfigurację sesji. Klient może wysłać to zdarzenie w dowolnym momencie, aby zaktualizować dowolne pole, z wyjątkiem voice. Należy jednak zauważyć, że po inicjalizacji sesji z określonym model, nie można jej zmienić na inny model za pomocą session.update. Gdy serwer otrzyma , session.updateodpowie zdarzeniem pokazującym session.updated pełną, skuteczną konfigurację. Aktualizowane są tylko dostępne pola. Aby oczyścić pole takie jak instructions, przekaż pusty ciąg znaków.

ConnectOptions
ConnectedEventArgs

Argumenty podawane po nawiązaniu połączenia

ConnectionContext

Informacje kontekstowe przekazywane obsługiwaczom powiązanym z połączeniem

ContentPart

Podstawa dla każdej części zawartości; rozróżnione przez type.

ConversationItemBase

Element, który ma zostać dodany do konwersacji.

ConversationRequestItem

Podstawa dla każdego przedmiotu odpowiedzi; rozróżnione przez type.

CreateSessionOptions
DisconnectedEventArgs

Argumenty dostarczane po utracie połączenia

EouDetection

Konfiguracja detekcji semantycznej na poziomie najwyższego poziomu dla detekcji semantycznej na końcu wypowiedzi (EOU).

ErrorEventArgs

Argumenty dostarczane w przypadku błędu

ErrorResponse

Standardowa obwiednia odpowiedzi na błędy.

FunctionCallItem

Element wywołania funkcji w rozmowie.

FunctionCallOutputItem

Wywołanie funkcji wywołuje element wyjściowy w ramach rozmowy.

FunctionTool

Definicja narzędzia funkcji używanego przez endpoint voicelive.

IceServer

Konfiguracja serwera ICE na potrzeby negocjacji połączenia WebRTC.

InputAudioContentPart

Część dotycząca wprowadzania treści audio.

InputTextContentPart

Część dotycząca wprowadzania tekstu.

InputTokenDetails

Szczegóły dotyczące wykorzystania tokenów wejściowych.

InterimResponseConfigBase

Podstawowy model konfiguracji interim response.

LlmInterimResponseConfig

Konfiguracja do generowania tymczasowych odpowiedzi opartych na LLM. Wykorzystuje LLM do generowania kontekstowo świadomych odpowiedzi tymczasowych, gdy spełniony jest dowolny warunek wyzwalający.

LogProbProperties

Pojedynczy log prawdopodobieństwa dla tokena.

MCPApprovalResponseRequestItem

Element żądania reprezentujący odpowiedź na wniosek o zatwierdzenie MCP.

MCPServer

Definicja serwera MCP używanego przez punkt końcowy voicelive.

MCPTool

Reprezentuje definicję narzędzia mcp.

MessageContentPart

Podstawa dla każdej części treści przekazu; rozróżnione przez type.

MessageItem

Wiadomość w rozmowie.

OpenAIVoice

Konfiguracja głosu OpenAI z jawnym polem typu.

Zapewnia to zunifikowany interfejs dla głosów OpenAI, uzupełniający istniejący OAIVoice oparty na łańcuchach znaków pod względem kompatybilności wstecznej.

OutputTextContentPart

Część z tekstem wyjściowym.

OutputTokenDetails

Szczegóły dotyczące wykorzystania tokenów wyjściowych.

RequestAudioContentPart

Część z treścią audio na prośbę. Jest to obsługiwane wyłącznie przez modele czasu rzeczywistego (np. gpt-realtime). Dla modeli tekstowych użyj input_text zamiast tego.

RequestImageContentPart

Część dotycząca wprowadzania treści obrazowych.

RequestSession

Podstawa do konfiguracji sesji współdzielonej między żądaniem a odpowiedzią.

RequestTextContentPart

Część tekstowa na prośbę.

Response

Zasób odpowiedzi.

ResponseAudioContentPart

Fragment treści audio jako odpowiedź.

ResponseCancelledDetails

Szczegóły dotyczące anulowanej odpowiedzi.

ResponseCreateParams

Stwórz nową odpowiedź VoiceLive z tymi parametrami

ResponseFailedDetails

Szczegóły po nieudanej odpowiedzi.

ResponseFunctionCallItem

Element wywołania funkcji w rozmowie.

ResponseFunctionCallOutputItem

Wywołanie funkcji wywołuje element wyjściowy w ramach rozmowy.

ResponseIncompleteDetails

Szczegóły w przypadku niepełnej odpowiedzi.

ResponseItem

Podstawa dla każdego przedmiotu odpowiedzi; rozróżnione przez type.

ResponseMCPApprovalRequestItem

Element odpowiedzi reprezentujący żądanie zatwierdzenia wywołania narzędzia MCP.

ResponseMCPApprovalResponseItem

Element odpowiedzi reprezentujący odpowiedź na wniosek o zatwierdzenie MCP.

ResponseMCPCallItem

Element odpowiedzi reprezentujący wywołanie do narzędzia MCP.

ResponseMCPListToolItem

Element odpowiedzi, który wymienia narzędzia dostępne na serwerze MCP.

ResponseMessageItem

Podstawowy typ wiadomości w rozmowie.

ResponseSession

Podstawa konfiguracji sesji w odpowiedzi.

ResponseStatusDetails

Baza do wszystkich szczegółów odpowiedzi bez sukcesu.

ResponseTextContentPart

Część tekstowa jako odpowiedź.

SendEventOptions
ServerEvent

Wydarzenie serwera VoiceLive.

ServerEventConversationItemCreated

Zwraca się, gdy zostanie utworzony element rozmowy. Istnieje kilka scenariuszy, które generują to zdarzenie:

  • Serwer generuje Odpowiedź, która w przypadku powodzenia wygeneruje jeden lub dwa Przedmioty, które będą typu message (rola assistant) lub typu function_call.
  • Bufor audio wejściowy został zatwierdzony, zarówno przez klienta, jak i serwer (w server_vad trybie pracy). Serwer bierze zawartość bufora audio wejściowego i dodaje ją do nowego elementu wiadomości użytkownika.
  • Klient wysłał zdarzenie conversation.item.create , aby dodać nowy element do rozmowy.
ServerEventConversationItemDeleted

Zwraca się, gdy klient usuwa element w rozmowie z wydarzeniem conversation.item.delete . To zdarzenie służy do synchronizowania historii konwersacji serwera z widokiem klienta.

ServerEventConversationItemInputAudioTranscriptionCompleted

To zdarzenie jest wyjściem transkrypcji audio dla użytkownika zapisanego do bufora audio użytkownika. Transkrypcja rozpoczyna się, gdy wejściowy bufor audio jest zatwierdzany przez klienta lub serwer (w server_vad trybie). Transkrypcja działa asynchronicznie wraz z tworzeniem Response, więc to zdarzenie może nastąpić przed lub po wydarzeniach Response. Modele API VoiceLive akceptują dźwięk natywnie, dlatego transkrypcja wejściowa jest osobnym procesem uruchamianym na osobnym modelu ASR (Automatic Speech Recognition). Transkrypcja może nieco odbiegać od interpretacji modelu i powinna być traktowana jako przybliżony przewodnik.

ServerEventConversationItemInputAudioTranscriptionDelta

Zwraca się, gdy wartość tekstowa części transkrypcji audio wejściowej jest aktualizowana.

ServerEventConversationItemInputAudioTranscriptionFailed

Zwraca się, gdy transkrypcja audio wejściowa zostanie skonfigurowana, a żądanie transkrypcji wiadomości użytkownika zakończy się niepowodzeniem. Te zdarzenia są oddzielne od innych error zdarzeń, aby klient mógł zidentyfikować powiązany Element.

ServerEventConversationItemRetrieved

Zwracane, gdy element rozmowy zostanie pobrany z .conversation.item.retrieve

ServerEventConversationItemTruncated

Zwraca się, gdy wcześniejszy element wiadomości audio asystenta jest skracany przez klienta zdarzeniem conversation.item.truncate . To zdarzenie służy do synchronizowania zrozumienia dźwięku serwera z odtwarzaniem klienta. Ta akcja skróci dźwięk i usunie transkrypcję tekstu po stronie serwera, aby upewnić się, że nie ma tekstu w kontekście, który nie został usłyszany przez użytkownika.

ServerEventError

Zwraca się, gdy wystąpi błąd, który może być problemem klienta lub serwera. Większość błędów jest do odzyskania, a sesja pozostanie otwarta; zalecamy implementatorom domyślne monitorowanie i logowanie komunikatów o błędach.

ServerEventErrorDetails

Szczegóły błędu.

ServerEventInputAudioBufferCleared

Zwraca się, gdy klient wyczyści bufor audio za pomocą zdarzenia.input_audio_buffer.clear

ServerEventInputAudioBufferCommitted

Zwracany po zatwierdzeniu bufora audio wejściowego, czy to przez klienta, czy automatycznie w trybie serwera VAD. Właściwością item_id jest identyfikator elementu wiadomości użytkownika, który zostanie utworzony, więc zdarzenie conversation.item.created zostanie również wysłane do klienta.

ServerEventInputAudioBufferSpeechStarted

Wysyłane przez serwer w trybie działania server_vad , aby wskazać, że wykryto mowę w buforze audio. Może się to zdarzyć za każdym razem, gdy do bufora dodany jest dźwięk (chyba że mowa jest już wykryta). Klient może chcieć użyć tego zdarzenia do przerwania odtwarzania dźwięku lub przekazania użytkownikowi wizualnej informacji zwrotnej. Klient powinien oczekiwać odebrania input_audio_buffer.speech_stopped zdarzenia po zatrzymaniu mowy. Właściwość item_id to identyfikator elementu wiadomości użytkownika, który zostanie utworzony po zakończeniu mowy i również zostanie uwzględniony w zdarzeniu input_audio_buffer.speech_stopped (chyba że klient ręcznie zatwierdzi bufor audio podczas aktywacji VAD).

ServerEventInputAudioBufferSpeechStopped

Wraca w tryb, server_vad gdy serwer wykryje koniec mowy w buforze audio. Serwer wyśle również zdarzenie conversation.item.created z elementem wiadomości użytkownika utworzonym z bufora audio.

ServerEventMcpListToolsCompleted

Komunikat o ukończeniu listy narzędzi MCP.

ServerEventMcpListToolsFailed

Komunikat o niepowodzeniu na liście narzędzi MCP.

ServerEventMcpListToolsInProgress

MCP lista narzędzi w trakcie rozgrywek.

ServerEventResponseAnimationBlendshapeDelta

Reprezentuje delta aktualizację klatek animacji blendshape dla konkretnego wyjścia odpowiedzi.

ServerEventResponseAnimationBlendshapeDone

Oznacza zakończenie przetwarzania animacji blendshape dla konkretnego wyjścia odpowiedzi.

ServerEventResponseAnimationVisemeDelta

Oznacza aktualizację delty identyfikatora viseme dla animacji opartej na dźwięku.

ServerEventResponseAnimationVisemeDone

Oznacza zakończenie dostarczenia animacji wizemy dla odpowiedzi.

ServerEventResponseAudioDelta

Zwraca się po aktualizacji dźwięku generowanego przez model.

ServerEventResponseAudioDone

Zwraca się, gdy dźwięk generowany przez model jest gotowy. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.

ServerEventResponseAudioTimestampDelta

Oznacza delta czasu na poziomie słów audio dla odpowiedzi.

ServerEventResponseAudioTimestampDone

Oznacza zakończenie dostarczania czasu dźwięku na odpowiedź.

ServerEventResponseAudioTranscriptDelta

Zwracane po aktualizacji transkrypcji wydanych dźwięków generowanych przez model.

ServerEventResponseAudioTranscriptDone

Zwracane, gdy wygenerowana przez model transkrypcja wyjścia audio zakończy się strumieniowaniem. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.

ServerEventResponseContentPartAdded

Zwraca, gdy nowa część treści jest dodawana do elementu wiadomości asystenta podczas generowania odpowiedzi.

ServerEventResponseContentPartDone

Zwraca się, gdy część treści zakończy transmisję w elemencie wiadomości asystenta. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.

ServerEventResponseCreated

Zwraca się, gdy utworzono nową odpowiedź. Pierwsze zdarzenie tworzenia odpowiedzi, gdzie odpowiedź znajduje się w stanie początkowym .in_progress

ServerEventResponseDone

Zwraca się, gdy odpowiedź zakończy streamowanie. Zawsze emitowane, bez względu na ostateczny stan. Obiekt Response zawarty response.done w wydarzeniu będzie zawierał wszystkie elementy wyjściowe w Odpowiedzi, ale pominie surowe dane audio.

ServerEventResponseFunctionCallArgumentsDelta

Zwraca się, gdy argumenty wywołań funkcji generowanych przez model są aktualizowane.

ServerEventResponseFunctionCallArgumentsDone

Zwraca się, gdy argumenty wywołania funkcji generowanych przez model zakończą streaming. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.

ServerEventResponseMcpCallArgumentsDelta

Reprezentuje aktualizację delty argumentów dla wywołania narzędzia MCP.

ServerEventResponseMcpCallArgumentsDone

Oznacza zakończenie argumentów dla wywołania narzędzia MCP.

ServerEventResponseMcpCallCompleted

Oznacza, że połączenie MCP zostało zakończone.

ServerEventResponseMcpCallFailed

Wskazuje, że połączenie MCP się nie powiodło.

ServerEventResponseMcpCallInProgress

Wskazuje, że połączenie MCP jest w trakcie.

ServerEventResponseOutputItemAdded

Zwracany, gdy podczas generowania Odpowiedzi powstaje nowy Przedmiot.

ServerEventResponseOutputItemDone

Zwraca się, gdy przedmiot zakończy streaming. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.

ServerEventResponseTextDelta

Zwraca się, gdy wartość tekstowa części "tekstowej" zostaje zaktualizowana.

ServerEventResponseTextDone

Zwraca się, gdy wartość tekstowa części "tekstowej" zakończy transmisję. Emitowane są także wtedy, gdy odpowiedź jest przerwana, niepełna lub anulowana.

ServerEventSessionAvatarConnecting

Wysyłany podczas nawiązywania połączenia medialnego z awatarem przez serwer i udziela odpowiedzi SDP.

ServerEventSessionCreated

Zwraca się po utworzeniu sesji. Emitowane automatycznie po nawiązaniu nowego połączenia jako pierwsze zdarzenie serwera. To zdarzenie będzie zawierać domyślną konfigurację sesji.

ServerEventSessionUpdated

Zwraca się, gdy sesja zostanie zaktualizowana o session.update zdarzenie, chyba że wystąpi błąd.

ServerVad

Podstawowy model wykrywania skrętów oparty na VAD.

SessionBase

Konfiguracja obiektu sesji VoiceLive.

SessionContext

Informacje kontekstowe udostępniane obsługiwaczom związanym z sesją

StartSessionOptions
StaticInterimResponseConfig

Konfiguracja statycznego generowania odpowiedzi tymczasowych. Losowo wybiera spośród skonfigurowanych tekstów po spełnieniu dowolnego warunku wyzwalacza.

SystemMessageItem

Element wiadomości systemowej w ramach rozmowy.

TokenUsage

Ogólne statystyki użycia odpowiedzi.

Tool

Podstawowa reprezentacja definicji narzędzia voicelive.

ToolChoiceFunctionSelection

Reprezentacja voicelive tool_choice wybór nazwanego narzędzia funkcji.

ToolChoiceSelection

Podstawowa reprezentacja dla VoiceLive tool_choice wybierania nazwanego narzędzia.

TurnDetection

Najwyższy poziom unii konfiguracji wykrywania skrętów.

TurnOptions
UserMessageItem

Element wiadomości użytkownika w ramach rozmowy.

VideoCrop

Definiuje prostokąt wideo za pomocą współrzędnych lewego górnego i prawego dołu.

VideoParams

Parametry przesyłania strumieniowego wideo dla awatara.

VideoResolution

Rozdzielczość strumienia wideo w pikselach.

VoiceLiveClientOptions
VoiceLiveErrorDetails

Obiekt błędu zwracany w przypadku awarii API.

VoiceLiveSessionHandlers

Funkcje handlera dla zdarzeń sesji VoiceLive według wzorców Azure SDK.

WSZYSTKIE opiekunki są opcjonalne – implementuj tylko te wydarzenia, na których ci zależy! Każdy handler otrzymuje silnie wpisane dane zdarzeń oraz informacje kontekstowe.

VoiceLiveSessionOptions
VoiceLiveSubscription

Oznacza aktywną subskrypcję wydarzeń sesji VoiceLive

Aliasy typu

AnimationOutputType

Określa typy danych animacji do wygenerowania.
KnownAnimationOutputType może być używany zamiennie z AnimationOutputType, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

blendshapes: Typ wyjścia blendshapes.
viseme_id: Typ wyjścia Viseme ID.

AudioTimestampType

Typy sygnatur czasowych danych wyjściowych obsługiwane w zawartości odpowiedzi audio.
KnownAudioTimestampType może być używany zamiennie z AudioTimestampType, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

słowo: Znaczniki czasu na słowo w audio wyjściowym.

AvatarConfigTypes

Typy konfiguracji awatara
KnownAvatarConfigTypes mogą być używane zamiennie z AvatarConfigTypes, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

wideo-awatar: awatar wideo
foto-awatar: foto-awatar

AvatarOutputProtocol

Protokoły wyjściowe konfiguracji awatara
KnownAvatarOutputProtocol może być używany zamiennie z AvatarOutputProtocol, a ten enum zawiera znane wartości, które obsługuje usługa.

Znane wartości obsługiwane przez usługę

webRTC: protokół WebRTC, przesyła strumienie audio/wideo przez WebRTC
websocket: protokół WebSocket, wysyła ramki wideo przez WebSocket

AzureVoiceType

Połączenie wszystkich obsługiwanych typów głosu Azure.
KnownAzureVoiceType może być używany zamiennie z AzureVoiceType, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

azure-custom: Azure custom voice.
Azure-standard: Azure standard Voice.
azure-personal: Azure personal voice.

AzureVoiceUnion

Alias dla AzureVoiceUnion

ClientEventType

Typy zdarzeń klientów używane w protokole VoiceLive.
KnownClientEventType może być używany zamiennie z ClientEventType, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

session.update
input_audio_buffer.append
input_audio_buffer.commit
input_audio_buffer.clear
input_audio.turn.start
input_audio.turn.append
input_audio.turn.end
input_audio.turn.cancel
input_audio. Czyste
conversation.item.create
conversation.item.retrieve
conversation.item.truncate
conversation.item.delete
response.create
response.cancel
session.avatar.connect
mcp_approval_response

ClientEventUnion

Alias dla ClientEventUnion

ContentPartType

Typ treściCzęść

ContentPartUnion

Alias dla ContentPartUnion

ConversationRequestItemUnion

Alias dla ConversationRequestItemUnion

EouDetectionUnion

Alias dla EouDetectionUnion

EouThresholdLevel

Ustawienia progowe dla semantycznego wykrywania końcowej wypowiedzi w Azure.
KnownEouThresholdLevel może być używany zamiennie z EouThresholdLevel, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

niski: Niski próg czułości.
średni: Średni próg czułości.
wysoki: Wysoki próg czułości.
domyślnie: Domyślny próg czułości.

InputAudioFormat

Obsługiwane typy formatów audio wejściowych.
KnownInputAudioFormat może być używany zamiennie z InputAudioFormat, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

pcm16: 16-bitowy format audio PCM z domyślną częstotliwością próbkowania (24kHz)
g711_ulaw: G.711 format audio μ-law (mu-law) z częstotliwością próbkowania 8kHz
g711_alaw: Format audio G.711 A-law przy częstotliwości próbkowania 8kHz

InterimResponseConfig

Suma konfiguracji konfiguracji tymczasowych odpowiedzi.

InterimResponseConfigBaseUnion

Alias for InterimResponseConfigBaseUnion

InterimResponseConfigType

Typy konfiguracji interim.
KnownInterimResponseConfigType może być używany zamiennie z InterimResponseConfigType, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

static_interim_response: Statyczny typ konfiguracji odpowiedzi tymczasowej.
llm_interim_response: Tymczasowy typ konfiguracji odpowiedzi oparty na LLM.

InterimResponseTrigger

Wyzwalacze, które mogą aktywować tymczasowe generowanie odpowiedzi.
KnownInterimResponseTrigger może być używany zamiennie z InterimResponseTrigger, ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

Opóźnienia: Wyzwalanie odpowiedzi tymczasowej, gdy opóźnienie przekroczy próg.
Narzędzie: Wywołaj odpowiedź tymczasową, gdy wywołanie narzędzia jest wykonywane.

ItemParamStatus

Wskazuje status przetwarzania elementu lub parametru.
KnownItemParamStatus może być używany zamiennie z ItemParamStatus, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

ukończone: Element lub parametr jest nadal przetwarzany.
niekompletne: Element lub parametr nie jest jeszcze kompletny.

ItemType

Typ elementu

MCPApprovalType

Dostępny zestaw typów zatwierdzeń MCP.
Znany MCPApprovalType może być używany zamiennie z MCPApprovalType, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

nigdy: Zgoda nigdy nie jest wymagana.
zawsze: Zawsze wymagana jest zgoda.

MessageContentPartUnion

Alias dla MessageContentPartUnion

MessageItemUnion

Alias dla MessageItemUnion

MessageRole

Typ MessageRole

Modality

Wspierane metody sesji.
Znana Modalność może być używana zamiennie z Modalnością, a to enum zawiera znane wartości, które obsługuje usługa.

Znane wartości obsługiwane przez usługę

tekst: Formacja tekstowa.
audio: Metoda dźwięku.
Animacja: Modalność animacji.
Awatar: Modalność Awatara.

OAIVoice

Obsługiwane nazwy głosowe OpenAI (enum stringów).
KnownOAIVoice może być używany zamiennie z OAIVoice, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

Alloy: Głos Alloy.
ash: Głos Ash.
ballada: Ballard.
koralowy: Koralowy głos.
echo: Echo głos.
mędrzec: Głos mędrca.
Shimmer: Shimmer Voice.
Wers: Głos zwrotkowy.
marin: Głos Marin.
cedar: Cedar Voice.

OutputAudioFormat

Obsługiwane typy formatów audio wyjściowych.
KnownOutputAudioFormat może być używany zamiennie z OutputAudioFormat, ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

pcm16: 16-bitowy format audio PCM z domyślną częstotliwością próbkowania (24kHz)
pcm16_8000hz: 16-bitowy format dźwięku PCM z częstotliwością próbkowania 8kHz
pcm16_16000hz: 16-bitowy format dźwięku PCM z częstotliwością próbkowania 16kHz
g711_ulaw: G.711 format audio μ-law (mu-law) z częstotliwością próbkowania 8kHz
g711_alaw: Format audio G.711 A-law przy częstotliwości próbkowania 8kHz

PersonalVoiceModels

Modele PersonalVoice
KnownPersonalVoiceModels mogą być używane zamiennie z PersonalVoiceModels, a ten enum zawiera znane wartości, które usługa wspiera.

Znane wartości obsługiwane przez usługę

DragonLatestNeural: Użyj najnowszego modelu Dragon.
PhoenixLatestNeural: Użyj najnowszego modelu Phoenix.
PhoenixV2Neural: Użyj modelu Phoenix V2.

PhotoAvatarBaseModes

Tryby bazowe foto awatara
KnownPhotoAvatarBaseModes mogą być używane zamiennie z PhotoAvatarBaseModes, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

Vasa-1: Model VASA-1

ReasoningEffort

Ogranicza nakład pracy na rozumowanie modeli rozumowania. Zapoznaj się z dokumentacją modelu pod kątem obsługiwanych wartości dla każdego modelu. Zmniejszenie nakładu pracy w zakresie rozumowania może spowodować szybsze reagowanie i mniej tokenów używanych podczas rozumowania w odpowiedzi.
KnowReasoningEffort może być używany zamiennie z ReasoningEffort, a ten enum zawiera znane wartości, które usługa wspiera.

Znane wartości obsługiwane przez usługę

Brak: Brak próby rozumowania.
minimalne: Minimalny wysiłek rozumowania.
niski: Niski wysiłek rozumowania – szybsze odpowiedzi przy mniejszej ilości rozumowania.
średni: Średni wysiłek rozumowania – zrównoważony między szybkością a głębią rozumowania.
wysoki: Wysoki wysiłek rozumowania – bardziej szczegółowe rozumowanie, może zająć więcej czasu.
xhigh: Wyjątkowo wysoki wysiłek rozumowania – maksymalna głębia rozumowania.

RequestImageContentPartDetail

Określa poziom szczegółowości obrazu. Może to być wartość "auto", "niska", "wysoka" lub nieznana wartość przyszła.
KnownRequestImageContentPartDetail może być używany zamiennie z RequestImageContentPartDetail, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

auto: Automatycznie wybierz odpowiedni poziom szczegółów.
niski: Używaj niższego poziomu szczegółowości, aby zmniejszyć przepustowość lub koszty.
wysoki: Stosuj wyższy poziom szczegółowości — potencjalnie bardziej wymagający zasobów.

ResponseItemStatus

Wskazuje status przetwarzania elementu odpowiedzi.
KnownResponseItemStatus może być używany zamiennie z ResponseItemStatus, ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

in_progress: Przedmiot w trakcie realizacji.
ukończone: Przedmiot został w pełni przetworzony i jest kompletny.
niekompletne: Przedmiot został przetworzony, ale jest niekompletny.

ResponseItemUnion

Alias dla ResponseItemUnion

ResponseStatus

Status terminalny odpowiedzi.
KnownResponseStatus może być używany zamiennie z ResponseStatus, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

Zakończone
Anulowane
nie powiodło się
Niekompletna
in_progress

ResponseStatusDetailsUnion

Alias dla ResponseStatusDetailsUnion

ServerEventType

Typy zdarzeń serwerowych używane w protokole VoiceLive.
KnownServerEventType może być używany zamiennie z ServerEventType, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

błąd
session.avatar.connecting
session.created
session.updated
conversation.item.input_audio_transcription.completed
conversation.item.input_audio_transcription.delta
conversation.item.input_audio_transcription.failed
rozmowa.element.utworzony
conversation.item.retrieved
conversation.item.obcięty
conversation.item.deleted
input_audio_buffer.committed
input_audio_buffer.wyczyszczone
input_audio_buffer.speech_started
input_audio_buffer.speech_stopped
response.created
response.done
odpowiedź.output_item.dodany
odpowiedź.output_element.zakończone
response.content_part.added
response.content_part.done
response.text.delta
response.text.done
response.audio_transcript.delta
response.audio_transcript.done
response.audio.delta
response.audio.done
response.animation_blendshapes.delta
response.animation_blendshapes.done
response.audio_timestamp.delta
response.audio_timestamp.done
response.animation_viseme.delta
response.animation_viseme.done
response.function_call_arguments.delta
response.function_call_arguments.done
mcp_list_tools.in_progress
mcp_list_tools.completed
mcp_list_tools.failed
response.mcp_call_arguments.delta
response.mcp_call_arguments.done
response.mcp_call.in_progress
response.mcp_call.completed
response.mcp_call.failed

ServerEventUnion

Alias dla ServerEventUnion

SessionTarget

Target dla sesji Voice Live, określając model lub agenta.

Zastosowanie { model: string } do sesji skoncentrowanych na modelach, gdzie głównym aktorem jest LLM. Zastosowanie { agent: AgentSessionConfig } do sesji skoncentrowanych na agencie, gdzie agent jest głównym aktorem.

Przykład

Sesja skoncentrowana na modelu

import { DefaultAzureCredential } from "@azure/identity";
import { VoiceLiveClient } from "@azure/ai-voicelive";

const credential = new DefaultAzureCredential();
const endpoint = "https://your-resource.cognitiveservices.azure.com";
const client = new VoiceLiveClient(endpoint, credential);

const session = client.createSession({ model: "gpt-4o-realtime-preview" });

Przykład

Sesja skoncentrowana na agencie

import { DefaultAzureCredential } from "@azure/identity";
import { VoiceLiveClient } from "@azure/ai-voicelive";

const credential = new DefaultAzureCredential();
const endpoint = "https://your-resource.cognitiveservices.azure.com";
const client = new VoiceLiveClient(endpoint, credential);

const session = client.createSession({
  agent: { agentName: "my-agent", projectName: "my-project" },
});
ToolChoice

Zestaw dostępnych reprezentacji dla parametru tool_choice voicelive, obejmujący zarówno literalne opcje ciągów łańcuchowych, takie jak 'auto', jak i ustrukturyzowane odwołania do zdefiniowanych narzędzi.

ToolChoiceLiteral

Dostępny zestaw opcji tool_choice na poziomie trybu, literalnych łańcuchów dla endpointu voicelive.
KnownToolChoiceLiteral może być używany zamiennie z ToolChoiceLiteral, a ten enum zawiera znane wartości, które usługa obsługuje.

Znane wartości obsługiwane przez usługę

auto: Określa, że model powinien swobodnie decydować, które narzędzie lub narzędzia, jeśli w ogóle, wywołać.
brak: Określa, że model nie powinien wywoływać żadnych narzędzi.
wymagany: Określa, że model powinien wywoływać co najmniej jedno narzędzie.

ToolChoiceSelectionUnion

Alias dla ToolChoiceSelectionUnion

ToolType

Obsługiwane narzędzia typu dyskryminatory dla narzędzi voicelive. Obecnie obsługiwane są tylko narzędzia "function".
KnownToolType może być używany zamiennie z ToolType, a ten enum zawiera znane wartości obsługiwane przez usługę.

Znane wartości obsługiwane przez usługę

funkcja
MCP

ToolUnion

Alias dla ToolUnion

TurnDetectionType

Typ wykrywania zwrotu

TurnDetectionUnion

Alias dla TurnDetectionUnion

Voice

Unii wszystkich obsługiwanych konfiguracji głosowych.

Enums

ConnectionState

Enumeracja stanu połączenia dla zarządzania cyklem życia

KnownAnimationOutputType

Określa typy danych animacji do wygenerowania.

KnownAudioTimestampType

Typy sygnatur czasowych danych wyjściowych obsługiwane w zawartości odpowiedzi audio.

KnownAvatarConfigTypes

Typy konfiguracji awatara

KnownAvatarOutputProtocol

Protokoły wyjściowe konfiguracji awatara

KnownAzureVoiceType

Połączenie wszystkich obsługiwanych typów głosu Azure.

KnownClientEventType

Typy zdarzeń klientów używane w protokole VoiceLive.

KnownContentPartType

Znane wartości ContentPartType akceptowane przez usługę.

KnownEouThresholdLevel

Ustawienia progowe dla semantycznego wykrywania końcowej wypowiedzi w Azure.

KnownInputAudioFormat

Obsługiwane typy formatów audio wejściowych.

KnownInterimResponseConfigType

Typy konfiguracji interim.

KnownInterimResponseTrigger

Wyzwalacze, które mogą aktywować tymczasowe generowanie odpowiedzi.

KnownItemParamStatus

Wskazuje status przetwarzania elementu lub parametru.

KnownItemType

Znane wartości ItemType akceptowane przez usługę.

KnownMCPApprovalType

Dostępny zestaw typów zatwierdzeń MCP.

KnownMessageRole

Znane wartości MessageRole , które usługa akceptuje.

KnownModality

Wspierane metody sesji.

KnownOAIVoice

Obsługiwane nazwy głosowe OpenAI (enum stringów).

KnownOutputAudioFormat

Obsługiwane typy formatów audio wyjściowych.

KnownPersonalVoiceModels

Modele PersonalVoice

KnownPhotoAvatarBaseModes

Tryby bazowe foto awatara

KnownReasoningEffort

Ogranicza nakład pracy na rozumowanie modeli rozumowania. Zapoznaj się z dokumentacją modelu pod kątem obsługiwanych wartości dla każdego modelu. Zmniejszenie nakładu pracy w zakresie rozumowania może spowodować szybsze reagowanie i mniej tokenów używanych podczas rozumowania w odpowiedzi.

KnownRequestImageContentPartDetail

Określa poziom szczegółowości obrazu. Może to być wartość "auto", "niska", "wysoka" lub nieznana wartość przyszła.

KnownResponseItemStatus

Wskazuje status przetwarzania elementu odpowiedzi.

KnownResponseStatus

Status terminalny odpowiedzi.

KnownServerEventType

Typy zdarzeń serwerowych używane w protokole VoiceLive.

KnownToolChoiceLiteral

Dostępny zestaw opcji tool_choice na poziomie trybu, literalnych łańcuchów dla endpointu voicelive.

KnownToolType

Obsługiwane narzędzia typu dyskryminatory dla narzędzi voicelive. Obecnie obsługiwane są tylko narzędzia "function".

KnownTurnDetectionType

Znane wartości TurnDetectionType akceptowane przez usługę.

VoiceLiveErrorCodes

Kody błędów dla operacji Voice Live WebSocket

Functions

classifyConnectionError(unknown)

Klasyfikacja błędów połączenia

classifyProtocolError(Error, string)

Klasyfikacja błędów protokołu

isAgentSessionTarget(SessionTarget)

Typ guard sprawdzi, czy SessionTarget określa sesję agenta.

isModelSessionTarget(SessionTarget)

Typ guard sprawdzi, czy SessionTarget określa sesję modelową.

Szczegóły funkcji

classifyConnectionError(unknown)

Klasyfikacja błędów połączenia

function classifyConnectionError(error: unknown): VoiceLiveConnectionError

Parametry

error

unknown

Zwraca

classifyProtocolError(Error, string)

Klasyfikacja błędów protokołu

function classifyProtocolError(error: Error, messageType: string): VoiceLiveProtocolError

Parametry

error

Error

messageType

string

Zwraca

isAgentSessionTarget(SessionTarget)

Typ guard sprawdzi, czy SessionTarget określa sesję agenta.

function isAgentSessionTarget(target: SessionTarget): target

Parametry

target
SessionTarget

Cel sesji do sprawdzenia

Zwraca

target

Prawdziwe, jeśli cel określa sesję agenta

isModelSessionTarget(SessionTarget)

Typ guard sprawdzi, czy SessionTarget określa sesję modelową.

function isModelSessionTarget(target: SessionTarget): target

Parametry

target
SessionTarget

Cel sesji do sprawdzenia

Zwraca

target

Prawdziwe, jeśli cel określa sesję modelu