語音即時 API 用於即時語音代理（預覽）

備註

這項功能目前處於公開預覽狀態。此預覽版是在沒有服務等級協定的情況下提供，不建議用於生產工作負載。可能不支援特定功能，或可能已經限制功能。如需詳細資訊，請參閱 Microsoft Azure 預覽版增補使用條款。

什麼是語音即時 API？

語音即時 API 是一種解決方案，可為語音代理提供低延遲、高品質的語音間互動。 API 是專為尋求可調整且有效率語音驅動體驗的開發人員所設計，因為它不需要手動協調多個元件。藉由將語音辨識、產生 AI 和文字到語音功能整合到單一整合介面中，可提供端對端解決方案，以建立順暢的體驗。

語音轉換語音技術正在徹底改變人類與系統互動的方式，提供直覺式語音型解決方案。傳統實作涉及結合不同的模組，例如語音轉換文字、意圖辨識、對話管理、文字到語音轉換等等。這類鏈結可能會導致工程複雜度增加，且使用者察覺到延遲。

隨著大型語言模型（LLM）和多模式 AI 的進步，語音即時 API 會合併這些功能，簡化開發人員的工作流程。這種方法可增強即時互動，並確保高品質、自然的通訊，使其適用於需要即時語音功能解決方案的產業。

Azure AI 語音即時 API 適用於語音驅動互動改善用戶體驗的案例。範例包括：

語音即時 API 包含一組完整的功能，可支援各種使用案例，並確保語音互動更高：

廣泛的地區設定範圍：針對語音轉文字支援超過15個地區設定，並針對文字轉語音提供超過600種標準語音，確保全球可及性。
可自訂的輸入和輸出：利用片語清單對音訊輸入進行即時輕量化自訂。使用自定義語音來為音訊輸出建立與品牌一致的獨特語音。
彈性的行用 AI 模型選項：從多個模型中選擇，包括 GPT-4o、GPT-4o-mini 和 Phi，專為對話需求量身打造。
進階對話功能：
- 雜訊抑制：減少環境噪音，以便更清楚的通訊。
- 回音消除：防止系統接收到自己的回應。
- 強固的中斷偵測：確保準確辨識交談期間的中斷。
- 進階回合結束偵測：允許自然暫停，而不會過早結束互動。
虛擬人偶整合：提供與音訊輸出同步的標準或可自定義虛擬人偶，為語音代理程式提供視覺身分識別。
函式呼叫：啟用外部動作、使用工具，以及使用 VoiceRAG 模式的地面回應。

語音即時 API 完全受控，不需要客戶處理後端協調流程或元件整合。開發人員提供音訊輸入和接收音訊輸出、虛擬人偶視覺效果和動作觸發程式，全都以最少的延遲。您不需要部署或管理任何產生的 AI 模型，因為 API 會處理所有基礎結構。

Azure AI 語音即時 API 的設計目的是為了與 Azure OpenAI 即時 API 相容。支援的即時事件大多與 Azure OpenAI 即時 API 事件相同，但有些例外狀況。如需詳細資訊，請參閱語音即時 API 指南。

語音即時 API 獨有的功能被設計成可選的並具有增強性。您可以新增 Azure AI 語音功能，例如噪音抑制、回音取消和進階回合結束偵測至現有的應用程式，而不需要變更現有的架構。

API 可透過 WebSocket 事件來支援，以便輕鬆進行伺服器對伺服器整合。您的後端或中介層服務會透過 WebSocket 連線到語音即時 API。您可以直接使用 WebSocket 訊息來與 API 互動。

若要為您的語音代理程式提供智能，您可以在 GPT-4o、GPT-4o-mini 和 Phi 等生成式 AI 模型中靈活選擇。不同的再生 AI 模型提供不同類型的功能、智慧層級、推斷的速度/延遲，以及成本。視您企業和使用案例最重要的事項而定，您可以選擇最符合您需求的模型。

所有原生支援的模型 – GPT-4o、GPT-4o-mini 和 Phi – 都是完全受控的，這表示您不需要部署模型、擔心容量規劃或布建輸送量。您可以直接使用所需的模型，而語音即時 API 會負責其餘部分。

語音即時 API 支援下列模型和區域：

型號	說明	支援的區域
`gpt-4o-realtime-preview`	GPT-4o 即時功能 + 選項，可使用 Azure 文字轉語音服務，其中包括可自訂的音訊語音。	`eastus2` `swedencentral`
`gpt-4o-mini-realtime-preview`	GPT-4o 小型即時 + 提供選項，可使用 Azure 語音轉換技術，包括自定義的音訊語音。	`eastus2` `swedencentral`
`gpt-4o`	GPT-4o 加上透過 Azure 語音辨識技術的音訊輸入，以及透過 Azure 語音合成技術的音訊輸出，其中包括自訂語音功能。	`eastus2` `swedencentral`
`gpt-4o-mini`	GPT-4o 迷你 + 音訊輸入透過 Azure 語音辨識 + 音訊輸出透過 Azure 語音合成，包括自訂語音。	`eastus2` `swedencentral`
`phi4-mm-realtime`	Phi4-mm + 透過 Azure 語音合成功能的音訊輸出，包括自訂語音。	`eastus2` `swedencentral`
`phi4-mini`	Phi4-mm + 透過 Azure 語音轉換文字的音訊輸入 + 透過 Azure 文字到語音轉換語音輸出，包括自訂語音。	`eastus2` `swedencentral`

語音即時運作 API 可以替代手動協調多個元件，例如語音辨識、生成式 AI 和文字到語音轉換。此協調流程可能很複雜且耗時，需要大量工程工作才能整合和維護。 Voice Live API 為所有這些元件提供單一介面，讓開發人員專注於建置其應用程式，而不是管理基礎結構，藉此簡化此程式。

若要符合您的需求，您可以建置自己的解決方案或使用語音即時 API。下表比較這兩種方法：