音訊串流概觀 - 音訊訂用帳戶

Azure 通訊服務 提供雙向音訊串流功能,提供開發人員功能強大的工具,以在作用中通話期間擷取、分析和處理音訊內容。 此開發為開發人員和企業實時通訊的新可能性鋪平了道路。

藉由整合雙向音訊串流與 Azure OpenAI 和其他即時語音 API 等服務,企業可以達成順暢、低延遲的通訊。 這項額外的功能可大幅增強交談式 AI 解決方案的開發與部署,讓互動更具吸引力且更有效率。

透過雙向串流,企業現在可以將其語音解決方案提升為低延遲、類似人為的互動式 AI 代理程式。 我們的雙向串流 API 可讓開發人員即時將音訊從 Azure 通訊服務 進行中的通話串流至其網頁伺服器,並將音訊串流回呼叫中。 雖然這些功能的初始重點是協助企業建立交談式 AI 代理程式,但其他使用案例包括自然語言處理,以進行交談分析,或在與使用者進行主動互動時,提供即時見解和建議給代理程式。

此 API 讓開發者能夠透過 Azure Communication Services 的 WebSocket 存取即時音訊串流,並將音訊重新串流回通話中。

即時通話協助

  • 運用交談式 AI 解決方案: 開發複雜的客戶支援虛擬代理程式,以即時與客戶互動,提供立即的回應和解決方案。

  • 個人化客戶體驗: 藉由利用實時數據,企業可以即時提供更個人化和動態的客戶互動,進而提高滿意度和忠誠度。

  • 減少客戶的等候時間: 使用具有大型語言模型(LLM)的雙向音訊串流,您可以建立虛擬代理程式,作為客戶的第一個連絡點,減少對人為代理程式的等候時間。

驗證

  • 生物特徵辨識驗證 – 使用音訊串流執行語音驗證 ,方法是透過您的語音辨識/比對引擎/工具執行來自通話的音訊。

示範雙向音訊串流如何用於交談式 AI 代理程式的範例架構

音訊串流架構圖表的螢幕快照。

支援的格式

混合

包含通話上所有參與者的混合音訊。 所有音訊都會壓平合併為一個串流。

未混合

包含每個頻道每個參與者的音訊,在通話的任何時間點最多都支援四個最主要說話者的四個頻道。 您也可以取得參與者RawID,可用來判斷演講者。

其他資訊

開發人員可以使用下列從 Azure 通訊服務 傳送的音訊資訊,將音訊封包轉換成其應用程式的聽覺內容。

  • 畫面幀率:每秒 50 幀
  • 封包數據流速率:20 毫秒速率
  • 數據封包大小:16,000 hz 的 640 個字節,24,000 hz 為 960 個字節
  • 音訊計量:16 位元 PCM 單聲道,頻率為 16,000 hz 和 24,000 hz
  • 公用字串資料是 base64 字串,應該轉換成位元組陣列,以建立原始 PCM 檔案。

計費

如需音訊串流計費方式的相關信息,請參閱 Azure 通訊服務 定價頁面。 您可以在音訊串流下的通話類別中找到價格。

已知限制

  • 使用新的 operationContext 停止媒體串流處理無法正確反映更新的內容。
    • 如果您建立或接聽 operationContext 設定為「ABC」的電話,並且啟用媒體串流處理時,您會收到帶有 operationContext: "ABC" 的 MediaStreamingStarted 事件。
    • 如果您使用不同的 operationContext,例如“XYZ”,呼叫 StopStreaming API,那麼您可以預期收到 MediaStreamingStopped 事件,其 operationContext 為“XYZ”。 不過,由於已知問題,MediaStreamingStopped 事件仍然帶有 operationContext: "ABC"。
  • 使用新的回呼 URI 停止媒體串流時,事件會繼續傳送至呼叫建立或接聽期間使用的預設回呼 URI。
    • 如果您使用預設回呼 URI 建立或接聽通話」https://ABC.com"並啟用媒體串流,MediaStreamingStarted 事件將會傳送至 “https://ABC.com"。
    • 如果您接著使用 StopStreaming API 停止串流並指定新的回呼 URI “https://XYZ.com”,則預期 MediaStreamingStopped 事件會傳送至 “https://XYZ.com."不過,由於已知問題,事件仍會傳送至原始回呼 URI “https://ABC.com"

後續步驟

若要深入瞭解,請參閱 音訊串流快速入門