什麼是語音轉換文字？

Azure AI 語音服務提供進階語音轉換文字功能。此功能同時支持即時和批次轉譯，提供將音訊串流轉換成文字的多用途解決方案。

核心功能

語音轉換文字服務提供以下核心功能：

即時語音轉換文字會在辨識麥克風或檔案中的語音時轉錄語音。非常適合需要立即轉譯的應用程式，例如：

您可以透過語音 SDK、語音 CLI 和 REST API 來存取即時語音轉換文字，以便整合至各種應用程式和工作流程。即時語音轉換文字可透過語音 SDK、語音 CLI 和語音轉換文字 REST API 來取得短音訊。

快速轉錄 API 可以同步方式轉錄音訊檔案，且比即時音訊傳回結果的速度快。您需要盡快轉錄音訊錄製，並且可預測延遲時，適合使用快速轉錄，例如：

若要開始使用快速轉譯，請參閱使用快速轉譯 API。

批次轉譯專為轉譯儲存在檔案中的大量音訊而設計。此方法會以非同步方式處理音訊，且適用於：

可透過以下方式進行批次謄寫：

語音轉換文字 REST API：利用 RESTful 呼叫的彈性促進批處理。若要開始使用，請參閱如何使用批次轉譯和批次轉譯範例。
語音 CLI：同時支援即時和批次轉譯，讓您輕鬆管理轉譯工作。如需批次謄寫的語音 CLI 說明，請執行下列命令：
```
spx help batch transcription
```

有了自訂語音，您即可評估與提高應用程式和產品的語音辨識精確度。自訂語音模型可用於即時語音轉換文字、語音翻譯和批次謄寫。

提示

無需託管部署端點，也能將自訂語音與批次謄寫 API 搭配使用。如果自訂語音模型僅用於批次謄寫，則可以節省資源。如需詳細資訊，請參閱語音服務價格。

開箱即用的語音辨識功能運用通用語言模型作為基礎模型。這個功能是以 Microsoft 擁有的資料定型，且能夠反映常用的口語語言。基底模型會預先訓練代表各種常見領域的方言和注音符號。當您提出語音辨識要求時，系統預設會使用每個支援語言的最新基礎模型。基礎模型在大部分的語音辨識案例中運作良好。

自訂語音能讓您設定語音辨識模型，更符合您應用程式的特定需求。這對於下列情形特別有用：

如需自定義語音的詳細資訊，請參閱自定義語音概觀和語音轉換文字 REST API 文件。

如需每個語言和地區設定自定義選項的詳細資訊，請參閱語音服務的語言和語音支援文件。

以下是一些實際範例，說明如何使用 Azure AI 語音轉換文字：

使用案例	狀況	解決方法
即時會議轉譯和標題	虛擬活動平台必須提供網路研討會的即時輔助字幕。	使用語音 SDK 將即時語音轉換成文字，以將口語內容轉譯成活動期間實時顯示的標題。
客戶服務增強	客服中心想要藉由提供客戶通話的即時轉譯來協助專員。	透過語音 CLI 使用即時語音轉換文字來轉譯通話，讓代理程式能夠進一步了解和回應客戶查詢。
影片字幕	裝載影片的平台想要快速產生一組影片的字幕。	使用快速轉譯來快速取得整個影片的一組字幕。
教育工具	電子學習平台旨在提供影片講座的轉譯。	透過語音轉換文字 REST API 套用批次轉譯，以處理預先錄製的講座影片，為學生產生文字謄寫記錄。
醫療保健文件	醫療保健提供者需要記錄患者諮詢。	使用即時語音轉換文字進行聽寫，讓醫療保健專業人員能夠說出筆記，並立即轉譯。使用自定義模型來增強特定醫療詞彙的辨識。
媒體和娛樂	媒體公司想要為大量封存影片建立字幕。	使用批次轉譯來處理大量影片檔案，為每個影片產生精確的字幕。
市場研究	市場研究公司需要分析來自錄音的客戶意見反應。	採用批次轉譯將音訊意見反應轉換成文字，讓您更容易分析和深入解析擷取。

AI 系統不僅包含技術，也包含使用該技術的人員、受其影響的人員及部署的環境。閱讀透明度資訊，了解在系統中負責任 AI 的使用和部署資訊。