語音轉換文字常見問題集

本文回答語音轉換文字服務的常見問題。 如果您在這裡找不到問題的解答,請參閱 其他支持選項

一般

基底模型與自定義語音轉換文字模型之間的差異為何?

基準語音轉換文字模型是以 Microsoft 擁有的數據定型,且已部署在雲端中。 您可以建立和使用自定義模型,以更符合具有特定環境雜訊或語言的環境。 工廠樓層、汽車或嘈雜的街道將需要經過調整的原音模型。 生物學、物理、放射學、產品名稱和自定義縮略字等主題需要經過調整的語言模型。 如果您想要定型自定義模型,您應該從相關的文字開始,以改善特殊詞彙和片語的辨識。

如果我想要使用基底模型,該怎麼辦?

首先,取得 Azure 入口網站 中的語音資源密鑰和區域。 如果您想要對預先部署的基底模型進行 REST 呼叫,請參閱 REST API 檔。 如果您想要使用 WebSockets, 請下載語音 SDK

我一律需要建置自定義語音模型嗎?

否。 如果您的應用程式使用一般的日常語言,則不需要自定義模型。 如果您的應用程式在幾乎沒有背景雜訊或沒有背景雜訊的環境中使用,則不需要自定義模型。

您可以在入口網站中部署基準和自定義模型,然後對其執行精確度測試。 您可以使用這項功能來測量基底模型與自定義模型的正確性。

如何? 知道我的數據集或模型處理何時完成?

目前,唯一知道的方法就是檢視數據表中模型或數據集的狀態。 處理完成時,狀態為 [成功]。

我可以建立一個以上的模型嗎?

集合中可以擁有的模型數目沒有限制。

我意識到我犯了一個錯誤。 如何? 取消進行中的數據匯入或模型建立?

目前,您無法復原原音或語言適應程式。 當匯入的數據和模型處於終端機狀態時,您可以刪除它們。

我針對每個片語取得數個結果,其中包含詳細的輸出格式。 應該使用哪一種方法?

一律採用第一個結果,即使另一個結果 (“N-Best”) 可能有較高的信賴值。 語音服務會將第一個結果視為最佳結果。 如果無法辨識任何語音,則結果也可以是空字串。

其他結果可能更糟,可能未套用完整的大寫和標點符號。 在特殊案例中,這些結果最有用,例如讓使用者選擇清單中的更正,或處理無法正確辨識的命令。

為什麼有多個基底模型?

您可以在語音服務中選擇多個基底模型。 每個模型名稱都包含新增的日期。 當您開始定型自定義模型時,請使用最新的模型來取得最佳精確度。 在新的模型可供使用之後,較舊的基底模型仍可供使用一段時間。 您可以繼續使用您使用的模型,直到其淘汰為止(請參閱 模型和端點生命週期)。 我們仍然建議您切換至最新的基底模型,以取得更佳的精確度。

我可以更新現有的模型(模型堆棧)嗎?

您無法更新現有的模型。 作為解決方案,請將舊數據集與新的數據集和 readapt 結合。

舊的數據集和新數據集必須結合在單一.zip檔案(適用於原音數據)或.txt檔案中(適用於語言數據)。 調整完成時,請重新部署新的更新模型,以取得新的端點。

當有新版本的基底模型可用時,我的部署是否會自動更新?

部署不會自動更新。

如果您已調整並部署模型,現有的部署會維持原狀。 您可以解除委任已部署的模型、使用較新版本的基底模型加以重新部署,並重新部署以取得更佳的精確度。

基底模型和自定義模型會在一段時間后淘汰(請參閱 模型和端點生命週期)。

我可以下載模型並在本機執行嗎?

您可以在 Docker 容器本機執行自訂模型。

我可以複製或移動我的數據集、模型和部署至另一個區域或訂用帳戶嗎?

您可以使用 Models_Copy REST API ,將自定義模型複製到另一個區域或訂用帳戶。 無法複製數據集和部署。 您可以在另一個訂用帳戶中再次匯入數據集,並使用模型複本在那裡建立端點。

我的要求是否已記錄?

根據預設,不會記錄要求(音訊或轉譯)。 如有必要,您可以在建立自定義端點,從這個端點選項選取 [記錄內容]。 您也可以根據每個要求在語音 SDK啟用音訊記錄,而不需要建立自定義端點。 在這兩種情況下,要求的音訊和辨識結果都會儲存在安全記憶體中。 使用 Microsoft 擁有記憶體的訂用帳戶有 30 天可用。

如果您使用自定義端點並 啟用此端點 的記錄內容,則可以在Speech Studio 的部署頁面上匯出記錄的檔案。 如果透過 SDK 啟用音訊記錄,請呼叫 API 以存取檔案。 您也可以使用 API 隨時 刪除記錄

我的要求是否節流?

如需詳細資訊,請參閱 語音服務配額和限制

如何支付雙通道音訊的費用?

如果您在自己的檔案中個別提交每個通道,則會針對每個檔案的音訊持續時間付費。 如果您提交單一檔案與通道多任務處理在一起,您需支付單一檔案持續時間的費用。 如需定價的詳細資訊,請參閱 Azure AI 服務定價頁面

重要

如果您有進一步的隱私權考慮,以防止您使用自定義語音服務,請連絡其中一個支援通道。

增加並行

如需詳細資訊,請參閱 語音服務配額和限制

匯入資料

數據集大小的限制為何,以及為何限制?

限制是因為 HTTP 上傳的檔案大小限制。 如需實際限制,請參閱 語音服務配額和限制。 您可以將數據分割成多個數據集,然後選取所有數據集來定型模型。

我是否可以壓縮文本檔,以便上傳較大的文本檔?

否。 目前只允許未壓縮的文本檔。

數據報告說語句失敗。 有什麼問題?

無法上傳檔案中 100% 的語句不是問題。 如果成功匯入原音或語言數據集中的大部分語句(例如,超過95%),數據集就可以使用。 不過,我們仍建議您嘗試瞭解語句失敗的原因,然後修正問題。 最常見的問題,例如格式化錯誤,很容易修正。

建立原音模型

我需要多少原音數據?

我們建議從 30 分鐘到 1 小時的原音數據開始。

我應該收集哪些數據?

盡可能收集接近應用程式案例和使用案例的數據。 數據收集應該符合目標應用程式和使用者,就裝置或裝置、環境和說話者類型而言。 一般而言,您應該盡可能收集各種演講者的數據。

如何收集原音數據?

您可以建立獨立數據收集應用程式,或使用現成的音訊錄製軟體。 您也可以建立應用程式版本來記錄音訊數據,然後使用數據。

我需要自行轉譯適應數據嗎?

是。 您可以自行轉譯,或使用專業轉譯服務。 有些使用者偏好專業轉譯器,而其他人則使用眾包或轉譯數據本身。

使用音訊數據定型自定義模型需要多久時間?

使用音訊數據定型模型可能是一個冗長的程式。 視數據量而定,建立自定義模型可能需要數天的時間。 如果無法在一周內完成,服務可能會中止定型作業,並將模型回報為失敗。

一般而言,語音服務會在具有專用硬體的區域,每天處理大約10小時的音訊數據。 在其他區域中,它每天只能處理大約1小時的音訊數據。 使用文字進行定型的速度較快,而且通常會在幾分鐘內完成。

使用其中一個區域,其中專用硬體可供訓練。 語音服務會使用最多 20 小時的音訊來訓練這些區域。 在其他區域中,語音服務最多會使用8小時。

精確度測試

什麼是文字錯誤率 (WER),以及其計算方式?

WER 是語音辨識的評估計量。 WER 會計算為錯誤總數(插入、刪除和替代),除以參考轉譯中的字詞總數。 如需詳細資訊,請參閱 量化測試模型。

如何? 判斷正確性測試結果是否良好?

結果會顯示基底模型與您自定義模型之間的比較。 為了值得進行自定義,您應該的目標是要擊敗基底模型。

如何? 判斷基底模型的 WER,以便查看其是否已改善?

離線測試結果會顯示自定義模型的基準精確度,以及基準的改善。

建立語言模型

我需要上傳多少文字數據?

這取決於應用程式中使用的詞彙和片語與起始語言模型的不同程度。 對於所有新的單字,盡可能提供這些單字使用方式的範例會很有用。 針對應用程式中所使用的常見片語,包括語言數據中的片語,提供許多範例相當實用,因為它會告知系統也接聽這些詞彙。 語言數據集中至少有100個語句,通常有數百個以上的語句。 此外,如果某些類型的查詢預期比其他查詢更常見,您可以在數據集中插入多個通用查詢複本。

我可以只上傳單字清單嗎?

上傳單字清單會將它們新增至詞彙,但不會教導系統通常如何使用這些字詞。 藉由提供使用者可能說的完整或部分語句(使用者可能說的句子或片語),語言模型可以學習新單字及其使用方式。 自定義語言模型不僅適合將新單字新增至系統,而且適合用來調整應用程式已知單字的可能性。 提供完整的語句可協助系統進一步學習。