共用方式為


快速入門:開始使用 Azure AI 語音 CLI

在本文中,您會瞭解如何使用 Azure AI 語音 CLI (也稱之 SPX) 存取語音服務 (例如語音轉換文字、文字轉換語音及語音翻譯),而無須撰寫程式碼。 語音 CLI 已可在生產環境中使用,您可以使用 .bat 或殼層指令碼將語音服務中的簡易工作流程自動化。

本文假設您已具備命令提示字元視窗、終端或 PowerShell 的使用知識。

注意

在 PowerShell 中,stop-parsing 權杖 (--%) 應遵循 spx。 例如,執行 spx --% config @region 以檢視目前的地區設定值。

下載並安裝

請遵循下列步驟,在 Windows 上安裝語音 CLI:

  1. 您需根據平台來選擇適用於 Visual Studio 2019 的 Microsoft Visual C++ 可轉散發套件。 首次安裝時可能需要重新開機。

  2. 安裝 .NET 6

  3. 輸入下列命令,透過 .NET CLI 安裝語音 CLI:

    dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
    

    若要更新語音 CLI,請輸入下列命令:

    dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
    

輸入 spxspx help 以查看語音 CLI 的說明。

字型限制

在 Windows 上,語音 CLI 只能顯示本機電腦上的命令提示字元可用的字型。 Windows 終端支援語音 CLI 以互動方式產生的所有字型。

如果您輸出至檔案,像是記事本或網頁瀏覽器 (例如 Microsoft Edge) 的文字編輯器也可以顯示所有字型。

建立資源設定

若要開始使用,您需要語音資源金鑰和區域識別碼 (例如 eastuswestus)。 在 Azure 入口網站上建立語音資源。 如需詳細資訊,請參閱建立 Azure AI 服務資源

若要設定資源金鑰和區域識別碼,請執行下列命令:

spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION

金鑰和區域會儲存起來,以供後續語音 CLI 命令之用。 若要檢視目前的設定,請執行下列命令:

spx config @key
spx config @region

視需要加入 clear 選項以移除其中一個儲存值:

spx config @key --clear
spx config @region --clear

基本使用方式

重要

當您在容器中使用語音 CLI 時,請包含 --host 選項。 您也必須指定 --key none 來確保 CLI 不會嘗試使用語音金鑰進行驗證。 例如,執行 spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav 以從 語音轉換文字容器中的音訊檔案辨識語音。

本節將說明一些常可運用在首次測試和實驗的基本 SPX 命令。 請執行下列命令以檢視工具內說明:

spx

您可以依關鍵字搜尋說明主題。 例如,若要查看語音 CLI 使用量範例的清單,請執行下列命令:

spx help find --topics "examples"

若要查看 recognize 命令的選項,請執行下列命令:

spx help recognize

主控台輸出會列出更多說明命令。 您可以輸入這些命令,以取得子命令的詳細說明。

語音轉換文字 (語音辨識)

注意

在 Docker 容器內執行語音 CLI 時,無法使用電腦的麥克風。 不過,您可以在本機掛接的目錄中讀取及儲存音訊檔案。

若要使用系統的預設麥克風將語音轉換成文字 (語音辨識),請執行下列命令:

spx recognize --microphone

執行該命令後,SPX 會開始聽取目前作用中輸入裝置上的音訊。 當您選取輸入時,其會停止聽取。 接著將會辨識口語音訊,並將其轉換為主控台輸出中的文字。

您也可以使用語音 CLI 來辨識音訊檔案中的語音。 執行以下命令:

spx recognize --file /path/to/file.wav

提示

如果您遇到困難或想要深入了解語音 CLI 的辨識選項,您可以執行 spx help recognize

文字轉換語音 (語音合成)

下列命令會以文字作為輸入,並將合成的語音輸出至目前作用中的輸出裝置 (例如您的電腦喇叭)。

spx synthesize --text "Testing synthesis using the Speech CLI" --speakers

您也可以將合成的輸出儲存至檔案。 在此範例中,讓我們在執行命令的目錄中建立名為 my-sample.wav 的檔案。

spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav

這些範例假設您要以英文進行測試。 不過,語音服務支援多種語言的語音合成。 您可以執行此命令來提取完整語音清單,或造訪語言支援頁面

spx synthesize --voices

這是使用您探索到的其中一個語音的命令。

spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers

提示

如果您遇到困難或想要深入了解語音 CLI 的辨識選項,您可以執行 spx help synthesize

語音轉換文字翻譯

透過語音 CLI,您也可以進行語音轉換文字翻譯。 執行下列命令以從您的預設麥克風擷取音訊,並以文字形式輸出翻譯。 請記住,您必須使用 translate 命令來提供 sourcetarget 語言。

spx translate --microphone --source en-US --target ru-RU

當您翻譯至多種語言時,請將語言字碼之間以分號分隔 (;)。

spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'

如果您想要儲存翻譯的輸出,請使用 --output 旗標。 在此範例中,您也會讀取檔案。

spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt

提示

如果您遇到困難或想要深入了解語音 CLI 的辨識選項,您可以執行 spx help translate

下一步