快速入門:開始使用 Azure AI 語音 CLI
在本文中,您會瞭解如何使用 Azure AI 語音 CLI (也稱之 SPX) 存取語音服務 (例如語音轉換文字、文字轉換語音及語音翻譯),而無須撰寫程式碼。 語音 CLI 已可在生產環境中使用,您可以使用 .bat
或殼層指令碼將語音服務中的簡易工作流程自動化。
本文假設您已具備命令提示字元視窗、終端或 PowerShell 的使用知識。
注意
在 PowerShell 中,stop-parsing 權杖 (--%
) 應遵循 spx
。 例如,執行 spx --% config @region
以檢視目前的地區設定值。
下載並安裝
請遵循下列步驟,在 Windows 上安裝語音 CLI:
您需根據平台來選擇適用於 Visual Studio 2019 的 Microsoft Visual C++ 可轉散發套件。 首次安裝時可能需要重新開機。
安裝 .NET 6。
輸入下列命令,透過 .NET CLI 安裝語音 CLI:
dotnet tool install --global Microsoft.CognitiveServices.Speech.CLI
若要更新語音 CLI,請輸入下列命令:
dotnet tool update --global Microsoft.CognitiveServices.Speech.CLI
輸入 spx
或 spx help
以查看語音 CLI 的說明。
字型限制
在 Windows 上,語音 CLI 只能顯示本機電腦上的命令提示字元可用的字型。 Windows 終端支援語音 CLI 以互動方式產生的所有字型。
如果您輸出至檔案,像是記事本或網頁瀏覽器 (例如 Microsoft Edge) 的文字編輯器也可以顯示所有字型。
建立資源設定
若要開始使用,您需要語音資源金鑰和區域識別碼 (例如 eastus
、westus
)。 在 Azure 入口網站上建立語音資源。 如需詳細資訊,請參閱建立 Azure AI 服務資源。
若要設定資源金鑰和區域識別碼,請執行下列命令:
spx config @key --set SPEECH-KEY
spx config @region --set SPEECH-REGION
金鑰和區域會儲存起來,以供後續語音 CLI 命令之用。 若要檢視目前的設定,請執行下列命令:
spx config @key
spx config @region
視需要加入 clear
選項以移除其中一個儲存值:
spx config @key --clear
spx config @region --clear
基本使用方式
重要
當您在容器中使用語音 CLI 時,請包含 --host
選項。 您也必須指定 --key none
來確保 CLI 不會嘗試使用語音金鑰進行驗證。 例如,執行 spx recognize --key none --host wss://localhost:5000/ --file myaudio.wav
以從 語音轉換文字容器中的音訊檔案辨識語音。
本節將說明一些常可運用在首次測試和實驗的基本 SPX 命令。 請執行下列命令以檢視工具內說明:
spx
您可以依關鍵字搜尋說明主題。 例如,若要查看語音 CLI 使用量範例的清單,請執行下列命令:
spx help find --topics "examples"
若要查看 recognize
命令的選項,請執行下列命令:
spx help recognize
主控台輸出會列出更多說明命令。 您可以輸入這些命令,以取得子命令的詳細說明。
語音轉換文字 (語音辨識)
注意
在 Docker 容器內執行語音 CLI 時,無法使用電腦的麥克風。 不過,您可以在本機掛接的目錄中讀取及儲存音訊檔案。
若要使用系統的預設麥克風將語音轉換成文字 (語音辨識),請執行下列命令:
spx recognize --microphone
執行該命令後,SPX 會開始聽取目前作用中輸入裝置上的音訊。 當您選取輸入時,其會停止聽取。 接著將會辨識口語音訊,並將其轉換為主控台輸出中的文字。
您也可以使用語音 CLI 來辨識音訊檔案中的語音。 執行以下命令:
spx recognize --file /path/to/file.wav
提示
如果您遇到困難或想要深入了解語音 CLI 的辨識選項,您可以執行 spx help recognize
。
文字轉換語音 (語音合成)
下列命令會以文字作為輸入,並將合成的語音輸出至目前作用中的輸出裝置 (例如您的電腦喇叭)。
spx synthesize --text "Testing synthesis using the Speech CLI" --speakers
您也可以將合成的輸出儲存至檔案。 在此範例中,讓我們在執行命令的目錄中建立名為 my-sample.wav 的檔案。
spx synthesize --text "Enjoy using the Speech CLI." --audio output my-sample.wav
這些範例假設您要以英文進行測試。 不過,語音服務支援多種語言的語音合成。 您可以執行此命令來提取完整語音清單,或造訪語言支援頁面。
spx synthesize --voices
這是使用您探索到的其中一個語音的命令。
spx synthesize --text "Bienvenue chez moi." --voice fr-FR-AlainNeural --speakers
提示
如果您遇到困難或想要深入了解語音 CLI 的辨識選項,您可以執行 spx help synthesize
。
語音轉換文字翻譯
透過語音 CLI,您也可以進行語音轉換文字翻譯。 執行下列命令以從您的預設麥克風擷取音訊,並以文字形式輸出翻譯。 請記住,您必須使用 translate
命令來提供 source
和 target
語言。
spx translate --microphone --source en-US --target ru-RU
當您翻譯至多種語言時,請將語言字碼之間以分號分隔 (;
)。
spx translate --microphone --source en-US --target 'ru-RU;fr-FR;es-ES'
如果您想要儲存翻譯的輸出,請使用 --output
旗標。 在此範例中,您也會讀取檔案。
spx translate --file /some/file/path/input.wav --source en-US --target ru-RU --output file /some/file/path/russian_translation.txt
提示
如果您遇到困難或想要深入了解語音 CLI 的辨識選項,您可以執行 spx help translate
。