使用 Azure AI 語音進行遊戲開發

2025-06-02

Azure AI 語音可用來改善各種遊戲案例，包括遊戲內和遊戲外。

以下是為獲得彈性和互動式的遊戲體驗可考量的一些語音功能：

透過從文字合成音訊，讓每個人都能參與交談。或者，顯示來自音訊的文字。
讓無法以特定語言閱讀文字的玩家更容易存取遊戲，包括不會讀寫的年青玩家。玩家可用其慣用語言聆聽故事大綱和指示。
建立遊戲虛擬人偶和非玩家角色 (NPC)，以啟始或參與遊戲內的對話。
標準語音可提供高度自然的即時語音，在語言和語音多樣性方面，擁有業界領先的豐富選擇。
用來建立保持品牌一致質量和說話風格之語音的自定義語音。您可以加入情緒、口音、細微差異、笑聲和其他語言聲音和表情。
使用遊戲對話原型設計來縮短花費在產品上的時間和金錢，加快遊戲上市速度。您可以快速交換對話，並即時聆聽變化以逐一查看遊戲內容。

您可以使用語音 SDK 或語音 CLI 進行即時低延遲的語音轉換文字、文字轉換語音、語言識別和語音翻譯。您也可以使用批次轉譯 API，將預先錄製的語音轉譯為文字。若要將大量文字輸入 (長文字和短文字) 合成為語音，請使用批次合成 API。

如需地區設定和區域可用性的相關資訊，請參閱語言和語音支援 (部分機器翻譯) 和區域支援 (部分機器翻譯)。

將文字轉換成語音

針對情節 (例如遊戲對話原型設計、更便利的協助工具，或非玩家角色 (NPC) 語音) 使用文字轉換語音將文字訊息轉換成音訊，協助所有人參與交談。文字到語音轉換包含標準語音和自定義語音功能。標準語音技術可以提供高度自然的即用語音，以廣泛的語言和語音組合展現卓越的語音多樣性。自定義語音是一種易於使用的自助式，可用來建立高度自然的自定義語音。

在遊戲中啟用這項功能時，請記住下列優點：

支援語音和語言 - 支援大量地區設定和語音組合。您也可以為文字轉換語音輸出指定多種語言。針對自訂語音，您可以選擇從單一語言訓練數據建立不同的語言。
支援情緒風格 - 情緒語氣，例如愉快、生氣、傷心、興奮、滿懷希望、友善、不友善、恐懼、喊叫和低語。您可以在句子層級調整說話風格、風格程度和角色。
支援描聲影像 – 您可以在即時合成期間使用描聲影像控制 2D 和 3D 虛擬人偶模型的動作，讓嘴部動作完全符合合成語音。如需詳細資訊，請參閱使用 viseme 取得臉部位置。
使用語音合成標記語言 (SSML) 微調文字轉換語音輸出 - SSML 可讓您使用更豐富的語音調整支援來自訂文字轉換語音輸出。如需詳細資訊，請參閱語音合成標記語言 (SSML) 概觀 (部分機器翻譯)。
音訊輸出 - 每個標準語音模型都可在 24 kHz 和高逼真度 48 kHz 使用。如果您選取 48 kHz 輸出格式，則會據以叫用 48kHz 高保真語音模型。合成時，可透過向上取樣或向下取樣來取得 24 kHz 和 48 kHz 以外的其他採樣速率。例如，44.1 kHz 是從 48 kHz 向下取樣。每個音訊格式都包含位元速率和編碼類型。如需詳細資訊，請參閱支援的音訊格式 (部分機器翻譯)。如需有關 48 kHz 高保真語音的詳細資訊，請參閱此簡介部落格 (英文)。

如需範例，請參閱文字轉換語音快速入門。

語音轉換文字

您可以使用語音轉換文字，在遊戲中顯示來自口說音訊的文字。如需範例，請參閱語音轉換文字快速入門。

語言識別

語言識別可讓您偵測玩家所提交的聊天字串語言。

語音翻譯

玩家在同一個遊戲工作階段中說不同母語而且可能很高興收到原始訊息及其翻譯，這種情況並不罕見。您可以使用語音翻譯來翻譯不同語言的文字，讓世界各地的玩家都能使用自己的母語互相溝通。

如需範例，請參閱語音翻譯快速入門 (部分機器翻譯)。

注意

除了語音服務之外，您也可以使用翻譯工具服務。如果要在支援的來源語言與目標語言之間即時執行文字翻譯，請參閱文字翻譯 (部分機器翻譯)。

分享方式：

使用 Azure AI 語音進行遊戲開發

將文字轉換成語音

語音轉換文字

語言識別

語音翻譯

下一步

意見反映

更多資源