使用 Docker 自訂語音轉換文字容器

發行項
10/16/2024

自訂語音轉換文字容器會以中繼結果謄寫即時語音或批次音訊錄製。您可以使用您在自訂語音入口網站中建立的自訂模型。在本文中，您將了解如何下載、安裝及執行自訂語音轉換文字容器。

如需必要條件、驗證容器正在執行、在相同主機上執行多個容器，以及執行中斷連線容器的詳細資訊，請參閱使用 Docker 安裝及執行語音容器。

容器映像

您可以在 Microsoft Container Registry (MCR) 同步發行中找到所有支援版本和地區設定的自訂語音轉換文字容器映像。其位於 azure-cognitive-services/speechservices/ 存放庫內，並命名為 custom-speech-to-text。

完整的容器映像名稱為 mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text。附加特定版本或附加 :latest 以取得最新版本。

版本	Path
最新	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.10.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.10.0-amd64`

除了 latest 以外的所有標籤都採用下列格式，而且會區分大小寫：

<major>.<minor>.<patch>-<platform>-<prerelease>

注意

適用於自訂語音轉換文字容器的 locale 和 voice 是由容器內嵌的自訂模型所決定。

為了方便起見，標籤也以 JSON 格式提供。本文包含容器路徑和標籤清單。標籤不會依版本排序，但 "latest" 一律會包含在清單結尾，如下列程式碼片段所示：

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    <--redacted for brevity-->
    "4.4.0-amd64",
    "4.5.0-amd64",
    "4.6.0-amd64",
    "4.7.0-amd64",
    "4.8.0-amd64",
    "4.9.0-amd64",
    "4.10.0-amd64",
    "latest"
  ]
}

使用 docker pull 取得容器映像

您需要必要條件，包括必要的硬體。另請參閱每個語音容器的建議資源配置。

使用 docker pull 命令，從 Microsoft Container Registry下載容器映像：

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

注意

適用於自訂語音容器的 locale 和 voice 是由容器內嵌的自訂模型所決定。

取得模型識別碼

您必須先知道自訂模型或基底模型識別碼的模型識別碼，才能執行容器。當您執行容器時，您會指定要下載並使用的其中一個模型識別碼。

自訂模型識別碼
基底模型識別碼

自訂模型必須使用 Speech Studio 來訓練。如需如何取得模型識別碼的詳細資訊，請參閱自訂語音模型生命週期。

顯示自訂語音定型頁面的螢幕擷取畫面。

取得模型識別碼，用作 docker run 命令的 ModelId 參數引數。

顯示自訂語音模型詳細資料的螢幕擷取畫面。

您可使用選項 BaseModelLocale={LOCALE} 以取得可用的基底模型資訊。此選項會在帳單帳戶下為您提供該地區設定可用的基礎模型清單。

若要取得基底模型識別碼，請使用 docker run 命令。例如：

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

此命令會檢查容器映像，並傳回目標地區設定的可用基底模型。

注意

雖然您使用 docker run 命令，但容器並未啟動服務。

輸出會為您提供基礎模型清單，其中具有資訊地區設定、模型識別碼和建立日期時間。例如：

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

顯示模型下載

在您執行容器前，您可以選擇性地取得可用的顯示模型資訊，並選擇將這些模型下載到語音轉換文字容器，以獲得大幅改善的最終顯示輸出。自訂語音轉換文字容器 3.1.0 及更新版本可提供顯示模型下載。

注意

雖然您使用 docker run 命令，但容器並未啟動服務。

您可以查詢或下載下列任何或所有的顯示模型類型：重新評分 (Rescore)、標點符號 (Punct)、再分割 (Resegment) 和 wfstitn (Wfstitn)。否則，您可以使用 FullDisplay 選項 (搭配或不搭配其他類型) 來查詢或下載所有類型的顯示模型。

設定 BaseModelLocale 以在目標地區設定上查詢最新的可用顯示模型。如果您包含多個顯示模型類型，該命令會針對每個類型傳回最新的可用顯示模型。例如：

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

設定 DisplayLocale 以在目標地區設定上下載最新的可用顯示模型。設定了 DisplayLocale 時，必須同時指定 FullDisplay 或以空格分隔的顯示模型子集。該命令會下載每個指定類型的最新可用顯示模型。例如：

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

設定一個模型識別碼參數以下載特定的顯示模型：重新評分 (RescoreId)、標點符號 (PunctId)、再分割 (ResegmentId) 或 wfstitn (WfstitnId)。其運作方式與透過 ModelId 參數下載基礎模型相類似。例如，若要下載重新評分顯示模型，您可以使用下列命令搭配 RescoreId 參數：

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

注意

如果設定了多個查詢或下載參數，命令將會採用下列優先順序：BaseModelLocale、模型識別碼、DisplayLocale (僅適用於顯示模型)。

使用 docker run 執行容器

使用 docker run 命令來執行容器服務。

自訂語音轉換文字
已中斷連線的自訂語音轉換文字

下表代表各種 docker run 參數及其對應的描述：

參數	描述
`{VOLUME_MOUNT}`	主機電腦磁碟區掛接，可供 Docker 用來保存自訂模型。例如 `c:\CustomSpeech`，其中，`c:\` 磁碟機位於主機電腦上。
`{MODEL_ID}`	自訂語音或基底模型識別碼。如需詳細資訊，請參閱取得模型識別碼。
`{ENDPOINT_URI}`	計量和帳單需要端點。如需詳細資訊，請參閱計費引數。
`{API_KEY}`	API 金鑰是必要的。如需詳細資訊，請參閱計費引數。

當您執行自訂語音轉換文字容器時，請根據自訂語音轉換文字容器需求和建議，設定連接埠、記憶體和 CPU。

以下為具有預留位置值的範例 docker run 命令。您必須指定 VOLUME_MOUNT、MODEL_ID、ENDPOINT_URI 和 API_KEY 值：

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

此命令：

從容器映像執行自訂語音轉換文字容器。
配置 4 個 CPU 核心和 8 GB 的記憶體。
從磁碟區輸入掛接中載入自訂語音轉換文字模型，例如 C:\CustomSpeech。
公開 TCP 通訊埠 5000，並為容器配置虛擬 TTY。
鑒於 ModelId，請下載模型 (如果在磁碟區掛接上找不到的話)。
如果先前已下載自訂模型，則會忽略 ModelId。
在容器結束之後自動將其移除。容器映像仍可在主機電腦上使用。

如需關於搭配語音容器執行 docker run 的詳細資訊，請參閱使用 Docker 安裝及執行語音容器。

若要執行中斷連線的容器 (未連線到網際網路)，您必須提交此要求表單，並等候核准。如需在中斷連線的環境中套用及購買承諾用量方案以使用容器的詳細資訊，請參閱 Azure AI 服務文件中的在中斷連線的環境中使用容器。

如果您獲核准執行與網際網路中斷連線的容器，下列範例顯示要使用的 docker run 命令的格式設定，其中具有預留位置值。以您自己的值取代這些預留位置值。

若要準備及設定中斷連線的自訂語音轉換文字容器，您需要兩個不同的語音資源：

設定為使用「S0 - 標準」定價層或「語音轉換文字 (自訂)」承諾用量層級價格方案的一般 Azure AI 語音資源。這可用於定型、下載及設定自訂語音模型，以便在容器中使用。
設定為使用「DC0 承諾用量 (已中斷連線)」價格方案的 Azure AI 語音資源。這是用於下載在中斷連線模式下執行容器所需之已中斷連線的容器授權檔案。

請遵循下列步驟，在中斷連線的環境中下載並執行容器。

下載已中斷連線容器的模型。針對此步驟，請使用設定為使用「S0 - 標準」價格層級或「語音轉換文字 (自訂)」承諾用量層級價格方案的一般 Azure AI 語音資源。
下載已中斷連線的容器授權。針對此步驟，請使用設定為使用「DC0 承諾用量 (中斷連線) 」價格方案的 Azure AI 語音資源。
執行已中斷連線的服務容器。針對此步驟，請使用設定為使用「DC0 承諾用量 (中斷連線) 」價格方案的 Azure AI 語音資源。

下載已中斷連線容器的模型

針對此步驟，請使用設定為使用「S0 - 標準」價格層級或「語音轉換文字 (自訂)」承諾用量層級價格方案的一般 Azure AI 語音資源。

下表代表各種 docker run 參數及其對應的描述：

參數	描述
`{VOLUME_MOUNT}`	主機電腦磁碟區掛接，可供 Docker 用來保存自訂模型。例如 `c:\CustomSpeech`，其中，`c:\` 磁碟機位於主機電腦上。
`{MODEL_ID}`	自訂語音或基底模型識別碼。如需詳細資訊，請參閱取得模型識別碼。
`{ENDPOINT_URI}`	計量和帳單需要端點。如需詳細資訊，請參閱計費引數。
`{API_KEY}`	API 金鑰是必要的。如需詳細資訊，請參閱計費引數。

當您執行自訂語音轉換文字容器時，請根據自訂語音轉換文字容器需求和建議，設定連接埠、記憶體和 CPU。

以下為具有預留位置值的範例 docker run 命令。您必須指定 VOLUME_MOUNT、MODEL_ID、ENDPOINT_URI 和 API_KEY 值：

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

此命令：

從容器映像執行自訂語音轉換文字容器。
配置 4 個 CPU 核心和 8 GB 的記憶體。
從磁碟區輸入掛接中載入自訂語音轉換文字模型，例如 C:\CustomSpeech。
公開 TCP 通訊埠 5000，並為容器配置虛擬 TTY。
鑒於 ModelId，請下載模型 (如果在磁碟區掛接上找不到的話)。
如果先前已下載自訂模型，則會忽略 ModelId。
在容器結束之後自動將其移除。容器映像仍可在主機電腦上使用。

如需關於搭配語音容器執行 docker run 的詳細資訊，請參閱使用 Docker 安裝及執行語音容器。

下載已中斷連線的容器授權

接下來，您會下載已中斷連線的授權檔案。 docker run 命令中的 DownloadLicense=True 參數會下載授權檔案，讓 Docker 容器在未連線到網際網路時執行。其也包含到期日，在此日期之後，授權檔案將無效，以致無法執行容器。

您只能搭配已獲核准的適當容器和模型使用授權檔案。例如，您無法搭配 neural-text-to-speech 容器使用 speech-to-text 容器的授權檔案。

預留位置	描述
`{IMAGE}`	您想要使用的容器映像。例如：`mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	下載和裝載授權的路徑。例如：`/host/license:/path/to/license/directory`
`{MODEL_PATH}`	模型所在的路徑。例如：`/host/models:/usr/local/models`
`{ENDPOINT_URI}`	用於驗證服務要求的端點。在 Azure 入口網站上，您可以在資源的 [金鑰和端點] 頁面上找到金鑰。例如：`https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	語音資源的金鑰。在 Azure 入口網站上，您可以在資源的 [金鑰和端點] 頁面上找到金鑰。
`{CONTAINER_LICENSE_DIRECTORY}`	容器本機檔案系統上的授權資料夾位置。例如：`/path/to/license/directory`

針對此步驟，請使用設定為使用「DC0 承諾用量 (中斷連線) 」價格方案的 Azure AI 語音資源。

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

執行已中斷連線的容器

一旦下載了授權檔案，您就可以在已中斷連線的環境中執行容器。下列範例顯示您所使用，具有預留位置的 docker run 命令的格式。以您自己的值取代這些預留位置值。

無論在何處執行容器，授權檔案都必須掛接到該容器，而且授權資料夾在該容器本機檔案系統上的位置必須是使用 Mounts:License= 指定的。也須指定輸出掛接，才能寫入帳單使用記錄。

預留位置	描述
`{IMAGE}`	您想要使用的容器映像。例如：`mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	要為您容器配置的適當記憶體大小。例如：`4g`
`{NUMBER_CPUS}`	要為您容器配置的適當 CPU 數目。例如：`4`
`{LICENSE_MOUNT}`	下載和裝載授權的路徑。例如：`/host/license:/path/to/license/directory`
`{MODEL_PATH}`	模型所在的路徑。例如：`/host/models:/usr/local/models`
`{OUTPUT_PATH}`	記錄的輸出路徑。例如：`/host/output:/path/to/output/directory` 如需詳細資訊，請參閱 Azure AI 服務文件中的使用量記錄。
`{ENDPOINT_URI}`	用於驗證服務要求的端點。在 Azure 入口網站上，您可以在資源的 [金鑰和端點] 頁面上找到金鑰。例如：`https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	語音資源的金鑰。在 Azure 入口網站上，您可以在資源的 [金鑰和端點] 頁面上找到金鑰。
`{CONTAINER_LICENSE_DIRECTORY}`	容器本機檔案系統上的授權資料夾位置。例如：`/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	容器本機檔案系統上的輸出資料夾位置。例如：`/path/to/output/directory`

針對此步驟，請使用設定為使用「DC0 承諾用量 (中斷連線) 」價格方案的 Azure AI 語音資源。

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

自訂語音轉換文字容器會提供預設目錄，在執行時寫入授權檔案和計費記錄檔。預設目錄分別是 /license 與 /output。

當您使用 docker run -v 命令，將這些目錄掛接到容器時，請確定已將本機電腦目錄的擁有權設定為 user:group nonroot:nonroot，然後再執行容器。

以下是設定檔案/目錄擁有權的範例命令。

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

使用該容器

語音容器會提供 Websocket 型查詢端點 API，其可透過語音 SDK 和語音 CLI 來存取。根據預設，語音 SDK 和語音 CLI 會使用公用語音服務。若要使用容器，您必須變更初始化方法。

重要

當您搭配容器使用語音服務時，請務必使用主機驗證。如果您設定金鑰和區域，則要求會移至公用語音服務。來自語音服務的結果可能並非如您預期的結果。來自已中斷連線容器的要求將會失敗。

不要使用此 Azure 雲端初始化設定：

var config = SpeechConfig.FromSubscription(...);

搭配容器主機使用此設定：

var config = SpeechConfig.FromHost(
    new Uri("ws://localhost:5000"));

不要使用此 Azure 雲端初始化設定：

auto speechConfig = SpeechConfig::FromSubscription(...);

搭配容器主機使用此設定：

auto speechConfig = SpeechConfig::FromHost("ws://localhost:5000");

不要使用此 Azure 雲端初始化設定：

speechConfig, err := speech.NewSpeechConfigFromSubscription(...)

搭配容器主機使用此設定：

speechConfig, err := speech.NewSpeechConfigFromHost("ws://localhost:5000")

不要使用此 Azure 雲端初始化設定：

SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);

搭配容器主機使用此設定：

SpeechConfig speechConfig = SpeechConfig.fromHost("ws://localhost:5000");

不要使用此 Azure 雲端初始化設定：

const speechConfig = sdk.SpeechConfig.fromSubscription(...);

搭配容器主機使用此設定：

const speechConfig = sdk.SpeechConfig.fromHost("ws://localhost:5000");

不要使用此 Azure 雲端初始化設定：

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];

搭配容器主機使用此設定：

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"ws://localhost:5000"];

不要使用此 Azure 雲端初始化設定：

let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");

搭配容器主機使用此設定：

let speechConfig = SPXSpeechConfiguration(host: "ws://localhost:5000");

不要使用此 Azure 雲端初始化設定：

speech_config = speechsdk.SpeechConfig(
    subscription=speech_key, region=service_region)

搭配容器端點使用此設定：

speech_config = speechsdk.SpeechConfig(
    host="ws://localhost:5000")

當您在容器中使用語音 CLI 時，請包含 --host ws://localhost:5000/ 選項。您也必須指定 --key none 來確保 CLI 不會嘗試使用語音金鑰進行驗證。如需如何設定語音 CLI 的詳細資訊，請參閱開始使用 Azure AI 語音 CLI。

使用主機驗證而非金鑰和區域，嘗試語音轉換文字快速入門。

下一步

請參閱語音容器概觀
檢閱設定容器以了解組態設定
使用更多 Azure AI 容器

共用方式為

使用 Docker 自訂語音轉換文字容器

容器映像

使用 docker pull 取得容器映像

取得模型識別碼

顯示模型下載

使用 docker run 執行容器

下載已中斷連線容器的模型

下載已中斷連線的容器授權

執行已中斷連線的容器

使用該容器

下一步

意見反應

其他資源