你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

使用 Docker 的自定义语音转文本容器

项目
01/21/2024

自定义语音转文本容器会听录实时语音或批量音频录制内容，并生成中间结果。可以使用在自定义语音门户中创建的自定义模型。本文介绍如何下载、安装以及运行自定义语音转文本容器。

有关先决条件、验证容器是否正在运行、在同一主机上运行多个容器以及运行断开连接的容器的详细信息，请参阅使用 Docker 安装和运行语音容器。

容器映像

可在 Microsoft 容器注册表 (MCR) 联合中找到所有受支持版本和区域设置的自定义语音转文本容器映像。该映像驻留在 azure-cognitive-services/speechservices/ 存储库中，名为 custom-speech-to-text。

完全限定的容器映像名称为 mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text。追加特定版本或追加 :latest 以获取最新版本。

版本	路径
最晚	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

除 latest 以外的所有标记均采用以下格式并区分大小写：

<major>.<minor>.<patch>-<platform>-<prerelease>

注意

自定义语音转文本容器的 locale 和 voice 由容器引入的自定义模型确定。

为方便起见，这些标记也以 JSON 格式提供。正文包括容器路径和标记列表。标记不按版本排序，但 "latest" 始终包含在列表末尾，如以下代码片段所示：

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

使用 docker pull 获取容器映像

需要满足先决条件，包括所需的硬件。另请参阅为每个语音容器建议的资源分配。

使用 docker pull 命令从 Microsoft Container Registry 下载容器映像：

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

注意

自定义语音识别容器的 locale 和 voice 由容器引入的自定义模型确定。

获取模型 ID

在运行容器之前，需要知道自定义模型的模型 ID 或基础模型 ID。运行容器时，指定要下载和使用的某个模型 ID。

自定义模型 ID
基础模型 ID

必须使用 Speech Studio 训练自定义模型。若要了解如何获取模型 ID，请参阅自定义语音模型生命周期。

Screenshot that shows the custom speech training page.

获取模型 ID，用作 docker run 命令的 ModelId 参数的自变量。

Screenshot that shows custom speech model details.

可以使用选项 BaseModelLocale={LOCALE} 来获取可用的基础模型信息。此选项提供你的计费帐户下该区域设置中的可用基础模型列表。

若要获取基础模型 ID，请使用 docker run 命令。例如：

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

此命令会检查容器映像并返回目标区域设置的可用基础模型。

注意

尽管使用 docker run 命令，但不会为服务启动容器。

输出将提供基础模型列表，其中包含区域设置、模型 ID 和创建日期时间等信息。例如：

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

显示模型下载

运行容器前，可选择获取可用的显示模型信息，并选择将这些模型下载到你的语音转文本容器，以获得高度改进的最终显示输出。自定义语音转文本容器版本 3.1.0 及更高版本提供显示模型下载。

注意

尽管使用 docker run 命令，但不会为服务启动容器。

你可以查询或下载以下任意或所有显示模型类型：重新评分 (Rescore)、标点 (Punct)、再分割 (Resegment) 和 wfstitn (Wfstitn)。否则，你可以使用 FullDisplay 选项（同时使用或不使用其他类型）来查询或下载所有类型的显示模型。

设置 BaseModelLocale 可查询目标区域设置中最新可用的显示模型。如果你包括了多个显示模型类型，则此命令会返回每种类型的最新可用显示模型。例如：

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

设置 DisplayLocale 可下载目标区域设置中最新可用的显示模型。设置 DisplayLocale 时，还必须指定 FullDisplay 或指定以空格分隔的显示模型子集。此命令会为每个指定的类型下载最新的可用显示模型。例如：

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

设置一个模型 ID 参数来下载特定的显示模型：重新评分 (RescoreId)、标点 (PunctId)、再分割 (ResegmentId) 或 wfstitn (WfstitnId)。这类似于通过 ModelId 参数下载基本模型的方式。例如，若要下载某个重新评分显示模型，可以将以下命令与 RescoreId 参数一起使用：

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

注意

如果你设置了多个查询或下载参数，则此命令将按以下顺序排定优先级：BaseModelLocale、模型 ID，然后是 DisplayLocale（仅适用于显示模型）。

通过 docker run 运行容器

使用 docker run 命令为服务运行容器。

自定义语音转文本
断开连接的自定义语音转文本

下表列出了各个 docker run 参数及其对应的说明：

参数	说明
`{VOLUME_MOUNT}`	主计算机的卷装载点，Docker 使用它来持久保存自定义模型。例如 `c:\CustomSpeech`，其中的 `c:\` 驱动器位于主机上。
`{MODEL_ID}`	自定义语音或基础模型 ID。有关详细信息，请参阅获取模型 ID。
`{ENDPOINT_URI}`	必须使用该终结点进行计量和计费。有关详细信息，请参阅计费参数。
`{API_KEY}`	API 密钥是必需的。有关详细信息，请参阅计费参数。

运行自定义语音转文本容器时，请根据自定义语音转文本容器的要求和建议配置端口、内存和 CPU。

下面是一个示例 docker run 命令以及占位符值。必须指定 VOLUME_MOUNT、MODEL_ID、ENDPOINT_URI、API_KEY 的值：

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

此命令：

运行容器映像中的某个自定义语音转文本容器。
分配 4 个 CPU 核心和 8 GB 内存。
从卷输入装载点（例如 C:\CustomSpeech）加载自定义语音转文本模型。
公开 TCP 端口 5000，并为容器分配伪 TTY。
根据给定的 ModelId 来下载模型（如果在卷装载中找不到）。
如果先前已下载自定义模型，则会忽略 ModelId。
退出后自动删除容器。容器映像在主计算机上仍然可用。

有关 docker run 和语音容器的详细信息，请参阅使用 Docker 安装和运行语音容器。

若要运行断开连接的容器（未连接到 Internet），必须提交此请求表单并等待批准。有关应用和购买承诺计划以在断开连接的环境中使用容器的详细信息，请参阅 Azure AI 服务文档中的在断开连接的环境中使用容器。

如果你已获准运行与 Internet 断开连接的容器，以下示例显示了要使用的 docker run 命令的格式和占位符值。将这些占位符值替换为你自己的值。

要准备和配置断开连接的自定义语音转文本容器，需要两个单独的语音资源：

配置为使用“S0 - 标准”定价层或“语音转文本（自定义）”承诺层级定价计划的常规 Azure AI 语音资源。它用于训练、下载和配置自定义语音模型，以便在容器中使用。
配置为使用“DC0 承诺（断开连接）”定价计划的 Azure AI 语音资源。这用于下载在断开连接模式下运行容器所需的已断开连接容器许可证文件。

按照以下步骤在断开连接的环境中下载并运行容器。

下载用于断开连接的容器的模型。在此步骤中，使用配置为使用“S0 - 标准”定价层或“语音转文本（自定义）”承诺层定价计划的常规 Azure AI 语音资源。
下载断开连接的容器许可证。在此步骤中，使用配置为使用“DC0 承诺（断开连接）”定价计划的 Azure AI 语音资源。
为服务运行断开连接的容器。在此步骤中，使用配置为使用“DC0 承诺（断开连接）”定价计划的 Azure AI 语音资源。

下载用于断开连接的容器的模型

在此步骤中，使用配置为使用“S0 - 标准”定价层或“语音转文本（自定义）”承诺层定价计划的常规 Azure AI 语音资源。

下表列出了各个 docker run 参数及其对应的说明：

参数	说明
`{VOLUME_MOUNT}`	主计算机的卷装载点，Docker 使用它来持久保存自定义模型。例如 `c:\CustomSpeech`，其中的 `c:\` 驱动器位于主机上。
`{MODEL_ID}`	自定义语音或基础模型 ID。有关详细信息，请参阅获取模型 ID。
`{ENDPOINT_URI}`	必须使用该终结点进行计量和计费。有关详细信息，请参阅计费参数。
`{API_KEY}`	API 密钥是必需的。有关详细信息，请参阅计费参数。

运行自定义语音转文本容器时，请根据自定义语音转文本容器的要求和建议配置端口、内存和 CPU。

下面是一个示例 docker run 命令以及占位符值。必须指定 VOLUME_MOUNT、MODEL_ID、ENDPOINT_URI、API_KEY 的值：

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

此命令：

运行容器映像中的某个自定义语音转文本容器。
分配 4 个 CPU 核心和 8 GB 内存。
从卷输入装载点（例如 C:\CustomSpeech）加载自定义语音转文本模型。
公开 TCP 端口 5000，并为容器分配伪 TTY。
根据给定的 ModelId 来下载模型（如果在卷装载中找不到）。
如果先前已下载自定义模型，则会忽略 ModelId。
退出后自动删除容器。容器映像在主计算机上仍然可用。

有关 docker run 和语音容器的详细信息，请参阅使用 Docker 安装和运行语音容器。

下载断开连接的容器许可证

接下来，下载断开连接的许可证文件。 docker run 命令中的 DownloadLicense=True 参数将会下载一个许可证文件，使 Docker 容器能够在未连接到 Internet 时运行。它还包含到期日期，在此日期之后，许可证文件将失效，无法运行容器。

只能将许可证文件与已批准的相应容器和模型一起使用。例如，不能将 speech-to-text 容器的许可证文件用于 neural-text-to-speech 容器。

占位符	说明
`{IMAGE}`	要使用的容器映像。例如：`mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	将下载和装载许可证的路径。例如：`/host/license:/path/to/license/directory`
`{MODEL_PATH}`	模型所在的路径。例如：`/host/models:/usr/local/models`
`{ENDPOINT_URI}`	用于对服务请求进行身份验证的终结点。可以在 Azure 门户中资源的“密钥和终结点”页上找到此项。例如： `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	语音资源的密钥。可以在 Azure 门户中资源的“密钥和终结点”页上找到此项。
`{CONTAINER_LICENSE_DIRECTORY}`	容器本地文件系统上的许可证文件夹的位置。例如：`/path/to/license/directory`

在此步骤中，使用配置为使用“DC0 承诺（断开连接）”定价计划的 Azure AI 语音资源。

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

运行断开连接的容器

下载许可证文件后，可以在断开连接的环境中运行容器。以下示例演示你将使用的 docker run 命令的格式设置以及占位符值。将这些占位符值替换为你自己的值。

无论容器在何处运行，都必须将许可证文件装载到容器，并且必须使用 Mounts:License= 指定容器本地文件系统上许可证文件夹的位置。还必须指定输出装载，以便可以写入计费使用情况记录。

占位符	说明
`{IMAGE}`	要使用的容器映像。例如： `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	要分配给容器的适当内存大小。例如： `4g`
`{NUMBER_CPUS}`	要分配给容器的适当 CPU 数。例如：`4`
`{LICENSE_MOUNT}`	将下载和装载许可证的路径。例如：`/host/license:/path/to/license/directory`
`{MODEL_PATH}`	模型所在的路径。例如：`/host/models:/usr/local/models`
`{OUTPUT_PATH}`	日志记录的输出路径。例如：`/host/output:/path/to/output/directory` 有关详细信息，请参阅 Azure AI 服务文档中的使用情况记录。
`{ENDPOINT_URI}`	用于对服务请求进行身份验证的终结点。可以在 Azure 门户中资源的“密钥和终结点”页上找到此项。例如： `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	语音资源的密钥。可以在 Azure 门户中资源的“密钥和终结点”页上找到此项。
`{CONTAINER_LICENSE_DIRECTORY}`	容器本地文件系统上的许可证文件夹的位置。例如： `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	容器本地文件系统上的输出文件夹的位置。例如：`/path/to/output/directory`

在此步骤中，使用配置为使用“DC0 承诺（断开连接）”定价计划的 Azure AI 语音资源。

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

自定义语音转文本容器提供一个默认目录，用于在运行时写入许可证文件和计费日志。默认目录分别为 /license 和 /output。

使用 docker run -v 命令将这些目录装载到容器时，请确保在运行容器之前将本地计算机目录的所有权设置为 user:group nonroot:nonroot。

下面是用于设置文件/目录所有权的示例命令。

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

使用容器

语音容器提供通过语音 SDK 和语音 CLI 访问的基于 Websocket 的查询终结点 API。默认情况下，语音 SDK 和语音 CLI 使用公共语音服务。若要使用该容器，需要更改初始化方法。

重要

将语音服务与容器一起使用时，请务必使用主机身份验证。如果配置密钥和区域，请求将发送到公共语音服务。语音服务的结果可能不符合预期。来自断开连接的容器的请求将失败。

不使用此 Azure 云初始化配置：

var config = SpeechConfig.FromSubscription(...);

将此配置用于容器主机：

var config = SpeechConfig.FromHost(
    new Uri("ws://localhost:5000"));

不使用此 Azure 云初始化配置：

auto speechConfig = SpeechConfig::FromSubscription(...);

将此配置用于容器主机：

auto speechConfig = SpeechConfig::FromHost("ws://localhost:5000");

不使用此 Azure 云初始化配置：

speechConfig, err := speech.NewSpeechConfigFromSubscription(...)

将此配置用于容器主机：

speechConfig, err := speech.NewSpeechConfigFromHost("ws://localhost:5000")

不使用此 Azure 云初始化配置：

SpeechConfig speechConfig = SpeechConfig.fromSubscription(...);

将此配置用于容器主机：

SpeechConfig speechConfig = SpeechConfig.fromHost("ws://localhost:5000");

不使用此 Azure 云初始化配置：

const speechConfig = sdk.SpeechConfig.fromSubscription(...);

将此配置用于容器主机：

const speechConfig = sdk.SpeechConfig.fromHost("ws://localhost:5000");

不使用此 Azure 云初始化配置：

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithSubscription:...];

将此配置用于容器主机：

SPXSpeechConfiguration *speechConfig = [[SPXSpeechConfiguration alloc] initWithHost:"ws://localhost:5000"];

不使用此 Azure 云初始化配置：

let speechConfig = SPXSpeechConfiguration(subscription: "", region: "");

将此配置用于容器主机：

let speechConfig = SPXSpeechConfiguration(host: "ws://localhost:5000");

不使用此 Azure 云初始化配置：

speech_config = speechsdk.SpeechConfig(
    subscription=speech_key, region=service_region)

将此配置用于容器终结点：

speech_config = speechsdk.SpeechConfig(
    host="ws://localhost:5000")

在容器中使用语音 CLI 时，请包含 --host ws://localhost:5000/ 选项。还必须指定 --key none 以确保 CLI 不会尝试使用语音密钥进行身份验证。有关如何配置语音 CLI 的信息，请参阅 Azure AI 语音 CLI 入门。

尝试语音转文本快速入门，它使用主机身份验证而不是密钥和区域。

后续步骤

请参阅语音容器概述
查看配置容器了解配置设置。
使用更多 Azure AI 容器

使用 Docker 的自定义语音转文本容器

容器映像

使用 docker pull 获取容器映像

获取模型 ID

显示模型下载

通过 docker run 运行容器

使用容器

后续步骤

其他资源