Настраиваемое преобразование речи в текстовые контейнеры с помощью Docker

Статья
01/22/2024

Пользовательская речь в текстовом контейнере транскрибирует речь в режиме реального времени или пакетную звукозапись с промежуточными результатами. Вы можете использовать пользовательскую модель, созданную на пользовательском портале речи. В этой статье вы узнаете, как скачать, установить и запустить настраиваемую речь в текстовом контейнере.

Дополнительные сведения о предварительных требованиях, проверке запуска контейнера, выполнении нескольких контейнеров на одном узле и выполнении отключенных контейнеров см. в разделе "Установка и запуск контейнеров службы "Речь" с помощью Docker.

Образы контейнеров

Пользовательский образ преобразования речи в текстовый контейнер для всех поддерживаемых версий и языковых стандартов можно найти в синдикате Реестра контейнеров Майкрософт (MCR). Он находится в репозитории azure-cognitive-services/speechservices/ и называется custom-speech-to-text.

Полное имя образа контейнера — mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text. Добавьте определенную версию или добавьте :latest ее, чтобы получить последнюю версию.

Версия	Путь
Latest	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest`
4.6.0	`mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:4.6.0-amd64`

Все теги, кроме latest, имеют следующий формат и учитывают регистр:

<major>.<minor>.<patch>-<platform>-<prerelease>

Примечание.

voice Пользовательские locale контейнеры речи в текстовые контейнеры определяются пользовательскими моделями, принятыми контейнером.

Теги также доступны в формате JSON для удобства. Текст содержит путь к контейнеру и список тегов. Теги не отсортированы по версии, но "latest" всегда включаются в конец списка, как показано в этом фрагменте кода:

{
  "name": "azure-cognitive-services/speechservices/custom-speech-to-text",
  "tags": [
    "2.10.0-amd64",
    "2.11.0-amd64",
    "2.12.0-amd64",
    "2.12.1-amd64",
    <--redacted for brevity-->
    "latest"
  ]
}

Получение образа контейнера с помощью команды docker pull

Необходимые компоненты , включая необходимое оборудование. Также см. рекомендуемое выделение ресурсов для каждого контейнера службы "Речь".

Воспользуйтесь командой docker pull, чтобы скачать образ контейнера из реестра контейнеров Microsoft:

docker pull mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text:latest

Примечание.

Элементы locale и voice для пользовательских речевых контейнеров определяются настраиваемой моделью, принятой контейнером.

Получение идентификатора модели

Прежде чем запустить контейнер, необходимо знать идентификатор модели пользовательской модели или идентификатор базовой модели. При запуске контейнера необходимо указать один из идентификаторов модели для скачивания и использования.

Идентификатор пользовательской модели
Идентификатор базовой модели

Пользовательская модель должна быть обучена с помощью Speech Studio. Сведения о том, как получить идентификатор модели, см. в разделе жизненного цикла пользовательской модели речи.

Screenshot that shows the custom speech training page.

Получите идентификатор модели, который будет использоваться в качестве аргумента для параметра ModelId команды docker run.

Screenshot that shows custom speech model details.

С помощью параметра BaseModelLocale={LOCALE}можно получить доступные сведения о базовой модели. Этот параметр позволяет получить список доступных базовых моделей для этого языкового стандарта в учетной записи для выставления счетов.

Чтобы получить идентификаторы базовой docker run модели, используйте команду. Например:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
BaseModelLocale={LOCALE} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Эта команда проверка образ контейнера и возвращает доступные базовые модели целевого языкового стандарта.

Примечание.

Хотя вы используете docker run команду, контейнер не запускается для службы.

Выходные данные предоставляют список базовых моделей с региональными стандартами данных, идентификатором модели и датой создания. Например:

Checking available base model for en-us
2020/10/30 21:54:20 [Info] Searching available base models for en-us
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T08:23:42Z, Id: a3d8aab9-6f36-44cd-9904-b37389ce2bfa
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2016-11-04T12:01:02Z, Id: cc7826ac-5355-471d-9bc6-a54673d06e45
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2017-08-17T12:00:00Z, Id: a1f8db59-40ff-4f0e-b011-37629c3a1a53
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-04-16T11:55:00Z, Id: c7a69da3-27de-4a4b-ab75-b6716f6321e5
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-09-21T15:18:43Z, Id: da494a53-0dad-4158-b15f-8f9daca7a412
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-10-19T11:28:54Z, Id: 84ec130b-d047-44bf-a46d-58c1ac292ca7
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T07:59:09Z, Id: ee5c100f-152f-4ae5-9e9d-014af3c01c56
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2018-11-26T09:21:55Z, Id: d04959a6-71da-4913-9997-836793e3c115
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-01-11T10:04:19Z, Id: 488e5f23-8bc5-46f8-9ad8-ea9a49a8efda
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-02-18T14:37:57Z, Id: 0207b3e6-92a8-4363-8c0e-361114cdd719
2020/10/30 21:54:21 [Info] [Base model] Locale: en-us, CreatedDate: 2019-03-03T17:34:10Z, Id: 198d9b79-2950-4609-b6ec-f52254074a05
2020/10/30 21:54:21 [Fatal] Please run this tool again and assign --modelId '<one above base model id>'. If no model id listed above, it means currently there is no available base model for en-us

Скачивание модели отображения

Перед запуском контейнера можно получить сведения о доступных моделях отображения и скачать эти модели в текстовый контейнер, чтобы получить улучшенные окончательные выходные данные отображения. Скачивание модели отображения доступно с помощью пользовательского контейнера преобразования речи в текст версии 3.1.0 и более поздних версий.

Примечание.

Хотя вы используете docker run команду, контейнер не запускается для службы.

Вы можете запросить или скачать любые из этих типов моделей: переоценка ( Rescore ), пунктуация ( Punct ), пересегментирование ( Resegment ) и wfstitn (Wfstitn). В противном случае можно использовать параметр FullDisplay (с другими типами или без него) для запроса или скачивания всех типов моделей отображения.

Задайте для параметра BaseModelLocale значение, чтобы запросить последнюю доступную модель отображения для целевого языкового стандарта. Если вы включаете несколько типов моделей отображения, команда возвращает последние доступные модели отображения для каждого типа. Например:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
BaseModelLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Задайте для параметра DisplayLocale значение, чтобы скачать последнюю доступную модель отображения для целевого языкового стандарта. При установке DisplayLocale необходимо также указать FullDisplay или подмножество моделей отображения, разделенных пробелами. Команда скачивает последнюю доступную модель отображения для каждого указанного типа. Например:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
Punct Rescore Resegment Wfstitn \   # Specify `FullDisplay` or a space-separated subset of display models
DisplayLocale={LOCALE} \           
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Задайте один параметр идентификатора модели, чтобы скачать определенную модель отображения: переоценка ( RescoreId ), пунктуация ( PunctId ), пересегментирование ( ResegmentId ) или wfstitn (WfstitnId). Это похоже на то, как вы скачиваете базовую модель с помощью параметра ModelId. Например, чтобы загрузить модель с отображением переоценки, можно использовать следующую команду с параметром RescoreId:

docker run --rm -it \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
RescoreId={RESCORE_MODEL_ID} \         
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Примечание.

При задании нескольких параметров запроса или загрузки команда будет определять приоритет в следующем порядке: BaseModelLocale, идентификатор модели, а затем DisplayLocale (применимо только для моделей отображения).

Запуск контейнера с помощью запуска Docker

Используйте команду запуска Docker для запуска контейнера для службы.

Настраиваемое преобразование речи в текст
Отключенная пользовательская речь к тексту

В следующей таблице представлены различные параметры docker run и соответствующие им описания.

Параметр	Описание
`{VOLUME_MOUNT}`	Узел подключения тома главного компьютера, который Docker использует для сохранения настраиваемой модели. Примером является `c:\CustomSpeech` расположение `c:\` диска на хост-компьютере.
`{MODEL_ID}`	Пользовательский идентификатор речи или базовой модели. Дополнительные сведения см. в разделе "Получение идентификатора модели".
`{ENDPOINT_URI}`	Для оценки и выставления счетов требуется конечная точка. Дополнительные сведения см . в разделе аргументов выставления счетов.
`{API_KEY}`	Ключ API не требуется. Дополнительные сведения см . в разделе аргументов выставления счетов.

При запуске пользовательской речи в текстовый контейнер настройте порт, память и ЦП в соответствии с пользовательскими требованиями к текстовому контейнеру и рекомендациями.

Ниже приведен пример docker run команды со значениями заполнителей. Необходимо указать VOLUME_MOUNTзначения , MODEL_IDENDPOINT_URIи API_KEY значения:

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Команда:

Выполняет настраиваемую речь в текстовом контейнере из образа контейнера.
Выделяет 4 ядра ЦП и 8 ГБ памяти.
Загружает пользовательскую речь в текстовую модель из подключения входных данных тома, например C:\CustomSpeech.
предоставляет TCP-порт 5000 и выделяет псевдотелетайп для контейнера;
загружает заданную модель ModelId (если она не найдена в подключении тома).
Если пользовательская модель была скачана ранее, параметр ModelId игнорируется.
автоматически удаляет контейнер после завершения его работы. Образ контейнера остается доступным на главном компьютере.

Дополнительные сведения о контейнерах службы "Речь" см. в docker run разделе "Установка и запуск контейнеров службы "Речь" с помощью Docker.

Чтобы запустить отключенные контейнеры (не подключенные к Интернету), необходимо отправить эту форму запроса и ждать утверждения. Дополнительные сведения о применении и приобретении плана обязательств по использованию контейнеров в отключенных средах см . в документации по службам ИИ Azure с использованием контейнеров в отключенных средах .

Если вы утверждены для запуска контейнера, отключенного от Интернета, в следующем примере показано форматирование docker run команды для использования с значениями заполнителей. Замените заполнители собственными значениями.

Чтобы подготовить и настроить отключенную пользовательскую речь к текстовому контейнеру, вам потребуется два отдельных ресурса речи:

Обычный ресурс службы "Речь" Azure AI, настроенный для использования ценовой категории "S0 - Стандартный" или ценовой категории "Речь в тексте (настраиваемая)". Он используется для обучения, скачивания и настройки пользовательских моделей речи для использования в контейнере.
Ресурс службы "Речь azure AI", настроенный для использования плана ценообразования DC0 (отключенные)". Это используется для скачивания файла лицензии на отключенный контейнер, необходимый для запуска контейнера в отключенном режиме.

Выполните следующие действия, чтобы скачать и запустить контейнер в отключенных средах.

Скачайте модель для отключенного контейнера. На этом шаге используйте обычный ресурс службы "Речь ИИ Azure", настроенный для использования ценовой категории "S0 - Стандартный" или ценовой категории "Речь к тексту (настраиваемая)".
Скачайте лицензию отключенного контейнера. На этом шаге используйте ресурс службы "Речь искусственного интеллекта Azure", настроенный для использования ценовой категории "Обязательство DC0 (Отключено)".
Запустите отключенный контейнер для службы. На этом шаге используйте ресурс службы "Речь искусственного интеллекта Azure", настроенный для использования ценовой категории "Обязательство DC0 (Отключено)".

Скачивание модели для отключенного контейнера

На этом шаге используйте обычный ресурс службы "Речь ИИ Azure", настроенный для использования ценовой категории "S0 - Стандартный" или ценовой категории "Речь к тексту (настраиваемая)".

В следующей таблице представлены различные параметры docker run и соответствующие им описания.

Параметр	Описание
`{VOLUME_MOUNT}`	Узел подключения тома главного компьютера, который Docker использует для сохранения настраиваемой модели. Примером является `c:\CustomSpeech` расположение `c:\` диска на хост-компьютере.
`{MODEL_ID}`	Пользовательский идентификатор речи или базовой модели. Дополнительные сведения см. в разделе "Получение идентификатора модели".
`{ENDPOINT_URI}`	Для оценки и выставления счетов требуется конечная точка. Дополнительные сведения см . в разделе аргументов выставления счетов.
`{API_KEY}`	Ключ API не требуется. Дополнительные сведения см . в разделе аргументов выставления счетов.

docker run --rm -it -p 5000:5000 --memory 8g --cpus 4 \
-v {VOLUME_MOUNT}:/usr/local/models \
mcr.microsoft.com/azure-cognitive-services/speechservices/custom-speech-to-text \
ModelId={MODEL_ID} \
Eula=accept \
Billing={ENDPOINT_URI} \
ApiKey={API_KEY}

Команда:

Выполняет настраиваемую речь в текстовом контейнере из образа контейнера.
Выделяет 4 ядра ЦП и 8 ГБ памяти.
Загружает пользовательскую речь в текстовую модель из подключения входных данных тома, например C:\CustomSpeech.
предоставляет TCP-порт 5000 и выделяет псевдотелетайп для контейнера;
загружает заданную модель ModelId (если она не найдена в подключении тома).
Если пользовательская модель была скачана ранее, параметр ModelId игнорируется.
автоматически удаляет контейнер после завершения его работы. Образ контейнера остается доступным на главном компьютере.

Скачивание лицензии на отключенный контейнер

Затем вы скачайте отключенный файл лицензии. Параметр DownloadLicense=True в docker run команде скачивает файл лицензии, который позволяет контейнеру Docker запускаться, если он не подключен к Интернету. Он также содержит дату окончания срока действия, после которой файл лицензии станет недопустимым для запуска контейнера.

Вы можете использовать только файл лицензии с соответствующим контейнером и моделью, для которую вы были утверждены. Например, нельзя использовать файл лицензии для speech-to-text контейнера с контейнером neural-text-to-speech .

Заполнитель	Description
`{IMAGE}`	Образ контейнера, который необходимо использовать. Например: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{LICENSE_MOUNT}`	Путь, по которому скачиваются лицензии и подключены. Например: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Путь, в котором находится модель. Например: `/host/models:/usr/local/models`
`{ENDPOINT_URI}`	Конечная точка для проверки подлинности запроса на обслуживание. Он представлен на странице ресурса Ключ и конечная точка на портале Azure. Например: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Ключ ресурса "Речь". Он представлен на странице ресурса Ключ и конечная точка на портале Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Расположение папки license в локальной файловой системе контейнера. Например: `/path/to/license/directory`

На этом шаге используйте ресурс службы "Речь искусственного интеллекта Azure", настроенный для использования ценовой категории "Обязательство DC0 (Отключено)".

docker run --rm -it -p 5000:5000 \ 
-v {LICENSE_MOUNT} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
billing={ENDPOINT_URI} \
apikey={API_KEY} \
DownloadLicense=True \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}

Запуск отключенного контейнера

После скачивания файла лицензии можно запустить контейнер в среде без подключения к Интернету. В следующем примере показано форматирование используемой docker run команды с значениями заполнителей. Замените заполнители собственными значениями.

Независимо от того, где выполняется контейнер, файл лицензии должен быть подключен к контейнеру, а расположение папки лицензии в локальной файловой системе контейнера необходимо указать с помощью Mounts:License=. Кроме того, необходимо указать выходное подключение, чтобы можно было записывать сведения об использовании для выставления счетов.

Заполнитель	Description
`{IMAGE}`	Образ контейнера, который необходимо использовать. Например: `mcr.microsoft.com/azure-cognitive-services/custom-speech-to-text:latest`
`{MEMORY_SIZE}`	Надлежащий объем памяти, который необходимо выделить для контейнера. Например: `4g`
`{NUMBER_CPUS}`	Надлежащее количество ЦП, которое необходимо выделить для контейнера. Например: `4`
`{LICENSE_MOUNT}`	Путь, по которому скачиваются лицензии и подключены. Например: `/host/license:/path/to/license/directory`
`{MODEL_PATH}`	Путь, в котором находится модель. Например: `/host/models:/usr/local/models`
`{OUTPUT_PATH}`	Выходной путь для ведения журнала. Например: `/host/output:/path/to/output/directory` Дополнительные сведения см. в документации по службам искусственного интеллекта Azure.
`{ENDPOINT_URI}`	Конечная точка для проверки подлинности запроса на обслуживание. Он представлен на странице ресурса Ключ и конечная точка на портале Azure. Например: `https://<your-resource-name>.cognitiveservices.azure.com`
`{API_KEY}`	Ключ ресурса "Речь". Он представлен на странице ресурса Ключ и конечная точка на портале Azure.
`{CONTAINER_LICENSE_DIRECTORY}`	Расположение папки license в локальной файловой системе контейнера. Например: `/path/to/license/directory`
`{CONTAINER_OUTPUT_DIRECTORY}`	Расположение папки output в локальной файловой системе контейнера. Например: `/path/to/output/directory`

docker run --rm -it -p 5000:5000 --memory {MEMORY_SIZE} --cpus {NUMBER_CPUS} \ 
-v {LICENSE_MOUNT} \ 
-v {OUTPUT_PATH} \
-v {MODEL_PATH} \
{IMAGE} \
eula=accept \
Mounts:License={CONTAINER_LICENSE_DIRECTORY}
Mounts:Output={CONTAINER_OUTPUT_DIRECTORY}

Пользовательская речь в текстовом контейнере предоставляет каталог по умолчанию для записи файла лицензии и журнала выставления счетов во время выполнения. Каталоги по умолчанию: /license и /output соответственно.

При подключении этих каталогов к контейнеру с помощью команды docker run -v перед запуском контейнера обязательно задайте user:group nonroot:nonroot в качестве владельца каталога локального компьютера.

Ниже приведен пример команды для задания владельца файла или каталога.

sudo chown -R nonroot:nonroot <YOUR_LOCAL_MACHINE_PATH_1> <YOUR_LOCAL_MACHINE_PATH_2> ...

Использование контейнера

Контейнеры службы "Речь" предоставляют API конечных точек запросов на основе websocket, к которым обращается пакет SDK службы "Речь" и CLI службы "Речь". По умолчанию пакет SDK службы "Речь" и cli службы "Речь" используют общедоступную службу "Речь". Чтобы использовать контейнер, вам необходимо изменить метод инициализации.

Внимание

При использовании службы "Речь" с контейнерами обязательно используйте проверку подлинности узла. Если вы настроите ключ и регион, запросы будут отправляться в общедоступную службу "Речь". Результаты службы "Речь" могут не быть ожидаемыми. Запросы от отключенных контейнеров завершаются ошибкой.