Поделиться через


Обучающие данные для пользовательского нейронного голоса

Когда вы будете готовы к созданию пользовательского голосового текста для вашего приложения, сначала необходимо собрать аудиозаписи и связанные скрипты, чтобы начать обучение модели голосовой связи. Служба речи использует эти данные для создания уникального голоса, настроенного для сопоставления голоса в записях. После обучения голоса вы можете начать синтез речи в приложениях.

Совет

Чтобы создать голос для использования в рабочей среде, рекомендуем использовать профессиональную студию звукозаписи и актера озвучивания. Дополнительные сведения см. в статье Запись образцов голоса для создания пользовательского нейронного голоса.

Типы обучающих данных

Набор данных для обучения голоса включает аудиозаписи и текстовый файл со связанными расшифровками. Каждый звуковой файл должен содержать отдельный речевой фрагмент (одно предложение или одну фразу диалога) длительностью менее 15 секунд.

В некоторых случаях у вас может не быть правильного набора данных. Вы можете протестировать настраиваемое обучение нейронной голосовой связи с доступными звуковыми файлами, короткими или длинными, с расшифровками или без нее.

В этой таблице перечислены типы данных и способы создания пользовательской модели текста для голосовой речи.

Тип данных Description Варианты использования Требуется дополнительная обработка
Отдельные речевые фрагменты и соответствующая расшифровка ZIP-архив, содержащий набор звуковых файлов (WAV-файлы) с отдельными речевыми фрагментами. Каждый звуковой файл должен иметь длину не более 15 секунд и сопровождаться форматированной расшифровкой (TXT-файл). Профессиональные записи с соответствующими расшифровками. Готово для обучения
Длинный звук + транскрибирование Набор (ZIP-архив) длинных несегментированных аудиофайлов (WAV или MP3 длительностью более 20 секунд; не более 1000 аудиофайлов) в сочетании с коллекцией расшифровок (ZIP-архив), содержащей все произнесенные слова. У вас есть звуковые файлы и соответствующие им расшифровки, но они не разбиты на речевые фрагменты. Сегментация (с использованием службы пакетного транскрибирования).
Преобразование формата звука везде, где требуется.
Только аудио (предварительная версия) Набор (ZIP-архив) аудиофайлов (WAV или MP3; не более 1000 аудиофайлов) без расшифровок. Доступны только звуковые файлы без соответствующих расшифровок. Сегментация и создание расшифровок (с помощью службы пакетного транскрибирования).
Преобразование формата звука везде, где требуется.

Файлы необходимо сгруппировать по типу в набор данных и отправить в виде ZIP-архива. Каждый набор данных может содержать данные только одного типа.

Примечание.

В рамках одной стандартной подписки (S0) можно импортировать не более 500 ZIP-файлов с данными.

Отдельные речевые фрагменты и соответствующая расшифровка

Записи отдельных речевых фрагментов и соответствующих расшифровок можно подготовить двумя способами. Вы можете написать сценарий, который прочитает актер озвучивания, либо выбрать общедоступный аудиофайл и подготовить расшифровку его текста. В последнем случае отредактируйте в аудиофайлах слова-паразиты, такие как "эм", заикание, нечетко или неправильно произнесенные слова.

Чтобы получить хорошую голосовую модель, запись необходимо производить в тишине при помощи качественного микрофона. Важную роль также играют согласованный объем, скорость речи, тон голоса и выразительная манера речи.

Примеры формата данных см. в примере обучаемого набора на сайте GitHub. Пример обучающий набор включает пример скрипта и связанный звук.

Звуковые данные для отдельных речевых фрагментов и соответствующие расшифровки

Каждый звуковой файл должен содержать отдельный речевой фрагмент (одно предложение или одну фразу диалога) длительностью менее 15 секунд. Все файлы должны быть на одном языке. Многоязычный пользовательский текст для речевых голосов не поддерживается, за исключением двухязычного китайского языка. Каждый звуковой файл должен иметь уникальное имя файла и расширение WAV.

При подготовке звуковых файлов следуйте приведенным ниже рекомендациям.

Свойство Значение
File format RIFF (WAV), сгруппированные в ZIP-файле
Имя файла Символы имени файла, поддерживаемые ОС Windows, с расширением WAV.
Символы \ / : * ? " < > \| не допускаются.
Оно не может начинаться или заканчиваться пробелом и не может начинаться с точки.
Повторяющиеся имена файлов не допускаются
Частота выборки При создании пользовательского нейронного голоса требуется 24 000 Гц.
Формат образца PCM, не менее 16-разрядных
Длительность звукового файла Менее 15 секунд
Формат архива .zip
Максимальный размер архива 2048 МБ

Примечание.

Частота выборки по умолчанию для пользовательского нейронного голоса составляет 24 000 Гц. Звуковые файлы с частотой выборки менее 16 000 Гц будут отклонены. Если ZIP-файл содержит WAV-файлы с разной частотой выборки, будут импортированы только те из них, частота выборки которых не меньше 16 000 Гц. Если частота выборки звуковых файлов выше 16 000 Гц, но ниже 24 000 Гц, она будет повышена до 24 000 Гц для обучения нейронного голоса. Рекомендуется использовать частоту выборки 24 000 Гц для обучающих данных.

Данные транскрибирования для отдельных речевых фрагментов и сопоставления транскрибирования

Файл расшифровки представляет собой обычный текстовый файл. При подготовке расшифровок следуйте приведенным ниже рекомендациям.

Свойство Значение
File format Обычный текст (.txt)
Формат кодирования ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE или UTF-16-BE. Для zh-CN, ANSI и ASCII кодировка не поддерживается.
Количество фраз в строке Одна. Каждая строка файла расшифровки должна содержать имя одного из звуковых файлов и соответствующую ему расшифровку. Для разделения имени файла и транскрибирования необходимо использовать вкладку (\t).
Максимальный размер файла 2048 МБ

Ниже приведен пример того, как расшифровка расшифровки организована речевым фрагментом по одному .txt файлу:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Важно, чтобы расшифровки были 100% точными транскрибированиями соответствующего звука. Ошибки в расшифровках представляют потерю качества во время обучения.

Длинный звук + транскрибирование (предварительная версия)

Примечание.

Для long audio + транскрибирование (предварительная версия) поддерживаются только эти языки: китайский (Мандарин, упрощенное письмо), английский (Индия), английский (Соединенное Королевство), английский (США), французский (Франция), немецкий (Германия), итальянский (Италия), японский (Япония), португальский (Бразилия) и испанский (Мексика).

В некоторых случаях у вас может не быть сегментированного звука. Speech Studio поможет сегментирование длинных звуковых файлов и создание транскрибирования. Служба сегментации длинного звука использует функцию API пакетной транскрибирования речи к тексту.

Во время обработки сегментации звуковые файлы и расшифровки также отправляются в пользовательскую службу распознавания, чтобы уточнить модель распознавания, чтобы точность была улучшена для ваших данных. Во время этого процесса данные не сохраняются. После завершения сегментации будут сохранены только выделенные речевые фрагменты и соответствующие им расшифровки, которые можно скачать для обучения.

Примечание.

Эта служба будет взиматься с вашей речи по использованию текстовых подписок. Служба сегментации длинного звука поддерживается только со стандартными ресурсами службы "Речь" (S0).

Звуковые данные для длинного звука и расшифровки

При подготовке звуковых файлов для сегментации следуйте приведенным ниже рекомендациям.

Свойство Значение
File format RIFF (WAV) или .mp3, сгруппированные в ZIP-файле
Имя файла Символы имени файла, поддерживаемые ОС Windows, с расширением WAV.
Символы \ / : * ? " < > \| не допускаются.
Оно не может начинаться или заканчиваться пробелом и не может начинаться с точки.
Повторяющиеся имена файлов не допускаются
Частота выборки При создании пользовательского нейронного голоса требуется 24 000 Гц.
Формат образца RIFF(.wav): PCM, по крайней мере 16-разрядная версия.

mp3: по крайней мере 256 КБ/с битовой частоты.
Длительность звукового файла Более 20 секунд
Формат архива .zip
Максимальный размер архива 2048 МБ; включено не более 1000 аудиофайлов

Примечание.

Частота выборки по умолчанию для пользовательского нейронного голоса составляет 24 000 Гц. Звуковые файлы с частотой выборки менее 16 000 Гц будут отклонены. Если частота выборки звуковых файлов выше 16 000 Гц, но ниже 24 000 Гц, она будет повышена до 24 000 Гц для обучения нейронного голоса. Рекомендуется использовать частоту выборки 24 000 Гц для обучающих данных.

Все звуковые файлы должны быть сгруппированы в ZIP-файл. Это нормально, чтобы поместить .wav файлы и .mp3 файлы в один ZIP-файл. Например, можно отправить 45-секундный звуковой файл с именем "kingstory.wav" и 200-секундный длинный звуковой файл с именем "queenstory.mp3" в том же ZIP-файле. Все MP3-файлы после обработки будут преобразованы в формат WAV.

Данные транскрибирования для длинного звука и транскрибирования

В следующей таблице описываются требования к файлам расшифровки. Каждый звуковой файл должен соответствовать расшифровке.

Свойство Значение
File format Обычные текстовые файлы (TXT), сгруппированные в ZIP-файл
Имя файла Должно соответствовать имени звукового файла
Формат кодирования ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE или UTF-16-BE. Для zh-CN, ANSI и ASCII кодировка не поддерживается.
Количество фраз в строке Без ограничений
Максимальный размер файла 2048 МБ

Все файлы расшифровки для этого типа данных должны быть сгруппированы в ZIP-файл. Например, можно отправить 45-секундный звуковой файл с именем "kingstory.wav" и 200-секундный длинный звуковой файл с именем "queenstory.mp3" в том же ZIP-файле. Необходимо отправить другой ZIP-файл, содержащий соответствующие две расшифровки , один с именем "kingstory.txt" и другой с именем "queenstory.txt". В каждом обычном текстовом файле вы предоставляете полное правильное транскрибирование для соответствующего звука.

После успешной отправки набора данных мы сегментируем звуковой файл на речевые фрагменты в соответствии с предоставленной расшифровкой. Вы можете проверить сегментированные речевые фрагменты и соответствующие им расшифровки, скачав набор данных. Уникальные идентификаторы назначаются сегментируемым речевым фрагментам автоматически. Важно убедиться, что предоставленные расшифровки являются точными на 100 %. Ошибки в расшифровке могут снизить точность сегментирования звуковых файлов и привести к дальнейшей потере качества на этапе обучения.

Только аудио (предварительная версия)

Примечание.

Только для аудио (предварительная версия) поддерживаются только эти языки: китайский (Мандарин, упрощенное письмо), английский (Индия), английский (Соединенное Королевство), английский (США), французский (Франция), немецкий (Германия), итальянский (Италия), японский (Япония), португальский (Бразилия) и испанский (Мексика).

Если у вас нет расшифровки для звуковых записей, используйте для отправки данных параметр Только звук. Наша система поможет вам сегментировать и транскрибировать звуковые файлы. Имейте в виду, что эта служба взимается в отношении речи к использованию текстовых подписок.

При подготовке звуковых файлов следуйте приведенным ниже рекомендациям.

Примечание.

Служба сегментации длинного звука будет использовать функцию пакетного транскрибирования речи в текст, которая поддерживает только пользователей стандартной подписки (S0).

Свойство Значение
File format RIFF (WAV) или .mp3, сгруппированные в ZIP-файле
Имя файла Символы имени файла, поддерживаемые ОС Windows, с расширением WAV.
Символы \ / : * ? " < > \| не допускаются.
Оно не может начинаться или заканчиваться пробелом и не может начинаться с точки.
Повторяющиеся имена файлов не допускаются
Частота выборки При создании пользовательского нейронного голоса требуется 24 000 Гц.
Формат образца RIFF (WAV): PCM, не менее 16-разрядных
mp3: по крайней мере 256 КБ/с битовой частоты.
Длительность звукового файла Без ограничений
Формат архива .zip
Максимальный размер архива 2048 МБ; включено не более 1000 аудиофайлов

Примечание.

Частота выборки по умолчанию для пользовательского нейронного голоса составляет 24 000 Гц. Если частота выборки звуковых файлов выше 16 000 Гц, но ниже 24 000 Гц, она будет повышена до 24 000 Гц для обучения нейронного голоса. Рекомендуется использовать частоту выборки 24 000 Гц для обучающих данных.

Все звуковые файлы должны быть сгруппированы в ZIP-файл. После успешной отправки набора данных служба "Речь" помогает сегментирование звукового файла в речевые фрагменты на основе службы транскрибирования голосовой службы. Уникальные идентификаторы назначаются сегментируемым речевым фрагментам автоматически. Соответствующие расшифровки создаются с помощью распознавания речи. Все MP3-файлы после обработки будут преобразованы в формат WAV. Вы можете проверить сегментированные речевые фрагменты и соответствующие им расшифровки, скачав набор данных.

Следующие шаги