Поделиться через


Данные профессиональной настройки голосовой связи

Когда вы будете готовы создать пользовательский голос для приложения, первым шагом является сбор аудиозаписей и связанных сценариев для запуска профессиональной настройки голоса. "Пользовательский голос" — это зонтичный термин, который включает как профессиональную настройку голоса, так и личный голос. Служба "Речь" использует эти данные для профессиональной настройки голоса, создавая уникальный голос, настроенный для сопоставления голоса в записях. После точной настройки профессионального голоса вы можете начать синтез речи в приложениях.

Совет

Чтобы создать голос для использования в рабочей среде, рекомендуем использовать профессиональную студию звукозаписи и актера озвучивания. Дополнительные сведения см. в разделе образцы голосовых записей для тонкой настройки профессионального голоса.

Типы данных для профессиональной настройки голосовой связи

Набор данных для профессиональной настройки голоса включает аудиозаписи и текстовый файл с связанными транскрибированиями. Каждый звуковой файл должен содержать отдельный речевой фрагмент (одно предложение или одну фразу диалога) длительностью менее 15 секунд.

В некоторых случаях у вас может не быть правильного набора данных. Вы можете протестировать профессиональную настройку голоса с доступными звуковыми файлами, короткими или длинными, с расшифровками или без нее.

В этой таблице перечислены типы данных и способ использования каждого из них для профессиональной настройки голоса.

Тип данных Описание Варианты использования Требуется дополнительная обработка Обработано как
Отдельные речевые фрагменты и соответствующая расшифровка ZIP-архив, содержащий набор звуковых файлов (WAV-файлы) с отдельными речевыми фрагментами. Каждый звуковой файл должен иметь длину не более 15 секунд и сопровождаться форматированной расшифровкой (TXT-файл). Профессиональные записи с соответствующими расшифровками. Готов к тонкой настройке. Сегментированный
Длинный звук + транскрибирование Коллекция (.zip) длинных незарегистрированных звуковых файлов (.wav или .mp3, более 20 секунд, не более 1000 аудиофайлов), в сочетании с коллекцией (.zip) расшифровок, содержащих все произнесенные слова. У вас есть звуковые файлы и соответствующие им расшифровки, но они не разбиты на речевые фрагменты. Сегментация (с использованием службы пакетного транскрибирования).
Преобразование формата звука везде, где требуется.
Сегментированный, контекстуальный
Только аудио (предварительная версия) Коллекция (.zip) аудиофайлов (.wav или .mp3, не более 1000 звуковых файлов) без расшифровки. Доступны только звуковые файлы без соответствующих расшифровок. Сегментация и создание расшифровок (с помощью службы пакетного транскрибирования).
Преобразование формата звука везде, где требуется.
Сегментированный, контекстуальный

Файлы необходимо сгруппировать по типу в набор данных и отправить в виде ZIP-архива. Каждый набор данных может содержать данные только одного типа.

Примечание.

В рамках одной стандартной подписки (S0) можно импортировать не более 500 ZIP-файлов с данными.

Обработка в качестве контекстной сохранит аудио как единое целое, чтобы сохранить контекстную информацию для более естественной интонации.

Отдельные речевые фрагменты и соответствующая расшифровка

Записи отдельных речевых фрагментов и соответствующих расшифровок можно подготовить двумя способами. Вы можете написать сценарий, который прочитает актер озвучивания, либо выбрать общедоступный аудиофайл и подготовить расшифровку его текста. В последнем случае отредактируйте в аудиофайлах слова-паразиты, такие как "эм", заикание, нечетко или неправильно произнесенные слова.

Чтобы получить хорошую голосовую модель, запись необходимо производить в тишине при помощи качественного микрофона. Важную роль также играют согласованный объем, скорость речи, тон голоса и выразительная манера речи.

Примеры формата данных см. в примере набора данных на сайте GitHub. Пример набора данных включает пример скрипта и связанного звука.

Звуковые данные для отдельных речевых фрагментов и соответствующие расшифровки

Каждый звуковой файл должен содержать отдельный речевой фрагмент (одно предложение или одну фразу диалога) длительностью менее 15 секунд. Все файлы должны быть на одном языке. Многоязычный пользовательский текст для речевых голосов не поддерживается, за исключением двухязычного китайского языка. Каждый звуковой файл должен иметь уникальное имя файла и расширение WAV.

При подготовке звуковых файлов следуйте приведенным ниже рекомендациям.

Свойство Значение
Формат файла RIFF (WAV), сгруппированные в ZIP-файле
Имя файла Символы имени файла, поддерживаемые ОС Windows, с расширением WAV.
Символы \ / : * ? " < > \| не допускаются.
Оно не может начинаться или заканчиваться пробелом и не может начинаться с точки.
Повторяющиеся имена файлов не допускаются
Частота выборки 24 КГц и выше требуются для тонкой настройки профессионального голоса.
Формат образца PCM, не менее 16-разрядных
Длительность звукового файла Менее 15 секунд
Формат архива .zip
Максимальный размер архива 2048 МБ

Примечание.

Частота выборки по умолчанию для профессиональной настройки голоса составляет 24 КГц. Звуковые файлы с частотой выборки менее 16 000 Гц будут отклонены. Если ZIP-файл содержит WAV-файлы с разной частотой выборки, будут импортированы только те из них, частота выборки которых не меньше 16 000 Гц. Звуковые файлы с частотой выборки выше 16 000 Гц и ниже 24 кГц будут повышены до 24 кГц для оптимизации. Рекомендуется использовать частоту выборки 24 КГц и выше для данных тонкой настройки.

Данные транскрибирования для отдельных речевых фрагментов и сопоставления транскрибирования

Файл расшифровки представляет собой обычный текстовый файл. При подготовке расшифровок следуйте приведенным ниже рекомендациям.

Свойство Значение
Формат файла Обычный текст (.txt)
Формат кодирования ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE или UTF-16-BE. Для zh-CN, ANSI и ASCII кодировка не поддерживается.
Количество фраз в строке Одна. Каждая строка файла расшифровки должна содержать имя одного из звуковых файлов и соответствующую ему расшифровку. Для разделения имени файла и транскрибирования необходимо использовать вкладку (\t).
Максимальный размер файла 2048 МБ

Ниже приведен пример того, как расшифровка расшифровки организована речевым фрагментом по одному .txt файлу:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Важно, чтобы расшифровки были 100% точными транскрибированиями соответствующего звука. Ошибки в расшифровках представляют потерю качества во время процесса тонкой настройки.

Длинный звук + транскрибирование (предварительная версия)

Примечание.

Для длинных аудио и транскрибирования (предварительная версия) поддерживаются только эти языки: китайский (мандарин, упрощенное письмо), китайский (кантонский, традиционный), китайский (тайваньский мандарин), английский (Индия), английский (Великобритания), английский (США), французский (Франция), немецкий (Германия), хинди (Индия), итальянский (Италия), японский (Япония), португальский (Бразилия), испанский (Испания) и испанский (Мексика).

Обработанное как контекстное в настоящее время доступно только для китайского (Мандарина, упрощенного) и английского (США).

В некоторых случаях у вас может не быть сегментированного звука. Speech Studio поможет сегментирование длинных звуковых файлов и создание транскрибирования. Служба сегментации длинного звука использует функцию API пакетной транскрибирования речи к тексту.

Служба предлагает два режима обработки:

  • Сегментировано: режим обработки по умолчанию, который работает со всеми поддерживаемыми языками
  • Контекстуальный: расширенный режим, который сохраняет звук в целом, чтобы сохранить контекстную информацию для более естественных интонации.

Во время обработки сегментации звуковые файлы и расшифровки также отправляются в пользовательскую службу распознавания, чтобы уточнить модель распознавания, чтобы точность была улучшена для ваших данных. Во время этого процесса данные не сохраняются. После завершения сегментации будут храниться только сегментированные высказывания и их сопоставленные расшифровки для загрузки и тонкой настройки.

Звуковые данные для длинного звука и расшифровки

При подготовке звуковых файлов для сегментации следуйте приведенным ниже рекомендациям.

Свойство Значение
Формат файла RIFF (WAV) или .mp3, сгруппированные в ZIP-файле
Имя файла Символы имени файла, поддерживаемые ОС Windows, с расширением WAV.
Символы \ / : * ? " < > \| не допускаются.
Оно не может начинаться или заканчиваться пробелом и не может начинаться с точки.
Повторяющиеся имена файлов не допускаются
Частота выборки При тонкой настройке профессионального голоса требуется 24 КГц и выше.
Формат образца RIFF(.wav): PCM, по крайней мере 16-разрядная версия.

mp3: по крайней мере 256 KBps битовая скорость.
Длительность звукового файла Длиннее 30 секунд
Формат архива .zip
Максимальный размер архива 2048 МБ, не более 1000 аудиофайлов включены

Примечание.

Частота выборки по умолчанию для профессиональной настройки голоса составляет 24 КГц. Звуковые файлы с частотой выборки менее 16 000 Гц будут отклонены. Аудиофайлы с частотой выборки выше 16 000 Гц и ниже 24 кГц будут увеличены до 24 кГц для точной настройки. Рекомендуется использовать частоту выборки 24 КГц и выше для данных тонкой настройки.

Сегментированные речевые фрагменты должны в идеале составлять от 5 до 15 секунд. Для оптимальных результатов сегментации рекомендуется включить естественные паузы от 0,5 до 1 секунд каждые 5–15 секунд речи, предпочтительно в конце фраз или предложений.

Все звуковые файлы должны быть сгруппированы в ZIP-файл. Это нормально, чтобы поместить .wav файлы и .mp3 файлы в один ZIP-файл. Например, можно отправить 45-секундный звуковой файл с именем "kingstory.wav" и 200-секундный звуковой файл с именем "queenstory.mp3" в том же ZIP-файле. Все MP3-файлы после обработки будут преобразованы в формат WAV.

Данные транскрибирования для длинного звука и транскрибирования

В следующей таблице описываются требования к файлам расшифровки. Каждый звуковой файл должен соответствовать расшифровке.

Свойство Значение
Формат файла Обычные текстовые файлы (TXT), сгруппированные в ZIP-файл
Имя файла Должно соответствовать имени звукового файла
Формат кодирования ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE или UTF-16-BE. Для zh-CN, ANSI и ASCII кодировка не поддерживается.
Количество фраз в строке Без ограничений
Максимальный размер файла 2048 МБ

Все файлы расшифровки для этого типа данных должны быть сгруппированы в ZIP-файл. Например, можно отправить 45-секундный звуковой файл с именем "kingstory.wav" и 200-секундный звуковой файл с именем "queenstory.mp3" в том же ZIP-файле. Необходимо отправить другой ZIP-файл, содержащий соответствующие две расшифровки , один с именем "kingstory.txt" и другой с именем "queenstory.txt". В каждом обычном текстовом файле вы предоставляете полное правильное транскрибирование для соответствующего звука.

После успешной отправки набора данных мы сегментируем звуковой файл на речевые фрагменты в соответствии с предоставленной расшифровкой. Вы можете проверить сегментированные речевые фрагменты и соответствующие им расшифровки, скачав набор данных. Уникальные идентификаторы назначаются сегментируемым речевым фрагментам автоматически. Важно убедиться, что предоставленные расшифровки являются точными на 100 %. Ошибки в расшифровках могут снизить точность во время сегментации звука и далее привести к потере качества на этапе тонкой настройки, который происходит позже.

Только аудио (предварительная версия)

Примечание.

Только для аудио (предварительная версия) поддерживаются только эти языки: китайский (Мандарин, упрощенное письмо), китайский (кантонский, традиционный), китайский (тайваньский мандарин), английский (Индия), английский (Соединенное Королевство), английский (Соединенное Королевство), французский (Франция), немецкий (Германия), Хинди (Индия), итальянский (Италия), японский (Япония), португальский (Бразилия), испанский (Испания) и испанский (Мексика).

Обработанное как контекстное в настоящее время доступно только для китайского (Мандарина, упрощенного) и английского (США).

Если у вас нет расшифровки для звуковых записей, используйте для отправки данных параметр Только звук. Наша система поможет вам сегментировать и транскрибировать звуковые файлы.

Служба предлагает два режима обработки:

  • Сегментировано: режим обработки по умолчанию, который работает со всеми поддерживаемыми языками
  • Контекстуальный: расширенный режим, который сохраняет звук в целом, чтобы сохранить контекстную информацию для более естественных интонации.

При подготовке звуковых файлов следуйте приведенным ниже рекомендациям.

Свойство Значение
Формат файла RIFF (WAV) или .mp3, сгруппированные в ZIP-файле
Имя файла Символы имени файла, поддерживаемые ОС Windows, с расширением WAV.
Символы \ / : * ? " < > \| не допускаются.
Оно не может начинаться или заканчиваться пробелом и не может начинаться с точки.
Повторяющиеся имена файлов не допускаются
Частота выборки 24 КГц и выше требуются для тонкой настройки профессионального голоса.
Формат образца RIFF (WAV): PCM, не менее 16-разрядных
mp3: по крайней мере 256 KBps битовая скорость.
Длительность звукового файла Без ограничений
Формат архива .zip
Максимальный размер архива 2048 МБ, не более 1000 аудиофайлов включены

Примечание.

Частота выборки по умолчанию для профессиональной настройки голоса составляет 24 КГц. Звуковые файлы с частотой дискретизации выше 16 000 Гц и ниже 24 кГц будут повышены до 24 кГц для точной настройки. Рекомендуется использовать частоту выборки 24 КГц и выше для данных тонкой настройки.

Сегментированные речевые фрагменты должны в идеале составлять от 5 до 15 секунд. Для оптимальных результатов сегментации рекомендуется включить естественные паузы от 0,5 до 1 секунд каждые 5–15 секунд речи, предпочтительно в конце фраз или предложений.

Все звуковые файлы должны быть сгруппированы в ZIP-файл. После успешной отправки набора данных служба "Речь" помогает сегментирование звукового файла в речевые фрагменты на основе службы транскрибирования голосовой службы. Вы можете выбрать стандартный или контекстный режим обработки в зависимости от языка и требований. Уникальные идентификаторы назначаются сегментируемым речевым фрагментам автоматически. Соответствующие расшифровки создаются с помощью распознавания речи. Все MP3-файлы после обработки будут преобразованы в формат WAV. Вы можете проверить сегментированные речевые фрагменты и соответствующие им расшифровки, скачав набор данных.

Следующие шаги