Поделиться через


Часто задаваемые вопросы о тексте для речи

В этой статье приведены ответы на часто задаваемые вопросы о возможности преобразования текста в речь (TTS). Если в этой статье вы не нашли ответы на свои вопросы, ознакомьтесь с другими вариантами поддержки.

Общие

Как выполняется выставление счетов для преобразования текста в речь?

Плата за использование речи в тексте взимается за символ. Проверьте определение оплачиваемых символов в заметке о ценах.

Что такое ограничение скорости для запросов синтеза речи для текста?

Скорость синтеза речи автоматически масштабируется по мере получения большего объема запросов. Ограничение скорости по умолчанию устанавливается для каждого ресурса речи. Ставка корректируется с бизнес-обоснованием и не взимается дополнительная плата за увеличение лимита ставки. Дополнительные сведения о квотах и ограничениях службы "Речь".

Как мы раскрываем пользователю, что голос является искусственным голосом?

Мы рекомендуем каждому пользователю следовать нашему кодексу поведения при использовании текста для речи. Существует несколько способов раскрыть синтетический характер голоса, включая неявную и явную байтовую линию. Ознакомьтесь с рекомендациями по проектированию раскрытия информации.

Как уменьшить задержку для голосового приложения?

Мы предоставляем несколько советов, чтобы снизить задержку и повысить производительность пользователей. См . более низкую задержку синтеза речи с помощью пакета SDK службы "Речь".

Какие форматы аудиофайлов поддерживают текст для речи?

Текст искусственного интеллекта Azure для речи поддерживает различные форматы потоковой передачи и не потоковой передачи звука, при этом часто используются частоты выборки. Все стандартные голоса TTS создаются для поддержки выходных данных аудио с высокой точностью с 48 кГц и 24 кГц. Звук можно изменить для поддержки других ставок по мере необходимости. См . выходные данные звука.

Можно ли настроить голос, чтобы подчеркнуть конкретные слова?

Настройка акцента поддерживается для некоторых голосов в зависимости от языкового стандарта. См. тег выделения.

Можно ли иметь несколько сил для каждой эмоции, как грустно, немного грустно, и так далее, в?

Настройка степени стиля поддерживается для некоторых голосов в зависимости от языкового стандарта. См. тег mstts:express-as.

Существует ли сопоставление идентификаторов Viseme и фигуры рта?

Создание звукового содержимого

Как ссылаться на лексический файл, созданный на платформе создания аудиоконтентного содержимого в коде?

Во-первых, можно открыть лексический файл в создании звукового содержимого и получить идентификатор лексикон-файла, который расположен перед файлом "?fileKind=CustomLexiconFile" в пути к файлу. Например, если путь к файлу равен https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile, идентификатор лексиконового 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95cфайла. Затем переключите файл, ссылающийся на этот лексикон, в формат SSML при создании звукового содержимого. В файле SSML найдите <!--ID=FCB xml-узел, где можно найти URI файла лексикона на основе указанного идентификатора файла. Наконец, обратитесь к ссылке URI файла лексикона с помощью элемента лексикона SSML в коде. Например, при обнаружении XML-узла <!--ID=FCB5B6FB566-33CA-4B68-BEAF-B013C53B3368;Version=1|{"Files":{"6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c":{"FileKind":"CustomLexiconFile","FileSubKind":"CustomLexiconFile","Uri":"https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml"}}}можно получить URI https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xmlлексического файла.

Профессиональная настройка голоса

Сколько данных требуется для профессиональной настройки голосовой связи?

Вам нужны обучающие данные по крайней мере 300 строк записей (или около 30 минут речи) для профессиональной настройки голоса. Рекомендуется создать голос для использования в рабочей среде 2000 строк записей (или около 2–3 часов речи). Критерии выбора скрипта см. в разделе "Запись пользовательских примеров голосовой связи".

Можно ли включить повторяющиеся текстовые предложения в одном наборе обучающих данных?

№ Служба помечает повторяющиеся предложения и просто сохранит первую импортированную. Критерии выбора скрипта см. в разделе "Запись пользовательских примеров голосовой связи".

Можно ли включить несколько стилей в один набор обучающих данных?

Рекомендуется обеспечить согласованность стиля в одном наборе обучающих данных. Если стили отличаются, поместите их в разные наборы обучения. В этом случае рекомендуется использовать многоуровневый метод обучения профессиональной настройки голоса. Критерии выбора скрипта см. в разделе "Запись пользовательских примеров голосовой связи".

Работает ли переключение стилей через SSML для пользовательских голосов?

Переключение стилей через SSML работает как для нескольких стандартных голосов, так и для нескольких стилей пользовательских голосов. С помощью обучения с несколькими стилями вы можете создать голос, который выступает в разных стилях, и вы также можете настроить эти стили с помощью SSML.

Как перекрестный голос работает с языками, имеющими другую структуру произношения и сборку?

Структура предложений и произношение естественно различаются на таких языках, как английский и японский. Каждый нейронный голос обучен с звуковыми данными, записанными собственным голосом таланта. Для кросслингвального голоса мы переносим основные функции, такие как тимбр, чтобы звучать как исходный динамик и сохранять правильное произношение. Например, межлингвальный голос использует собственный способ говорить на японском языке и по-прежнему звучит аналогично (но не совсем), как исходный английский динамик.

Можно ли использовать профессиональную настройку голоса для настройки произношения для моего домена?

Профессиональная настройка голоса позволяет создавать фирменный голос для вашего бизнеса. Вы также можете оптимизировать его для вашего домена. Мы рекомендуем включить примеры, относящиеся к домену, в обучающие данные для повышения естественности. Однако произношение определяется службой "Речь" по умолчанию. Мы не поддерживаем настройку произношения с профессиональной настройкой голоса. Если вы хотите настроить произношение для голоса, используйте SSML. Ознакомьтесь с языком разметки синтеза речи (SSML).

После одного обучения я могу снова обучить свой голос?

Вы можете снова обучиться. Каждое обучение создает новую голосовую модель. Плата взимается за каждое обучение.

Совпадает ли версия модели с версией подсистемы?

№ Версия модели отличается от версии подсистемы. Версия модели означает версию учебного рецепта для модели и зависит от поддерживаемых функций и времени обучения модели. Текст служб искусственного интеллекта Azure для речевых обработчиков обновляется от времени, чтобы записать последнюю языковую модель, которая определяет произношение языка. После обучения голоса вы можете применить его к новой языковой модели, обновив до последней версии подсистемы. Когда будет доступна новая подсистема, вам будет предложено обновить модель нейронного голоса. См . версию подсистемы обновления для модели голосовой связи.

Можно ли ограничить количество обучающих занятий с помощью Политика Azure или других функций? Или есть ли способ избежать ложного обучения?

Если вы хотите ограничить разрешение на обучение, можно ограничить роли пользователей и доступ. Обратитесь к управлению доступом на основе ролей для ресурсов службы "Речь".

Может ли корпорация Майкрософт добавить механизм для предотвращения несанкционированного использования или неправильного использования нашего голоса при его создании?

Модель голосовой связи может использоваться только самостоятельно с помощью собственного маркера. Корпорация Майкрософт также не использует данные. См. сведения о данных, конфиденциальности и безопасности. Вы также можете запросить добавление подложек в голос для защиты модели. См . сведения о алгоритме подложки для идентификации искусственного голоса в Microsoft Azure Neural TTS.

У вас есть советы о контрактах или переговорах с актерами голоса?

У нас нет рекомендаций по контрактам, и это до клиента и талант голоса для согласования условий. Тем не менее, вы должны убедиться, что талант голоса понимает возможности текста для речи, включая его потенциальные риски, и предоставить явное согласие на создание искусственной версии их голоса как в контракте, так и в словесном заявлении. См . сведения о раскрытии информации о таланте голоса.

Нужно ли вернуть письменное разрешение от голосового таланта обратно в Корпорацию Майкрософт?

Корпорация Майкрософт не нуждается в письменном разрешении, но вы должны получить согласие от вашего таланта голоса. Кроме того, для записи заявления о согласии потребуется талант голоса, и его необходимо передать в Speech Studio, прежде чем начать обучение. См. статью "Настройка голосового таланта для профессиональной настройки голоса".