Q: Существует ли сопоставление идентификаторов Viseme и фигуры рта?

Да. См. статью "Получить положение лица" с помощью viseme .

Question 1

Как выполняется выставление счетов для преобразования текста в речь?

Accepted Answer

Плата за использование речи в тексте взимается за символ. Проверьте определение оплачиваемых символов в заметке о ценах.

Question 2

Что такое ограничение скорости для запросов синтеза речи для текста?

Accepted Answer

Скорость синтеза речи автоматически масштабируется по мере получения большего объема запросов. Ограничение скорости по умолчанию устанавливается для каждого ресурса речи. Ставка корректируется с бизнес-обоснованием и не взимается дополнительная плата за увеличение лимита ставки. Дополнительные сведения о квотах и ограничениях службы "Речь".

Question 3

Как мы раскрываем пользователю, что голос является искусственным голосом?

Accepted Answer

Мы рекомендуем каждому пользователю следовать нашему кодексу поведения при использовании текста для речи. Существует несколько способов раскрыть синтетический характер голоса, включая неявную и явную байтовую линию. Ознакомьтесь с рекомендациями по проектированию раскрытия информации.

Question 4

Как уменьшить задержку для голосового приложения?

Accepted Answer

Мы предоставляем несколько советов, чтобы снизить задержку и повысить производительность пользователей. См . более низкую задержку синтеза речи с помощью пакета SDK службы "Речь".

Question 5

Какие форматы аудиофайлов поддерживают текст для речи?

Accepted Answer

Текст искусственного интеллекта Azure для речи поддерживает различные форматы потоковой передачи и не потоковой передачи звука, при этом часто используются частоты выборки. Все стандартные голоса TTS создаются для поддержки выходных данных аудио с высокой точностью с 48 кГц и 24 кГц. Звук можно изменить для поддержки других ставок по мере необходимости. См . выходные данные звука.

Question 6

Можно ли настроить голос, чтобы подчеркнуть конкретные слова?

Accepted Answer

Настройка акцента поддерживается для некоторых голосов в зависимости от языкового стандарта. См. тег выделения.

Question 7

Можно ли иметь несколько сил для каждой эмоции, как грустно, немного грустно, и так далее, в?

Accepted Answer

Настройка степени стиля поддерживается для некоторых голосов в зависимости от языкового стандарта. См. тег mstts:express-as.

Question 8

Существует ли сопоставление идентификаторов Viseme и фигуры рта?

Accepted Answer

Да. См. статью "Получить положение лица" с помощью viseme.

Question 9

Как ссылаться на лексический файл, созданный на платформе создания аудиоконтентного содержимого в коде?

Accepted Answer

Во-первых, можно открыть лексический файл в создании звукового содержимого и получить идентификатор лексикон-файла, который расположен перед файлом "?fileKind=CustomLexiconFile" в пути к файлу. Например, если путь к файлу равен https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile, идентификатор лексиконового 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95cфайла. Затем переключите файл, ссылающийся на этот лексикон, в формат SSML при создании звукового содержимого. В файле SSML найдите

Question 10

Сколько данных требуется для профессиональной настройки голосовой связи?

Accepted Answer

Вам нужны обучающие данные по крайней мере 300 строк записей (или около 30 минут речи) для профессиональной настройки голоса. Рекомендуется создать голос для использования в рабочей среде 2000 строк записей (или около 2–3 часов речи). Критерии выбора скрипта см. в разделе "Запись пользовательских примеров голосовой связи".

Question 11

Можно ли включить повторяющиеся текстовые предложения в одном наборе обучающих данных?

Accepted Answer

№ Служба помечает повторяющиеся предложения и просто сохранит первую импортированную. Критерии выбора скрипта см. в разделе "Запись пользовательских примеров голосовой связи".

Question 12

Можно ли включить несколько стилей в один набор обучающих данных?

Accepted Answer

Рекомендуется обеспечить согласованность стиля в одном наборе обучающих данных. Если стили отличаются, поместите их в разные наборы обучения. В этом случае рекомендуется использовать многоуровневый метод обучения профессиональной настройки голоса. Критерии выбора скрипта см. в разделе "Запись пользовательских примеров голосовой связи".

Question 13

Работает ли переключение стилей через SSML для пользовательских голосов?

Accepted Answer

Переключение стилей через SSML работает как для нескольких стандартных голосов, так и для нескольких стилей пользовательских голосов. С помощью обучения с несколькими стилями вы можете создать голос, который выступает в разных стилях, и вы также можете настроить эти стили с помощью SSML.

Question 14

Как перекрестный голос работает с языками, имеющими другую структуру произношения и сборку?

Accepted Answer

Структура предложений и произношение естественно различаются на таких языках, как английский и японский. Каждый нейронный голос обучен с звуковыми данными, записанными собственным голосом таланта. Для кросслингвального голоса мы переносим основные функции, такие как тимбр, чтобы звучать как исходный динамик и сохранять правильное произношение. Например, межлингвальный голос использует собственный способ говорить на японском языке и по-прежнему звучит аналогично (но не совсем), как исходный английский динамик.

Question 15

Можно ли использовать профессиональную настройку голоса для настройки произношения для моего домена?

Accepted Answer

Профессиональная настройка голоса позволяет создавать фирменный голос для вашего бизнеса. Вы также можете оптимизировать его для вашего домена. Мы рекомендуем включить примеры, относящиеся к домену, в обучающие данные для повышения естественности. Однако произношение определяется службой "Речь" по умолчанию. Мы не поддерживаем настройку произношения с профессиональной настройкой голоса. Если вы хотите настроить произношение для голоса, используйте SSML. Ознакомьтесь с языком разметки синтеза речи (SSML).

Question 16

После одного обучения я могу снова обучить свой голос?

Accepted Answer

Вы можете снова обучиться. Каждое обучение создает новую голосовую модель. Плата взимается за каждое обучение.

Question 17

Совпадает ли версия модели с версией подсистемы?

Accepted Answer

№ Версия модели отличается от версии подсистемы. Версия модели означает версию учебного рецепта для модели и зависит от поддерживаемых функций и времени обучения модели. Текст служб искусственного интеллекта Azure для речевых обработчиков обновляется от времени, чтобы записать последнюю языковую модель, которая определяет произношение языка. После обучения голоса вы можете применить его к новой языковой модели, обновив до последней версии подсистемы. Когда будет доступна новая подсистема, вам будет предложено обновить модель нейронного голоса. См . версию подсистемы обновления для модели голосовой связи.

Question 18

Можно ли ограничить количество обучающих занятий с помощью Политика Azure или других функций? Или есть ли способ избежать ложного обучения?

Accepted Answer

Если вы хотите ограничить разрешение на обучение, можно ограничить роли пользователей и доступ. Обратитесь к управлению доступом на основе ролей для ресурсов службы "Речь".

Question 19

Может ли корпорация Майкрософт добавить механизм для предотвращения несанкционированного использования или неправильного использования нашего голоса при его создании?

Accepted Answer

Модель голосовой связи может использоваться только самостоятельно с помощью собственного маркера. Корпорация Майкрософт также не использует данные. См. сведения о данных, конфиденциальности и безопасности. Вы также можете запросить добавление подложек в голос для защиты модели. См . сведения о алгоритме подложки для идентификации искусственного голоса в Microsoft Azure Neural TTS.

Question 20

У вас есть советы о контрактах или переговорах с актерами голоса?

Accepted Answer

У нас нет рекомендаций по контрактам, и это до клиента и талант голоса для согласования условий. Тем не менее, вы должны убедиться, что талант голоса понимает возможности текста для речи, включая его потенциальные риски, и предоставить явное согласие на создание искусственной версии их голоса как в контракте, так и в словесном заявлении. См . сведения о раскрытии информации о таланте голоса.

Question 21

Нужно ли вернуть письменное разрешение от голосового таланта обратно в Корпорацию Майкрософт?

Accepted Answer

Корпорация Майкрософт не нуждается в письменном разрешении, но вы должны получить согласие от вашего таланта голоса. Кроме того, для записи заявления о согласии потребуется талант голоса, и его необходимо передать в Speech Studio, прежде чем начать обучение. См. статью "Настройка голосового таланта для профессиональной настройки голоса".

Поделиться через

Общие

Как выполняется выставление счетов для преобразования текста в речь?

Что такое ограничение скорости для запросов синтеза речи для текста?

Как мы раскрываем пользователю, что голос является искусственным голосом?

Как уменьшить задержку для голосового приложения?

Какие форматы аудиофайлов поддерживают текст для речи?

Можно ли настроить голос, чтобы подчеркнуть конкретные слова?

Можно ли иметь несколько сил для каждой эмоции, как грустно, немного грустно, и так далее, в?

Существует ли сопоставление идентификаторов Viseme и фигуры рта?

Создание звукового содержимого

Как ссылаться на лексический файл, созданный на платформе создания аудиоконтентного содержимого в коде?

Профессиональная настройка голоса

Сколько данных требуется для профессиональной настройки голосовой связи?

Можно ли включить повторяющиеся текстовые предложения в одном наборе обучающих данных?

Можно ли включить несколько стилей в один набор обучающих данных?

Работает ли переключение стилей через SSML для пользовательских голосов?

Как перекрестный голос работает с языками, имеющими другую структуру произношения и сборку?

Можно ли использовать профессиональную настройку голоса для настройки произношения для моего домена?

После одного обучения я могу снова обучить свой голос?

Совпадает ли версия модели с версией подсистемы?

Можно ли ограничить количество обучающих занятий с помощью Политика Azure или других функций? Или есть ли способ избежать ложного обучения?

У вас есть советы о контрактах или переговорах с актерами голоса?

Нужно ли вернуть письменное разрешение от голосового таланта обратно в Корпорацию Майкрософт?

Следующие шаги

Поделиться через

Часто задаваемые вопросы о тексте для речи

Общие

Как выполняется выставление счетов для преобразования текста в речь?

Что такое ограничение скорости для запросов синтеза речи для текста?

Как мы раскрываем пользователю, что голос является искусственным голосом?

Как уменьшить задержку для голосового приложения?

Какие форматы аудиофайлов поддерживают текст для речи?

Можно ли настроить голос, чтобы подчеркнуть конкретные слова?

Можно ли иметь несколько сил для каждой эмоции, как грустно, немного грустно, и так далее, в?

Существует ли сопоставление идентификаторов Viseme и фигуры рта?

Создание звукового содержимого

Как ссылаться на лексический файл, созданный на платформе создания аудиоконтентного содержимого в коде?

Профессиональная настройка голоса

Сколько данных требуется для профессиональной настройки голосовой связи?

Можно ли включить повторяющиеся текстовые предложения в одном наборе обучающих данных?

Можно ли включить несколько стилей в один набор обучающих данных?

Работает ли переключение стилей через SSML для пользовательских голосов?

Как перекрестный голос работает с языками, имеющими другую структуру произношения и сборку?

Можно ли использовать профессиональную настройку голоса для настройки произношения для моего домена?

После одного обучения я могу снова обучить свой голос?

Совпадает ли версия модели с версией подсистемы?

Можно ли ограничить количество обучающих занятий с помощью Политика Azure или других функций? Или есть ли способ избежать ложного обучения?

У вас есть советы о контрактах или переговорах с актерами голоса?

Нужно ли вернуть письменное разрешение от голосового таланта обратно в Корпорацию Майкрософт?

Следующие шаги

Обратная связь

Дополнительные ресурсы