Что такое текст для речи?

Мақала
09/24/2024

В этом обзоре вы узнаете о преимуществах и возможностях функции преобразования текста в речь службы "Речь", которая входит в состав служб ИИ Azure.

Текст в речь позволяет приложениям, инструментам или устройствам преобразовывать текст в человека, как синтезированная речь. Возможность преобразования текста в речь также называется синтезом речи. Используйте человек, как предварительно созданные нейронные голоса из коробки, или создайте пользовательский нейронный голос, уникальный для вашего продукта или бренда. Полный список поддерживаемых голосов, языков и языковых стандартов см. статье Поддержка языков и голосов в службе "Речь".

Основные возможности

Текст для речи включает следующие функции:

Функция	Итоги	Демонстрация
Предварительно созданный нейронный голос (под именем Нейронный на странице цен)	Готовые голоса, очень похожие на настоящие. Создайте подписку Azure и ресурс службы "Речь", а затем используйте пакет SDK службы "Речь" или перейдите на портал Speech Studio и выберите предварительно созданные нейронные голоса для начала работы. Ознакомьтесь с данными на странице цен.	Проверьте коллекцию голосовых данных и определите правильный голос для ваших бизнес-потребностей.
Пользовательский нейронный голос (под именем Пользовательский нейронный на странице цен)	Простое в использовании средство самообслуживания для создания естественного голоса торговой марки с ограниченным доступом, призванным обеспечить ответственное использование. Создайте подписку Azure и ресурс службы "Речь" (с уровнем S0) и примените его к использованию пользовательской функции голосовой связи. После предоставления доступа перейдите на портал Speech Studio и выберите "Настраиваемый голос ", чтобы приступить к работе. Ознакомьтесь с данными на странице цен.	Изучите образцы голоса.

Дополнительные сведения о нейронных текстах для функций речи

Текст для речи использует глубокие нейронные сети, чтобы сделать голоса компьютеров почти неотличимыми от записей людей. Благодаря четкому выражению слов нейронный текст для речи значительно снижает усталость от прослушивания при взаимодействии пользователей с системами ИИ.

Образцы ударения и интонации в разговорной речи называются просодией. Традиционные текстовые системы разбивают просодию на отдельные лингвистические и акустические прогнозирующие шаги, управляемые независимыми моделями. Это может привести к синтезу приглушенного и шумного голоса.

Дополнительные сведения о функциях нейронного текста для речи в службе "Речь" и о том, как они преодолевают ограничения традиционных текстовых систем речи:

Синтез речи в режиме реального времени: используйте пакет SDK службы "Речь" или REST API для преобразования текста в речь с помощью предварительно созданных нейронных голосов или пользовательских нейронных голосов.
Асинхронный синтез длинного звука: используйте API пакетного синтеза для асинхронного синтеза текста в файлы речи дольше 10 минут (например, аудиокниги или лекции). В отличие от синтеза, выполняемого с помощью пакета SDK службы "Речь" или "Речь" в REST API, ответы не возвращаются в режиме реального времени. Ожидаемый результат — запросы отправляются асинхронно, опрос производится, но синтезированное аудио загружается тогда, когда его предоставляет служба.
Предварительно созданные нейронные голоса: Служба "Речь ИИ Azure" использует глубокие нейронные сети для преодоления ограничений традиционного синтеза речи в отношении стресса и интонации на разговорном языке. Одновременно выполняется интонационное прогнозирование и синтез речи, что приводит к более гибкому и естественному звучанию итогового голоса. Каждая предварительно созданная нейронная голосовая модель доступна в 24 кГц и высокой точности 48 кГц. Нейронные голоса можно использовать в следующих целях:
- Чтобы сделать взаимодействие с чат-ботами и голосовыми помощниками более естественным и интересным.
- Чтобы преобразовывать цифровые тексты, такие как электронные книги, в аудиокниги.
- Чтобы улучшать системы автомобильной навигации.
Полный список предварительно созданных нейронных голосов службы "Речь ИИ Azure" см. в разделе "Язык" и "Поддержка голосовой связи" для службы "Речь".
Улучшение выходных данных текста в речь с помощью SSML: язык разметки синтеза речи (SSML) — это язык разметки на основе XML, используемый для настройки выходных данных речи. С помощью SSML можно настроить тон, добавить паузы, улучшить произношение, изменить скорость речи, отрегулировать громкость, а также присвоить несколько голосов одному документу.

SSML можно использовать, чтобы определять собственные лексиконы или переключаться между разными стилями речи. Многоязыковые голоса также позволяют настраивать языки речи с помощью SSML. Чтобы улучшить выходные данные голоса для вашего сценария, см. статью "Улучшение синтеза речи с помощью языка разметки синтеза речи" и синтеза речи с помощью средства создания звукового содержимого.
Виземы. Виземы — ключевые положения лица в наблюдаемой речи при создании определенной фонемы, такие как расположение губ, челюстей и языка. Виземы имеют надежную корреляцию с голосами и фонемами.

С помощью событий визем в пакете SDK для службы "Речь" можно создавать данные анимации лиц. С их помощью можно анимировать лица для взаимодействия посредством чтения по губам, в образовательных и развлекательных целях, а также для обслуживания клиентов. Виземы в настоящее время поддерживаются только для нейронных голосов en-US (английский, США).

Примечание.

В дополнение к нейронным голосам службы "Речь ИИ Azure" (не HD), вы также можете использовать голоса высокой четкости распознавания речи ИИ Azure и нейронные голоса Azure OpenAI (HD и не HD). Голоса HD обеспечивают более высокое качество для более универсальных сценариев.

Некоторые голоса не поддерживают все теги языка разметки синтеза речи (SSML ). Это включает в себя нейронный текст для голосов hd, личных голосов и внедренных голосов.

Сведения о поддержке SSML см. в разделе "Высокоопределяемая функция распознавания речи Azure" (HD).
Для личного голоса вы можете найти поддержку SSML здесь.
Для внедренных голосов проверьте поддержку SSML здесь.

Начало работы

Сведения о начале работы с текстом для речи см. в кратком руководстве. Текст для речи доступен с помощью пакета SDK службы "Речь", REST API и интерфейса командной строки службы "Речь".

Совет

Чтобы преобразовать текст в речь без кода, попробуйте использовать средство создания аудиоконтентов в Speech Studio.

Пример кода

Пример кода для преобразования текста в речь доступен на сайте GitHub. Эти примеры охватывают преобразование текста в речь в большинстве популярных языков программирования:

Пользовательский нейронный голос

Помимо предварительно созданных нейронных голосов, вы можете создавать пользовательские нейронные голоса, уникальные для вашего продукта или бренда. Чтобы начать работу, вам потребуется всего несколько звуковых файлов и связанных с ними расшифровок. Дополнительные сведения см. в статье Начало работы с пользовательским нейронным голосом.

Примечание о ценах

Оплачиваемые символы

При использовании текста для функции распознавания речи плата взимается за каждый символ, который преобразуется в речь, включая знак препинания. Несмотря на то, что сам документ SSML не оплачивается, необязательные элементы, используемые для настройки преобразования текста в речь, такие как фонемы и шаг, считаются символами с выставлением счетов. Здесь приводится перечень того что оплачивается:

Текст, переданный тексту в функцию распознавания речи в тексте запроса SSML
Вся разметка в текстовом поле тела запроса в формате SSML, за исключением тегов <speak> <voice>
Буквы, пунктуация, пробелы, табуляция, разметка и все пробельные символы
Каждая кодовая точка, определенная в Юникоде.

Дополнительные сведения см. в статье Цены на службы "Речь".

Внимание

При выставлении счетов один китайский иероглиф считается за два символа, включая иероглифы кандзи (японский язык), ханча (корейский язык) и ханьцзы (другие языки).

Обучение модели и время размещения для пользовательского нейронного голоса

Настраиваемое обучение нейронной голосовой связи и размещение вычисляются по часам и оплачиваются в секунду. Цены на единицу выставления счетов см. в ценах на службу "Речь".

Время обучения пользовательского нейронного голоса (CNV) измеряется по единицам вычислений (единица измерения времени выполнения компьютера). Как правило, при обучении голосовой модели выполняются две вычислительные задачи параллельно. Таким образом, вычисляемые вычислительные часы длиннее фактического времени обучения. В среднем для обучения голоса CNV Lite требуется менее одного вычислительного часа; в то время как для CNV Pro обычно требуется от 20 до 40 вычислительных часов для обучения единого стиля голоса, и около 90 часов вычислений для обучения многоуровневого голоса. Плата за обучение CNV взимается с ограничением в 96 часов вычислений. Таким образом, в случае обучения голосовой модели в 98 часов вычислений вы будете взиматься только за 96 часов вычислений.

Размещение конечной точки пользовательской нейронной голосовой связи (CNV) измеряется фактическим временем (час). Время размещения (часы) для каждой конечной точки вычисляется в 00:00 UTC каждый день за предыдущие 24 часа. Например, если конечная точка активна в течение 24 часов в день один, плата взимается за 24 часа в 00:00 в формате UTC во второй день. Если конечная точка только что создана или приостановлена в течение дня, плата взимается за его накопленный период выполнения до 00:00 в формате UTC во второй день. Если конечная точка в настоящее время не размещена, она не взимается. В дополнение к ежедневному расчету в 00:00 UTC каждый день выставление счетов также активируется немедленно при удалении или приостановке конечной точки. Например, для конечной точки, созданной в 08:00 UTC 1 декабря, час размещения будет рассчитан до 16 часов в 00:00 UTC 2 и 24 часа в 00:00 UTC 3 декабря. Если пользователь приостанавливает размещение конечной точки в 16:30 UTC 3 декабря, длительность (16,5 часа) от 00:00 до 16:30 UTC 3 декабря будет вычисляться для выставления счетов.

Личный голос

При использовании личной голосовой функции вы оплачиваете как хранилище профилей, так и синтез.

Хранилище профилей: после создания личного голосового профиля плата будет выставлена до тех пор, пока она не будет удалена из системы. Единица выставления счетов составляет голосовую связь в день. Если хранилище голосовой связи длится менее 24 часов, плата будет выставляться как один полный день.
Синтез: Выставление счетов за символ. Дополнительные сведения о платных символах см. в приведенных выше оплачиваемых символах.

Аватар текста для речи

При использовании функции аватара для текста в речь плата будет взиматься на основе длины выходных данных видео и будет взиматься плата в секунду. Однако для аватара в режиме реального времени плата зависит от времени, когда аватар активен, независимо от того, говорит ли он или остается молчаливым, а также будет выставлен счет в секунду. Чтобы оптимизировать затраты на использование аватара в режиме реального времени, ознакомьтесь с советами, приведенными в примере кода (поиск "Использование локального видео для простоя"). Размещение аватара выставляется в секунду на конечную точку. Вы можете приостановить конечную точку для экономии затрат. Если вы хотите приостановить конечную точку, ее можно удалить напрямую. Чтобы использовать его снова, просто повторно разверните конечную точку.

Мониторинг метрик речи в тексте Azure

Мониторинг ключевых метрик, связанных с текстовыми службами речи, имеет решающее значение для управления использованием ресурсов и управления затратами. В этом разделе описано, как найти сведения об использовании в портал Azure и предоставить подробные определения ключевых метрик. Дополнительные сведения о метриках Azure Monitor см. в обзоре метрик Azure Monitor.

Поиск сведений об использовании в портал Azure

Чтобы эффективно управлять ресурсами Azure, важно регулярно получать доступ к данным об использовании и просматривать их. Вот как найти сведения об использовании:

Перейдите к портал Azure и войдите с помощью учетной записи Azure.
Перейдите к ресурсам и выберите ресурс, который вы хотите отслеживать.
Выберите метрики в разделе "Мониторинг" в меню слева.
Настройка представлений метрик.

Данные можно фильтровать по типу ресурсов, типу метрик, диапазону времени и другим параметрам, чтобы создавать пользовательские представления, которые соответствуют потребностям мониторинга. Кроме того, можно сохранить представление метрик на панелях мониторинга, нажав кнопку "Сохранить на панель мониторинга ", чтобы легко получить доступ к часто используемым метрикам.
Настройка оповещений.

Чтобы эффективнее управлять использованием, настройте оповещения, перейдя на вкладку "Оповещения " в разделе "Мониторинг " в меню слева. Оповещения могут уведомлять вас о достижении определенных пороговых значений, что помогает предотвратить непредвиденные затраты.

Определение метрик

Ниже приведена таблица, включающая ключевые метрики для служб преобразования текста в речь Azure.

Имя метрики	Description
Синтезированные символы	Отслеживает количество символов, преобразованных в речь, включая предварительно созданный нейронный голос и пользовательский нейронный голос. Дополнительные сведения о платных символах см. в разделе "Оплачиваемые символы".
Синтезированные видео секунды	Измеряет общую длительность синтеза видео, включая синтез пакетного аватара, синтез аватара в режиме реального времени и пользовательский синтез аватара.
Секунды размещения модели аватара	Отслеживает общее время в секундах, в которых размещена пользовательская модель аватара.
Часы размещения голосовой модели	Отслеживает общее время в часах размещения пользовательской модели нейронной голосовой связи.
Минут обучения модели голосовой связи	Измеряет общее время в минутах для обучения пользовательской модели нейронного голоса.

Справочная документация

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды, в которой она развернута. Ознакомьтесь с заметками о прозрачности, чтобы узнать об использовании и развертывании ответственного искусственного интеллекта в системах.

Бөлісу құралы: