API трансляции голосовой связи для агентов голосовой связи в режиме реального времени (предварительная версия)

2025-07-01

Замечание

Эта функция сейчас доступна в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания и не рекомендуется для использования в рабочей среде. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Для получения дополнительной информации см. Дополнительные условия использования для предварительных версий Microsoft Azure.

Что такое API реального времени для голосовой связи?

API живого голосового общения — это решение, позволяющее обеспечить низкую задержку и высокое качество взаимодействий голос к голосу для голосовых агентов. API предназначен для разработчиков, ищущих масштабируемые и эффективные возможности на основе голоса, так как это устраняет необходимость вручную оркестрировать несколько компонентов. Интеграция распознавания речи, генеративного искусственного интеллекта и преобразования текста в речь в единый унифицированный интерфейс предоставляет комплексное решение для создания бесшовного опыта.

Общие сведения о распознавании речи в речевых интерфейсах

Технология распознавания речи революционизирует взаимодействие людей с системами, предлагая интуитивно понятные решения на основе голоса. Традиционные реализации включали объединение разрозненных модулей, таких как преобразование речи в текст, распознавание намерений, управление диалогом, преобразование текста в речь и многое другое. Последовательность процессов может привести к увеличению инженерной сложности и ощущаемой задержке конечным пользователем.

Благодаря усовершенствованиям в крупных языковых моделях (LLM) и мультимодальном ИИ api голосовой трансляции объединяет эти функции, упрощая рабочие процессы для разработчиков. Этот подход повышает взаимодействие в режиме реального времени и обеспечивает высококачественное, естественное взаимодействие, что делает его подходящим для отраслей, требующих мгновенных решений с поддержкой голоса.

Ключевые сценарии для api трансляции голосовой связи

API голосовой связи в реальном времени Azure AI идеально подходит для сценариев, когда использование голосовых взаимодействий улучшает пользовательский опыт. Вот некоторые примеры.

Центры контактов: разработка интерактивных голосовых ботов для поддержки клиентов, навигации по каталогу продуктов и решений самообслуживания.
Автомобильные помощники: активируйте голосовые помощники для работы без рук в автомобиле, выполняйте команды, навигацию и отвечайте на различные вопросы.
Образование: создание компаньонов обучения с поддержкой голоса и виртуальных преподавателей для интерактивного обучения и образования.
Государственные службы: создание голосовых агентов для оказания помощи гражданам с административными запросами и информацией о общедоступной службе.
Кадровые ресурсы. Улучшение процессов управления персоналом с поддержкой голосовых средств для поддержки сотрудников, развития карьеры и обучения.

Функции api трансляции голосовой связи

API голосовой трансляции включает полный набор функций для поддержки различных вариантов использования и обеспечения более высокого взаимодействия с голосовой связью:

Широкий охват локалей: поддерживает более 15 локалей для преобразования речи в текст и предлагает более 600 стандартных голосов в 140+ локалях для преобразования текста в речь, обеспечивая глобальную доступность.
Настраиваемые вход и выход: используйте список фраз для легкой оперативной настройки аудиовхода. Используйте настраиваемый голос для создания уникальных, согласованных с брендом голосов для аудиовывода.
Гибкие варианты моделей генеративного ИИ: выбор из нескольких моделей, включая GPT-4o, GPT-4o-mini и Phi, адаптированные к требованиям для ведения беседы.
Расширенные возможности общения:
- Подавление шума: уменьшает экологический шум для более четкого взаимодействия.
- Отмена эха: запрещает агенту собирать собственные ответы.
- Надежное обнаружение прерываний. Обеспечивает точное распознавание прерываний во время бесед.
- Расширенное обнаружение конца очереди: допускает естественные паузы без преждевременного завершения взаимодействия.
Интеграция аватара: предоставляет стандартные или настраиваемые аватары, синхронизированные с звуковыми выходными данными, предлагая визуальное удостоверение для голосовых агентов.
Вызов функции: включает внешние действия, использование инструментов и обоснованные ответы с помощью шаблона VoiceRAG.

Принцип работы

Голосовой API является полностью управляемым, устраняя необходимость пользователей в управлении серверной оркестрацией или интеграцией компонентов. Разработчики предоставляют аудиовход и получают аудиовыход, визуализацию аватара и триггеры действий — все с минимальной задержкой. Вам не нужно развертывать или управлять генеративными моделями ИИ, поскольку API берет на себя всю базовую инфраструктуру.

Проектирование и совместимость API

Api трансляции голосовой связи предназначен для обеспечения совместимости с API Azure OpenAI Realtime. Поддерживаемые события в режиме реального времени в основном совпадают с событиями API Azure OpenAI Realtime, за исключениями, как описано в руководстве по использованию голосового потокового API.

Функции, уникальные для голосового живого API, предназначены как необязательные и дополняющие. Вы можете добавить возможности Azure AI для работы с речью, такие как подавление шума, отмена эха и расширенное обнаружение окончания фразы, в существующие приложения, не изменяя существующую архитектуру.

API поддерживается с помощью событий WebSocket, что позволяет легко интегрировать между серверами. Ваш серверный или сервис среднего уровня подключается к голосовому API в реальном времени через WebSockets. Сообщения WebSocket можно использовать непосредственно для взаимодействия с API.

Поддерживаемые модели и регионы

Чтобы обеспечить интеллект голосового агента, у вас есть гибкость и выбор в модели создания искусственного интеллекта между GPT-4o, GPT-4o-mini и Phi. Различные модели генерирования ИИ предоставляют различные типы возможностей, уровней интеллекта, скорости и задержки вывода и затрат. В зависимости от того, что наиболее важно для вашего бизнеса и варианта использования, можно выбрать модель, которая лучше всего подходит для ваших потребностей.

Все поддерживаемые собственные модели — GPT-4o, GPT-4o-mini и Phi — полностью управляются, так что вам не нужно развертывать модели, беспокоиться о планировании мощностей или подготовке пропускной способности. Вы можете использовать нужную модель, а API голосовой трансляции заботится об остальных.

Api трансляции голосовой связи поддерживает следующие модели. Сведения о поддерживаемых регионах см. в регионах службы "Речь" в Azure AI.

Модель	Описание
`gpt-4o-realtime-preview`	GPT-4o в режиме реального времени + возможность использовать текст Azure для речи, включая пользовательский голос для звука.
`gpt-4o-mini-realtime-preview`	GPT-4o mini в режиме реального времени + возможность использовать Azure голосовой синтезатор, включая пользовательский голос для аудио.
`gpt-4o`	GPT-4o + звуковой ввод через преобразование речи в текст Azure и аудиовывод через преобразование текста в речь Azure, включая пользовательский голос.
`gpt-4o-mini`	GPT-4o mini + звуковой вход с помощью технологии преобразования речи в текст Azure + звуковой выход с помощью голосов Azure для преобразования текста в речь, включая пользовательский голос.
`gpt-4.1`	GPT-4.1 + входные аудиоданные с помощью технологии речи Azure в текст и аудиовыход с помощью голосов Azure для преобразования текста в речь, включая индивидуальный голос.
`gpt-4.1-mini`	GPT-4.1 mini + аудиовход через функцию речи в текст от Azure и аудиовыход через функцию текста в речь от Azure, включая возможность использования пользовательского голоса.
`gpt-4.1-nano`	GPT-4.1 nano + аудио ввод через преобразование речи в текст с помощью Azure + аудио вывод с помощью синтеза речи Azure, включая пользовательский голос.
`phi4-mm-realtime`	Phi4-mm + звуковой вывод с использованием голосов Azure для преобразования текста в речь, включая пользовательский голос.
`phi4-mini`	Phi4-mm + звуковые входные данные посредством преобразования речи в текст с помощью сервиса Azure и аудио выход посредством преобразования текста в речь с использованием Azure, включая пользовательский голос.

Сравнение голосового API в реальном времени с другими решениями для передачи речи

API голосовой связи в реальном времени является альтернативой оркестрации нескольких компонентов, таких как распознавание речи, генеративный ИИ и синтез речи. Эта оркестрация может быть сложной и потребляющей много времени, требуя значительных усилий по проектированию для интеграции и обслуживания. Api голосовой трансляции упрощает этот процесс, предоставляя единый интерфейс для всех этих компонентов, что позволяет разработчикам сосредоточиться на создании приложений, а не управлении базовой инфраструктурой.

Для удовлетворения ваших требований можно создать собственное решение или использовать динамический API голосовой связи. В этой таблице сравниваются подходы:

Требование к заявке	Самостоятельно	API трансляции голосовой связи
Широкое географическое покрытие с высокой точностью (входной звук)	✅	✅
Поддержание фирменного стиля и характера (аудио)	✅	✅
Улучшения беседы	❌	✅
Выбор моделей создания искусственного интеллекта	✅	✅
Визуальный выход с аватаром синтеза речи	✅	✅
Низкая стоимость проектирования	❌	✅
Низкая задержка, воспринимаемая конечным пользователем	❌	✅

Ценообразование

Цены на голосовой API вступают в силу с 1 июля 2025 г.

Цены на динамический API голосовой связи многоуровневы (Pro, Basic и Lite) на основе используемой модели создания искусственного интеллекта.

Вы не выбираете уровень. Вы выбираете модель создания ИИ и применяется соответствующая цена.

Категория цен	Модели
Voice Live Pro	`gpt-4o-realtime-preview`, `gpt-4o`, `gpt-4.1`
Базовая версия функции Voice Live	`gpt-4o-mini-realtime-preview`, `gpt-4o-mini`, `gpt-4.1-mini`
Голосовая трансляция lite	`gpt-4.1-nano`, `phi4-mm-realtime`, `phi4-mini`

Если вы решили использовать пользовательский голос для вывода речевой информации, плата взимается отдельно за обучение и размещение пользовательской голосовой модели. Дополнительные сведения см. в разделе "Текст речи" — "Пользовательский голос" — профессиональные цены. Пользовательский голос — это функция ограниченного доступа. Узнайте больше о создании пользовательских голосов.

Аватары оплачиваются отдельно по ценам на интерактивные аватары, опубликованным здесь.

Дополнительные сведения о том, каким образом взимается плата за обучение пользовательского голоса и аватара, смотрите в этой статье о ценах.

Примеры сценариев ценообразования

Ниже приведены некоторые примеры сценариев ценообразования, которые помогут вам понять, как начисляется голосовой API в реальном времени.

Сценарий 1

Агент службы поддержки клиентов, созданный с использованием стандартных входных данных Azure AI Speech, GPT-4.1, пользовательских выходных данных Azure AI Speech и пользовательского аватара.

Плата взимается по тарифу Voice Live Pro за:

Текст
Аудио с речью Azure AI — стандартный
Звук с речью искусственного интеллекта Azure — настраиваемый

Плата взимается отдельно за обучение и размещение моделей:

Настраиваемый голос — профессиональный
Настраиваемый аватар

Сценарий 2

Агент обучения, созданный с gpt-4o-realtime-preview использованием собственного звукового ввода и стандартного выхода речи ИИ Azure.

С вас взимается плата по тарифу Voice Live Pro за:

Текст
Собственный звук с gpt-4o-realtime-preview
Аудио с речью Azure AI — стандартный

Сценарий 3

Агент для интервьюирования талантов, созданный с gpt-4o-mini-realtime-preview использованием нативного звукового ввода, стандартного вывода речи на базе ИИ Azure и стандартного аватара.

Вы оплачиваете услуги голосовой связи по базовому тарифу за:

Текст
Собственный звук с gpt-4o-mini-realtime-preview
Аудио с речью Azure AI — стандартный

Плата взимается отдельно за:

Аватар преобразования текста в речь (стандартный)

Сценарий 4

Автомобильный помощник, созданный с phi4-mm-realtime и на базе пользовательских голосовых возможностей Azure.

Плата взимается по тарифу live lite голосовой связи за:

Текст
Собственный звук с phi4-mm-realtime

Вам взимается плата по тарифу Voice Live Pro за:

Звук с речью искусственного интеллекта Azure — настраиваемый

Плата взимается отдельно за обучение и размещение моделей:

Настраиваемый голос — профессиональный

Оценка использования токенов и затрат

Токены — это единицы, которые используют генеративные модели искусственного интеллекта для обработки входных данных и генерации выходных данных. 

Вы можете оценить использование токенов для разных семейств моделей с помощью API голосового взаимодействия в реальном времени на основе длины аудиофайла. Следующие вычисления маркеров применяются к каждому семейству моделей:

Семейство моделей	Входной звук (токены в секунду)	Выходной звук (токены в секунду)
Модели Azure OpenAI	~10 токенов	~20 маркеров
Модели Phi	~12.5 токенов	~20 маркеров

Также взимается плата за кэшированные звуковые и текстовые входные данные, включая запрос и контекст бесед.

Узнайте больше об использовании API голосовой трансляции
Краткое руководство по api голосовой трансляции
Смотрите справочник по событиям звука