API GPT-4o Realtime для речи и звука (предварительная версия)
API Azure OpenAI GPT-4o Realtime для распознавания речи и звука является частью семейства моделей GPT-4o, которая поддерживает низкой задержки, "речь в речи" диалоговых взаимодействий. API звука realtime
GPT-4o предназначен для обработки взаимодействий в режиме реального времени, низкой задержки общения, что делает его отличным для вариантов использования с участием динамического взаимодействия между пользователем и моделью, такими как агенты поддержки клиентов, голосовые помощники и переводчики в режиме реального времени.
Большинство пользователей API Реального времени должны доставлять и получать звук от конечного пользователя в режиме реального времени, включая приложения, использующие WebRTC или телефонную систему. API Реального времени не предназначен для прямого подключения к устройствам конечных пользователей и зависит от интеграции клиента для прекращения аудиопотоков конечных пользователей.
Поддерживаемые модели
В настоящее время доступна только gpt-4o-realtime-preview
версия: 2024-10-01-preview
поддерживает звук в режиме реального времени.
Модель gpt-4o-realtime-preview
доступна для глобальных развертываний в регионах "Восточная часть США 2" и "Центральная Швеция".
Внимание
Система сохраняет запросы и завершения, как описано в разделе "Использование и доступ к данным для мониторинга злоупотреблений" условий использования и доступа к конкретным продуктам для службы OpenAI, за исключением того, что ограниченное исключение не применяется. Мониторинг злоупотреблений gpt-4o-realtime-preview
будет включен для использования API даже для клиентов, которые в противном случае утверждены для измененного мониторинга злоупотреблений.
поддержка API
Поддержка API в режиме реального времени была добавлена в версию 2024-10-01-preview
API.
Примечание.
Дополнительные сведения об API и архитектуре см. в репозитории аудиофайлов Azure OpenAI GPT-4o в режиме реального времени на GitHub.
Необходимые компоненты
- Подписка Azure — создайте бесплатную учетную запись.
- Ресурс Azure OpenAI, созданный в поддерживаемом регионе. Дополнительные сведения см. в статье "Создание ресурса" и развертывание модели с помощью Azure OpenAI.
Развертывание модели для звука в режиме реального времени
Прежде чем использовать звук GPT-4o в режиме реального gpt-4o-realtime-preview
времени, вам потребуется развертывание модели в поддерживаемом регионе, как описано в разделе поддерживаемых моделей .
Модель можно развернуть из каталога моделей Azure AI Studio или из проекта в AI Studio. Выполните следующие действия, чтобы развернуть gpt-4o-realtime-preview
модель из каталога моделей:
- Войдите в AI Studio и перейдите на домашнюю страницу.
- Выберите каталог моделей на левой боковой панели.
- Найдите и выберите
gpt-4o-realtime-preview
модель из коллекции Azure OpenAI. - Выберите "Развернуть" , чтобы открыть окно развертывания.
- Введите имя развертывания и выберите ресурс Azure OpenAI.
- Выберите в раскрывающемся
2024-10-01
списке версии модели. - Измените другие параметры по умолчанию в зависимости от ваших требований.
- Выберите Развернуть. Вы приземлились на странице сведений о развертывании.
Теперь, когда у вас есть развертывание gpt-4o-realtime-preview
модели, вы можете использовать звуковую площадку ИИ Studio в реальном времени или API Реального времени для взаимодействия с ним в режиме реального времени.
Использование звука GPT-4o в режиме реального времени
Совет
Сейчас самый быстрый способ начать разработку с помощью API GPT-4o Realtime — скачать пример кода из репозитория аудиофайлов Azure OpenAI GPT-4o в режиме реального времени на GitHub.
Чтобы общаться с развернутой gpt-4o-realtime-preview
моделью на звуковой площадке Azure AI Studio в режиме реального времени , выполните следующие действия.
Перейдите к проекту в Azure AI Studio.
Выберите игровые площадки>в режиме реального времени на панели слева.
Выберите развернутую
gpt-4o-realtime-preview
модель в раскрывающемся списке развертывания .Выберите "Включить микрофон" , чтобы разрешить браузеру доступ к микрофону. Если вы уже предоставили разрешение, этот шаг можно пропустить.
При необходимости можно изменить содержимое в текстовом поле "Дать инструкции модели" и текстовое поле контекста . Дайте модели инструкции о том, как он должен вести себя и какой-либо контекст, на который он должен ссылаться при создании ответа. Вы можете описать личность помощника, указать ему, что он должен и не должен отвечать, и сообщить о том, как форматировать ответы.
При необходимости измените параметры, такие как пороговое значение, заполнение префикса и длительность молчания.
Нажмите кнопку "Начать прослушивание" , чтобы начать сеанс. Вы можете поговорить с микрофоном, чтобы начать чат.
Вы можете прервать чат в любое время, выступая. Вы можете завершить чат, нажав кнопку "Остановить прослушивание ".
В веб-примере JavaScript показано, как использовать API GPT-4o Realtime для взаимодействия с моделью в режиме реального времени. Пример кода включает простой веб-интерфейс, который записывает звук с микрофона пользователя и отправляет его в модель для обработки. Модель реагирует на текст и звук, отрисовывая пример кода в веб-интерфейсе.
Пример кода можно запустить локально на компьютере, выполнив следующие действия. Дополнительные сведения см. в репозитории на сайте GitHub .
Если вы не установили Node.js, скачайте и установите версию LTS Node.js.
Клонируйте репозиторий на локальный компьютер:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Перейдите в папку
javascript/samples/web
в предпочитаемом редакторе кода.cd ./javascript/samples
Запустите
download-pkg.ps1
илиdownload-pkg.sh
скачайте необходимые пакеты.Перейдите в папку
web
./javascript/samples
из папки.cd ./web
Запустите
npm install
, чтобы установить зависимости пакета.Запустите
npm run dev
, чтобы запустить веб-сервер, перейдя по мере необходимости на все запросы разрешений брандмауэра.Перейдите к любому из предоставленных URI из выходных данных консоли (например
http://localhost:5173/
, в браузере).Введите следующие сведения в веб-интерфейсе:
- Конечная точка: конечная точка ресурса Azure OpenAI. Не нужно добавлять
/realtime
путь. Примером может бытьhttps://my-azure-openai-resource-from-portal.openai.azure.com
структура. - Ключ API: соответствующий ключ API для ресурса Azure OpenAI.
- Развертывание: имя
gpt-4o-realtime-preview
модели, развернутой в предыдущем разделе. - Системное сообщение: при необходимости можно предоставить системное сообщение, например "Вы всегда разговариваете как дружественный пират".
- Температура: при необходимости можно предоставить пользовательскую температуру.
- Голосовая связь. При необходимости можно выбрать голос.
- Конечная точка: конечная точка ресурса Azure OpenAI. Не нужно добавлять
Нажмите кнопку "Запись", чтобы запустить сеанс. При появлении запроса примите разрешения на использование микрофона.
Вы увидите
<< Session Started >>
сообщение в главном выходных данных. Затем вы можете поговорить с микрофоном, чтобы начать чат.Вы можете прервать чат в любое время, выступая. Вы можете завершить чат, нажав кнопку "Остановить ".