Поделиться через


API GPT-4o Realtime для речи и звука (предварительная версия)

API Azure OpenAI GPT-4o Realtime для распознавания речи и звука является частью семейства моделей GPT-4o, которая поддерживает низкой задержки, "речь в речи" диалоговых взаимодействий. API звука realtime GPT-4o предназначен для обработки взаимодействий в режиме реального времени, низкой задержки общения, что делает его отличным для вариантов использования с участием динамического взаимодействия между пользователем и моделью, такими как агенты поддержки клиентов, голосовые помощники и переводчики в режиме реального времени.

Большинство пользователей API Реального времени должны доставлять и получать звук от конечного пользователя в режиме реального времени, включая приложения, использующие WebRTC или телефонную систему. API Реального времени не предназначен для прямого подключения к устройствам конечных пользователей и зависит от интеграции клиента для прекращения аудиопотоков конечных пользователей.

Поддерживаемые модели

В настоящее время доступна только gpt-4o-realtime-preview версия: 2024-10-01-preview поддерживает звук в режиме реального времени.

Модель gpt-4o-realtime-preview доступна для глобальных развертываний в регионах "Восточная часть США 2" и "Центральная Швеция".

Внимание

Система сохраняет запросы и завершения, как описано в разделе "Использование и доступ к данным для мониторинга злоупотреблений" условий использования и доступа к конкретным продуктам для службы OpenAI, за исключением того, что ограниченное исключение не применяется. Мониторинг злоупотреблений gpt-4o-realtime-preview будет включен для использования API даже для клиентов, которые в противном случае утверждены для измененного мониторинга злоупотреблений.

поддержка API

Поддержка API в режиме реального времени была добавлена в версию 2024-10-01-previewAPI.

Примечание.

Дополнительные сведения об API и архитектуре см. в репозитории аудиофайлов Azure OpenAI GPT-4o в режиме реального времени на GitHub.

Необходимые компоненты

Развертывание модели для звука в режиме реального времени

Прежде чем использовать звук GPT-4o в режиме реального gpt-4o-realtime-preview времени, вам потребуется развертывание модели в поддерживаемом регионе, как описано в разделе поддерживаемых моделей .

Модель можно развернуть из каталога моделей Azure AI Studio или из проекта в AI Studio. Выполните следующие действия, чтобы развернуть gpt-4o-realtime-preview модель из каталога моделей:

  1. Войдите в AI Studio и перейдите на домашнюю страницу.
  2. Выберите каталог моделей на левой боковой панели.
  3. Найдите и выберите gpt-4o-realtime-preview модель из коллекции Azure OpenAI.
  4. Выберите "Развернуть" , чтобы открыть окно развертывания.
  5. Введите имя развертывания и выберите ресурс Azure OpenAI.
  6. Выберите в раскрывающемся 2024-10-01 списке версии модели.
  7. Измените другие параметры по умолчанию в зависимости от ваших требований.
  8. Выберите Развернуть. Вы приземлились на странице сведений о развертывании.

Теперь, когда у вас есть развертывание gpt-4o-realtime-preview модели, вы можете использовать звуковую площадку ИИ Studio в реальном времени или API Реального времени для взаимодействия с ним в режиме реального времени.

Использование звука GPT-4o в режиме реального времени

Совет

Сейчас самый быстрый способ начать разработку с помощью API GPT-4o Realtime — скачать пример кода из репозитория аудиофайлов Azure OpenAI GPT-4o в режиме реального времени на GitHub.

Чтобы общаться с развернутой gpt-4o-realtime-preview моделью на звуковой площадке Azure AI Studio в режиме реального времени , выполните следующие действия.

  1. Перейдите к проекту в Azure AI Studio.

  2. Выберите игровые площадки>в режиме реального времени на панели слева.

  3. Выберите развернутую gpt-4o-realtime-preview модель в раскрывающемся списке развертывания .

  4. Выберите "Включить микрофон" , чтобы разрешить браузеру доступ к микрофону. Если вы уже предоставили разрешение, этот шаг можно пропустить.

    Снимок экрана: звуковая площадка в режиме реального времени с выбранной развернутой моделью.

  5. При необходимости можно изменить содержимое в текстовом поле "Дать инструкции модели" и текстовое поле контекста . Дайте модели инструкции о том, как он должен вести себя и какой-либо контекст, на который он должен ссылаться при создании ответа. Вы можете описать личность помощника, указать ему, что он должен и не должен отвечать, и сообщить о том, как форматировать ответы.

  6. При необходимости измените параметры, такие как пороговое значение, заполнение префикса и длительность молчания.

  7. Нажмите кнопку "Начать прослушивание" , чтобы начать сеанс. Вы можете поговорить с микрофоном, чтобы начать чат.

    Снимок экрана: звуковая площадка в режиме реального времени с включенным кнопкой прослушивания и доступом к микрофону.

  8. Вы можете прервать чат в любое время, выступая. Вы можете завершить чат, нажав кнопку "Остановить прослушивание ".

В веб-примере JavaScript показано, как использовать API GPT-4o Realtime для взаимодействия с моделью в режиме реального времени. Пример кода включает простой веб-интерфейс, который записывает звук с микрофона пользователя и отправляет его в модель для обработки. Модель реагирует на текст и звук, отрисовывая пример кода в веб-интерфейсе.

Пример кода можно запустить локально на компьютере, выполнив следующие действия. Дополнительные сведения см. в репозитории на сайте GitHub .

  1. Если вы не установили Node.js, скачайте и установите версию LTS Node.js.

  2. Клонируйте репозиторий на локальный компьютер:

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. Перейдите в папку javascript/samples/web в предпочитаемом редакторе кода.

    cd ./javascript/samples
    
  4. Запустите download-pkg.ps1 или download-pkg.sh скачайте необходимые пакеты.

  5. Перейдите в папку web ./javascript/samples из папки.

    cd ./web
    
  6. Запустите npm install , чтобы установить зависимости пакета.

  7. Запустите npm run dev , чтобы запустить веб-сервер, перейдя по мере необходимости на все запросы разрешений брандмауэра.

  8. Перейдите к любому из предоставленных URI из выходных данных консоли (например http://localhost:5173/, в браузере).

  9. Введите следующие сведения в веб-интерфейсе:

    • Конечная точка: конечная точка ресурса Azure OpenAI. Не нужно добавлять /realtime путь. Примером может быть https://my-azure-openai-resource-from-portal.openai.azure.comструктура.
    • Ключ API: соответствующий ключ API для ресурса Azure OpenAI.
    • Развертывание: имя gpt-4o-realtime-preview модели, развернутой в предыдущем разделе.
    • Системное сообщение: при необходимости можно предоставить системное сообщение, например "Вы всегда разговариваете как дружественный пират".
    • Температура: при необходимости можно предоставить пользовательскую температуру.
    • Голосовая связь. При необходимости можно выбрать голос.
  10. Нажмите кнопку "Запись", чтобы запустить сеанс. При появлении запроса примите разрешения на использование микрофона.

  11. Вы увидите << Session Started >> сообщение в главном выходных данных. Затем вы можете поговорить с микрофоном, чтобы начать чат.

  12. Вы можете прервать чат в любое время, выступая. Вы можете завершить чат, нажав кнопку "Остановить ".

  • Дополнительные сведения о типах развертывания Azure OpenAI
  • Дополнительные сведения о квотах и ограничениях Azure OpenAI