Масштабирование чата Azure OpenAI для Python с помощью RAG с приложениями контейнеров Azure

Статья
21.12.2024

Узнайте, как добавить балансировку нагрузки в ваше приложение, чтобы расширить возможности приложения-чата за пределы ограничений токенов и лимитов модели службы Azure OpenAI. Этот подход использует приложения контейнеров Azure для создания трех конечных точек Azure OpenAI и основного контейнера для направления входящего трафика к одной из трех конечных точек.

В этой статье требуется развернуть два отдельных примера:

Приложение чата
- Если вы еще не развернули приложение чата, дождитесь развертывания примера подсистемы балансировки нагрузки.
- Если вы уже развернули приложение чата один раз, измените переменную среды для поддержки пользовательской конечной точки для подсистемы балансировки нагрузки и повторно разверните ее.
- Приложение чата доступно на следующих языках:
  - .NET
  - JavaScript
  - Python
Приложение подсистемы балансировки нагрузки

Примечание

В этой статье используется один или несколько шаблонов приложений ИИ в качестве основы для примеров и рекомендаций в этой статье. Шаблоны приложений искусственного интеллекта предоставляют вам хорошо поддерживаемые эталонные реализации, которые легко развертываться. Они помогают обеспечить высококачественную отправную точку для приложений ИИ.

Архитектура балансировки нагрузки Azure OpenAI с помощью приложений контейнеров Azure

Так как ресурс Azure OpenAI имеет определенные ограничения маркера и квоты модели, приложение чата, использующее один ресурс Azure OpenAI, подвержено сбоям диалога из-за этих ограничений.

диаграмма, на которой показана архитектура приложения чата с выделенным ресурсом Azure OpenAI.

Чтобы использовать приложение чата без достижения этих ограничений, используйте решение с балансировкой нагрузки с контейнерными приложениями. Это решение беспрепятственно открывает одну конечную точку из контейнерных приложений для сервера вашего чат-приложения.

Диаграмма, где показана архитектура приложения чата с Azure Container Apps перед тремя ресурсами Azure OpenAI.

Приложение-контейнер находится перед набором ресурсов Azure OpenAI. Приложение-контейнер решает два сценария: обычный и ограниченный. В обычном сценарии, где доступна квота маркера и модели, ресурс Azure OpenAI возвращает 200 обратно через приложение контейнера и сервер приложений.

схема, показывающая обычный сценарий. Обычный сценарий показывает три группы конечных точек Azure OpenAI с первой группой двух конечных точек, получая успешный трафик.

Если ресурс находится в сценарии ограниченного использования из-за ограничений квоты, приложение контейнера может попробовать использовать другой ресурс Azure OpenAI для выполнения исходного запроса чат-приложения.

диаграмма, показывающая сценарий ограничения с кодом ошибки 429 и заголовок ответа, указывающий, сколько секунд клиенту придется ждать перед повторной попыткой.

Необходимые условия

Подписка Azure. создать его бесплатно.
контейнеры разработки доступны для обоих примеров со всеми зависимостями, необходимыми для выполнения этой статьи. Контейнеры разработки можно запускать в GitHub Codespaces (в браузере) или локально с помощью Visual Studio Code.
- GitHub Codespaces (рекомендуется)
- Visual Studio Code
- Учетная запись GitHub
- Docker Desktop. Запустите Docker Desktop, если он еще не запущен.
- Visual Studio Code.
- расширение контейнеров разработки.

Откройте приложение-пример балансировщика нагрузки для контейнерных приложений

GitHub Codespaces (рекомендуется)
Visual Studio Code

GitHub Codespaces запускает контейнер разработки, управляемый GitHub, с Visual Studio Code для веба в качестве пользовательского интерфейса. Для наиболее простой среды разработки используйте GitHub Codespaces, чтобы у вас были правильные средства разработчика и зависимости, предварительно установленные для выполнения этой статьи.

Важно!

Все учетные записи GitHub могут использовать GitHub Codespaces до 60 часов бесплатно каждый месяц с двумя основными экземплярами. Дополнительные сведения см. в статье GitHub Codespaces ежемесячно включают в себя хранилище и основные часы.

Развертывание подсистемы балансировки нагрузки для приложений контейнеров Azure

Войдите в интерфейс командной строки разработчика Azure, чтобы обеспечить проверку подлинности для шагов подготовки и развертывания:
```
azd auth login --use-device-code
```
Задайте переменную среды для использования аутентификации Azure CLI на этапе после развертывания.
```
azd config set auth.useAzCliAuth "true"
```
Разверните приложение подсистемы балансировки нагрузки:
```
azd up
```
Выберите подписку и регион для развертывания. Им не обязательно совпадать с подпиской и регионом приложения для чата.
Дождитесь завершения развертывания, прежде чем продолжить.

Получить конечную точку развертывания

Используйте следующую команду, чтобы отобразить развернутую конечную точку для приложения-контейнера:
```
azd env get-values
```
Скопируйте значение CONTAINER_APP_URL. Вы используете его в следующем разделе.

Повторное развертывание приложения чата при помощи конечной точки балансировщика нагрузки

Эти примеры завершены в примере приложения чата.

начальное развертывание
повторное развертывание

Откройте контейнер разработки для приложения чата с помощью одного из следующих вариантов.

Язык	Пространства кода GitHub	Visual Studio Code
.СЕТЬ
JavaScript
Питон

Войдите в интерфейс командной строки разработчика Azure (AZD):
```
azd auth login
```
Завершите инструкцию по входу в систему.
Создайте среду AZD с именем, например chat-app:
```
azd env new <name>
```
Добавьте следующую переменную среды, которая сообщает серверной части приложения чата использовать настраиваемый URL-адрес для запросов Azure OpenAI:
```
azd env set OPENAI_HOST azure_custom
```
Добавьте следующую переменную среды. Замените <CONTAINER_APP_URL> URL-адресом из предыдущего раздела. Это действие сообщает серверной части приложения чата, что такое значение настраиваемого URL-адреса для запроса Azure OpenAI.
```
azd env set AZURE_OPENAI_CUSTOM_URL <CONTAINER_APP_URL>
```
Разверните приложение чата:
```
azd up
```

Повторно откройте контейнер разработки для приложения чата с помощью одного из следующих вариантов.

Язык	Пространства кода GitHub	Visual Studio Code
.СЕТЬ
JavaScript
Питон

Добавьте следующую переменную среды, которая сообщает серверной части приложения чата использовать настраиваемый URL-адрес для запросов Azure OpenAI:
```
azd env set OPENAI_HOST azure_custom
```
Добавьте следующую переменную среды, которая сообщает серверной части приложения чата, что такое значение настраиваемого URL-адреса для запроса Azure OpenAI:
```
azd env set CONTAINER_APP_URL <CONTAINER_APP_URL>
```
Разверните приложение чата:
```
azd up
```
Дождитесь завершения этого процесса, прежде чем продолжить.

Теперь вы можете использовать приложение чата с уверенностью в том, что оно создано для масштабирования для многих пользователей без превышения квоты.

Передача логов в потоковом режиме для просмотра результатов балансировщика нагрузки

На портале Azureвыполните поиск по группе ресурсов.
В списке ресурсов в группе выберите ресурс "Приложения контейнеров Azure".
Выберите «Мониторинг»>и «Поток журнала», чтобы просмотреть журнал.
Используйте приложение чата для создания трафика в журнале.
Найдите журналы, которые ссылаются на ресурсы Azure OpenAI. Каждый из трех ресурсов имеет свое числовое удостоверение в примечании журнала, которое начинается с Proxying to https://openai3, где 3 указывает третий ресурс Azure OpenAI.

Когда балансировщик нагрузки получает сообщение о том, что запрос превышает квоту, он автоматически переключается на другой ресурс.

Настройка квоты доверенного платформенного модуля

По умолчанию каждый экземпляр Azure OpenAI в системе балансировки нагрузки развертывается с емкостью 30 000 токенов в минуту (TPM). Вы можете использовать приложение чата с уверенностью в том, что оно создано для масштабирования для многих пользователей без превышения квоты. Измените это значение, если:

Возникают ошибки емкости развертывания: уменьшите значение.
Вам нужна более высокая емкость: увеличьте значение.

Чтобы изменить значение, используйте следующую команду:
```
azd env set OPENAI_CAPACITY 50
```
Повторно разверните подсистему балансировки нагрузки:
```
azd up
```

Очистка ресурсов

Завершив работу с приложением чата и подсистемой балансировки нагрузки, очистите ресурсы. Ресурсы Azure, созданные в этой статье, подлежат оплате по вашей подписке Azure. Если вы не ожидаете, что эти ресурсы потребуются в будущем, удалите их, чтобы избежать дополнительных расходов.

Очистка ресурсов приложения чата

Вернитесь в статью о приложении чата, чтобы очистить ресурсы:

Очистка ресурсов подсистемы балансировки нагрузки

Выполните следующую команду Командной строки разработчика Azure, чтобы удалить ресурсы Azure и удалить исходный код:

azd down --purge --force

Переключатели обеспечивают:

purge. Удаленные ресурсы немедленно очищаются, чтобы вы могли многократно использовать токены службы Azure OpenAI в течение каждой минуты.
force. Удаление выполняется автоматически, не требуя согласия пользователя.

Очистка GitHub Codespaces и Visual Studio Code

GitHub Codespaces
Visual Studio Code

Удаление среды GitHub Codespaces гарантирует, что вы можете максимально использовать объем бесплатных часовых квот на ядро, предоставляемых для учетной записи.

Важно!

Дополнительные сведения о правах учетной записи GitHub см. в разделах GitHub Codespaces о ежемесячно включаемом объеме хранилища и основных часах.

Войдите в панель мониторинга GitHub Codespaces.
Найдите в настоящее время работающие пространства кода, полученные из репозитория azure-samples/openai-aca-lb на GitHub.
Откройте контекстное меню для пространства кода, а затем выберите Удалить.

Получите помощь

Если у вас возникли проблемы с развертыванием балансировщика нагрузки Azure API Management, добавьте вашу проблему на страницу репозитория Issues.

Пример кода

Примеры, используемые в этой статье, включают:

Используйте нагрузочного тестирования Azure для нагрузочного тестирования приложения чата.

Дополнительные ресурсы

Документация

Начало работы с частными конечными точками чата - Python on Azure

Защита приложения чата с помощью виртуальной сети( виртуальной сети).
Оценка приложений чата с помощью Azure OpenAI - Python on Azure

Узнайте, как эффективно оценивать ответы в приложении чата на основе RAG с помощью Azure OpenAI. Создание примеров запросов, выполнение вычислений и анализ результатов.
Начало работы с чатом с помощью собственного примера данных для Python - Python on Azure

Начало работы с Python и поиск по собственным данным с помощью примера приложения чата, реализованного с помощью Службы Azure OpenAI и получения дополненного поколения (RAG) в поиске ИИ Azure. Простое развертывание с помощью Интерфейса командной строки разработчика Azure. В этой статье используется пример шаблона справочника по ИИ Azure.
Начало работы с фильтрацией безопасности документов чата - Python on Azure

Защитите документы приложения чата с помощью проверки подлинности пользователя и фильтрации безопасности документов, чтобы пользователи получали ответы на основе своих разрешений.
Масштабирование Azure OpenAI для Python с помощью Azure Управление API - Python on Azure

Узнайте, как добавить балансировку нагрузки с помощью Azure Управление API в приложение, чтобы расширить приложение чата за пределами маркера Azure OpenAI и квоты модели.
Разработка приложений Python, использующих службы ИИ Azure - Python on Azure

В этой статье представлен упорядоченный список ресурсов по сценариям ИИ Azure для разработчиков Python, включая примеры документации и кода.
Интерфейс javaScript и серверная часть Python - JavaScript on Azure

Шаги по интеграции интерфейса JavaScript с серверной частью Python в корпоративном приложении Чата Azure OpenAI.
Шаблоны приложений ИИ

В этой статье описаны шаблоны приложений ИИ, предоставляемые в качестве репозиториев GitHub для создания, развертывания и расширения в Azure.

Обучение

Модуль

Использование модели Azure OpenAI для создания приложения - Training

По завершении этого модуля вы будете готовы развернуть приложение в Microsoft Teams с помощью ресурсов Azure OpenAI.

Сертификация

Microsoft Certified: Azure AI Engineer Associate - Certifications

Разработка и реализация решения Azure AI с помощью служб ИИ Azure, поиска ИИ Azure и Azure Open AI.

AI Skills Fest

Поделиться через

Масштабирование чата Azure OpenAI для Python с помощью RAG с приложениями контейнеров Azure

Архитектура балансировки нагрузки Azure OpenAI с помощью приложений контейнеров Azure

Необходимые условия

Откройте приложение-пример балансировщика нагрузки для контейнерных приложений

Развертывание подсистемы балансировки нагрузки для приложений контейнеров Azure

Получить конечную точку развертывания

Повторное развертывание приложения чата при помощи конечной точки балансировщика нагрузки

Передача логов в потоковом режиме для просмотра результатов балансировщика нагрузки

Настройка квоты доверенного платформенного модуля

Очистка ресурсов

Очистка ресурсов приложения чата

Очистка ресурсов подсистемы балансировки нагрузки

Очистка GitHub Codespaces и Visual Studio Code

Получите помощь

Пример кода

Обратная связь

Дополнительные ресурсы

AI Skills Fest

Поделиться через

Масштабирование чата Azure OpenAI для Python с помощью RAG с приложениями контейнеров Azure

Архитектура балансировки нагрузки Azure OpenAI с помощью приложений контейнеров Azure

Необходимые условия

Откройте приложение-пример балансировщика нагрузки для контейнерных приложений

Развертывание подсистемы балансировки нагрузки для приложений контейнеров Azure

Получить конечную точку развертывания

Повторное развертывание приложения чата при помощи конечной точки балансировщика нагрузки

Передача логов в потоковом режиме для просмотра результатов балансировщика нагрузки

Настройка квоты доверенного платформенного модуля

Очистка ресурсов

Очистка ресурсов приложения чата

Очистка ресурсов подсистемы балансировки нагрузки

Очистка GitHub Codespaces и Visual Studio Code

Получите помощь

Пример кода

Связанное содержимое

Обратная связь

Дополнительные ресурсы