Развертывание моделей в конечных точках

Завершено

Tip

Дополнительные сведения см. на вкладке "Текст и изображения ".

Выбрав модель из каталога, вы развернете ее, чтобы сделать ее доступной через конечные точки, которые могут использовать ваши приложения. Портал Microsoft Foundry направляет вас через процесс развертывания и предоставляет инструменты для тестирования уже развернутой модели.

Снимок экрана: интерфейс развертывания модели на портале Foundry.

Общие сведения о типах развертывания

Microsoft Foundry поддерживает несколько типов развертывания, каждый из которых предлагает различные характеристики для расположения данных, масштабирования и выставления счетов:

  • Развертывания модели Глобальный стандарт могут использовать любой регион Azure с оплатой за токен. Они лучше всего подходят для общих задач и предоставляют наибольшую квоту.
  • Глобальные подготовленные развертывания могут использовать любой регион Azure, и их использование основано на зарезервированной единице пропускной способности (PTU) для обеспечения прогнозируемой высокой пропускной способности.
  • Глобальные пакетные развертывания могут использовать любой регион Azure со скидкой 50% для крупных асинхронных заданий, выполняемых в течение 24 часов.
  • Развертывания Data Zone Standard гарантируют, что данные остаются внутри конкретной зоны данных по оплате за токен. Они лучше всего подходит для сценариев, когда требуется соответствие зоны данных ЕС и США.
  • Развертывания Data Zone Provisioned обеспечивают прогнозируемую пропускную способность на основе зарезервированных PTU в пределах зоны данных.
  • Развертывания пакетов зоны данных предназначены для выполнения крупных асинхронных пакетных заданий в зоне данных
  • Стандартные развертывания развертываются в одном регионе на основе оплаты за токен. Они отлично подходят для обеспечения соответствия требованиям к хранению региональных данных или для сценариев с малым объемом данных.
  • Региональные провизионные развертывания предоставляют зарезервированные ПТП в одном регионе.
  • Разработчик Развертывания разработчиков используют любой регион Azure с оплатой за токен и предназначены только для точной оценки модели.

Каждая модель в каталоге указывает, какие типы развертывания поддерживаются. Портал автоматически выбирает оптимальный вариант развертывания в зависимости от требований к среде и модели. Развертывания Global Standard в ресурсах Foundry должны использоваться по возможности для достижения максимальных возможностей.

Развертывание модели

Чтобы развернуть модель на портале Microsoft Foundry, выполните следующие действия.

Сначала перейдите к модели, выбранной в каталоге моделей. На домашней странице портала Foundry выберите "Обнаружить " в области навигации, а затем " Модели " в левой области. Откройте карточку модели, чтобы просмотреть ее спецификации и поддерживаемые типы развертывания.

Выберите "Развернуть" , чтобы начать процесс развертывания. Вы можете выбрать:

  • Параметры по умолчанию для быстрого развертывания с помощью рекомендуемых конфигураций
  • Настраиваемые параметры для настройки параметров развертывания

Если для модели требуется подписка Azure Marketplace (распространенная для моделей от партнеров и сообщества), вы увидите условия использования. Просмотрите эти условия и выберите "Согласиться" и "Продолжить ", чтобы принять их. Модели, продаваемые непосредственно Azure, такие как модели OpenAI от Azure, например GPT-4o-mini, не требуют подписок на рынок.

Настройте параметры развертывания:

  • Имя развертывания: по умолчанию система использует имя модели. Это можно изменить, чтобы создать осмысленные названия для нескольких развертываний одного и того же модели. Во время вывода код использует это имя развертывания в параметре model для маршрутизации запросов.
  • Тип развертывания: портал автоматически выбирает соответствующий тип развертывания на основе модели и среды. Каждая модель поддерживает различные типы развертывания, предоставляющие различные гарантии расположения данных или пропускной способности.

Для управляемых вычислительных развертываний вы также настраиваете:

  • Номер SKU виртуальной машины. Выберите поддерживаемые типы виртуальных машин. Необходима квота на вычисления Машинное обучение Azure для выбранного SKU в вашей подписке.
  • Количество экземпляров: укажите количество экземпляров для развертывания для распределения нагрузки и избыточности.

После настройки всех параметров нажмите кнопку "Развернуть". Когда развертывание завершится, вы приземлились на детской площадке Foundry, где можно интерактивно протестировать модель. Убедитесь, что состояние развертывания отображается успешно в списке развертываний.

Управление развернутыми моделями

После развертывания вы управляете моделями из раздела "Сборка " на портале Microsoft Foundry. Выберите Сборка в области навигации, а затем Модели в левой области, чтобы просмотреть список развертываний в вашем ресурсе.

В списке развертывания выберите конкретную модель, чтобы просмотреть ее сведения:

  • Конфигурация развертывания и состояние
  • URL-адрес конечной точки для доступа к API
  • Ключи или маркеры проверки подлинности
  • Мониторинг и метрики использования
  • Возможность настроить параметры развертывания или удалить развертывание

Страница сведений о развертывании предоставляет информацию, необходимую вашим приложениям для подключения и использования модели.

Тестирование на детской площадке

Портал Microsoft Foundry включает интерактивные игровые площадки, в которых вы тестируете развернутые модели немедленно без написания кода. После завершения развертывания вы автоматически приземлитесь на детской площадке или можете выбрать развертывание из списка моделей, чтобы открыть игровую площадку.

На детской площадке предварительно выбирается развертывание, поэтому вы можете сразу же начать тестирование. В интерфейсе чата:

Введите запросы в поле сообщения и просмотрите ответы. Интерактивная платформа отображает как ваши входные данные, так и выходные данные, созданные моделью, что помогает понять поведение и качество.

Экспериментируйте с различными типами запросов для тестирования различных возможностей:

  • Простые вопросы для проверки базового понимания
  • Сложные многошаговые задачи на умозаключение
  • Запросы для определенных форматов или стилей
  • Пограничные случаи, которые могут выявить ограничения

Настройте системные сообщения, чтобы управлять поведением модели. Системные сообщения задают контекст, тон и инструкции, применимые ко всем входным данным пользователя. Например, можно указать модели "ответить как представитель customer service" или "предоставить краткие технические объяснения".

Измените такие параметры, как температура (творчество и согласованность), максимальное количество токенов (ограничения длины ответа) и top-p (выборка ядра), чтобы точно настроить поведение генерации.

Перейдите на вкладку "Код" , чтобы просмотреть примеры вызова развернутой модели программным способом. Примеры кода показывают проверку подлинности, конфигурацию конечной точки и форматирование запросов на таких языках, как Python, C#и JavaScript. Эти примеры можно скопировать непосредственно в приложение.

Детская площадка служит в качестве среды разработки для разработки запросов и тестирования перед интеграцией модели в приложение.

Программный доступ к моделям

Когда вы будете готовы интегрировать модель в приложение, вам потребуется три ключевых фрагмента информации из сведений о развертывании:

URL-адрес конечной точки: конечная точка API, в которой приложение отправляет запросы. Microsoft Foundry поддерживает конечные точки проекта для специфичного функционала Foundry и конечные точки OpenAI v1 для обеспечения широкой совместимости с API модели OpenAI.

Ключ проверки подлинности: секретный ключ или маркер приложения предоставляется для проверки подлинности запросов. Кроме того, можно использовать аутентификацию с использованием Microsoft Entra ID и предоставить приложению токен аутентификации, основываясь на его идентификации. Для производственных сценариев рекомендуется использовать аутентификацию Entra ID.

Имя развертывания: имя, указанное во время развертывания, используемое в параметре model запросов API для маршрутизации в конкретное развертывание.

Приложение использует эти сведения для создания запросов API. Портал Microsoft Foundry предоставляет пакеты SDK и документацию по REST API для различных языков программирования, а также примеры кода, показывающие форматирование запросов, проверку подлинности и обработку ответов.

При развертывании и тестировании модели вы можете интегрировать ее в приложения или перейти к более комплексной оценке с помощью автоматизированных метрик и тестовых наборов данных.