Поделиться через


Типы развертывания Azure OpenAI

Azure OpenAI предоставляет клиентам выбор в структуре размещения, которая соответствует своим бизнес-шаблонам и шаблонам использования. Служба предлагает два основных типа развертываний: стандартный и подготовленный. Для заданного типа развертывания клиенты могут выровнять рабочие нагрузки с требованиями к обработке данных, выбрав географию Azure (StandardилиProvisioned), указанные корпорацией Майкрософт зоны данных () или глобальныеGlobal-Standard (DataZone-StandardилиGlobal Provisioned-Managed) параметры обработки.

Все развертывания могут выполнять те же операции вывода, однако выставление счетов, масштабирование и производительность существенно отличаются. В рамках проектирования решения вам потребуется принять два ключевых решения:

  • Расположение обработки данных
  • Том вызова

Расположения обработки данных развертывания Azure OpenAI

Для стандартных развертываний можно выбрать один из трех вариантов развертывания — глобальной, зоны данных и географической области Azure. Для подготовленных развертываний можно выбрать один из двух вариантов развертывания — глобальный и географический регион Azure. Глобальный стандарт является рекомендуемой отправной точкой.

Глобальные развертывания используют глобальную инфраструктуру Azure для динамического маршрутизации трафика клиентов в центр обработки данных с оптимальной доступностью запросов на вывод клиента. Это означает, что вы получите самые высокие начальные ограничения пропускной способности и лучшую доступность модели с глобальным уровнем обслуживания, обеспечивая соглашение об уровне обслуживания и низкую задержку. Для рабочих нагрузок с высоким объемом над указанными уровнями использования в стандартном и глобальном стандарте может возникнуть увеличение задержки. Для клиентов, которым требуется низкая задержка при большом использовании рабочей нагрузки, рекомендуется использовать подготовленные типы развертывания.

Наши глобальные развертывания будут первым местом для всех новых моделей и функций. В зависимости от тома вызова клиенты с большим объемом и низкой задержкой должны учитывать наши подготовленные типы развертывания.

Развертывания зон данных используют глобальную инфраструктуру Azure для динамического маршрутизации трафика клиентов в центр обработки данных с оптимальной доступностью запросов вывода клиента в пределах зоны данных, определенной корпорацией Майкрософт. Размещенные между нашими географическими и глобальными предложениями развертывания Azure, развертывания зон данных предоставляют ограничения квоты с повышенными привилегиями, сохраняя обработку данных в указанной корпорацией Майкрософт зоне данных. Данные, хранящиеся в неактивных данных, будут оставаться в географическом регионе ресурса Azure OpenAI (например, для ресурса Azure OpenAI, созданного в регионе Центральной Azure, география Azure — Швеция).

Если ресурс Azure OpenAI, используемый в развертывании зоны данных, находится в США, данные будут обрабатываться в США. Если ресурс Azure OpenAI, используемый в развертывании зоны данных, расположен в стране-члене Европейского союза, данные будут обрабатываться в географических регионах стран-членов Европейского союза. Для всех типов развертывания службы Azure OpenAI все данные, хранящиеся в состоянии хранения, будут оставаться в географическом регионе ресурса Azure OpenAI. Обязательства по обработке и соответствию данным Azure остаются применимыми.

Типы развертывания

Azure OpenAI предлагает три типа развертываний. Они обеспечивают разнообразный уровень возможностей, которые обеспечивают компромиссы по: пропускной способности, соглашениям об уровне обслуживания и цене. Ниже приведена сводка по параметрам, за которым следует более глубокое описание каждого из них.

Жертвоприношение Глобальный пакет Глобальный стандарт Глобальная подготовка Стандартные Подготовлено
Лучше всего подходит для Автономная оценка

Рабочие нагрузки, не зависящие от задержки, и могут выполняться в часах.

Рекомендуемое начальное место для клиентов.

Глобальный стандарт будет иметь более высокую квоту по умолчанию и большее количество моделей, доступных по сравнению со стандартом.
Оценка в режиме реального времени для большого согласованного тома. Включает самые высокие обязательства и ограничения. Для клиентов с требованиями к месту расположения данных. Оптимизировано для низкого до среднего тома. Оценка в режиме реального времени для большого согласованного тома. Включает самые высокие обязательства и ограничения. Для вариантов использования с требованиями к месту расположения данных
Принцип работы Автономная обработка с помощью файлов Трафик может направляться в любой точке мира Трафик может направляться в любой точке мира
Начало работы Глобальный пакет Развертывание модели Подготовка подключения Развертывание модели Подготовка подключения
Стоимость Наименее дорогой вариант
50% меньше затрат по сравнению с ценами global Standard. Доступ ко всем новым моделям с более крупными квотами.
Цены на глобальное развертывание Возможно, экономия затрат на согласованное использование Региональные цены Возможно, экономия затрат на согласованное использование
Что вы получаете Значительную скидку по сравнению с глобальным стандартом Простой доступ ко всем новым моделям с самым высокими ограничениями оплаты за звонок по умолчанию.

Клиенты с высоким объемом использования могут видеть более высокую задержку вариативности
Доступ к высокой и прогнозируемой пропускной способности в глобальной инфраструктуре Azure. Определите пропускную способность для каждого PTU с помощью предоставленного калькулятора емкости. Простой доступ с соглашением об уровне обслуживания при доступности. Оптимизировано для рабочих нагрузок с низким и средним объемом с высокой степенью ускорения.

Клиенты с высоким уровнем согласованности тома могут столкнуться с большей задержкой вариативности.
Региональный доступ с очень высокой и прогнозируемой пропускной способностью. Определение пропускной способности для каждого PTU с помощью предоставленного калькулятора емкости
То, что вы не получаете ❌Производительность вызова в режиме реального времени

❌Гарантия обработки данных

Данные, хранящиеся в неактивных данных, остаются в указанном географическом регионе Azure, а данные могут обрабатываться для вывода в любом расположении Azure OpenAI. Дополнительные сведения о местонахождении данных
❌Гарантия обработки данных

Данные, хранящиеся в неактивных данных, остаются в указанном географическом регионе Azure, а данные могут обрабатываться для вывода в любом расположении Azure OpenAI. Дополнительные сведения о местонахождении данных
❌Гибкость оплаты за вызов

❌Гарантия обработки данных

Данные, хранящиеся в неактивных данных, остаются в указанном географическом регионе Azure, а данные могут обрабатываться для вывода в любом расположении Azure OpenAI. Дополнительные сведения о местонахождении данных
❌Низкая задержка в большом объеме ❌Гибкость оплаты за вызов
Задержка каждого вызова Неприменимо (асинхронный процесс на основе файлов) Оптимизировано для вызова в режиме реального времени и низкого уровня использования среднего тома. Клиенты с большим объемом использования могут видеть более высокую степень задержки. Пороговый набор для каждой модели Оптимизировано для вызова в режиме реального времени и использования больших объемов. Оптимизировано для вызова в режиме реального времени и низкого уровня использования среднего тома. Клиенты с большим объемом использования могут видеть более высокую степень задержки. Пороговый набор для каждой модели Оптимизировано для вызова в режиме реального времени и использования больших объемов.
Имя SKU в коде GlobalBatch GlobalStandard GlobalProvisionedManaged Standard ProvisionedManaged
Модель выставления счетов Оплата за токен Оплата за токен Почасовое выставление счетов с необязательным приобретением ежемесячных или ежегодных резервирований Оплата за токен Почасовое выставление счетов с необязательным приобретением ежемесячных или ежегодных резервирований

Глобальный стандарт

Внимание

Данные, хранящиеся в неактивных данных, остаются в указанном географическом регионе Azure, а данные могут обрабатываться для вывода в любом расположении Azure OpenAI. Дополнительные сведения о местонахождении данных.

Глобальные развертывания доступны в одних и том же ресурсах Azure OpenAI, что и не глобальные типы развертывания, но позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных с наилучшей доступностью для каждого запроса. Глобальный стандарт предоставляет максимальную квоту по умолчанию и устраняет необходимость балансировки нагрузки между несколькими ресурсами.

Клиенты с высоким уровнем согласованности тома могут столкнуться с большей задержкой вариативности. Пороговое значение устанавливается для каждой модели. Дополнительные сведения см. на странице квот. Для приложений, которым требуется низкая задержка при большом использовании рабочей нагрузки, рекомендуется приобрести подготовленную пропускную способность.

Глобальный подготовленный

Внимание

Данные, хранящиеся в неактивных данных, остаются в указанном географическом регионе Azure, а данные могут обрабатываться для вывода в любом расположении Azure OpenAI. Дополнительные сведения о местонахождении данных.

Глобальные развертывания доступны в одних и том же ресурсах Azure OpenAI, что и не глобальные типы развертывания, но позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных с наилучшей доступностью для каждого запроса. Глобальные подготовленные развертывания обеспечивают зарезервированную емкость обработки модели для высокой и прогнозируемой пропускной способности с помощью глобальной инфраструктуры Azure.

Глобальный пакет

Внимание

Данные, хранящиеся в неактивных данных, остаются в указанном географическом регионе Azure, а данные могут обрабатываться для вывода в любом расположении Azure OpenAI. Дополнительные сведения о местонахождении данных.

Глобальный пакет предназначен для эффективной обработки крупномасштабных и больших объемов задач обработки. Обработка асинхронных групп запросов с отдельной квотой с 24-часовым временным поворотом при 50% меньше затрат, чем глобальный стандарт. При пакетной обработке вместо отправки одного запроса за раз вы отправляете большое количество запросов в одном файле. Глобальные пакетные запросы имеют отдельную квоту токена, вложенную в очередь, избежать нарушений работы рабочих нагрузок в Сети.

Основные примеры таких ситуаций:

  • Обработка крупномасштабных данных: быстро анализируйте обширные наборы данных параллельно.

  • Создание содержимого: создание больших объемов текста, таких как описания продуктов или статьи.

  • Проверка и сводка документов. Автоматизация проверки и сводки длинных документов.

  • Автоматизация поддержки клиентов. Обработка многочисленных запросов одновременно для ускорения ответов.

  • Извлечение и анализ данных. Извлечение и анализ данных из огромных объемов неструктурированных данных.

  • Задачи обработки естественного языка (NLP): выполнение таких задач, как анализ тональности или перевод больших наборов данных.

  • Маркетинг и персонализация: создание персонализированного содержимого и рекомендаций в масштабе.

Стандарт зоны данных

Внимание

Данные, хранящиеся в неактивных данных, остаются в указанном географическом регионе Azure, а данные могут обрабатываться для вывода в любом расположении Azure OpenAI в указанной зоне данных Майкрософт. Дополнительные сведения о местонахождении данных.

Стандартные развертывания зоны данных доступны в том же ресурсе Azure OpenAI, что и все остальные типы развертывания Azure OpenAI, но позволяют использовать глобальную инфраструктуру Azure для динамического маршрутизации трафика в центр обработки данных в пределах определенной корпорацией Майкрософт зоны данных с оптимальной доступностью для каждого запроса. Стандарт зоны данных предоставляет более высокие квоты по умолчанию, чем типы развертывания на основе географии Azure.

Клиенты с высоким уровнем согласованности тома могут столкнуться с большей задержкой вариативности. Пороговое значение устанавливается для каждой модели. Дополнительные сведения см. на странице "Квоты и ограничения ". Для рабочих нагрузок, требующих низкой задержки в большом объеме, рекомендуется использовать подготовленные предложения развертывания.

Стандартные

Стандартные развертывания предоставляют модель выставления счетов за вызов для выбранной модели. Обеспечивает самый быстрый способ начать работу только за то, что вы используете. Модели, доступные в каждом регионе, а также пропускная способность, могут быть ограничены.

Стандартные развертывания оптимизированы для низкой и средней рабочей нагрузки томов с высокой степенью ускорения. Клиенты с высоким уровнем согласованности тома могут столкнуться с большей задержкой вариативности.

Подготовлено

Подготовленные развертывания позволяют указать объем пропускной способности, которую требуется в развертывании. Затем служба выделяет необходимую емкость обработки модели и гарантирует, что она готова к работе. Пропускная способность определяется с точки зрения подготовленных единиц пропускной способности (PTU), который является нормализованным способом представления пропускной способности для развертывания. Каждая пара версий модели требует разных объемов PTU для развертывания и предоставления разных объемов пропускной способности на PTU. Дополнительные сведения см. в статье о подготовленной пропускной способности.

Отключение доступа к глобальным развертываниям в подписке

Политика Azure помогает применять организационные стандарты и оценивать соответствие в больших масштабах. На панели мониторинга "Соответствие требованиям" этой службы доступно агрегированное представление для оценки общего состояния среды с возможностью детализации до уровня конкретных ресурсов и политик. Также вы можете привести ресурсы в соответствие требованиям, используя средства пакетного исправления для существующих ресурсов и автоматического исправления для новых ресурсов. Дополнительные сведения о Политика Azure и конкретных встроенных элементах управления для служб ИИ.

Чтобы отключить доступ к глобальным развертываниям Azure OpenAI, можно использовать следующую политику. Чтобы отключить доступ к глобальным подготовленным или глобальным развертываниям пакетной службы Azure, замените GlobalStandard GlobalProvisionedManaged GlobalBatch или на имя предполагаемого номера SKU.

{
    "mode": "All",
    "policyRule": {
        "if": {
            "allOf": [
                {
                    "field": "type",
                    "equals": "Microsoft.CognitiveServices/accounts/deployments"
                },
                {
                    "field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
                    "equals": "GlobalStandard"
                }
            ]
        }
    }
}

Развертывание моделей

Снимок экрана: диалоговое окно развертывания модели в Azure AI Studio с выделенными тремя типами развертывания.

Сведения о создании ресурсов и развертывании моделей см. в руководстве по созданию ресурсов.

См. также