Поделиться через


Каталог моделей и коллекции в Azure AI Studio

Внимание

Некоторые функции, описанные в этой статье, могут быть доступны только в предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Каталог моделей в Студии ИИ Azure — это центр для обнаружения и использования широкого спектра моделей, позволяющих создавать приложения сгенерируемым ИИ. Каталог моделей включает сотни моделей в таких поставщиках моделей, как служба Azure OpenAI, Mistral, Meta, Cohere, Nvidia, Hugging Face, включая модели, обученные корпорацией Майкрософт. Модели от поставщиков, отличных от корпорации Майкрософт, являются продуктами, отличными от Майкрософт, как определено в условиях продукта Майкрософт, и соответствуют условиям, предоставленным моделью.

Коллекции моделей

Каталог моделей упорядочивает модели в коллекции. В каталоге моделей существует три типа коллекций:

  • Модели, курируемые Azure AI: самые популярные сторонние открытые модели веса и собственные модели упакованы и оптимизированы для эффективной работы на платформе ИИ Azure. Использование этих моделей распространяется на условия лицензии поставщика моделей, предоставляемые моделью. При развертывании в Azure AI Studio доступность модели распространяется на применимые соглашения об уровне обслуживания Azure, а корпорация Майкрософт предоставляет поддержку проблем с развертыванием. Модели от партнеров, таких как Meta, NVIDIA, Mistral AI, являются примерами моделей, доступных в коллекции "Курируемый Azure AI" в каталоге. Эти модели можно обозначить зеленой галочкой на плитках моделей в каталоге, или вы можете отфильтровать их по коллекции "Курируемый ИИ Azure".
  • Модели Azure OpenAI, доступные исключительно в Azure: флагманские модели Azure OpenAI через коллекцию Azure OpenAI через интеграцию со службой Azure OpenAI. Корпорация Майкрософт поддерживает эти модели и их использование в соответствии с условиями продукта и соглашением об уровне обслуживания для Azure OpenAI Service.
  • Открытые модели из концентратора распознавания лиц Hugging: сотни моделей из концентратора HuggingFace доступны через коллекцию Hugging Face для вывода в режиме реального времени с управляемыми вычислениями. Hugging face создает и поддерживает модели, перечисленные в коллекции HuggingFace. Для получения помощи воспользуйтесь форумом HuggingFace или службой поддержки HuggingFace. Дополнительные сведения см. в разделе "Развертывание открытых моделей ".

Предложение дополнений в Каталог моделей: вы можете отправить запрос на добавление модели в каталог моделей с помощью этой формы.

Общие сведения о возможностях каталога моделей

Сведения о моделях Azure OpenAI см. в службе Azure OpenAI.

Некоторые модели в курируемых azure AI и Открытых моделях из коллекций Концентраторов распознавания лиц можно развернуть с помощью управляемого вычислительного параметра, а некоторые модели доступны для развертывания с помощью бессерверных API с выставлением счетов по мере использования. Эти модели можно обнаружить, сравнить, оценить, точно настроить (при поддержке) и развернуть в масштабе и интегрировать в приложения Генерированного ИИ с корпоративным классом безопасности и управления данными.

  • Обнаружение: просмотр карточек модели, пример вывода и просмотр примеров кода для оценки, точной настройки или развертывания модели.
  • Сравнение: сравнивайте тесты между моделями и наборами данных, доступными в отрасли, чтобы оценить, какой из них соответствует вашему бизнес-сценарию.
  • Оценка. Оцените, подходит ли модель для конкретной рабочей нагрузки, предоставив собственные тестовые данные. Метрики оценки позволяют легко визуализировать, насколько хорошо выбранная модель работает в вашем сценарии.
  • Тонкой настройки. Настройка точной настройки моделей с помощью собственных обучающих данных и выбор оптимальной модели путем сравнения метрик во всех заданиях точной настройки. Встроенные оптимизации ускоряют настройку и сокращают объем памяти и вычислительные ресурсы, необходимые для точной настройки.
  • Развертывание: развертывание предварительно обученных моделей или точно настроенных моделей для вывода. Можно также скачать модели, которые можно развернуть для управляемых вычислений.

Развертывание модели: управляемые вычислительные ресурсы и бессерверный API (оплата по мере использования)

Каталог моделей предлагает два различных способа развертывания моделей из каталога: управляемый вычислительный и бессерверные API. Варианты развертывания, доступные для каждой модели, различаются; Дополнительные сведения о функциях параметров развертывания и параметрах, доступных для конкретных моделей, см. в следующих таблицах. Дополнительные сведения об обработке данных с параметрами развертывания.

Функции Управляемые вычисления Бессерверный API (оплата по мере использования)
Интерфейс развертывания и выставление счетов Вес модели развертывается в выделенных Виртуальные машины с управляемыми конечными точками Online. Управляемая конечная точка в сети, которая может иметь одно или несколько развертываний, предоставляет REST API для вывода. Плата взимается за базовые часы виртуальных машин, используемые развертываниями. Доступ к моделям осуществляется через развертывание, которое подготавливает API для доступа к модели. API предоставляет доступ к модели, размещенной и управляемой корпорацией Майкрософт, для вывода. Взимается плата за входные и выходные данные в API, обычно в маркерах; перед развертыванием предоставляются сведения о ценах.
Проверка подлинности API Ключи и проверка подлинности Microsoft Entra ID Только ключи.
Безопасность содержимого Используйте API сервиса безопасности содержимого Azure. Фильтры безопасности содержимого ИИ Azure доступны как интегрированные с API вывода. Фильтры безопасности содержимого Azure оплачиваются отдельно.
Сетевая изоляция Настройте управляемые сети для центров Azure AI Studio. Конечные точки будут следовать параметру флага доступа к общедоступной сети (PNA) концентратора. Дополнительные сведения см. в разделе " Сетевая изоляция для моделей, развернутых с помощью бессерверных API ".
Модель Управляемые вычисления Бессерверный API (оплата по мере использования)
Модели семейства Llama Лама-2-7b
Лама-2-7b-чат
Лама-2-13b
Ллома-2-13b-чат
Лама-2-70b
Ллома-2-70b-чат
Лама-3-8B-Instruct
Лама-3-70B-Instruct
Лама-3-8B
Llama-3-70B
Лама-3-70B-Instruct
Лама-3-8B-Instruct
Лама-2-7b
Лама-2-7b-чат
Лама-2-13b
Ллома-2-13b-чат
Лама-2-70b
Llama-2-70b-chat
Модели семейства Mistral mistralai-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x22B-Instruct-v0-1
mistral-community-Mixtral-8x22B-v0-1
mistralai-Mixtral-8x7B-v01
mistralai-Mistral-7B-Instruct-v0-2
mistralai-Mistral-7B-v01
mistralai-Mixtral-8x7B-Instruct-v01
mistralai-Mistral-7B-Instruct-v01
Мистраль-большой
Mistral-small
Модели семейства Cohere Недоступно Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-многоязычный
JAIS Недоступно jais-30b-chat
Семейные модели Phi3 Phi-3-small-128k-Instruct
Phi-3-small-8k-Instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi3-medium-128k-instruct
Phi3-medium-4k-instruct
Phi-3-mini-4k-Instruct
Phi-3-mini-128k-Instruct
Phi3-medium-128k-instruct
Phi3-medium-4k-instruct
Nixtla Недоступно TimeGEN-1
Другие модели Доступно Недоступно

Схема, на которой показаны модели как услуга и цикл службы конечных точек реального времени.

Управляемые вычисления

Возможность развертывать модели как управляемые вычислительные ресурсы на основе возможностей платформы Машинное обучение Azure для обеспечения простой интеграции в течение всего жизненного цикла LLMOps в широком наборе моделей в каталоге моделей.

Схема жизненного цикла LLMops.

Как модели становятся доступными для развертывания как управляемых вычислений?

Модели становятся доступными с помощью Машинное обучение Azure реестров, которые позволяют машинному обучению использовать первый подход к размещению и распространению Машинное обучение ресурсов, таких как вес модели, среды выполнения контейнеров для выполнения моделей, конвейеров для оценки и точной настройки моделей и наборов данных для тестов и примеров. Эти реестры машинного обучения создаются на основе высокомасштабируемой и корпоративной готовой инфраструктуры, которая:

  • Предоставляет артефакты модели доступа с низкой задержкой во всех регионах Azure с встроенной георепликацией.

  • Поддерживает корпоративные требования к безопасности в качестве ограничения доступа к моделям с Политика Azure и безопасным развертыванием с управляемыми виртуальными сетями.

Развертывание моделей для вывода с помощью управляемых вычислений

Модели, доступные для развертывания в управляемом вычислении, можно развернуть для Машинное обучение Azure конечных точек Online для вывода в режиме реального времени. При развертывании на управляемых вычислительных ресурсах требуется квота виртуальной машины в подписке Azure для конкретных номеров SKU, необходимых для оптимального запуска модели. Некоторые модели позволяют развертывать временно общую квоту для тестирования модели. Дополнительные сведения о развертывании моделей:

Создание созданных приложений ИИ с помощью управляемых вычислений

Поток запросов предлагает отличный интерфейс для прототипа. Модели, развернутые с управляемыми вычислениями, можно использовать в потоке запросов с помощью средства Open Model LLM. Вы также можете использовать REST API, предоставляемый управляемыми вычислениями, в популярных инструментах LLM, таких как LangChain с расширением Машинное обучение Azure.

Безопасность содержимого для моделей, развернутых как управляемые вычислительные ресурсы

Служба "Безопасность содержимого ИИ Azure" (AACS) доступна для использования с управляемыми вычислениями для отображения различных категорий вредного содержимого, таких как сексуальное содержимое, насилие, ненависть, ненависть и расширенные угрозы, такие как обнаружение рисков в тюрьме и обнаружение защищенного текста. Эту записную книжку можно использовать для справки по интеграции с AACS для Llama 2 или использовать средство "Безопасность содержимого ( текст) в потоке запросов для передачи ответов от модели в AACS для проверки. Плата взимается отдельно по тарифам AACS для такого использования.

Бессерверные API с выставлением счетов по мере использования

Некоторые модели в каталоге моделей можно развертывать как бессерверные API с выставлением счетов по мере использования, предоставляя способ их использования в качестве API без размещения в подписке. Модели размещаются в инфраструктуре, управляемой корпорацией Майкрософт, которая обеспечивает доступ на основе API к модели поставщика моделей. Доступ на основе API может значительно сократить затраты на доступ к модели и значительно упростить процесс подготовки.

Модели, доступные для развертывания в качестве бессерверных API с выставлением счетов по мере использования, предлагаются поставщиком моделей, но размещены в инфраструктуре Azure, управляемой Корпорацией Майкрософт, и доступ к ним осуществляется через API. Поставщики моделей определяют условия лицензии и задают цену на использование своих моделей, а служба Машинное обучение Azure управляет инфраструктурой размещения, делает интерфейсы API вывода доступными и выступает в качестве обработчика данных для запросов, отправленных и выходных данных содержимого моделями, развернутыми с помощью MaaS. Дополнительные сведения об обработке данных для MaaS см. в статье о конфиденциальности данных.

Схема, на которой показан цикл службы издателя модели.

Выставление счетов

Интерфейс обнаружения, подписки и потребления моделей, развернутых с помощью MaaS, находится в Azure AI Studio и Студия машинного обучения Azure. Пользователи принимают условия лицензии для использования моделей, а во время развертывания предоставляются сведения о ценах на потребление. Счета за модели сторонних поставщиков выставляются через Azure Marketplace в соответствии с условиями использования коммерческой платформы; модели от Майкрософт выставляются с помощью счетчиков Azure в качестве служб потребления первой стороны. Как описано в условиях продукта, службы потребления первой стороны покупаются с помощью счетчиков Azure, но не применяются к условиям обслуживания Azure. Использование этих моделей распространяется на условия лицензии.

Точно настроенные модели

Некоторые модели также поддерживают бессерверную настройку, где пользователи могут воспользоваться преимуществами размещенной точной настройки с оплатой по мере использования для настройки моделей с использованием предоставленных данных. Дополнительные сведения см. в обзоре тонкой настройки.

RAG с моделями, развернутыми как бессерверные API

Azure AI Studio позволяет пользователям использовать векторные индексы и получение дополненного поколения. Модели, которые можно развернуть с помощью бессерверного API, можно использовать для создания внедрения и вывода на основе пользовательских данных для создания ответов, характерных для их варианта использования. Дополнительные сведения см. в статье "Создание векторного индекса".

Региональная доступность предложений и моделей

Выставление счетов по мере использования доступно только для пользователей, подписка Azure которой принадлежит учетной записи выставления счетов в стране, где поставщик модели сделал предложение доступным (см. раздел "Регион доступности предложения" в таблице в следующем разделе). Если предложение доступно в соответствующем регионе, пользователь должен иметь концентратор или проект в регионе Azure, где модель доступна для развертывания или тонкой настройки, как применимо (см. столбцы "концентратор или регион проекта" в таблице ниже).

Модель Регион доступности предложения Концентратор или регион проекта для развертывания Центр или регион проекта для точной настройки
Лама-3-70B-Instruct
Llama-3-8B-Instruct
Управляемые страны Майкрософт Восточная часть США, восточная часть США 2, северная часть США, центрально-южная часть США, Центральная Швеция, западная часть США, западная часть США 3 Недоступно
Лама-2-7b
Лама-2-13b
Llama-2-70b
Управляемые страны Майкрософт Восточная часть США, восточная часть США 2, северная часть США, центрально-южная часть США, западная часть США, западная часть США 3 Западная часть США — 3
Лама-2-7b-чат
Ллома-2-13b-чат
Llama-2-70b-chat
Управляемые страны Майкрософт Восточная часть США, восточная часть США 2, северная часть США, центрально-южная часть США, западная часть США, западная часть США 3, Недоступно
Мистраль Маленький Управляемые страны Майкрософт Восточная часть США, восточная часть США 2, северная часть США, центрально-южная часть США, Центральная Швеция, западная часть США, западная часть США 3 Недоступно
Мистраль-Большой Управляемые страны Майкрософт
Бразилия
Гонконг
Израиль
Восточная часть США, восточная часть США 2, северная часть США, центрально-южная часть США, Центральная Швеция, западная часть США, западная часть США 3 Недоступно
Cohere-command-r-plus
Cohere-command-r
Cohere-embed-v3-english
Cohere-embed-v3-многоязычный
Управляемые страны Майкрософт
Япония
Восточная часть США, восточная часть США 2, северная часть США, центрально-южная часть США, Центральная Швеция, западная часть США, западная часть США 3 Недоступно
TimeGEN-1 Управляемые страны Майкрософт
Мексика
Израиль
Восточная часть США, восточная часть США 2, северная часть США, центрально-южная часть США, Центральная Швеция, западная часть США, западная часть США 3 Недоступно
jais-30b-chat Управляемые страны Майкрософт Восточная часть США, восточная часть США 2, северная часть США, центрально-южная часть США, Центральная Швеция, западная часть США, западная часть США 3 Недоступно
Phi-3-mini-4k-instruct Управляемые страны Майкрософт Восточная часть США 2, Центральная Канада, Центральная Швеция, Западная часть США 3 Недоступно
Phi-3-mini-128k-instruct
Phi-3-medium-4k-instruct
Phi-3-medium-128k-instruct
Управляемые страны Майкрософт Восточная часть США 2, Центральная Швеция Недоступно

Безопасность содержимого для моделей, развернутых с помощью бессерверных API

Внимание

Некоторые функции, описанные в этой статье, могут быть доступны только в предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Для языковых моделей, развернутых с помощью бессерверных API, Azure AI реализует конфигурацию по умолчанию фильтров модерации текста безопасности содержимого ИИ Azure, которые обнаруживают вредное содержимое, например ненависть, самоповредение, сексуальное и насильственное содержимое. Дополнительные сведения о фильтрации содержимого (предварительная версия) см. в статьях "Безопасность содержимого ИИ Azure".

Совет

Фильтрация содержимого (предварительная версия) недоступна для определенных типов моделей, развернутых через бессерверные API. К таким типам моделей относятся модели внедрения и модели временных рядов.

Фильтрация содержимого (предварительная версия) выполняется синхронно, так как процессы службы запрашивают создание содержимого, и вы можете выставляться отдельно по тарифам AACS для такого использования. Фильтрация содержимого (предварительная версия) для отдельных бессерверных конечных точек можно отключить в то время, когда вы сначала развернете языковую модель или более поздней версии на странице сведений о развертывании, выбрав переключатель фильтрации содержимого.

Предположим, вы решите использовать API, отличный от API вывода модели ИИ Azure, для работы с моделью, развернутой через бессерверный API. В такой ситуации фильтрация содержимого (предварительная версия) не включена, если только вы не реализуете его отдельно с помощью безопасности содержимого ИИ Azure. Дополнительные сведения о начале работы с безопасностью содержимого ИИ Azure см . в кратком руководстве по анализу текстового содержимого. Если при работе с моделями, развернутыми через бессерверные API, не используется фильтрация содержимого (предварительная версия), то при работе с моделями, развернутыми через бессерверные API, возникает более высокий риск предоставления пользователям вредного содержимого.

Сетевая изоляция для моделей, развернутых с помощью бессерверных API

Конечные точки для моделей, развернутых как бессерверные API, следуют параметру флага доступа к общедоступной сети (PNA) центра AI Studio, в котором находится проект, в котором существует развертывание. Чтобы защитить конечную точку MaaS, отключите флаг PNA в Центре AI Studio. Вы можете защитить входящий трафик от клиента к конечной точке с помощью частной конечной точки для концентратора.

Чтобы задать флаг PNA для центра искусственного интеллекта Azure, выполните следующие действия.

  • Перейдите на портал Azure.
  • Найдите группу ресурсов, к которой принадлежит концентратор, и выберите центр ИИ Azure из ресурсов, перечисленных для этой группы ресурсов.
  • На странице обзора концентратора перейдите в раздел "Параметры сети" с помощью области навигации>слева.
  • На вкладке "Общедоступный доступ" можно настроить параметры для флага доступа к общедоступной сети.
  • Сохранение изменений. Для распространения изменений может потребоваться до пяти минут.

Ограничения

  • Если у вас есть центр AI Studio с частной конечной точкой, созданной до 11 июля 2024 г., новые конечные точки MaaS, добавленные в проекты в этом концентраторе, не будут следовать конфигурации сети концентратора. Вместо этого необходимо создать частную конечную точку для концентратора и создать новые бессерверные развертывания API в проекте, чтобы новые развертывания могли следовать конфигурации сети концентратора.
  • Если у вас есть центр студии ИИ с развертываниями MaaS, созданными до 11 июля 2024 г., и вы включите частную конечную точку в этом концентраторе, существующие развертывания MaaS не будут соответствовать конфигурации сети концентратора. Для развертываний бессерверных API в концентраторе, чтобы следовать конфигурации сети центра, необходимо снова создать развертывания.
  • В настоящее время поддержка данных недоступна для развертываний MaaS в частных центрах, так как в частных центрах флаг PNA отключен.
  • Любое изменение конфигурации сети (например, включение или отключение флага PNA) может занять до пяти минут для распространения.

Следующий шаг