Развертывание моделей Meta Llama с помощью Azure AI Studio
Примечание.
Azure AI Studio в настоящее время находится в общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания, и мы не рекомендуем ее для рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.
В этой статье вы узнаете о моделях Meta Llama. Вы также узнаете, как использовать Azure AI Studio для развертывания моделей из этого набора как службы с оплатой по мере использования выставления счетов или размещенной инфраструктуры в конечных точках реального времени.
Внимание
Узнайте больше о объявлении моделей Meta Llama 3, доступных в каталоге моделей ИИ Azure: блог сообщества Microsoft Tech Community и блог о метаданных.
Мета-Лама 3 модели и инструменты — это коллекция предварительно обученных и точно настроенных текстовых моделей, начиная от 8 миллиардов до 70 миллиардов параметров. Семейство моделей также включает в себя точно настроенные версии, оптимизированные для диалоговых вариантов использования с подкреплением из человеческой обратной связи (RLHF), называемых Meta-Llama-3-8B-Instruct и Meta-Llama-3-70B-Instruct. Ознакомьтесь со следующими примерами GitHub для изучения интеграции с LangChain, LiteLLM, OpenAI и API Azure.
Развертывание моделей Meta Llama с оплатой по мере использования
Некоторые модели в каталоге моделей можно развертывать как службу с оплатой по мере использования, предоставляя способ их использования в качестве API без размещения их в подписке, сохраняя потребности организаций по обеспечению безопасности и соответствия требованиям предприятия. Этот параметр развертывания не требует квоты из подписки.
Мета-Ллома 3 модели развертываются как услуга с оплатой по мере использования через Microsoft Azure Marketplace, и они могут добавить дополнительные условия использования и цены.
Предложения модели Azure Marketplace
Следующие модели доступны в Azure Marketplace для Llama 3 при развертывании в качестве службы с оплатой по мере использования:
Если вам нужно развернуть другую модель, вместо этого разверните ее в конечных точках для прогнозирования в реальном времени.
Необходимые компоненты
Подписка Azure с допустимым методом оплаты. Бесплатные или пробные подписки Azure не будут работать. Если у вас нет подписки Azure, создайте платную учетную запись Azure, чтобы начать работу.
Ресурс Центра искусственного интеллекта Azure.
Внимание
Для моделей Meta Llama 3 предложение развертывания модели с оплатой по мере использования доступно только в центрах искусственного интеллекта, созданных в восточной части США 2 и Центральной Швеции.
Проект ИИ Azure в Azure AI Studio
Управление доступом на основе ролей Azure (Azure RBAC) используется для предоставления доступа к операциям в Azure AI Studio. Чтобы выполнить действия, описанные в этой статье, учетной записи пользователя должна быть назначена роль владельца или участника для подписки Azure. Кроме того, вашей учетной записи может быть назначена настраиваемая роль, которая имеет следующие разрешения:
В подписке Azure необходимо подписать проект ИИ Azure на предложение Azure Marketplace один раз для каждого проекта для каждого предложения:
Microsoft.MarketplaceOrdering/agreements/offers/plans/read
Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
Microsoft.SaaS/register/action
Для создания и использования ресурса SaaS в группе ресурсов выполните следующие действия:
Microsoft.SaaS/resources/read
Microsoft.SaaS/resources/write
В проекте ИИ Azure для развертывания конечных точек (роль разработчика ИИ Azure уже содержит следующие разрешения):
Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Дополнительные сведения о разрешениях см. в статье "Управление доступом на основе ролей" в Azure AI Studio.
Создание развертывания
Чтобы создать развертывание, выполните приведенные действия.
Войдите в Azure AI Studio.
Выберите модель, которую нужно развернуть в каталоге моделей Azure AI Studio.
Кроме того, можно инициировать развертывание, начиная с проекта в AI Studio. На вкладке "Сборка" проекта выберите "Развертывания>+ Создать".
На странице сведений о модели выберите "Развернуть" и выберите "Оплата по мере использования".
Выберите проект, в котором требуется развернуть модели. Чтобы использовать предложение развертывания модели с оплатой по мере использования, ваша рабочая область должна принадлежать к восточному региону США 2 или Центральной Швеции.
В мастере развертывания выберите ссылку на условия использования Azure Marketplace, чтобы узнать больше об условиях использования. Вы также можете выбрать вкладку сведений о предложении Marketplace, чтобы узнать о ценах на выбранную модель.
Если вы впервые развертываете модель в проекте, необходимо подписаться на проект для конкретного предложения (например, Meta-Llama-3-70B) из Azure Marketplace. На этом шаге требуется, чтобы у вашей учетной записи были разрешения подписки Azure и разрешения группы ресурсов, перечисленные в предварительных требованиях. Каждый проект имеет собственную подписку на конкретное предложение Azure Marketplace, что позволяет контролировать расходы и отслеживать расходы. Выберите "Подписаться" и " Развернуть".
Примечание.
Подписка на проект в определенное предложение Azure Marketplace (в данном случае Meta-Llama-3-70B) требует, чтобы у вашей учетной записи был доступ участника или владельца на уровне подписки, где создается проект. Кроме того, учетная запись пользователя может быть назначена настраиваемой роли с разрешениями подписки Azure и разрешениями группы ресурсов, перечисленными в предварительных требованиях.
После регистрации проекта для конкретного предложения Azure Marketplace последующие развертывания одного и того же предложения в том же проекте не требуют повторной подписки. Поэтому вам не нужно иметь разрешения на уровне подписки для последующих развертываний. Если этот сценарий применяется к вам, нажмите кнопку "Продолжить развертывание".
Присвойте развертыванию имя. Это имя становится частью URL-адреса API развертывания. Этот URL-адрес должен быть уникальным в каждом регионе Azure.
Выберите Развернуть. Подождите, пока развертывание будет готово, и вы будете перенаправлены на страницу "Развертывания".
Нажмите кнопку "Открыть на площадке ", чтобы начать взаимодействие с моделью.
Вы можете вернуться на страницу "Развертывания", выбрать развертывание и заметить URL-адрес целевой точки и секретный ключ, который можно использовать для вызова развертывания и создания завершения.
Вы всегда можете найти сведения о конечной точке, URL-адрес и ключи доступа, перейдя на вкладку "Сборка " и выбрав "Развертывания" в разделе "Компоненты".
Сведения о выставлении счетов для моделей Meta Llama, развернутых с оплатой по мере использования, см. в статье "Рекомендации по затратам и квотам" для моделей Llama 3, развернутых как услуга.
Использование моделей Meta Llama в качестве службы
Модели, развернутые как услуга, можно использовать с помощью чата или API завершения в зависимости от типа развернутой модели.
На странице "Сборка" выберите "Развертывания".
Найдите и выберите созданное развертывание.
Выберите "Открыть на площадке".
Выберите код представления и скопируйте URL-адрес конечной точки и значение ключа.
Выполните запрос API на основе типа развернутой модели.
- Для моделей завершения, например
Meta-Llama-3-8B
, используйте/v1/completions
API. - Для моделей чата
/v1/chat/completions
, таких какMeta-Llama-3-8B-Instruct
API, используйте API.
Дополнительные сведения об использовании API см. в разделе справочника.
- Для моделей завершения, например
Справочник по моделям Meta Llama, развернутых как услуга
API завершения
Используйте метод POST
для отправки запроса /v1/completions
в маршрут:
Запросить
POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json
Схема запроса
Полезные данные — это отформатированная строка JSON, содержащая следующие параметры:
Ключ | Тип | По умолчанию. | Description |
---|---|---|---|
prompt |
string |
Значение по умолчанию отсутствует. Это значение должно быть указано. | Запрос на отправку в модель. |
stream |
boolean |
False |
Потоковая передача позволяет отправлять созданные маркеры как события, отправляемые сервером только для данных, когда они становятся доступными. |
max_tokens |
integer |
16 |
Максимальное количество маркеров, которые необходимо создать в завершении. Количество маркеров запроса плюс max_tokens не может превышать длину контекста модели. |
top_p |
float |
1 |
Альтернатива выборке с температурой, называемой выборкой ядра, где модель рассматривает результаты маркеров с top_p массой вероятности. Таким образом, 0,1 означает, что учитываются только маркеры, входящие в верхние 10% массива значений вероятности. Как правило, мы рекомендуем изменять top_p или temperature , но не оба. |
temperature |
float |
1 |
Температура выборки, используемая в диапазоне от 0 до 2. Более высокие значения означают, что примеры модели более широко распределяют маркеры. Ноль означает жадную выборку. Мы рекомендуем изменить это или top_p , но не оба. |
n |
integer |
1 |
Количество завершений, создаваемых для каждого запроса. Примечание. Поскольку данный параметр создает множество завершений, он может быстро исчерпать квоту маркеров. |
stop |
array |
null |
Строка или список строк, содержащих слово, в котором API перестает создавать дополнительные маркеры. Возвращенный текст не будет содержать последовательность остановки. |
best_of |
integer |
1 |
best_of Создает завершения на стороне сервера и возвращает "лучший" (один с наименьшей вероятностью журнала на токен). Потоковую передачу результатов выполнить нельзя. При использовании с n параметром best_of определяет количество завершений кандидата и n указывает, сколько нужно возвращать,best_of должно быть больше n . Примечание. Поскольку данный параметр создает множество завершений, он может быстро исчерпать квоту маркеров. |
logprobs |
integer |
null |
Число, указывающее на включение вероятностей журнала для logprobs наиболее вероятных маркеров и выбранных маркеров. Например, если logprobs значение равно 10, API возвращает список из 10 наиболее вероятных маркеров. API всегда возвращает logprob примера маркера, поэтому в ответе может быть до logprobs 1 элементов. |
presence_penalty |
float |
null |
Значение в диапазоне от –2.0 до 2.0. Положительные значения выбраковывают новые маркеры в зависимости от того, отображаются ли они в тексте на данный момент, увеличивая вероятность обсуждений на новые темы. |
ignore_eos |
boolean |
True |
Следует ли игнорировать маркер EOS и продолжать создавать маркеры после создания маркера EOS. |
use_beam_search |
boolean |
False |
Следует ли использовать поиск луча вместо выборки. В таком случае best_of должно быть больше 1 и temperature должно быть 0 . |
stop_token_ids |
array |
null |
Список идентификаторов для маркеров, которые при создании остановите дальнейшее создание маркеров. Возвращаемые выходные данные содержат маркеры остановки, если маркеры остановки не являются специальными маркерами. |
skip_special_tokens |
boolean |
null |
Следует ли пропускать специальные маркеры в выходных данных. |
Пример
Текст
{
"prompt": "What's the distance to the moon?",
"temperature": 0.8,
"max_tokens": 512
}
Схема ответа
Полезные данные ответа — это словарь со следующими полями.
Ключ | Тип | Описание |
---|---|---|
id |
string |
Уникальный идентификатор завершения. |
choices |
array |
Список вариантов завершения модели, созданной для ввода запроса. |
created |
integer |
Метка времени Unix (в секундах) при создании завершения. |
model |
string |
Model_id используется для завершения. |
object |
string |
Тип объекта, который всегда text_completion является . |
usage |
object |
Статистика использования для запроса завершения. |
Совет
В режиме потоковой передачи для каждого блока ответа finish_reason
всегда null
используется только тот, который завершается полезными данными [DONE]
.
Объект choices
— это словарь со следующими полями.
Ключ | Тип | Описание |
---|---|---|
index |
integer |
Индекс выбора. Если best_of > значение 1, индекс в этом массиве может не быть упорядоченным и не может быть 0 до n-1. |
text |
string |
Результат завершения. |
finish_reason |
string |
Причина, по которой модель перестала создавать маркеры: - stop : модель попала в естественную точку остановки или указанную последовательность остановки. - length : если достигнуто максимальное число маркеров. - content_filter : при модерации RAI и модерации CMP. - content_filter_error : ошибка во время модерации и не смогла принять решение об ответе. - null : ответ API по-прежнему выполняется или неполный. |
logprobs |
object |
Вероятности журналов созданных маркеров в выходном тексте. |
Объект usage
— это словарь со следующими полями.
Ключ | Тип | значение |
---|---|---|
prompt_tokens |
integer |
Количество маркеров в запросе. |
completion_tokens |
integer |
Число маркеров, созданных в завершении. |
total_tokens |
integer |
Всего токенов. |
Объект logprobs
представляет собой словарь со следующими полями:
Ключ | Тип | значение |
---|---|---|
text_offsets |
array из integers |
Позиция или индекс каждого маркера в выходных данных завершения. |
token_logprobs |
array из float |
Выбран logprobs из словаря в top_logprobs массиве. |
tokens |
array из string |
Выбранные маркеры. |
top_logprobs |
array из dictionary |
Массив словарей. В каждом словаре ключ является маркером, а значением является prob. |
Пример
{
"id": "12345678-1234-1234-1234-abcdefghijkl",
"object": "text_completion",
"created": 217877,
"choices": [
{
"index": 0,
"text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
"logprobs": null,
"finish_reason": "stop"
}
],
"usage": {
"prompt_tokens": 7,
"total_tokens": 23,
"completion_tokens": 16
}
}
API чата
Используйте метод POST
для отправки запроса /v1/chat/completions
в маршрут:
Запросить
POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json
Схема запроса
Полезные данные — это отформатированная строка JSON, содержащая следующие параметры:
Ключ | Тип | По умолчанию. | Description |
---|---|---|---|
messages |
string |
Значение по умолчанию отсутствует. Это значение должно быть указано. | Сообщение или журнал сообщений, используемых для запроса модели. |
stream |
boolean |
False |
Потоковая передача позволяет отправлять созданные маркеры как события, отправляемые сервером только для данных, когда они становятся доступными. |
max_tokens |
integer |
16 |
Максимальное количество маркеров, которые необходимо создать в завершении. Количество маркеров запроса плюс max_tokens не может превышать длину контекста модели. |
top_p |
float |
1 |
Альтернатива выборке с температурой, называемой выборкой ядра, где модель рассматривает результаты маркеров с top_p массой вероятности. Таким образом, 0,1 означает, что учитываются только маркеры, входящие в верхние 10% массива значений вероятности. Как правило, мы рекомендуем изменять top_p или temperature , но не оба. |
temperature |
float |
1 |
Температура выборки, используемая в диапазоне от 0 до 2. Более высокие значения означают, что примеры модели более широко распределяют маркеры. Ноль означает жадную выборку. Мы рекомендуем изменить это или top_p , но не оба. |
n |
integer |
1 |
Количество завершений, создаваемых для каждого запроса. Примечание. Поскольку данный параметр создает множество завершений, он может быстро исчерпать квоту маркеров. |
stop |
array |
null |
Строка или список строк, содержащих слово, в котором API перестает создавать дополнительные маркеры. Возвращенный текст не будет содержать последовательность остановки. |
best_of |
integer |
1 |
best_of Создает завершения на стороне сервера и возвращает "лучший" (один с наименьшей вероятностью журнала на токен). Потоковую передачу результатов выполнить нельзя. При использовании с n , best_of управляет числом завершения кандидатов и n указывает, сколько нужно возвращать,best_of должно быть больше n . Примечание. Поскольку данный параметр создает множество завершений, он может быстро исчерпать квоту маркеров. |
logprobs |
integer |
null |
Число, указывающее на включение вероятностей журнала для logprobs наиболее вероятных маркеров и выбранных маркеров. Например, если logprobs значение равно 10, API возвращает список из 10 наиболее вероятных маркеров. API всегда возвращает logprob примера маркера, поэтому в ответе может быть до logprobs 1 элементов. |
presence_penalty |
float |
null |
Значение в диапазоне от –2.0 до 2.0. Положительные значения выбраковывают новые маркеры в зависимости от того, отображаются ли они в тексте на данный момент, увеличивая вероятность обсуждений на новые темы. |
ignore_eos |
boolean |
True |
Следует ли игнорировать маркер EOS и продолжать создавать маркеры после создания маркера EOS. |
use_beam_search |
boolean |
False |
Следует ли использовать поиск луча вместо выборки. В таком случае best_of должно быть больше 1 и temperature должно быть 0 . |
stop_token_ids |
array |
null |
Список идентификаторов для маркеров, которые при создании остановите дальнейшее создание маркеров. Возвращаемые выходные данные содержат маркеры остановки, если маркеры остановки не являются специальными маркерами. |
skip_special_tokens |
boolean |
null |
Следует ли пропускать специальные маркеры в выходных данных. |
Объект messages
имеет следующие поля:
Ключ | Тип | значение |
---|---|---|
content |
string |
Содержимое сообщения. Содержимое требуется для всех сообщений. |
role |
string |
Роль автора сообщения. Это может быть system , user или assistant . |
Пример
Текст
{
"messages":
[
{
"role": "system",
"content": "You are a helpful assistant that translates English to Italian."},
{
"role": "user",
"content": "Translate the following sentence from English to Italian: I love programming."
}
],
"temperature": 0.8,
"max_tokens": 512,
}
Схема ответа
Полезные данные ответа — это словарь со следующими полями.
Ключ | Тип | Описание |
---|---|---|
id |
string |
Уникальный идентификатор завершения. |
choices |
array |
Список вариантов завершения модели, созданной для входных сообщений. |
created |
integer |
Метка времени Unix (в секундах) при создании завершения. |
model |
string |
Model_id используется для завершения. |
object |
string |
Тип объекта, который всегда chat.completion является . |
usage |
object |
Статистика использования для запроса завершения. |
Совет
В режиме потоковой передачи для каждого блока ответа finish_reason
всегда null
используется только тот, который завершается полезными данными [DONE]
. В каждом объекте ключ для messages
каждого choices
объекта изменяется.delta
Объект choices
— это словарь со следующими полями.
Ключ | Тип | Описание |
---|---|---|
index |
integer |
Индекс выбора. Если best_of > значение 1, индекс в этом массиве может не быть упорядоченным и может не бытьn-1 0 . |
messages или delta |
string |
Завершение чата приводит к объекту messages . При использовании delta режима потоковой передачи используется ключ. |
finish_reason |
string |
Причина, по которой модель перестала создавать маркеры: - stop : модель попала в естественную точку остановки или указанную последовательность остановки. - length : если достигнуто максимальное число маркеров. - content_filter : при модерации RAI и принудительной модерации CMP - content_filter_error : ошибка во время модерации и не удалось принять решение об ответе - null : ответ API по-прежнему выполняется или неполный. |
logprobs |
object |
Вероятности журналов созданных маркеров в выходном тексте. |
Объект usage
— это словарь со следующими полями.
Ключ | Тип | значение |
---|---|---|
prompt_tokens |
integer |
Количество маркеров в запросе. |
completion_tokens |
integer |
Число маркеров, созданных в завершении. |
total_tokens |
integer |
Всего токенов. |
Объект logprobs
представляет собой словарь со следующими полями:
Ключ | Тип | значение |
---|---|---|
text_offsets |
array из integers |
Позиция или индекс каждого маркера в выходных данных завершения. |
token_logprobs |
array из float |
Выбран logprobs из словаря в top_logprobs массиве. |
tokens |
array из string |
Выбранные маркеры. |
top_logprobs |
array из dictionary |
Массив словарей. В каждом словаре ключ является маркером, а значением является prob. |
Пример
Ниже приведен пример ответа:
{
"id": "12345678-1234-1234-1234-abcdefghijkl",
"object": "chat.completion",
"created": 2012359,
"model": "",
"choices": [
{
"index": 0,
"finish_reason": "stop",
"message": {
"role": "assistant",
"content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
}
}
],
"usage": {
"prompt_tokens": 10,
"total_tokens": 40,
"completion_tokens": 30
}
}
Развертывание моделей Meta Llama в конечных точках в режиме реального времени
Помимо развертывания с помощью управляемой службы с оплатой по мере использования, вы также можете развернуть модели Meta Llama в конечных точках в режиме реального времени в AI Studio. При развертывании в конечных точках в режиме реального времени можно выбрать все сведения о инфраструктуре, работающей с моделью, включая виртуальные машины для использования и количество экземпляров для обработки ожидаемой нагрузки. Модели, развернутые в конечных точках реального времени, используют квоту из подписки. Все модели в семействе Ллама можно развернуть в конечных точках в режиме реального времени.
Пользователи могут создать новое развертывание в Azure Studio и в пакете SDK для Python.
Создание нового развертывания в Azure Studio
Выполните следующие действия, чтобы развернуть модель, например Meta-Llama-3-8B-Instruct
в конечной точке в режиме реального времени в Azure AI Studio.
Выберите модель, которую нужно развернуть в каталоге моделей Azure AI Studio.
Кроме того, можно инициировать развертывание, начиная с проекта в AI Studio. На вкладке "Сборка " проекта выберите параметр "Развертывания" , а затем нажмите кнопку "Создать".
На странице сведений о модели выберите "Развернуть", а затем конечную точку в режиме реального времени.
На странице "Развертывание с содержимым ИИ Azure" Сейф ty (предварительная версия) выберите "Пропустить Сейф содержимого ИИ Azure", чтобы продолжить развертывание модели с помощью пользовательского интерфейса.
Совет
Как правило, рекомендуется выбрать параметр Enable Azure AI Content Сейф ty (Рекомендуется) для развертывания модели Meta Llama. Этот вариант развертывания в настоящее время поддерживается только с помощью пакета SDK для Python, и он происходит в записной книжке.
Выберите Продолжить.
Выберите проект, в котором требуется создать развертывание.
Совет
Если у вас нет достаточной квоты в выбранном проекте, можно использовать параметр , который я хочу использовать общую квоту, и я признаю, что эта конечная точка будет удалена в 168 часов.
Выберите виртуальную машину и число экземпляров, которые необходимо назначить развертыванию.
Выберите, нужно ли создать это развертывание как часть новой конечной точки или существующей. Конечные точки могут размещать несколько развертываний, сохраняя конфигурацию ресурсов эксклюзивной для каждой из них. Развертывания в одной конечной точке используют универсальный код ресурса (URI) конечной точки и ключи доступа.
Укажите, нужно ли включить сбор данных выводов (предварительная версия).
Выберите Развернуть. Через несколько минут откроется страница сведений конечной точки.
Дождитесь завершения создания и развертывания конечной точки. Это может занять несколько минут.
Перейдите на вкладку "Использование " развертывания, чтобы получить примеры кода, которые можно использовать для использования развернутой модели в приложении.
Создание нового развертывания в пакете SDK для Python
Выполните следующие действия, чтобы развернуть открытую модель, например Meta-Llama-3-7B-Instruct
в конечной точке в режиме реального времени, с помощью пакета SDK для создания искусственного интеллекта Azure.
Импорт обязательных библиотек
# Import the libraries from azure.ai.resources.client import AIClient from azure.ai.resources.entities.deployment import Deployment from azure.ai.resources.entities.models import PromptflowModel from azure.identity import DefaultAzureCredential
Укажите свои учетные данные. Учетные данные можно найти в параметрах проекта в Azure AI Studio. Вы можете перейти к Параметры, выбрав значок шестеренки в нижней части левого пользовательского интерфейса навигации.
credential = DefaultAzureCredential() client = AIClient( credential=credential, subscription_id="<xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx>", resource_group_name="<YOUR_RESOURCE_GROUP_NAME>", project_name="<YOUR_PROJECT_NAME>", )
Определите модель и развертывание.
The model_id
можно найти в карта модели в каталоге моделей Azure AI Studio.model_id = "azureml://registries/azureml/models/Llama-3-8b-chat/versions/12" deployment_name = "my-llama38bchat-deployment" deployment = Deployment( name=deployment_name, model=model_id, )
Развертывание модели.
client.deployments.create_or_update(deployment)
Использование моделей Meta Llama 3, развернутых в конечных точках в режиме реального времени
Дополнительные сведения о вызове моделей Llama, развернутых в конечных точках реального времени, см. в карта модели в каталоге моделей Azure AI Studio. В карта каждой модели есть страница обзора, содержащая описание модели, примеры для вывода на основе кода, тонкой настройки и оценки модели.
Стоимость и квоты
Рекомендации по затратам и квотам для моделей Llama, развернутых как услуга
Модели Llama, развернутые в качестве службы, предлагаются Мета через Azure Marketplace и интегрированы с Azure AI Studio для использования. Цены на Azure Marketplace можно найти при развертывании или настройке моделей.
Каждый раз, когда проект подписывается на данное предложение из Azure Marketplace, создается новый ресурс для отслеживания затрат, связанных с его потреблением. Тот же ресурс используется для отслеживания затрат, связанных с выводом и точной настройкой; однако для отслеживания каждого сценария можно отслеживать несколько метров независимо.
Дополнительные сведения о том, как отслеживать затраты, см. в разделе "Мониторинг затрат для моделей, предлагаемых в Azure Marketplace".
Квота управляется для каждого развертывания. Каждое развертывание имеет ограничение скорости в 200 000 токенов в минуту и 1000 запросов API в минуту. Однако в настоящее время мы ограничиваем одно развертывание для каждой модели для каждого проекта. Обратитесь в службу поддержки Microsoft Azure, если текущие ограничения скорости недостаточно для ваших сценариев.
Рекомендации по затратам и квотам для моделей Llama, развернутых как конечные точки в режиме реального времени
Для развертывания и вывода моделей Llama с конечными точками в режиме реального времени используется квота ядра виртуальной машины, назначенная вашей подписке на основе каждого региона. При регистрации в Azure AI Studio вы получаете квоту виртуальной машины по умолчанию для нескольких семейств виртуальных машин, доступных в регионе. Вы можете продолжать создавать развертывания, пока не достигнете предела квоты. После достижения этого ограничения можно запросить увеличение квоты.
Фильтрация содержимого
Модели, развернутые как услуга с оплатой по мере использования, защищены с помощью Сейф содержимого ИИ Azure. При развертывании в конечных точках в режиме реального времени вы можете отказаться от этой возможности. С включенной безопасностью содержимого ИИ Azure запрос и завершение проходят через ансамбль моделей классификации, направленных на обнаружение и предотвращение выходных данных вредного содержимого. Система фильтрации содержимого обнаруживает и принимает меры по определенным категориям потенциально вредного содержимого как в запросах ввода, так и в завершении выходных данных. Дополнительные сведения о содержимом ИИ Azure Сейф ty.