Implantar modelos como pontos de extremidade de API sem servidor

Artigo
07/22/2024

Neste artigo, você aprenderá a implantar um modelo do catálogo de modelos como uma API sem servidor com cobrança baseada em token de pagamento conforme o uso.

Alguns modelos do catálogo de modelos podem ser implantados como uma API sem servidor com a cobrança paga conforme o uso. Esse tipo de implantação fornece uma maneira de consumir modelos como uma API sem hospedá-los em sua assinatura, ao mesmo tempo que mantém a segurança empresarial e a conformidade que as organizações precisam. Essa opção de implantação não requer cota de sua assinatura.

Pré-requisitos

Uma assinatura do Azure com uma forma de pagamento válida. As assinaturas gratuitas ou de avaliação do Azure não funcionarão. Caso você não tenha uma assinatura do Azure, crie uma conta paga do Azure para começar.
Um workspace do Azure Machine Learning.
O RBAC do Azure (controle de acesso baseado em função) do Azure é usado para permitir acesso a operações no Azure Machine Learning. Para executar as etapas neste artigo, sua conta de usuário deve receber a função de Desenvolvedor de IA do Azure no grupo de recursos. Para obter mais informações sobre permissões, confira Controle de acesso baseado em função no Azure Machine Learning.
Você precisa instalar o seguinte software para trabalhar com o Azure Machine Learning:
Você pode usar qualquer navegador da web compatível para acessar o Azure Machine Learning.
A CLI do Azure e a extensão ml do Azure Machine Learning.
```
az extension add -n ml
```
Caso já tenha instalado a extensão, verifique se a versão mais recente está instalada.
```
az extension update -n ml
```
Quando a extensão estiver instalada, configure-a:
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace-name> group=<resource-group> location=<location>
```
Instalar o SDK do Azure Machine Learning para Python.
```
pip install -U azure-ai-ml
```
Depois de instalado, importe os namespaces necessários e crie um cliente conectado ao seu workspace:
```
from azure.ai.ml import MLClient
from azure.identity import InteractiveBrowserCredential
from azure.ai.ml.entities import MarketplaceSubscription, ServerlessEndpoint

client = MLClient(
    credential=InteractiveBrowserCredential(tenant_id="<tenant-id>"),
    subscription_id="<subscription-id>",
    resource_group_name="<resource-group>",
    workspace_name="<workspace-name>",
)
```
Você pode usar qualquer navegador da web compatível para implantar modelos do ARM no portal do Microsoft Azure ou usando qualquer uma das ferramentas de implantação. Este tutorial usa a CLI do Azure.

Localizar o modelo e a ID do modelo no catálogo de modelos

Entre no Estúdio do Azure Machine Learning
Para modelos oferecidos por meio do Azure Marketplace, verifique se sua conta tem as permissões da função de Desenvolvedor de IA do Azure no grupo de recursos ou se você atende às permissões necessárias para se inscrever em ofertas de modelo.

Modelos que são oferecidos por provedores que não são da Microsoft (por exemplo, modelos Llama e Mistral) são cobrados por meio do Azure Marketplace. Para esses modelos, você precisa inscrever seu workspace para a oferta do modelo específico. Os modelos oferecidos pela Microsoft (por exemplo, modelos Phi-3) não têm esse requisito, pois a cobrança é feita de forma diferente. Para obter detalhes sobre a cobrança para implantação sem servidor de modelos no catálogo de modelos, consulte Cobrança para APIs sem servidor.
Vá até seu workspace. Para usar a oferta de implantação de modelo de API sem servidor, seu workspace deve pertencer a uma das regiões com suporte para implantação sem servidor para o modelo específico que você deseja implantar.
Selecione Catálogo de modelos na barra lateral esquerda e localize o cartão do modelo que você deseja implantar. Neste artigo, você seleciona um modelo Meta-Llama-3-8B-Instruct.
1. Se você estiver implantando o modelo usando a CLI do Azure, o SDK do Python ou o ARM, copie a ID do modelo.
Importante

Não inclua a versão ao copiar a ID do modelo. Os pontos de extremidade da API sem servidor sempre implantam a versão mais recente do modelo disponível. Por exemplo, para a ID do modelo azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct/versions/3, copie azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct.

A próxima seção aborda as etapas para inscrever seu workspace em uma oferta de modelo. Você pode ignorar esta seção e ir para Implantar o modelo em um ponto de extremidade de API sem servidor, se estiver implantando um modelo da Microsoft.

Para modelos oferecidos por meio do Azure Marketplace, você pode implantá-los em pontos de extremidade de API sem servidor para consumir suas previsões. Se esta for a primeira vez implantando o modelo no workspace, você precisará inscrever seu workspace na oferta específica do modelo do Azure Marketplace. Cada workspace tem sua própria inscrição na oferta específica do Azure Marketplace do modelo, que permite controlar e monitorar os gastos.

Observação

Os modelos oferecidos por meio do Azure Marketplace estão disponíveis para implantação em pontos de extremidade de API sem servidor em regiões específicas. Verifique Disponibilidade de região para modelos em pontos de extremidade de API sem servidor para verificar quais regiões estão disponíveis. Se o que você precisa não estiver listado, você poderá implantar em um workspace em uma região com suporte e, em seguida, consumir pontos de extremidade de API sem servidor de um workspace diferente.

Crie a assinatura do marketplace do modelo. Ao criar uma assinatura, você aceita os termos e condições associados à oferta de modelo.

Na página Detalhes do modelo, selecione Implantar e selecione API sem servidor com Segurança de Conteúdo de IA do Azure (versão prévia) para abrir o assistente de implantação.
Marque a caixa de seleção para aceitar a política de compras da Microsoft.
Se a mensagem Você já tem uma assinatura do Azure Marketplace para este workspace for exibida, não será necessário criar a assinatura, pois você já tem uma. Você pode continuar a Implantar o modelo em um ponto de extremidade de API sem servidor.
No assistente de implantação, selecione o link para Termos do Azure Marketplace para saber mais sobre os termos de uso. Você também pode selecionar a guia Preço e termos para saber mais sobre o preço do modelo selecionado.
No assistente de implantação, selecione o link para Termos do Azure Marketplace para saber mais sobre os termos de uso. Você também pode selecionar a guia Detalhes da oferta do Marketplace para saber mais sobre os preços do modelo selecionado.
Selecione Assinar e Implantar.

subscription.yml

name: meta-llama3-8b-qwerty
model_id: azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct

Use o arquivo subscription.yml para criar a assinatura:

az ml marketplace-subscription create -f subscription.yml

model_id="azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct"
subscription_name="Meta-Llama-3-8B-Instruct"

marketplace_subscription = MarketplaceSubscription(
    model_id=model_id,
    name=subscription_name,
)

marketplace_subscription = client.marketplace_subscriptions.begin_create_or_update(
    marketplace_subscription
).result()

Use o modelo a seguir para criar uma assinatura de modelo:

template.json

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "workspace_name": {
            "defaultValue": "my-workspace",
            "type": "String"
        },
        "subscription_name": {
            "defaultValue": "Meta-Llama-3-8B-Instruct",
            "type": "String"
        },
        "model_id": {
            "defaultValue": "azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct",
            "type": "String"
        }
    },
    "variables": {},
    "resources": [
        {
            "type": "Microsoft.MachineLearningServices/workspaces/marketplaceSubscriptions",
            "apiVersion": "2024-04-01",
            "name": "[concat(parameters('workspace_name'), '/', parameters('subscription_name'))]",
            "location": "[parameters('location')]",
            "properties": {
                "modelId": "[parameters('model_id')]"
            }
        }
    ]
}

Depois de assinar o workspace na oferta específica do Azure Marketplace, as implantações subsequentes da mesma oferta no mesmo workspace não exigirão a inscrição novamente.
A qualquer momento, você pode ver as ofertas de modelo às quais seu workspace está inscrito no momento:
1. Vá para o Portal do Azure
2. Acesse o nome do grupo de recursos no qual o workspace está.
3. No filtro Tipo, selecione SaaS.
4. Você vê todas as ofertas nas quais se inscreveu atualmente.
5. Selecione qualquer recurso para ver os detalhes.
```
az ml marketplace-subscription list
```
```
marketplace_sub_list = client.marketplace_subscriptions.list()

for sub in marketplace_sub_list:
    print(sub.as_dict())
```
Você pode usar as ferramentas de gerenciamento de recursos para consultar os recursos. O seguinte código usa a CLI do Azure:
```
az resource list \
    --query "[?type=='Microsoft.SaaS']"
```

Implantar o modelo em um ponto de extremidade de API sem servidor

Depois de criar uma assinatura para um modelo que não seja da Microsoft, você pode implantar o modelo associado em um ponto de extremidade de API sem servidor. Para modelos da Microsoft (como modelos Phi-3), você não precisa criar uma assinatura.

O ponto de extremidade de API sem servidor oferece uma forma de consumir os modelos como uma API sem hospedá-los na sua assinatura, mantendo a segurança e a conformidade corporativa que as organizações precisam. Essa opção de implantação não requer cota de sua assinatura.

Nesta seção, você criará um ponto de extremidade com o nome meta-llama3-8b-qwerty.

Criar o ponto de extremidade sem servidor

Para implantar um modelo da Microsoft que não exija assinatura em uma oferta de modelo, selecione Implantar e, em seguida, selecione API sem servidor com Segurança de Conteúdo de IA do Azure (versão prévia) para abrir o assistente de implantação.
Como alternativa, para um modelo que não seja da Microsoft que exija uma assinatura de modelo, se você acabou de inscrever seu workspace na oferta de modelo na seção anterior, continue selecionando Implantar. Como alternativa, selecione Continuar a implantar (se o assistente de implantação tiver a observação Você já tem uma assinatura do Azure Marketplace para este workspace).
Dê um nome à implantação. Esse nome se torna parte da URL da API de implantação. Essa URL deve ser exclusiva em cada região do Azure.
Selecione Implantar. Quando a implantação estiver pronta, você será redirecionado para a página Implantações.

endpoint.yml

name: meta-llama3-8b-qwerty
model_id: azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct

Use o arquivo endpoint.yml para criar o ponto de extremidade:

az ml serverless-endpoint create -f endpoint.yml

endpoint_name="meta-llama3-8b-qwerty"

serverless_endpoint = ServerlessEndpoint(
    name=endpoint_name,
    model_id=model_id
)

created_endpoint = client.serverless_endpoints.begin_create_or_update(
    serverless_endpoint
).result()

Use o modelo a seguir para criar um ponto de extremidade:

template.json

{
    "$schema": "https://schema.management.azure.com/schemas/2019-04-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
        "workspace_name": {
            "defaultValue": "my-workspace",
            "type": "String"
        },
        "endpoint_name": {
            "defaultValue": "meta-llama3-8b-qwerty",
            "type": "String"
        },
        "location": {
            "defaultValue": "eastus2",
            "type": "String"
        },
        "model_id": {
            "defaultValue": "azureml://registries/azureml-meta/models/Meta-Llama-3-8B-Instruct",
            "type": "String"
        }
    },
    "variables": {},
    "resources": [
        {
            "type": "Microsoft.MachineLearningServices/workspaces/serverlessEndpoints",
            "apiVersion": "2024-04-01",
            "name": "[concat(parameters('workspace_name'), '/', parameters('endpoint_name'))]",
            "location": "[parameters('location')]",
            "sku": {
                "name": "Consumption"
            },
            "properties": {
                "modelSettings": {
                    "modelId": "[parameters('model_id')]"
                }
            }
        }
    ]
}

Depois, crie a implantação:

az deployment group create \
    --name model-subscription-deployment \
    --resource-group <resource-group> \
    --template-file template.json

O modelo de implantação do Azure pode levar alguns minutos para ser concluído. Quando ela for concluída, você verá uma mensagem que inclui o resultado:

"provisioningState": "Succeeded",

A qualquer momento, você pode ver os pontos de extremidade implantados em seu workspace:
1. Vá até seu workspace.
2. Selecione Pontos de extremidade.
3. Selecione a guia Pontos de extremidade sem servidor para exibir os pontos de extremidade de API sem servidor.
```
az ml serverless-endpoint list
```
```
endpoint_name="meta-llama3-8b-qwerty"

serverless_endpoint = ServerlessEndpoint(
    name=endpoint_name,
    model_id=model_id
)

created_endpoint = client.serverless_endpoints.begin_create_or_update(
    serverless_endpoint
).result()
```
Você pode usar as ferramentas de gerenciamento de recursos para consultar os recursos. O seguinte código usa a CLI do Azure:
```
az resource list \
    --query "[?type=='Microsoft.MachineLearningServices/workspaces/serverlessEndpoints']"
```
O ponto de extremidade criado usa a autenticação de chave para autorização. Use as etapas a seguir para obter as chaves associadas a um determinado ponto de extremidade.
1. Para retornar à página da implantação, selecione o nome do ponto de extremidade na lista de pontos de extremidade sem servidor.
2. Observe o URI de destino e a chave do ponto de extremidade. Use-os para chamar a implantação e gerar previsões.
Observação

Ao usar o portal do Azure, os pontos de extremidade de API sem servidor não são exibidos por padrão no grupo de recursos. Use a opção Mostrar tipos ocultos para exibi-los no grupo de recursos.
```
az ml serverless-endpoint get-credentials -n meta-llama3-8b-qwerty
```
```
endpoint_keys = client.serverless_endpoints.get_keys(endpoint_name)
print(endpoint_keys.primary_key)
print(endpoint_keys.secondary_key)
```
Use APIs REST para consultar essas informações.
Neste estágio, nosso ponto de extremidade está pronto para ser usado.
Se você precisar consumir essa implantação de um workspace diferente ou planeja usar o prompt flow para criar aplicativos inteligentes, será necessário criar uma conexão com a implantação de API sem servidor. Para saber como configurar um ponto de extremidade de API sem servidor existente em um novo projeto ou hub, consulte Consumir pontos de extremidade de API sem servidor implantados de um workspace ou prompt flow diferente.

Dica

Se você estiver usando o prompt flow no mesmo workspace em que a implantação foi realizada, você ainda precisará criar a conexão.

Usar pontos de extremidade de API sem servidor

Os modelos implantados no Azure Machine Learning e no Estúdio de IA do Azure em pontos de extremidade de API sem servidor dão suporte à API de Inferência do Modelo de IA do Azure que expõe um conjunto comum de recursos para modelos fundamentais e que pode ser usada pelos desenvolvedores para consumir previsões de um conjunto diversificado de modelos de maneira uniforme e consistente.

Leia mais sobre as funcionalidades desta API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Você pode excluir pontos de extremidade e assinaturas de modelo. Excluir uma assinatura de modelo torna qualquer ponto de extremidade associado não íntegro e inutilizável.

Para excluir pontos de extremidade de API sem servidor:

Acesse o Estúdio do Azure Machine Learning.
Selecione Pontos de extremidade na barra lateral esquerda.
Selecione a guia Pontos de extremidade sem servidor para exibir os pontos de extremidade de API sem servidor.
Abra o ponto de extremidade que você quer excluir.
Selecione Excluir.

Para excluir a assinatura de modelo associada:

Vá para o Portal do Azure
Acesse o nome do grupo de recursos no qual o workspace está.
No filtro Tipo, selecione SaaS.
Escolha a assinatura que deseja excluir.
Selecione Excluir.

Para excluir um ponto de extremidade de API sem servidor:

az ml serverless-endpoint delete \
    --name "meta-llama3-8b-qwerty"

Para excluir a assinatura de modelo associada:

az ml marketplace-subscription delete \
    --name "Meta-Llama-3-8B-Instruct"

Para excluir um ponto de extremidade de API sem servidor:

client.serverless_endpoints.begin_delete(endpoint_name).wait()

Para excluir a assinatura de modelo associada:

client.marketplace_subscriptions.begin_delete(subscription_name).wait()

Você pode usar as ferramentas de gerenciamento de recursos para gerenciar os recursos. O seguinte código usa a CLI do Azure:

az resource delete --name <resource-name>

Considerações de custo e cota para modelos implantados como pontos de extremidade de API sem servidor

A cota é gerenciada por implantação. Cada implantação tem um limite de taxa de 200.000 tokens por minuto e 1.000 solicitações de API por minuto. No entanto, atualmente, limitamos uma implantação por modelo por workspace. Entre em contato com o Suporte do Microsoft Azure se os limites de taxa atuais não forem suficientes para seus cenários.

Custo para modelos da Microsoft

Você pode encontrar as informações de preços na guia Preços e termos do assistente de implantação ao implantar modelos da Microsoft (como modelos Phi-3) como pontos de extremidade de API sem servidor.

Custo para modelos que não são da Microsoft

Os modelos que não são da Microsoft implantados como pontos de extremidade de API sem servidor são oferecidos por meio do Azure Marketplace e integrados ao Estúdio de IA do Azure para uso. Você pode encontrar os preços do Azure Marketplace ao implantar ou ajustar esses modelos.

Sempre que um workspace se inscreve em determinada oferta do Azure Marketplace, um recurso é criado para acompanhar os custos associados ao seu consumo. O mesmo recurso é usado para acompanhar os custos associados à inferência e ao ajuste. No entanto, vários medidores estão disponíveis para acompanhar cada cenário de modo independente.

Para obter mais informações sobre como acompanhar os custos, consulte Monitorar os custos dos modelos oferecidos por meio do Azure Marketplace.

O RBAC do Azure (controle de acesso baseado em função) do Azure é usado para permitir acesso a operações no Azure Machine Learning. Para executar as etapas neste artigo, sua conta de usuário deve ter a função de Proprietário, Colaborador ou Desenvolvedor de IA do Azure para a assinatura do Azure. Como alternativa, sua conta pode receber uma função personalizada que tenha as seguintes permissões:

Na assinatura do Azure, para inscrever o workspace na oferta do Azure Marketplace, uma vez para cada workspace, por oferta:
- Microsoft.MarketplaceOrdering/agreements/offers/plans/read
- Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
- Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.SaaS/register/action
No grupo de recursos, para criar e usar o recurso SaaS:
- Microsoft.SaaS/resources/read
- Microsoft.SaaS/resources/write
No workspace, para implantar pontos de extremidade (a função de cientista de dados do Azure Machine Learning já contém essas permissões):
- Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
- Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

Para obter mais informações sobre permissões, consulte Gerenciar acesso a um espaço de trabalho do Workspace do Azure Machine Learning.

Compartilhar via

Implantar modelos como pontos de extremidade de API sem servidor

Pré-requisitos

Localizar o modelo e a ID do modelo no catálogo de modelos

Implantar o modelo em um ponto de extremidade de API sem servidor

Usar pontos de extremidade de API sem servidor

Excluir pontos de extremidade e assinaturas

Considerações de custo e cota para modelos implantados como pontos de extremidade de API sem servidor

Custo para modelos da Microsoft

Custo para modelos que não são da Microsoft

Comentários

Comentários

Recursos adicionais

Compartilhar via

Implantar modelos como pontos de extremidade de API sem servidor

Pré-requisitos

Localizar o modelo e a ID do modelo no catálogo de modelos

Inscrever seu workspace na oferta de modelo

Implantar o modelo em um ponto de extremidade de API sem servidor

Usar pontos de extremidade de API sem servidor

Excluir pontos de extremidade e assinaturas

Considerações de custo e cota para modelos implantados como pontos de extremidade de API sem servidor

Custo para modelos da Microsoft

Custo para modelos que não são da Microsoft

Permissões necessárias para se inscrever em ofertas de modelo

Conteúdo relacionado

Comentários

Comentários

Recursos adicionais