Compartilhar via


Implantar modelos como implantações de API sem servidor

Observação

Este documento refere-se ao portal do Microsoft Foundry (clássico ).

🔍 Exiba a documentação do Microsoft Foundry (novo) para saber mais sobre o novo portal.

Importante

Os itens marcados (versão prévia) neste artigo estão atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não recomendamos isso para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

Neste artigo, você aprenderá a implantar um Modelo do Microsoft Foundry como uma implantação de API sem servidor. Determinados modelos no catálogo de modelos podem ser implantados como uma implantação de API sem servidor. Esse tipo de implantação fornece uma maneira de consumir modelos como uma API sem hospedá-los em sua assinatura, ao mesmo tempo que mantém a segurança empresarial e a conformidade que as organizações precisam. Essa opção de implantação não requer cota de sua assinatura.

Embora a implantação da API sem servidor seja uma opção para implantar modelos Foundry, recomendamos que você implante modelos Foundry em recursos do Foundry.

Observação

É recomendável que você implante os modelos do Microsoft Foundry em recursos do Foundry para que você possa consumir suas implantações dentro do recurso através de um único endpoint, usando a mesma autenticação e esquema para gerar inferência. O ponto de extremidade segue a API de Inferência de Modelo de IA do Azure, que dá suporte para todos os Modelos da Fábrica. Para saber como implantar um Modelo do Foundry nos recursos do Foundry, consulte Adicionar e configurar modelos para Modelos do Foundry.

Pré-requisitos

  • Uma assinatura do Azure com uma forma de pagamento válida. As assinaturas gratuitas ou de avaliação do Azure não funcionarão. Caso você não tenha uma assinatura do Azure, crie uma conta paga do Azure para começar.

  • Se você não tiver um, crie um projeto baseado em hub.

  • Verifique se o recurso Implantar modelos em recursos do Foundry (versão prévia) está desativado no portal do Foundry. Quando esse recurso está ativado, as implantações de API sem servidor não estão disponíveis no portal.

    Uma captura de tela do portal do Foundry mostrando onde desabilitar a implantação nos recursos do Foundry.

  • Modelos de fundimento de parceiros e comunidade exigem acesso ao Azure Marketplace, enquanto os modelos de fundimento vendidos diretamente pelo Azure não têm esse requisito. Verifique se você tem as permissões necessárias para assinar ofertas de modelo no Azure Marketplace.

  • Controles de acesso baseados em função (Azure RBAC) são utilizados para conceder acesso às operações no portal Foundry. Para executar as etapas neste artigo, sua conta de usuário deve receber a função de Desenvolvedor de IA do Azure no grupo de recursos. Para obter mais informações sobre permissões, consulte o controle de acesso baseado em função no portal do Foundry.

  • Você pode usar qualquer navegador da Web compatível para navegar na Foundry.

Localizar seu modelo no catálogo de modelos

  1. Entre no Microsoft Foundry. Certifique-se de que o botão New Foundry está desativado. Estas etapas referem-se à Fábrica (clássico).
  2. Se você ainda não estiver em seu projeto, selecione-o.
  3. Selecione o catálogo de modelos no painel esquerdo.
  1. Selecione o cartão do modelo que você deseja implantar. Neste artigo, você seleciona um modelo DeepSeek-R1 .

  2. Selecione Usar esse modelo para abrir a janela de implantação da API sem servidor , na qual você pode exibir a guia Preços e termos .

  3. No assistente de implantação, nomeie a implantação. A opção Filtro de conteúdo (prévia) é habilitada por padrão. Deixe a configuração padrão para que o serviço detecte conteúdos nocivos, como ódio, automutilação, conteúdo sexual e violento. Para obter mais informações sobre filtragem de conteúdo, consulte Filtragem de conteúdo no portal do Foundry.

    Captura de tela mostrando o assistente de implantação de um modelo vendido diretamente pelo Azure.

Implantar o modelo em uma API sem servidor

Nesta seção, você criará um ponto de extremidade para seu modelo.

  1. No assistente de implantação, selecione Implantar. Quando a implantação estiver pronta, você será redirecionado para a página Implantações.

  2. Para ver os pontos de extremidade implantados em seu projeto, na seção Meus ativos do painel esquerdo, selecione Modelos + pontos de extremidade.

  3. O ponto de extremidade criado usa autenticação por chave para autorização. Para obter as chaves associadas a um determinado endpoint, siga estas etapas:

    1. Selecione a implantação e anote o URI alvo e a chave do endpoint.

    2. Use estas credenciais para chamar a implantação e gerar previsões.

  4. Se precisar consumir essa implantação de um projeto ou hub diferente, ou se planeja usar o Prompt flow para criar aplicativos inteligentes, você precisará criar uma conexão com a implantação da API sem servidor. Para saber como configurar uma implantação de API sem servidor existente em um novo projeto ou hub, confira Consumir implantação de API sem servidor de um projeto diferente ou do Prompt flow.

    Dica

    Se você estiver usando o Prompt flow no mesmo projeto ou hub em que a implantação foi implantada, ainda será necessário criar a conexão.

Usar a implantação da API sem servidor

Os modelos implantados no Azure Machine Learning e no Foundry em implantações de API sem servidor dão suporte à API de Inferência de Modelo de IA do Azure que expõe um conjunto comum de recursos para modelos fundamentais e que podem ser usados pelos desenvolvedores para consumir previsões de um conjunto diversificado de modelos de maneira uniforme e consistente.

Leia mais sobre as funcionalidades dessa API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Dica

Como você pode personalizar o painel esquerdo no portal do Microsoft Foundry, talvez você veja itens diferentes dos mostrados nestas etapas. Se você não vir o que está procurando, selecione ... Mais na parte inferior do painel esquerdo.

Você pode excluir pontos de extremidade e assinaturas de modelo. A exclusão de uma assinatura de modelo faz com que qualquer ponto de extremidade associado fique Sem integridade e inutilizável.

Para excluir uma implantação de API sem servidor:

  1. Acesse o Foundry.
  2. Vá para o seu projeto.
  3. Na seção Meus ativos, selecione Modelos + pontos de extremidade.
  4. Abra a implantação que você deseja excluir.
  5. Selecione Excluir.

Para excluir a assinatura de modelo associada:

  1. Vá para o Portal do Azure
  2. Navegue até o grupo de recursos ao qual o projeto pertence.
  3. No filtro Tipo, selecione SaaS.
  4. Escolha a assinatura que deseja excluir.
  5. Selecione Excluir.
  • Para trabalhar com o Foundry, instale a CLI do Azure e a extensão ml do Azure Machine Learning.

    az extension add -n ml
    

    Caso já tenha instalado a extensão, verifique se a versão mais recente está instalada.

    az extension update -n ml
    

    Quando a extensão estiver instalada, configure-a:

    az account set --subscription <subscription>
    az configure --defaults workspace=<project-name> group=<resource-group> location=<location>
    

Localizar seu modelo no catálogo de modelos

  1. Entre no Microsoft Foundry. Certifique-se de que o botão New Foundry está desativado. Estas etapas referem-se à Fábrica (clássico).
  2. Se você ainda não estiver em seu projeto, selecione-o.
  3. Selecione o catálogo de modelos no painel esquerdo.
  1. Selecione o cartão do modelo que você deseja implantar. Neste artigo, você seleciona um modelo DeepSeek-R1 .

  2. Copie a ID do modelo sem incluir a versão do modelo, já que implantações de API sem servidor sempre implantam a versão mais recente do modelo disponível. Por exemplo, para a ID do modelo azureml://registries/azureml-deepseek/models/DeepSeek-R1/versions/1, copie azureml://registries/azureml-deepseek/models/DeepSeek-R1.

    Uma captura de tela mostrando a página de detalhes de um modelo para um modelo vendido diretamente pelo Azure.

As etapas nesta seção do artigo usam o modelo DeepSeek-R1 para ilustração. As etapas são as mesmas, quer você esteja usando "Modelos Foundry" vendidos diretamente pelo Azure ou "Modelos Foundry" de parceiros e da comunidade. Por exemplo, se você optar por implantar o modelo Cohere-command-r-08-2024 , poderá substituir as credenciais de modelo nos snippets de código pelas credenciais do Cohere.

Implantar o modelo em uma API sem servidor

Nesta seção, você criará um ponto de extremidade para seu modelo. Nomeie o ponto de extremidade DeepSeek-R1-qwerty.

  1. Crie o ponto de extremidade sem servidor.

    endpoint.yml

    name: DeepSeek-R1-qwerty
    model_id: azureml://registries/azureml-deepseek/models/DeepSeek-R1
    

    Use o arquivo endpoint.yml para criar o ponto de extremidade:

    az ml serverless-endpoint create -f endpoint.yml
    
  2. A qualquer momento, você pode ver os endpoints implantados em seu projeto.

    az ml serverless-endpoint list
    
  3. O ponto de extremidade criado usa autenticação por chave para autorização. Use as etapas a seguir para obter as chaves associadas a um determinado ponto de extremidade.

    az ml serverless-endpoint get-credentials -n DeepSeek-R1-qwerty
    
  4. Se precisar consumir essa implantação de um projeto ou hub diferente, ou se planeja usar o Prompt flow para criar aplicativos inteligentes, você precisará criar uma conexão com a implantação da API sem servidor. Para saber como configurar uma implantação de API sem servidor existente em um novo projeto ou hub, confira Consumir implantação de API sem servidor de um projeto diferente ou do Prompt flow.

    Dica

    Se você estiver usando o Prompt flow no mesmo projeto ou hub em que a implantação foi implantada, ainda será necessário criar a conexão.

Usar a implantação da API sem servidor

Os modelos implantados no Azure Machine Learning e no Foundry em implantações de API sem servidor dão suporte à API de Inferência de Modelo de IA do Azure que expõe um conjunto comum de recursos para modelos fundamentais e que podem ser usados pelos desenvolvedores para consumir previsões de um conjunto diversificado de modelos de maneira uniforme e consistente.

Leia mais sobre as funcionalidades dessa API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Você pode excluir pontos de extremidade e assinaturas de modelo. A exclusão de uma assinatura de modelo faz com que qualquer ponto de extremidade associado fique Sem integridade e inutilizável.

Para excluir uma implantação de API sem servidor:

az ml serverless-endpoint delete \
    --name "DeepSeek-R1-qwerty"

Para excluir a assinatura de modelo associada:

az ml marketplace-subscription delete \
    --name "DeepSeek-R1"
  • Para trabalhar com o Foundry, instale o SDK do Azure Machine Learning para Python.

    pip install -U azure-ai-ml
    

    Depois de instalado, importe os namespaces necessários e crie um cliente conectado ao seu projeto:

    from azure.ai.ml import MLClient
    from azure.identity import InteractiveBrowserCredential
    from azure.ai.ml.entities import MarketplaceSubscription, ServerlessEndpoint
    
    client = MLClient(
        credential=InteractiveBrowserCredential(tenant_id="<tenant-id>"),
        subscription_id="<subscription-id>",
        resource_group_name="<resource-group>",
        workspace_name="<project-name>",
    )
    

Localizar seu modelo no catálogo de modelos

  1. Entre no Microsoft Foundry. Certifique-se de que o botão New Foundry está desativado. Estas etapas referem-se à Fábrica (clássico).
  2. Se você ainda não estiver em seu projeto, selecione-o.
  3. Selecione o catálogo de modelos no painel esquerdo.
  1. Selecione o cartão do modelo que você deseja implantar. Neste artigo, você seleciona um modelo DeepSeek-R1 .

  2. Copie a ID do modelo sem incluir a versão do modelo, já que implantações de API sem servidor sempre implantam a versão mais recente do modelo disponível. Por exemplo, para a ID do modelo azureml://registries/azureml-deepseek/models/DeepSeek-R1/versions/1, copie azureml://registries/azureml-deepseek/models/DeepSeek-R1.

    Uma captura de tela mostrando a página de detalhes de um modelo para um modelo vendido diretamente pelo Azure.

As etapas nesta seção do artigo usam o modelo DeepSeek-R1 para ilustração. As etapas são as mesmas, quer você esteja usando "Modelos Foundry" vendidos diretamente pelo Azure ou "Modelos Foundry" de parceiros e da comunidade. Por exemplo, se você optar por implantar o modelo Cohere-command-r-08-2024 , poderá substituir as credenciais de modelo nos snippets de código pelas credenciais do Cohere.

Implantar o modelo em uma API sem servidor

Nesta seção, você criará um ponto de extremidade para seu modelo. Nomeie o ponto de extremidade DeepSeek-R1-qwerty.

  1. Crie o ponto de extremidade sem servidor.

    endpoint_name="DeepSeek-R1-qwerty"
    
    serverless_endpoint = ServerlessEndpoint(
        name=endpoint_name,
        model_id=model_id
    )
    
    created_endpoint = client.serverless_endpoints.begin_create_or_update(
        serverless_endpoint
    ).result()
    
  2. A qualquer momento, você pode ver os endpoints implantados em seu projeto.

    endpoint_name="DeepSeek-R1-qwerty"
    
    serverless_endpoint = ServerlessEndpoint(
        name=endpoint_name,
        model_id=model_id
    )
    
    created_endpoint = client.serverless_endpoints.begin_create_or_update(
        serverless_endpoint
    ).result()
    
  3. O ponto de extremidade criado usa autenticação por chave para autorização. Use as etapas a seguir para obter as chaves associadas a um determinado ponto de extremidade.

    endpoint_keys = client.serverless_endpoints.get_keys(endpoint_name)
    print(endpoint_keys.primary_key)
    print(endpoint_keys.secondary_key)
    
  4. Se precisar consumir essa implantação de um projeto ou hub diferente, ou se planeja usar o Prompt flow para criar aplicativos inteligentes, você precisará criar uma conexão com a implantação da API sem servidor. Para saber como configurar uma implantação de API sem servidor existente em um novo projeto ou hub, confira Consumir implantação de API sem servidor de um projeto diferente ou do Prompt flow.

    Dica

    Se você estiver usando o Prompt flow no mesmo projeto ou hub em que a implantação foi implantada, ainda será necessário criar a conexão.

Usar a implantação da API sem servidor

Os modelos implantados no Azure Machine Learning e no Foundry em implantações de API sem servidor dão suporte à API de Inferência de Modelo de IA do Azure que expõe um conjunto comum de recursos para modelos fundamentais e que podem ser usados pelos desenvolvedores para consumir previsões de um conjunto diversificado de modelos de maneira uniforme e consistente.

Leia mais sobre as funcionalidades dessa API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Você pode excluir pontos de extremidade e assinaturas de modelo. A exclusão de uma assinatura de modelo faz com que qualquer ponto de extremidade associado fique Sem integridade e inutilizável.

client.serverless_endpoints.begin_delete(endpoint_name).wait()

Para excluir a assinatura de modelo associada:

client.marketplace_subscriptions.begin_delete(subscription_name).wait()
  • Para trabalhar com o Foundry, instale a CLI do Azure, conforme descrito na CLI do Azure.

    Configure as seguintes variáveis de ambiente de acordo com suas definições:

    RESOURCE_GROUP="serverless-models-dev"
    LOCATION="eastus2" 
    

Localizar seu modelo no catálogo de modelos

  1. Entre no Microsoft Foundry. Certifique-se de que o botão New Foundry está desativado. Estas etapas referem-se à Fábrica (clássico).
  2. Se você ainda não estiver em seu projeto, selecione-o.
  3. Selecione o catálogo de modelos no painel esquerdo.
  1. Selecione o cartão do modelo que você deseja implantar. Neste artigo, você seleciona um modelo DeepSeek-R1 .

  2. Copie a ID do modelo sem incluir a versão do modelo, já que implantações de API sem servidor sempre implantam a versão mais recente do modelo disponível. Por exemplo, para a ID do modelo azureml://registries/azureml-deepseek/models/DeepSeek-R1/versions/1, copie azureml://registries/azureml-deepseek/models/DeepSeek-R1.

    Uma captura de tela mostrando a página de detalhes de um modelo para um modelo vendido diretamente pelo Azure.

As etapas nesta seção do artigo usam o modelo DeepSeek-R1 para ilustração. As etapas são as mesmas, quer você esteja usando "Modelos Foundry" vendidos diretamente pelo Azure ou "Modelos Foundry" de parceiros e da comunidade. Por exemplo, se você optar por implantar o modelo Cohere-command-r-08-2024 , poderá substituir as credenciais de modelo nos snippets de código pelas credenciais do Cohere.

Implantar o modelo em uma API sem servidor

Nesta seção, você criará um ponto de extremidade para seu modelo. Nomeie o ponto de extremidade myserverless-text-1234ss.

  1. Crie o ponto de extremidade sem servidor. Use o modelo a seguir para criar um ponto de extremidade:

    serverless-endpoint.bicep

    param projectName string = 'my-project'
    param endpointName string = 'myserverless-text-1234ss'
    param location string = resourceGroup().location
    param modelId string = 'azureml://registries/azureml-deepseek/models/DeepSeek-R1'
    
    var modelName = substring(modelId, (lastIndexOf(modelId, '/') + 1))
    // Replace period character which is used in some model names (and is not valid in the subscription name)
    var sanitizedModelName = replace(modelName, '.', '')
    var subscriptionName = '${sanitizedModelName}-subscription'
    
    resource projectName_endpoint 'Microsoft.MachineLearningServices/workspaces/serverlessEndpoints@2024-04-01-preview' = {
      name: '${projectName}/${endpointName}'
      location: location
      sku: {
        name: 'Consumption'
      }
      properties: {
        modelSettings: {
          modelId: modelId
        }
      }
      dependsOn: [
        projectName_subscription
      ]
    }
    
    output endpointUri string = projectName_endpoint.properties.inferenceEndpoint.uri
    

    Crie a implantação da seguinte forma:

    az deployment group create --resource-group $RESOURCE_GROUP --template-file model-subscription.bicep
    
  2. A qualquer momento, você pode ver os endpoints implantados em seu projeto.

    Você pode usar as ferramentas de gerenciamento de recursos para consultar os recursos. O seguinte código usa a CLI do Azure:

    az resource list \
        --query "[?type=='Microsoft.MachineLearningServices/workspaces/serverlessEndpoints']"
    
  3. O ponto de extremidade criado usa autenticação por chave para autorização. Obtenha as chaves associadas ao ponto de extremidade especificado usando APIs REST para consultar essas informações.

  4. Se precisar consumir essa implantação de um projeto ou hub diferente, ou se planeja usar o Prompt flow para criar aplicativos inteligentes, você precisará criar uma conexão com a implantação da API sem servidor. Para saber como configurar uma implantação de API sem servidor existente em um novo projeto ou hub, confira Consumir implantação de API sem servidor de um projeto diferente ou do Prompt flow.

    Dica

    Se você estiver usando o Prompt flow no mesmo projeto ou hub em que a implantação foi implantada, ainda será necessário criar a conexão.

Usar a implantação da API sem servidor

Os modelos implantados no Azure Machine Learning e no Foundry em implantações de API sem servidor dão suporte à API de Inferência de Modelo de IA do Azure que expõe um conjunto comum de recursos para modelos fundamentais e que podem ser usados pelos desenvolvedores para consumir previsões de um conjunto diversificado de modelos de maneira uniforme e consistente.

Leia mais sobre as funcionalidades dessa API e como você pode usá-la ao criar aplicativos.

Excluir pontos de extremidade e assinaturas

Você pode excluir pontos de extremidade e assinaturas de modelo. A exclusão de uma assinatura de modelo faz com que qualquer ponto de extremidade associado fique Sem integridade e inutilizável.

Você pode usar as ferramentas de gerenciamento de recursos para gerenciar os recursos. O seguinte código usa a CLI do Azure:

az resource delete --name <resource-name>

Considerações sobre custo e cota para Modelos Foundry implantados como uma API sem servidor

A cota é gerenciada por implantação. Cada implantação tem um limite de taxa de 200.000 tokens por minuto e 1.000 solicitações de API por minuto. Além disso, atualmente, limitamos uma implantação por modelo por projeto. Entre em contato com o Suporte do Microsoft Azure se os limites de taxa atuais não forem suficientes para seus cenários.

  • Você pode encontrar informações de preços para modelos vendidos diretamente pelo Azure, na guia Preços e termos da janela de implantação da API sem servidor .

  • Modelos de parceiros e comunidade são oferecidos por meio do Azure Marketplace e integrados ao Foundry para uso. Você pode encontrar preços do Azure Marketplace ao implantar ou ajustar esses modelos. Cada vez que um projeto assina uma determinada oferta do Azure Marketplace, um novo recurso é criado para rastrear os custos associados ao seu consumo. O mesmo recurso é usado para acompanhar os custos associados à inferência e ao ajuste. No entanto, vários medidores estão disponíveis para acompanhar cada cenário de modo independente. Para obter mais informações sobre como acompanhar os custos, consulte Monitorar os custos dos modelos oferecidos por meio do Azure Marketplace.

Permissões necessárias para assinar ofertas de modelo

Controles de acesso baseados em função (Azure RBAC) são utilizados para conceder acesso às operações no portal Foundry. Para executar as etapas neste artigo, sua conta de usuário deve ter a função de Proprietário, Colaborador ou Desenvolvedor de IA do Azure para a assinatura do Azure. Como alternativa, sua conta pode receber uma função personalizada que tenha as seguintes permissões:

  • Na assinatura do Azure: para inscrever o espaço de trabalho na oferta do Azure Marketplace, uma vez para cada espaço de trabalho, por oferta:

    • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
    • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
    • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
    • Microsoft.SaaS/register/action
  • No grupo de recursos, para criar e usar o recurso SaaS:

    • Microsoft.SaaS/resources/read
    • Microsoft.SaaS/resources/write
  • No espaço de trabalho — para implantar pontos de extremidade (a função de cientista de dados do Azure Machine Learning já contém essas permissões):

    • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
    • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

Para obter mais informações sobre permissões, consulte o controle de acesso baseado em função no portal do Foundry.