Partilhar via


Como implantar modelos Meta Llama com o estúdio Azure Machine Learning

Neste artigo, você aprenderá sobre os modelos Meta Llama (LLMs). Você também aprenderá a usar o estúdio de Aprendizado de Máquina do Azure para implantar modelos desse conjunto para APIs sem servidor com cobrança paga conforme o uso ou para computação gerenciada.

Importante

Leia mais sobre o anúncio dos modelos Meta Llama 3 disponíveis agora no Azure AI Model Catalog: Microsoft Tech Community Blog e no Meta Announcement Blog.

Os modelos e ferramentas Meta Llama 3 são uma coleção de modelos de texto generativo pré-treinados e ajustados que variam em escala de 8 bilhões a 70 bilhões de parâmetros. A família de modelos Meta Llama também inclui versões ajustadas otimizadas para casos de uso de diálogo com aprendizagem por reforço a partir do feedback humano (RLHF), chamadas Meta-Llama-3-8B-Instruct e Meta-Llama-3-70B-Instruct. Consulte os seguintes exemplos do GitHub para explorar integrações com LangChain, LiteLLM, OpenAI e a API do Azure.

Importante

Esta funcionalidade está atualmente em pré-visualização pública. Esta versão de pré-visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas.

Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Implante modelos Meta Llama como uma API sem servidor

Certos modelos no catálogo de modelos podem ser implantados como uma API sem servidor com faturamento pré-pago, fornecendo uma maneira de consumi-los como uma API sem hospedá-los em sua assinatura, mantendo a segurança corporativa e a conformidade de que as organizações precisam. Essa opção de implantação não exige cota da sua assinatura.

Os modelos Meta Llama são implantados como uma API sem servidor com faturamento pré-pago oferecido pela Meta AI por meio do Microsoft Azure Marketplace e podem adicionar mais termos de uso e preços.

Ofertas de modelo do Azure Marketplace

Os modelos a seguir estão disponíveis no Azure Marketplace para modelos Meta Llama quando implantados como uma API sem servidor com cobrança pré-paga:

Se você precisar implantar um modelo diferente, implante-o na computação gerenciada .

Pré-requisitos

  • Uma subscrição do Azure com um método de pagamento válido. As subscrições gratuitas ou de avaliação do Azure não funcionarão. Se você não tiver uma assinatura do Azure, crie uma conta paga do Azure para começar.

  • Um espaço de trabalho do Azure Machine Learning e uma instância de computação. Se você não tiver esses recursos, use as etapas no artigo Guia de início rápido: criar recursos do espaço de trabalho para criá-los.

    Importante

    A oferta de implantação de modelos pré-pagos está disponível apenas em espaços de trabalho criados nas regiões Leste dos EUA 2 e Suécia Central para os modelos Meta Llama 3.

  • Os controlos de acesso baseado em funções (RBAC do Azure) são utilizados para conceder acesso às operações no Azure Machine Learning. Para executar os passos neste artigo, sua conta de utilizador deve ter atribuída a função de proprietário ou contribuinte para a subscrição do Azure. Em alternativa, pode ser atribuída à sua conta uma função personalizada com as seguintes permissões:

    • Na subscrição do Azure — para subscrever o espaço de trabalho na oferta do Azure Marketplace, uma vez para cada espaço de trabalho, por oferta:

      • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
      • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
      • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.SaaS/register/action
    • No grupo de recursos — para criar e utilizar o recurso SaaS:

      • Microsoft.SaaS/resources/read
      • Microsoft.SaaS/resources/write
    • No espaço de trabalho — para implementar pontos finais (a função de cientista de dados do Azure Machine Learning já contém essas permissões):

      • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
      • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

    Para obter mais informações sobre permissões, consulte Gerir o acesso a um espaço de trabalho do Azure Machine Learning.

Criar uma nova implantação

Para criar uma implantação:

  1. Vá para o estúdio do Azure Machine Learning.

  2. Selecione o espaço de trabalho no qual você deseja implantar seus modelos. Para usar a oferta de implantação do modelo pré-pago, seu espaço de trabalho deve pertencer à região Leste dos EUA 2 ou Suécia Central.

  3. Escolha o modelo que deseja implantar no catálogo de modelos.

    Como alternativa, você pode iniciar a implantação acessando seu espaço de trabalho e selecionando Pontos>de extremidade>sem servidor Criar.

  4. Na página de visão geral do modelo, selecione Implantar e, em seguida , API sem servidor com Segurança de Conteúdo do Azure AI.

  5. No assistente de implantação, selecione o link para os Termos do Azure Marketplace para saber mais sobre os termos de uso. Você também pode selecionar a guia Detalhes da oferta do Marketplace para saber mais sobre os preços do modelo selecionado.

  6. Se esta for a primeira vez que implementa o modelo na área de trabalho, tem de subscrever a sua área de trabalho para a oferta específica (por exemplo, Meta-Llama-3-70B) do Azure Marketplace. Esta etapa requer que sua conta tenha as permissões de assinatura do Azure e as permissões de grupo de recursos listadas nos pré-requisitos. Cada espaço de trabalho tem a sua própria subscrição para a oferta específica do Azure Marketplace, que lhe permite controlar e monitorizar os gastos. Selecione Inscrever-se e Implantar.

    Nota

    Subscrever uma área de trabalho numa oferta específica do Azure Marketplace (neste caso, Llama-3-70B) requer que a sua conta tenha acesso de Colaborador ou Proprietário ao nível da subscrição onde o projeto é criado. Como alternativa, sua conta de usuário pode receber uma função personalizada que tenha as permissões de assinatura do Azure e as permissões de grupo de recursos listadas nos pré-requisitos.

  7. Depois de inscrever o espaço de trabalho para a oferta específica do Azure Marketplace, as implantações subsequentes da mesma oferta no mesmo espaço de trabalho não exigem assinatura novamente. Portanto, você não precisa ter as permissões de nível de assinatura para implantações subsequentes. Se esse cenário se aplicar a você, selecione Continuar para implantar.

  8. Dê um nome à implantação. Esse nome se torna parte da URL da API de implantação. Essa URL deve ser exclusiva em cada região do Azure.

  9. Selecione Implementar. Aguarde até que a implantação seja concluída e você seja redirecionado para a página de pontos de extremidade sem servidor.

  10. Selecione o ponto de extremidade para abrir a página Detalhes.

  11. Selecione a guia Teste para começar a interagir com o modelo.

  12. Você também pode anotar a URL de destino e a chave secreta para chamar a implantação e gerar conclusão.

  13. Você sempre pode encontrar os detalhes, a URL e as chaves de acesso do ponto de extremidade navegando até Pontos de extremidade sem servidor de pontos de extremidade de espaço de trabalho>>.

Para saber mais sobre o faturamento de modelos Meta Llama implantados como uma API sem servidor, consulte Considerações de custo e cota para modelos Meta Llama implantados como uma API sem servidor.

Consuma modelos Meta Llama como um serviço

Os modelos implantados como um serviço podem ser consumidos usando o chat ou a API de conclusão, dependendo do tipo de modelo implantado.

  1. No espaço de trabalho, selecione Pontos de extremidade> sem servidor.

  2. Localize e selecione a implantação que você criou.

  3. Copie a URL de destino e os valores do token de chave .

  4. Faça uma solicitação de API com base no tipo de modelo implantado.

    Para obter mais informações sobre como usar as APIs, consulte a seção de referência .

Referência para modelos Meta Llama implantados em uma API sem servidor

Os modelos Llama aceitam a API de Inferência de Modelo de IA do Azure na rota ou uma API de Chat Llama na /v1/chat/completions./chat/completions Da mesma forma, as completações de texto podem ser geradas usando a API de Inferência de Modelo de IA do Azure na rota ou uma API de Conclusão de Llama na rota /completions/v1/completions

O esquema da API de Inferência de Modelo de IA do Azure pode ser encontrado na referência para o artigo Conclusão de Chat e uma especificação OpenAPI pode ser obtida do próprio ponto de extremidade.

API de conclusão

Use o método POST para enviar a solicitação para a /v1/completions rota:

Pedir

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Esquema de solicitação

Payload é uma cadeia de caracteres formatada JSON que contém os seguintes parâmetros:

Chave Type Predefinido Description
prompt string Sem predefinição. Este valor deve ser especificado. O prompt para enviar para o modelo.
stream boolean False O streaming permite que os tokens gerados sejam enviados como eventos enviados apenas pelo servidor de dados sempre que estiverem disponíveis.
max_tokens integer 16 O número máximo de tokens a serem gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo.
top_p float 1 Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente recomendamos alterar top_p ou temperature, mas não ambos.
temperature float 1 A temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos significam que o modelo mostra de forma mais ampla a distribuição de tokens. Zero significa amostragem gananciosa. Recomendamos alterar este ou top_p, mas não ambos.
n integer 1 Quantas finalizações gerar para cada prompt.
Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token.
stop array null String ou uma lista de strings contendo a palavra onde a API para de gerar outros tokens. O texto retornado não conterá a sequência de parada.
best_of integer 1 Gera best_of finalizações do lado do servidor e retorna o "melhor" (aquele com a menor probabilidade de log por token). Os resultados não podem ser transmitidos. Quando usado com no , best_of controla o número de candidatos concluídos e n especifica quantos devem retornar — best_of deve ser maior que n.
Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token.
logprobs integer null Um número que indica incluir as probabilidades de log nos logprobs tokens mais prováveis e nos tokens escolhidos. Por exemplo, se logprobs for 10, a API retorna uma lista dos 10 tokens mais prováveis. a API sempre retorna o logprob do token amostrado, portanto, pode haver até logprobs+1 elementos na resposta.
presence_penalty float null Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos.
ignore_eos boolean True Se o token EOS deve ser ignorado e continuar gerando tokens depois que o token EOS for gerado.
use_beam_search boolean False Se deve usar a pesquisa de feixe em vez de amostragem. Nesse caso, best_of deve ser maior do que 1 e temperature deve ser 0.
stop_token_ids array null Lista de IDs para tokens que, quando gerados, interrompem a geração de tokens. A saída retornada contém os tokens stop, a menos que os tokens stop sejam tokens especiais.
skip_special_tokens boolean null Se deve ignorar tokens especiais na saída.

Exemplo

Corpo

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512,
}

Esquema de resposta

A carga útil de resposta é um dicionário com os seguintes campos.

Chave Tipo Description
id string Um identificador exclusivo para a conclusão.
choices array A lista de opções de conclusão que o modelo gerou para o prompt de entrada.
created integer O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada.
model string O model_id usado para conclusão.
object string O tipo de objeto, que é sempre text_completion.
usage object Estatísticas de utilização do pedido de conclusão.

Gorjeta

No modo de streaming, para cada parte da resposta, finish_reason é sempre null, exceto a última que é encerrada por uma carga [DONE]útil.

O choices objeto é um dicionário com os seguintes campos.

Chave Tipo Description
index integer Índice de escolha. Quando best_of> 1, o índice nessa matriz pode não estar em ordem e pode não ser de 0 a n-1.
text string Resultado da conclusão.
finish_reason string A razão pela qual o modelo parou de gerar tokens:
- stop: o modelo atingiu um ponto de paragem natural ou uma sequência de paragem fornecida.
- length: se o número máximo de tokens tiver sido atingido.
- content_filter: Quando a RAI modera e a CMP força a moderação.
- content_filter_error: um erro durante a moderação e não foi capaz de tomar uma decisão sobre a resposta.
- null: Resposta da API ainda em andamento ou incompleta.
logprobs object As probabilidades de log dos tokens gerados no texto de saída.

O usage objeto é um dicionário com os seguintes campos.

Chave Type valor
prompt_tokens integer Número de tokens no prompt.
completion_tokens integer Número de tokens gerados na conclusão.
total_tokens integer Total de tokens.

O logprobs objeto é um dicionário com os seguintes campos:

Chave Type valor
text_offsets array de integers A posição ou índice de cada token na saída de conclusão.
token_logprobs array de float Selecionado logprobs do dicionário na top_logprobs matriz.
tokens array de string Tokens selecionados.
top_logprobs array de dictionary Matriz de dicionário. Em cada dicionário, a chave é o token e o valor é o prob.

Exemplo

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

API de bate-papo

Use o método POST para enviar a solicitação para a /v1/chat/completions rota:

Pedir

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Esquema de solicitação

Payload é uma cadeia de caracteres formatada JSON que contém os seguintes parâmetros:

Chave Type Predefinido Description
messages string Sem predefinição. Este valor deve ser especificado. A mensagem ou o histórico de mensagens a serem usadas para solicitar o modelo.
stream boolean False O streaming permite que os tokens gerados sejam enviados como eventos enviados apenas pelo servidor de dados sempre que estiverem disponíveis.
max_tokens integer 16 O número máximo de tokens a serem gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo.
top_p float 1 Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente recomendamos alterar top_p ou temperature, mas não ambos.
temperature float 1 A temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos significam que o modelo mostra de forma mais ampla a distribuição de tokens. Zero significa amostragem gananciosa. Recomendamos alterar este ou top_p, mas não ambos.
n integer 1 Quantas finalizações gerar para cada prompt.
Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token.
stop array null String ou uma lista de strings contendo a palavra onde a API para de gerar outros tokens. O texto retornado não conterá a sequência de parada.
best_of integer 1 Gera best_of finalizações do lado do servidor e retorna o "melhor" (aquele com a menor probabilidade de log por token). Os resultados não podem ser transmitidos. Quando usado com no , best_of controla o número de candidatos concluídos e n especifica quantos devem retornar —best_of deve ser maior que n.
Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token.
logprobs integer null Um número que indica incluir as probabilidades de log nos logprobs tokens mais prováveis e nos tokens escolhidos. Por exemplo, se logprobs for 10, a API retorna uma lista dos 10 tokens mais prováveis. a API sempre retornará o logprob do token amostrado, portanto, pode haver até logprobs+1 elementos na resposta.
presence_penalty float null Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos.
ignore_eos boolean True Se o token EOS deve ser ignorado e continuar gerando tokens depois que o token EOS for gerado.
use_beam_search boolean False Se deve usar a pesquisa de feixe em vez de amostragem. Nesse caso, best_of deve ser maior do que 1 e temperature deve ser 0.
stop_token_ids array null Lista de IDs para tokens que, quando gerados, interrompem a geração de tokens. A saída retornada contém os tokens stop, a menos que os tokens stop sejam tokens especiais.
skip_special_tokens boolean null Se deve ignorar tokens especiais na saída.

O messages objeto tem os seguintes campos:

Chave Type valor
content string O conteúdo da mensagem. O conteúdo é necessário para todas as mensagens.
role string O papel do autor da mensagem. Um de system, userou assistant.

Exemplo

Corpo

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Esquema de resposta

A carga útil de resposta é um dicionário com os seguintes campos.

Chave Tipo Description
id string Um identificador exclusivo para a conclusão.
choices array A lista de opções de conclusão que o modelo gerou para as mensagens de entrada.
created integer O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada.
model string O model_id usado para conclusão.
object string O tipo de objeto, que é sempre chat.completion.
usage object Estatísticas de utilização do pedido de conclusão.

Gorjeta

No modo de streaming, para cada parte da resposta, finish_reason é sempre null, exceto a última que é encerrada por uma carga [DONE]útil. Em cada choices objeto, a chave para messages é alterada por delta.

O choices objeto é um dicionário com os seguintes campos.

Chave Tipo Description
index integer Índice de escolha. Quando best_of> 1, o índice nessa matriz pode não estar em ordem e pode não estar 0 em n-1.
messages ou delta string Resultado da conclusão do bate-papo no messages objeto. Quando o modo de streaming é usado, delta a chave é usada.
finish_reason string A razão pela qual o modelo parou de gerar tokens:
- stop: o modelo atingiu um ponto de paragem natural ou uma sequência de paragem fornecida.
- length: se o número máximo de tokens tiver sido atingido.
- content_filter: Quando a RAI modera e a CMP força a moderação
- content_filter_error: um erro durante a moderação e não foi capaz de tomar uma decisão sobre a resposta
- null: Resposta da API ainda em andamento ou incompleta.
logprobs object As probabilidades de log dos tokens gerados no texto de saída.

O usage objeto é um dicionário com os seguintes campos.

Chave Type valor
prompt_tokens integer Número de tokens no prompt.
completion_tokens integer Número de tokens gerados na conclusão.
total_tokens integer Total de tokens.

O logprobs objeto é um dicionário com os seguintes campos:

Chave Type valor
text_offsets array de integers A posição ou índice de cada token na saída de conclusão.
token_logprobs array de float Selecionado logprobs do dicionário na top_logprobs matriz.
tokens array de string Tokens selecionados.
top_logprobs array de dictionary Matriz de dicionário. Em cada dicionário, a chave é o token e o valor é o prob.

Exemplo

Segue-se um exemplo de resposta:

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Implante modelos Meta Llama para computação gerenciada

Além de implantar com o serviço gerenciado pré-pago, você também pode implantar modelos Llama 3 para computação gerenciada no estúdio de Aprendizado de Máquina do Azure. Quando implantado na computação gerenciada, você pode selecionar todos os detalhes sobre a infraestrutura que executa o modelo, incluindo as máquinas virtuais a serem usadas e o número de instâncias para lidar com a carga esperada. Os modelos implantados na computação gerenciada consomem cota da sua assinatura. Todos os modelos da família Meta Llama podem ser implantados em computação gerenciada.

Criar uma nova implantação

Siga estas etapas para implantar um modelo como Llama-3-7B-Instruct em um ponto de extremidade em tempo real no estúdio do Azure Machine Learning.

  1. Selecione o espaço de trabalho no qual você deseja implantar o modelo.

  2. Escolha o modelo que você deseja implantar no catálogo de modelos do estúdio.

    Como alternativa, você pode iniciar a implantação acessando seu espaço de trabalho e selecionando Pontos de extremidade>>em tempo real Criar.

  3. Na página de visão geral do modelo, selecione Implantar e, em seguida , Computação gerenciada sem a Segurança de Conteúdo do Azure AI.

  4. Na página Implantar com a Segurança de Conteúdo do Azure AI (visualização), selecione Ignorar Segurança de Conteúdo do Azure AI para que você possa continuar a implantar o modelo usando a interface do usuário.

    Gorjeta

    Em geral, recomendamos que você selecione Habilitar Segurança de Conteúdo do Azure AI (Recomendado) para implantação do modelo Meta Llama. Atualmente, essa opção de implantação só é suportada usando o SDK do Python e acontece em um bloco de anotações.

  5. Selecione Continuar.

    Gorjeta

    Se você não tiver cota suficiente disponível no projeto selecionado, poderá usar a opção Quero usar a cota compartilhada e reconheço que esse ponto de extremidade será excluído em 168 horas.

  6. Selecione a máquina virtual e a contagem de instâncias que você deseja atribuir à implantação.

  7. Selecione se deseja criar essa implantação como parte de um novo ponto de extremidade ou de um existente. Os endpoints podem hospedar várias implantações, mantendo a configuração de recursos exclusiva para cada uma delas. As implantações sob o mesmo ponto de extremidade compartilham o URI do ponto de extremidade e suas chaves de acesso.

  8. Indique se deseja habilitar a coleta de dados de inferência (visualização).

  9. Indique se deseja habilitar o Modelo de Pacote (visualização).

  10. Selecione Implementar. Depois de alguns momentos, a página Detalhes do ponto de extremidade é aberta.

  11. Aguarde até que a criação e a implantação do ponto de extremidade sejam concluídas. Este passo pode demorar alguns minutos.

  12. Selecione a página Consumir do ponto de extremidade para obter exemplos de código que você pode usar para consumir o modelo implantado em seu aplicativo.

Para obter mais informações sobre como implantar modelos para computação gerenciada usando o estúdio, consulte Implantando modelos de base em pontos de extremidade para inferência.

Consuma modelos Meta Llama implantados em computação gerenciada

Para obter referência sobre como invocar modelos Meta Llama 3 implantados em pontos de extremidade em tempo real, consulte o cartão do modelo no catálogo de modelos do estúdio do Azure Machine Learning. O cartão de cada modelo tem uma página de visão geral que inclui uma descrição do modelo, exemplos para inferência baseada em código, ajuste fino e avaliação do modelo.

Custo e quotas

Considerações sobre custo e cota para modelos Meta Llama implantados como uma API sem servidor

Os modelos Meta Llama implantados como uma API sem servidor são oferecidos pela Meta por meio do Azure Marketplace e integrados ao estúdio Azure Machine Learning para uso. Você pode encontrar os preços do Azure Marketplace ao implantar ou ajustar modelos.

Cada vez que um espaço de trabalho subscreve uma determinada oferta de modelo do Azure Marketplace, é criado um novo recurso para controlar os custos associados ao seu consumo. O mesmo recurso é usado para rastrear os custos associados à inferência e ao ajuste fino; no entanto, vários medidores estão disponíveis para rastrear cada cenário de forma independente.

Para obter mais informações sobre como controlar custos, consulte Monitorar custos para modelos oferecidos por meio do Azure Marketplace.

Uma captura de tela mostrando diferentes recursos correspondentes a diferentes ofertas de modelos e seus medidores associados.

A cota é gerenciada por implantação. Cada implantação tem um limite de taxa de 200.000 tokens por minuto e 1.000 solicitações de API por minuto. No entanto, atualmente limitamos uma implantação por modelo e por projeto. Entre em contato com o Suporte do Microsoft Azure se os limites de taxa atuais não forem suficientes para seus cenários.

Considerações sobre custo e cota para modelos Meta Llama implantados computação gerenciada

Para implantação e inferência de modelos Meta Llama com computação gerenciada, você consome a cota principal da máquina virtual (VM) atribuída à sua assinatura por região. Ao se inscrever no estúdio do Azure Machine Learning, você recebe uma cota de VM padrão para várias famílias de VMs disponíveis na região. Pode continuar a criar implementações até atingir o seu limite de quota. Uma vez atingido este limite, pode solicitar um aumento de quota.

Filtragem de conteúdos

Os modelos implantados como uma API sem servidor são protegidos pela segurança de conteúdo da IA do Azure. Quando implantado na computação gerenciada, você pode desativar esse recurso. Com a segurança de conteúdo de IA do Azure habilitada, tanto o prompt quanto a conclusão passam por um conjunto de modelos de classificação destinados a detetar e prevenir a saída de conteúdo nocivo. O sistema de filtragem de conteúdo deteta e age em categorias específicas de conteúdo potencialmente nocivo em prompts de entrada e finalizações de saída. Saiba mais sobre a Segurança de Conteúdo do Azure AI.