Partilhar via


Como usar a família de modelos Meta Llama com o estúdio Azure Machine Learning

Neste artigo, você aprenderá sobre a família de modelos Meta Llama (LLMs). Os modelos e ferramentas Meta Llama são uma coleção de modelos de raciocínio generativo de texto e imagem de IA pré-treinados e ajustados - variando em escala de SLMs (modelos 1B, 3B Base e Instruct) para inferência no dispositivo e borda - a LLMs de médio porte (modelos 7B, 8B e 70B Base e Instruct) e modelos de alto desempenho como Meta Llama 3.1 405B Instruct para geração de dados sintéticos e casos de uso de destilação.

Gorjeta

Veja nossos anúncios dos modelos da família Llama 3.2 da Meta, disponíveis agora no Catálogo de Modelos de IA do Azure através do blog da Meta e do Blog da Comunidade Tecnológica da Microsoft.

Consulte os seguintes exemplos do GitHub para explorar integrações com LangChain, LiteLLM, OpenAI e a API do Azure.

Importante

Esta funcionalidade está atualmente em pré-visualização pública. Esta versão de pré-visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas.

Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Família de modelos Meta Llama

A família de modelos Meta Llama inclui os seguintes modelos:

A coleção Llama 3.2 de SLMs e modelos de raciocínio de imagem já está disponível. Em breve, o Llama 3.2 11B Vision Instruct e o Llama 3.2 90B Vision Instruct estarão disponíveis como um endpoint de API sem servidor via Models-as-a-Service. A partir de hoje, os seguintes modelos estarão disponíveis para implantação por meio de computação gerenciada:

  • Lama 3,2 1B
  • Lama 3,2 3B
  • Lama 3.2 1B Instruir
  • Llama 3.2 3B Instruir
  • Guarda Lama 3 1B
  • Llama Guarda 11B Visão
  • Llama 3.2 11B Visão Instruir
  • Llama 3.2 90B Vision Instruct estão disponíveis para implantação de computação gerenciada.

Pré-requisitos

  • Uma subscrição do Azure com um método de pagamento válido. As subscrições gratuitas ou de avaliação do Azure não funcionarão. Se você não tiver uma assinatura do Azure, crie uma conta paga do Azure para começar.

  • Um espaço de trabalho do Azure Machine Learning e uma instância de computação. Se você não tiver esses recursos, use as etapas no artigo Guia de início rápido: criar recursos do espaço de trabalho para criá-los. A oferta de implantação de modelo de API sem servidor para Meta Llama 3.1 e Llama 3 só está disponível com espaços de trabalho criados nestas regiões:

    • E.U.A. Leste
    • E.U.A. Leste 2
    • E.U.A. Centro-Norte
    • E.U.A. Centro-Sul
    • E.U.A. Oeste
    • EUA Oeste 3
    • Suécia Central

    Para obter uma lista das regiões disponíveis para cada um dos modelos que suportam implementações de ponto final de API sem servidor, consulte Disponibilidade regional para modelos em pontos finais de API sem servidor.

  • Os controlos de acesso baseado em funções (RBAC do Azure) são utilizados para conceder acesso às operações no Azure Machine Learning. Para executar os passos neste artigo, sua conta de utilizador deve ter atribuída a função de proprietário ou contribuinte para a subscrição do Azure. Em alternativa, pode ser atribuída à sua conta uma função personalizada com as seguintes permissões:

    • Na subscrição do Azure — para subscrever o espaço de trabalho na oferta do Azure Marketplace, uma vez para cada espaço de trabalho, por oferta:

      • Microsoft.MarketplaceOrdering/agreements/offers/plans/read
      • Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
      • Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
      • Microsoft.SaaS/register/action
    • No grupo de recursos — para criar e utilizar o recurso SaaS:

      • Microsoft.SaaS/resources/read
      • Microsoft.SaaS/resources/write
    • No espaço de trabalho — para implementar pontos finais (a função de cientista de dados do Azure Machine Learning já contém essas permissões):

      • Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
      • Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*

    Para obter mais informações sobre permissões, consulte Gerir o acesso a um espaço de trabalho do Azure Machine Learning.

Criar uma nova implantação

Para criar uma implantação:

  1. Vá para o estúdio do Azure Machine Learning.

  2. Selecione o espaço de trabalho no qual você deseja implantar seus modelos. Para usar a oferta de implantação de modelo pré-pago, seu espaço de trabalho deve pertencer a uma das regiões disponíveis listadas nos pré-requisitos deste artigo.

  3. Escolha Meta-Llama-3.1-405B-Instruct implantar a partir do catálogo de modelos.

    Como alternativa, você pode iniciar a implantação acessando seu espaço de trabalho e selecionando Pontos>de extremidade>sem servidor Criar.

  4. Na página Detalhes do , selecione Implantar e, em seguida, selecione API sem servidor com Segurança de Conteúdo do Azure AI.Meta-Llama-3.1-405B-Instruct

  5. No assistente de implantação, selecione o link para os Termos do Azure Marketplace para saber mais sobre os termos de uso. Você também pode selecionar a guia Detalhes da oferta do Marketplace para saber mais sobre os preços do modelo selecionado.

  6. Se esta for a primeira vez que implementa o modelo na área de trabalho, tem de subscrever a sua área de trabalho para a oferta específica (por exemplo, Meta-Llama-3.1-405B-Instruct) do Azure Marketplace. Esta etapa requer que sua conta tenha as permissões de assinatura do Azure e as permissões de grupo de recursos listadas nos pré-requisitos. Cada espaço de trabalho tem a sua própria subscrição para a oferta específica do Azure Marketplace, que lhe permite controlar e monitorizar os gastos. Selecione Inscrever-se e Implantar.

    Nota

    Subscrever uma área de trabalho numa oferta específica do Azure Marketplace (neste caso, Llama-3-70B) requer que a sua conta tenha acesso de Colaborador ou Proprietário ao nível da subscrição onde o projeto é criado. Como alternativa, sua conta de usuário pode receber uma função personalizada que tenha as permissões de assinatura do Azure e as permissões de grupo de recursos listadas nos pré-requisitos.

  7. Depois de inscrever o espaço de trabalho para a oferta específica do Azure Marketplace, as implantações subsequentes da mesma oferta no mesmo espaço de trabalho não exigem assinatura novamente. Portanto, você não precisa ter as permissões de nível de assinatura para implantações subsequentes. Se esse cenário se aplicar a você, selecione Continuar para implantar.

  8. Dê um nome à implantação. Esse nome se torna parte da URL da API de implantação. Essa URL deve ser exclusiva em cada região do Azure.

  9. Selecione Implementar. Aguarde até que a implantação seja concluída e você seja redirecionado para a página de pontos de extremidade sem servidor.

  10. Selecione o ponto de extremidade para abrir a página Detalhes.

  11. Selecione a guia Teste para começar a interagir com o modelo.

  12. Você também pode anotar a URL de destino e a chave secreta para chamar a implantação e gerar conclusão.

  13. Você sempre pode encontrar os detalhes, a URL e as chaves de acesso do ponto de extremidade navegando até Pontos de extremidade sem servidor de pontos de extremidade de espaço de trabalho>>.

Para saber mais sobre o faturamento de modelos Meta Llama implantados como uma API sem servidor, consulte Considerações de custo e cota para modelos Meta Llama implantados como uma API sem servidor.

Consuma modelos Meta Llama como um serviço

Os modelos implantados como um serviço podem ser consumidos usando o chat ou a API de conclusão, dependendo do tipo de modelo implantado.

  1. No espaço de trabalho, selecione Pontos de extremidade> sem servidor.

  2. Localize e selecione a implantação que Meta-Llama-3.1-405B-Instruct você criou.

  3. Copie a URL de destino e os valores do token de chave .

  4. Faça uma solicitação de API com base no tipo de modelo implantado.

    Para obter mais informações sobre como usar as APIs, consulte a seção de referência .

Referência para modelos Meta Llama 3.1 implantados uma API sem servidor

Os modelos Llama aceitam a API de Inferência de Modelo de IA do Azure na rota ou uma API de Chat Llama na /v1/chat/completions./chat/completions Da mesma forma, as completações de texto podem ser geradas usando a API de Inferência de Modelo de IA do Azure na rota ou uma API de Conclusão de Llama na rota /completions/v1/completions

O esquema da API de Inferência de Modelo do Azure AI está disponível no artigo Referência à conclusão de chats e é possível obter uma especificação da OpenAPI a partir do próprio ponto final.

API de conclusão

Use o método POST para enviar a solicitação para a /v1/completions rota:

Pedir

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Esquema de solicitação

Payload é uma cadeia de caracteres formatada JSON que contém os seguintes parâmetros:

Chave Type Predefinido Description
prompt string Sem predefinição. Este valor deve ser especificado. O prompt para enviar para o modelo.
stream boolean False O streaming permite que os tokens gerados sejam enviados como eventos enviados apenas pelo servidor de dados sempre que estiverem disponíveis.
max_tokens integer 16 O número máximo de tokens a serem gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo.
top_p float 1 Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente recomendamos alterar top_p ou temperature, mas não ambos.
temperature float 1 A temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos significam que o modelo mostra de forma mais ampla a distribuição de tokens. Zero significa amostragem gananciosa. Recomendamos alterar este ou top_p, mas não ambos.
n integer 1 Quantas finalizações gerar para cada prompt.
Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token.
stop array null String ou uma lista de strings contendo a palavra onde a API para de gerar outros tokens. O texto retornado não conterá a sequência de parada.
best_of integer 1 Gera best_of finalizações do lado do servidor e retorna o "melhor" (aquele com a menor probabilidade de log por token). Os resultados não podem ser transmitidos. Quando usado com no , best_of controla o número de candidatos concluídos e n especifica quantos devem retornar — best_of deve ser maior que n.
Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token.
logprobs integer null Um número que indica incluir as probabilidades de log nos logprobs tokens mais prováveis e nos tokens escolhidos. Por exemplo, se logprobs for 10, a API retorna uma lista dos 10 tokens mais prováveis. a API sempre retorna o logprob do token amostrado, portanto, pode haver até logprobs+1 elementos na resposta.
presence_penalty float null Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos.
ignore_eos boolean True Se o token EOS deve ser ignorado e continuar gerando tokens depois que o token EOS for gerado.
use_beam_search boolean False Se deve usar a pesquisa de feixe em vez de amostragem. Nesse caso, best_of deve ser maior do que 1 e temperature deve ser 0.
stop_token_ids array null Lista de IDs para tokens que, quando gerados, interrompem a geração de tokens. A saída retornada contém os tokens stop, a menos que os tokens stop sejam tokens especiais.
skip_special_tokens boolean null Se deve ignorar tokens especiais na saída.

Exemplo

Corpo

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512,
}

Esquema de resposta

A carga útil de resposta é um dicionário com os seguintes campos.

Chave Tipo Description
id string Um identificador exclusivo para a conclusão.
choices array A lista de opções de conclusão que o modelo gerou para o prompt de entrada.
created integer O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada.
model string O model_id usado para conclusão.
object string O tipo de objeto, que é sempre text_completion.
usage object Estatísticas de utilização do pedido de conclusão.

Gorjeta

No modo de streaming, para cada parte da resposta, finish_reason é sempre null, exceto a última que é encerrada por uma carga [DONE]útil.

O choices objeto é um dicionário com os seguintes campos.

Chave Tipo Description
index integer Índice de escolha. Quando best_of> 1, o índice nessa matriz pode não estar em ordem e pode não ser de 0 a n-1.
text string Resultado da conclusão.
finish_reason string A razão pela qual o modelo parou de gerar tokens:
- stop: o modelo atingiu um ponto de paragem natural ou uma sequência de paragem fornecida.
- length: se o número máximo de tokens tiver sido atingido.
- content_filter: Quando a RAI modera e a CMP força a moderação.
- content_filter_error: um erro durante a moderação e não foi capaz de tomar uma decisão sobre a resposta.
- null: Resposta da API ainda em andamento ou incompleta.
logprobs object As probabilidades de log dos tokens gerados no texto de saída.

O usage objeto é um dicionário com os seguintes campos.

Chave Type valor
prompt_tokens integer Número de tokens no prompt.
completion_tokens integer Número de tokens gerados na conclusão.
total_tokens integer Total de tokens.

O logprobs objeto é um dicionário com os seguintes campos:

Chave Type valor
text_offsets array de integers A posição ou índice de cada token na saída de conclusão.
token_logprobs array de float Selecionado logprobs do dicionário na top_logprobs matriz.
tokens array de string Tokens selecionados.
top_logprobs array de dictionary Matriz de dicionário. Em cada dicionário, a chave é o token e o valor é o prob.

Exemplo

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

API de bate-papo

Use o método POST para enviar a solicitação para a /v1/chat/completions rota:

Pedir

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Esquema de solicitação

Payload é uma cadeia de caracteres formatada JSON que contém os seguintes parâmetros:

Chave Type Predefinido Description
messages string Sem predefinição. Este valor deve ser especificado. A mensagem ou o histórico de mensagens a serem usadas para solicitar o modelo.
stream boolean False O streaming permite que os tokens gerados sejam enviados como eventos enviados apenas pelo servidor de dados sempre que estiverem disponíveis.
max_tokens integer 16 O número máximo de tokens a serem gerados na conclusão. A contagem de tokens do prompt plus max_tokens não pode exceder o comprimento de contexto do modelo.
top_p float 1 Uma alternativa à amostragem com temperatura, chamada amostragem de núcleo, onde o modelo considera os resultados dos tokens com top_p massa de probabilidade. Assim, 0,1 significa que apenas os tokens que compõem a massa de probabilidade superior de 10% são considerados. Geralmente recomendamos alterar top_p ou temperature, mas não ambos.
temperature float 1 A temperatura de amostragem a utilizar, entre 0 e 2. Valores mais altos significam que o modelo mostra de forma mais ampla a distribuição de tokens. Zero significa amostragem gananciosa. Recomendamos alterar este ou top_p, mas não ambos.
n integer 1 Quantas finalizações gerar para cada prompt.
Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token.
stop array null String ou uma lista de strings contendo a palavra onde a API para de gerar outros tokens. O texto retornado não conterá a sequência de parada.
best_of integer 1 Gera best_of finalizações do lado do servidor e retorna o "melhor" (aquele com a menor probabilidade de log por token). Os resultados não podem ser transmitidos. Quando usado com no , best_of controla o número de candidatos concluídos e n especifica quantos devem retornar —best_of deve ser maior que n.
Nota: Como esse parâmetro gera muitas conclusões, ele pode consumir rapidamente sua cota de token.
logprobs integer null Um número que indica incluir as probabilidades de log nos logprobs tokens mais prováveis e nos tokens escolhidos. Por exemplo, se logprobs for 10, a API retorna uma lista dos 10 tokens mais prováveis. a API sempre retornará o logprob do token amostrado, portanto, pode haver até logprobs+1 elementos na resposta.
presence_penalty float null Número entre -2,0 e 2,0. Valores positivos penalizam novos tokens com base em se eles aparecem no texto até agora, aumentando a probabilidade do modelo falar sobre novos tópicos.
ignore_eos boolean True Se o token EOS deve ser ignorado e continuar gerando tokens depois que o token EOS for gerado.
use_beam_search boolean False Se deve usar a pesquisa de feixe em vez de amostragem. Nesse caso, best_of deve ser maior do que 1 e temperature deve ser 0.
stop_token_ids array null Lista de IDs para tokens que, quando gerados, interrompem a geração de tokens. A saída retornada contém os tokens stop, a menos que os tokens stop sejam tokens especiais.
skip_special_tokens boolean null Se deve ignorar tokens especiais na saída.

O messages objeto tem os seguintes campos:

Chave Type valor
content string O conteúdo da mensagem. O conteúdo é necessário para todas as mensagens.
role string O papel do autor da mensagem. Um de system, userou assistant.

Exemplo

Corpo

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Esquema de resposta

A carga útil de resposta é um dicionário com os seguintes campos.

Chave Tipo Description
id string Um identificador exclusivo para a conclusão.
choices array A lista de opções de conclusão que o modelo gerou para as mensagens de entrada.
created integer O carimbo de data/hora Unix (em segundos) de quando a conclusão foi criada.
model string O model_id usado para conclusão.
object string O tipo de objeto, que é sempre chat.completion.
usage object Estatísticas de utilização do pedido de conclusão.

Gorjeta

No modo de streaming, para cada parte da resposta, finish_reason é sempre null, exceto a última que é encerrada por uma carga [DONE]útil. Em cada choices objeto, a chave para messages é alterada por delta.

O choices objeto é um dicionário com os seguintes campos.

Chave Tipo Description
index integer Índice de escolha. Quando best_of> 1, o índice nessa matriz pode não estar em ordem e pode não estar 0 em n-1.
messages ou delta string Resultado da conclusão do bate-papo no messages objeto. Quando o modo de streaming é usado, delta a chave é usada.
finish_reason string A razão pela qual o modelo parou de gerar tokens:
- stop: o modelo atingiu um ponto de paragem natural ou uma sequência de paragem fornecida.
- length: se o número máximo de tokens tiver sido atingido.
- content_filter: Quando a RAI modera e a CMP força a moderação
- content_filter_error: um erro durante a moderação e não foi capaz de tomar uma decisão sobre a resposta
- null: Resposta da API ainda em andamento ou incompleta.
logprobs object As probabilidades de log dos tokens gerados no texto de saída.

O usage objeto é um dicionário com os seguintes campos.

Chave Type valor
prompt_tokens integer Número de tokens no prompt.
completion_tokens integer Número de tokens gerados na conclusão.
total_tokens integer Total de tokens.

O logprobs objeto é um dicionário com os seguintes campos:

Chave Type valor
text_offsets array de integers A posição ou índice de cada token na saída de conclusão.
token_logprobs array de float Selecionado logprobs do dicionário na top_logprobs matriz.
tokens array de string Tokens selecionados.
top_logprobs array de dictionary Matriz de dicionário. Em cada dicionário, a chave é o token e o valor é o prob.

Exemplo

Segue-se um exemplo de resposta:

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Implementar modelos Meta Llama na computação gerida

Além de implantar com o serviço gerenciado pré-pago, você também pode implantar modelos Meta Llama 3.1 para computação gerenciada no estúdio de Aprendizado de Máquina do Azure. Quando implementados na computação gerida, pode selecionar todos os detalhes sobre a infraestrutura que executa os modelos, incluindo as máquinas virtuais a serem usadas e o número de instâncias para lidar com a carga esperada. Os modelos implementados na computação gerida consomem quota da sua subscrição. Os seguintes modelos da onda de lançamento 3.1 estão disponíveis na computação gerenciada:

  • Meta-Llama-3.1-8B-Instruct (FT suportado)
  • Meta-Llama-3.1-70B-Instruct (FT suportado)
  • Meta-Llama-3.1-8B (FT suportado)
  • Meta-Llama-3.1-70B (FT suportado)
  • Llama Guard 3 8B
  • Prompt Guard

Criar uma nova implantação

Siga estas etapas para implantar um modelo como Meta-Llama-3.1-70B-Instruct em uma computação gerenciada no estúdio do Azure Machine Learning.

  1. Selecione o espaço de trabalho no qual você deseja implantar o modelo.

  2. Escolha o modelo que você deseja implantar no catálogo de modelos do estúdio.

    Como alternativa, você pode iniciar a implantação acessando seu espaço de trabalho e selecionando Endpoints>Managed Comput>Create.

  3. Na página de visão geral do modelo, selecione Implantar e, em seguida , Computação gerenciada sem a Segurança de Conteúdo do Azure AI.

  4. Na página Implantar com a Segurança de Conteúdo do Azure AI (visualização), selecione Ignorar Segurança de Conteúdo do Azure AI para que você possa continuar a implantar o modelo usando a interface do usuário.

    Gorjeta

    Em geral, recomendamos que você selecione Habilitar Segurança de Conteúdo do Azure AI (Recomendado) para implantação do modelo Meta Llama. Atualmente, essa opção de implantação só é suportada usando o SDK do Python e acontece em um bloco de anotações.

  5. Selecione Continuar.

    Gorjeta

    Se você não tiver cota suficiente disponível no projeto selecionado, poderá usar a opção Quero usar a cota compartilhada e reconheço que esse ponto de extremidade será excluído em 168 horas.

  6. Selecione a máquina virtual e a contagem de instâncias que você deseja atribuir à implantação.

  7. Selecione se deseja criar essa implantação como parte de um novo ponto de extremidade ou de um existente. Os endpoints podem hospedar várias implantações, mantendo a configuração de recursos exclusiva para cada uma delas. As implantações sob o mesmo ponto de extremidade compartilham o URI do ponto de extremidade e suas chaves de acesso.

  8. Indique se deseja habilitar a coleta de dados de inferência (visualização).

  9. Indique se deseja habilitar o Modelo de Pacote (visualização).

  10. Selecione Implementar. Depois de alguns momentos, a página Detalhes do ponto de extremidade é aberta.

  11. Aguarde até que a criação e a implantação do ponto de extremidade sejam concluídas. Este passo pode demorar alguns minutos.

  12. Selecione a página Consumir do ponto de extremidade para obter exemplos de código que você pode usar para consumir o modelo implantado em seu aplicativo.

Para obter mais informações sobre como implantar modelos para computação gerenciada usando o estúdio, consulte Implantando modelos de base em pontos de extremidade para inferência.

Consumir modelos Meta Llama implementados na computação gerida

Para obter referência sobre como invocar modelos Meta Llama 3 implantados para computação gerenciada, consulte o cartão do modelo no catálogo de modelos do estúdio do Azure Machine Learning. O cartão de cada modelo tem uma página de visão geral que inclui uma descrição do modelo, exemplos para inferência baseada em código, ajuste fino e avaliação do modelo.

Exemplos adicionais de inferência

Pacote Bloco de notas de exemplo
CLI usando solicitações da Web CURL e Python webrequests.ipynb
OpenAI SDK (experimental) openaisdk.ipynb
LangChain langchain.ipynb
LiteLLM SDK litellm.ipynb

Custo e quotas

Considerações sobre custo e cota para modelos Meta Llama 3.1 implantados como uma API sem servidor

Os modelos Meta Llama 3.1 implantados como uma API sem servidor são oferecidos pela Meta por meio do Azure Marketplace e integrados ao estúdio Azure Machine Learning para uso. Pode obter os preços do Azure Marketplace quando implementar ou otimizar os modelos.

Sempre que uma área de trabalho subscreve uma determinada oferta de modelo do Azure Marketplace, é criado um novo recurso para controlar os custos associados ao seu consumo. O mesmo recurso é usado para monitorizar os custos associados à inferência e à otimização; no entanto, estão disponíveis vários medidores para monitorizar cada cenário de forma independente.

Para obter mais informações sobre como controlar os custos, consulte Monitorizar custos dos modelos oferecidos através do Azure Marketplace.

Uma captura de tela mostrando diferentes recursos correspondentes a diferentes ofertas de modelos e seus medidores associados.

A quota é gerida por implementação. Cada implantação tem um limite de taxa de 400.000 tokens por minuto e 1.000 solicitações de API por minuto. No entanto, atualmente, limitamos uma implementação por modelo por projeto. Contacte o Suporte do Microsoft Azure se os limites de taxa atuais não forem suficientes para os seus cenários.

Considerações sobre custo e cota para modelos Meta Llama 3.1 implantados computação gerenciada

Para implantação e inferência de modelos Meta Llama 3.1 com computação gerenciada, você consome a cota principal da máquina virtual (VM) atribuída à sua assinatura por região. Ao inscrever-se no Estúdio de IA do Azure, recebe uma quota de VM predefinida para várias famílias de VMs disponíveis na região. Pode continuar a criar implementações até atingir o seu limite de quota. Uma vez atingido este limite, pode solicitar um aumento de quota.

Filtragem de conteúdos

Os modelos implantados como uma API sem servidor são protegidos pela segurança de conteúdo da IA do Azure. Quando implantado na computação gerenciada, você pode desativar esse recurso. Com a segurança de conteúdo de IA do Azure habilitada, tanto o prompt quanto a conclusão passam por um conjunto de modelos de classificação destinados a detetar e prevenir a saída de conteúdo nocivo. O sistema de filtragem de conteúdo deteta e age em categorias específicas de conteúdo potencialmente nocivo em prompts de entrada e finalizações de saída. Saiba mais sobre a Segurança de Conteúdo do Azure AI.