Compartilhar via


Ferramenta Open Model LLM

A ferramenta LLM de Modelo Aberto permite a utilização de vários Modelos Abertos e Fundamentais, como Falcon e Llama 2, para processamento de linguagem natural no fluxo de prompt do Azure Machine Learning.

Cuidado

Aviso de substituição: a ferramenta LLM de Modelo Aberto foi preterida em favor da ferramenta LLM, que fornece suporte para todos os modelos compatíveis com a API de inferência de modelo de IA do Azure e, portanto, oferece maior flexibilidade.

Veja abaixo ela em ação na extensão do prompt flow do Visual Studio Code. Neste exemplo, a ferramenta está sendo usada para chamar um ponto de extremidade do LlaMa-2 chat e perguntar "O que é CI?".

Captura de tela que mostra a ferramenta Open Model LLM na extensão de fluxo de prompt do Visual Studio Code.

Essa ferramenta de fluxo de prompt oferece suporte a dois tipos diferentes de API LLM:

  • Chat: mostrado no exemplo anterior. O tipo de API de chat facilita conversas interativas com entradas e respostas baseadas em texto.
  • Conclusão: o tipo de API de Conclusão é usado para gerar conclusões de texto de resposta única com base na entrada de prompt fornecida.

Visão geral: Como faço para usar a ferramenta Open Model LLM?

  1. Escolha um modelo no Catálogo de Modelos do Azure Machine Learning e implante-o.
  2. Conecte-se à implantação do modelo.
  3. Defina as configurações da ferramenta llm de modelo aberto.
  4. Prepare o prompt.
  5. Execute o fluxo.

Pré-requisitos: implantação de modelo

  • Escolha o modelo que correspondeu ao seu cenário no catálogo de modelos do Azure Machine Learning.
  • Use o botão Implantar para implantar o modelo em um ponto de extremidade de inferência online do Azure Machine Learning.
    • Use uma das opções de implantação de pagamento conforme o uso.

Para saber mais, consulte Implantar modelos de base em pontos de extremidade para inferência.

Pré-requisitos: conectar-se ao modelo

Para que o fluxo de prompt use seu modelo implantado, você precisa se conectar a ele. Existem duas maneiras de se conectar.

Conexões de ponto de extremidade

Depois que o fluxo estiver associado a um workspace do Azure Machine Learning ou do Azure AI Studio, a ferramenta Open Model LLM poderá usar os pontos de extremidade nesse workspace.

  • Usando workspaces do Azure Machine Learning ou do Azure AI Studio: se você estiver usando o fluxo de prompt em um dos workspaces de navegadores baseados em página da Web, os pontos de extremidade online disponíveis nesse workspace serão ativados automaticamente.

  • Usando o VS Code ou o código primeiro: se você estiver usando o fluxo de prompt no VS Code ou em uma das ofertas do Code First, precisará se conectar ao workspace. A ferramenta Open Model LLM usa o cliente azure.identity DefaultAzureCredential para autorização. Uma maneira é definir valores de credenciais de ambiente.

Conexões personalizadas

A ferramenta LLM de modelo aberto usa o CustomConnection. O fluxo de prompt dá suporte a dois tipos de conexões:

  • Conexões de workspace – conexões armazenadas como segredos em um workspace do Azure Machine Learning. Embora essas conexões possam ser usadas, em muitos lugares, elas são comumente criadas e mantidas na interface do usuário do Studio. Para saber como criar uma conexão personalizada na interface do usuário do Studio, confira como criar uma conexão personalizada.

  • Conexões locais - Conexões armazenadas localmente em sua máquina. Essas conexões não estão disponíveis no Studio UX, mas podem ser usadas com a extensão VS Code. Para saber como criar uma Conexão Personalizada local, confira como criar uma conexão local.

As teclas necessárias para definir são:

  • endpoint_url
    • Esse valor pode ser encontrado no ponto de extremidade de inferência criado anteriormente.
  • endpoint_api_key
    • Certifique-se de defini-lo como um valor secreto.
    • Esse valor pode ser encontrado no ponto de extremidade de inferência criado anteriormente.
  • model_family
    • Valores com suporte: LLAMA, DOLLY, GPT2 ou FALCON
    • Esse valor depende do tipo de implantação que você está direcionando.

Executando a ferramenta: Entradas

A ferramenta Open Model LLM tem muitos parâmetros, alguns dos quais são obrigatórios. Consulte a tabela a seguir para obter detalhes, você pode corresponder esses parâmetros à captura de tela anterior para maior clareza visual.

Nome Tipo Descrição Obrigatório
api string O modo de API que depende do modelo usado e do cenário selecionado. Valores com suporte: (Conclusão | Chat) Sim
endpoint_name string Nome de um ponto de extremidade de inferência on-line com um modelo com suporte implantado nele. Tem prioridade sobre a conexão. Sim
temperatura FLOAT A aleatoriedade do texto gerado. O padrão é UTF-1. Não
max_new_tokens Número inteiro O número máximo de tokens a serem gerados na conclusão. O padrão é 500. Não
top_p FLOAT A probabilidade de usar a melhor opção dos tokens gerados. O padrão é UTF-1. Não
model_kwargs dicionário Essa entrada é usada para fornecer uma configuração específica ao modelo usado. Por exemplo, o modelo Llama-02 pode usar {"temperature":0.4}. Padrão: {} Não
deployment_name string O nome da implantação a ser direcionada no ponto de extremidade de Inferência Online. Se nenhum valor for passado, as configurações de tráfego do balanceador de carga de inferência serão usadas. Não
prompt string O prompt de texto que o modelo de linguagem usa para gerar sua resposta. Sim

Saídas

API Tipo de retorno Descrição
Completion string O texto de uma conclusão prevista
Chat string O texto de uma resposta na conversa

Implantando em um ponto de extremidade online

Quando você implanta um fluxo que contém a ferramenta Open Model LLM em um ponto de extremidade online, há uma etapa extra para configurar permissões. Durante a implantação por meio das páginas da Web, há uma escolha entre os tipos de identidade atribuídos pelo sistema e atribuídos pelo usuário. De qualquer forma, usando o portal do Azure (ou uma funcionalidade semelhante), adicione a função de função Trabalho "Leitor" à identidade no workspace do Azure Machine Learning ou no projeto do Ai Studio, que está hospedando o ponto de extremidade. A implantação do fluxo de prompt pode precisar ser atualizada.