Ferramenta Open Model LLM

Artigo
09/01/2024

A ferramenta Open Model LLM permite a utilização de vários Open Model e Foundational Models, como Falcon e Llama 2, para processamento de linguagem natural no fluxo de prompt do Azure Machine Learning.

Atenção

Aviso de descontinuação: A ferramenta Open Model LLM foi preterida em favor da ferramenta LLM, que fornece suporte para todos os modelos suportados pela API de inferência de modelo de IA do Azure e, portanto, oferece maior flexibilidade.

Veja como ele aparece em ação na extensão de fluxo de prompt do Visual Studio Code. Neste exemplo, a ferramenta está sendo usada para chamar um ponto de extremidade de bate-papo LlaMa-2 e perguntar "O que é IC?".

Esta ferramenta de fluxo de prompt suporta dois tipos diferentes de API LLM:

Chat: Mostrado no exemplo anterior. O tipo de API de chat facilita conversas interativas com entradas e respostas baseadas em texto.
Conclusão: O tipo de API de conclusão é usado para gerar preenchimentos de texto de resposta única com base na entrada de prompt fornecida.

Visão geral rápida: Como uso a ferramenta Open Model LLM?

Escolha um modelo do Catálogo de Modelos do Azure Machine Learning e implante-o.
Conecte-se à implantação do modelo.
Configure as configurações da ferramenta open model llm.
Prepare o prompt.
Executar o fluxo.

Pré-requisitos: Implantação do modelo

Escolha o modelo que correspondeu ao seu cenário no catálogo de modelos do Azure Machine Learning.
Use o botão Implantar para implantar o modelo em um ponto de extremidade de inferência online do Azure Machine Learning.
- Use uma das opções de implantação Pay as you go.

Para saber mais, consulte Implantar modelos de base em pontos de extremidade para inferência.

Pré-requisitos: Conectar-se ao modelo

Para que o fluxo de prompt use seu modelo implantado, você precisa se conectar a ele. Há duas maneiras de se conectar.

Conexões de ponto de extremidade

Depois que seu fluxo estiver associado a um espaço de trabalho do Azure Machine Learning ou do Azure AI Studio, a ferramenta Open Model LLM poderá usar os pontos de extremidade nesse espaço de trabalho.

Usando espaços de trabalho do Azure Machine Learning ou do Azure AI Studio: se você estiver usando o fluxo de prompt em um dos espaços de trabalho de navegadores baseados em página da Web, os pontos de extremidade online disponíveis nesse espaço de trabalho serão criados automaticamente.
Usando o VS Code ou o código primeiro: se você estiver usando o fluxo de prompt no VS Code ou em uma das ofertas do Code First, precisará se conectar ao espaço de trabalho. A ferramenta Open Model LLM usa o cliente azure.identity DefaultAzureCredential para autorização. Uma maneira é definir valores de credenciais de ambiente.

Conexões personalizadas

A ferramenta Open Model LLM usa o CustomConnection. O fluxo de prompt suporta dois tipos de conexões:

Conexões de espaço de trabalho - Conexões armazenadas como segredos em um espaço de trabalho do Azure Machine Learning. Embora essas conexões possam ser usadas, em muitos lugares, elas são normalmente criadas e mantidas na interface do usuário do Studio. Para saber como criar uma conexão personalizada na interface do usuário do Studio, consulte como criar uma conexão personalizada.
Conexões locais - Conexões que são armazenadas localmente em sua máquina. Essas conexões não estão disponíveis na UX do Studio, mas podem ser usadas com a extensão VS Code. Para saber como criar uma Conexão Personalizada local, consulte como criar uma conexão local.

As chaves necessárias para definir são:

endpoint_url
- Esse valor pode ser encontrado no ponto de extremidade de Inferência criado anteriormente.
endpoint_api_key
- Certifique-se de defini-lo como um valor secreto.
- Esse valor pode ser encontrado no ponto de extremidade de Inferência criado anteriormente.
model_family
- Valores suportados: LLAMA, DOLLY, GPT2 ou FALCON
- Esse valor depende do tipo de implantação que você está segmentando.

Executando a ferramenta: Inputs

A ferramenta Open Model LLM tem muitos parâmetros, alguns dos quais são necessários. Consulte a tabela a seguir para obter detalhes, você pode fazer a correspondência desses parâmetros com a captura de tela anterior para clareza visual.

Nome	Tipo	Descrição	Obrigatório
api	string	O modo de API que depende do modelo usado e do cenário selecionado. Valores suportados: (Conclusão \| Bate-papo)	Sim
endpoint_name	string	Nome de um ponto de extremidade de inferência on-line com um modelo suportado implantado nele. Tem prioridade sobre a conexão.	Sim
temperatura	flutuante	A aleatoriedade do texto gerado. A predefinição é 1.	Não
max_new_tokens	integer	O número máximo de tokens a serem gerados na conclusão. O padrão é 500.	Não
top_p	flutuante	A probabilidade de usar a escolha superior dos tokens gerados. A predefinição é 1.	Não
model_kwargs	dicionário	Essa entrada é usada para fornecer uma configuração específica para o modelo usado. Por exemplo, o modelo Llama-02 pode usar {"temperature":0.4}. Padrão: {}	Não
deployment_name	string	O nome da implantação a ser direcionada no ponto de extremidade de Inferência Online. Se nenhum valor for passado, as configurações de tráfego do balanceador de carga de Inferência serão usadas.	Não
Prompt	string	O prompt de texto que o modelo de idioma usa para gerar sua resposta.	Sim

Saídas

API	Tipo de Retorno	Description
Conclusão	string	O texto de uma conclusão prevista
Chat	string	O texto de uma resposta na conversa

Implantando em um endpoint online

Quando você implanta um fluxo que contém a ferramenta Open Model LLM em um ponto de extremidade online, há uma etapa extra para configurar permissões. Durante a implantação através das páginas da Web, há uma escolha entre os tipos de Identidade atribuída pelo Sistema e Identidade atribuída pelo Usuário. De qualquer forma, usando o portal do Azure (ou uma funcionalidade semelhante), adicione a função de função Trabalho "Leitor" à identidade no espaço de trabalho do Azure Machine Learning ou no projeto do Ai Studio, que está hospedando o ponto de extremidade. A implantação do fluxo de prompt pode precisar ser atualizada.

Partilhar via