Ler em inglês

Partilhar via


Introdução à personalização de um modelo de linguagem grande (LLM)

Existem várias técnicas para adaptar um modelo de linguagem pré-treinado para se adequar a uma tarefa ou domínio específico. Estes incluem engenharia imediata, RAG (Retrieval Augmented Generation) e ajuste fino. Estas três técnicas não se excluem mutuamente, mas são métodos complementares que, em combinação, podem ser aplicáveis a um caso de uso específico. Neste artigo, exploraremos essas técnicas, casos de uso ilustrativos, coisas a considerar e forneceremos links para recursos para aprender mais e começar com cada uma delas.

Engenharia de pedidos

Definição

A engenharia imediata é uma técnica que é arte e ciência, que envolve a criação de prompts para modelos generativos de IA. Este processo utiliza a aprendizagem em contexto (zero shot e few shot) e, com iteração, melhora a precisão e relevância nas respostas, otimizando o desempenho do modelo.

Casos de uso ilustrativos

Um gerente de marketing em uma empresa ambientalmente consciente pode usar engenharia imediata para ajudar a orientar o modelo para gerar descrições mais alinhadas com o tom e estilo de sua marca. Por exemplo, eles podem adicionar um aviso como "Escreva uma descrição do produto para uma nova linha de produtos de limpeza ecológicos que enfatiza a qualidade, a eficácia e destaca o uso de ingredientes ecológicos" ao insumo. Isso ajudará o modelo a gerar descrições alinhadas com os valores e mensagens da marca.

Aspectos a considerar

  • A engenharia imediata é o ponto de partida para gerar a saída desejada a partir de modelos de IA generativos.

  • Crie instruções claras: as instruções são comumente usadas em prompts e orientam o comportamento do modelo. Seja específico e deixe o menor espaço possível para interpretação. Use analogias e linguagem descritiva para ajudar o modelo a entender o resultado desejado.

  • Experimentar e iterar: A engenharia imediata é uma arte que requer experimentação e iteração. Pratique e ganhe experiência na elaboração de prompts para diferentes tarefas. Cada modelo pode se comportar de forma diferente, por isso é importante adaptar as técnicas de engenharia de acordo com isso.

Introdução

RAG (Geração Aumentada de Recuperação)

Definição

RAG (Retrieval Augmented Generation) é um método que integra dados externos em um prompt de modelo de linguagem grande para gerar respostas relevantes. Esta abordagem é particularmente benéfica quando se utiliza um grande corpus de texto não estruturado baseado em diferentes tópicos. Permite que as respostas sejam fundamentadas na base de conhecimento (KB) da organização, proporcionando uma resposta mais personalizada e precisa.

O RAG também é vantajoso ao responder a perguntas com base em dados privados de uma organização ou quando os dados públicos nos quais o modelo foi treinado podem ter ficado desatualizados. Isso ajuda a garantir que as respostas estejam sempre atualizadas e relevantes, independentemente das alterações no cenário de dados.

Caso de uso ilustrativo

Um departamento de RH corporativo está procurando fornecer um assistente inteligente que responda a perguntas específicas relacionadas ao seguro de saúde dos funcionários, como "os óculos estão cobertos?" A RAG é usada para ingerir os extensos e numerosos documentos associados às apólices de planos de seguro para permitir a resposta a esses tipos específicos de perguntas.

Aspectos a considerar

  • O RAG ajuda a fundamentar a produção de IA em dados do mundo real e reduz a probabilidade de fabricação.

  • O RAG é útil quando há necessidade de responder a perguntas com base em dados proprietários privados.

  • O RAG é útil quando você deseja que perguntas sejam respondidas que são recentes (por exemplo, antes da data de corte de quando a versão do modelo foi treinada pela última vez).

Introdução

Ajuste

Definição

O ajuste fino, especificamente o ajuste fino supervisionado neste contexto, é um processo iterativo que adapta um modelo de linguagem grande existente a um conjunto de treinamento fornecido, a fim de melhorar o desempenho, ensinar novas habilidades ao modelo ou reduzir a latência. Essa abordagem é usada quando o modelo precisa aprender e generalizar sobre tópicos específicos, particularmente quando esses tópicos são geralmente de pequeno escopo.

O ajuste fino requer o uso de dados de treinamento de alta qualidade, em um formato especial baseado em exemplos, para criar o novo modelo de linguagem grande ajustado. Ao se concentrar em tópicos específicos, o ajuste fino permite que o modelo forneça respostas mais precisas e relevantes dentro dessas áreas de foco.

Caso de uso ilustrativo

Um departamento de TI tem usado GPT-4o para converter consultas de linguagem natural para SQL, mas eles descobriram que as respostas nem sempre são fundamentadas de forma confiável em seu esquema e o custo é proibitivamente alto.

Eles ajustam o GPT-4o mini com centenas de solicitações e respostas corretas e produzem um modelo que funciona melhor do que o modelo base com custos e latência mais baixos.

Aspectos a considerar

  • O ajuste fino é uma capacidade avançada; melhora o LLM com conhecimento pós-corte e/ou conhecimento específico do domínio. Comece por avaliar o desempenho de base de um modelo padrão em relação aos seus requisitos antes de considerar esta opção.

  • Ter uma linha de base para o desempenho sem ajuste fino é essencial para saber se o ajuste fino melhorou o desempenho do modelo. O ajuste fino com dados incorretos piora o modelo base, mas sem uma linha de base, é difícil detetar regressões.

  • Bons casos para ajuste fino incluem direcionar o modelo para conteúdo de saída em um estilo, tom ou formato específico e personalizado, ou tarefas em que as informações necessárias para orientar o modelo são muito longas ou complexas para caber na janela de prompt.

  • Custos de regularização:

    • O ajuste fino pode reduzir os custos em duas dimensões: (1) usando menos tokens dependendo da tarefa (2) usando um modelo menor (por exemplo, GPT-4o mini pode potencialmente ser ajustado para alcançar a mesma qualidade de GPT-4o em uma tarefa específica).

    • O ajuste fino tem custos iniciais para treinar o modelo. E custos horários adicionais para hospedar o modelo personalizado depois de implantado.

Introdução