Usando modelos de linguagem

Concluído

Organizações e desenvolvedores podem treinar seus próprios modelos de linguagem do zero, mas, na maioria dos casos, é mais prático usar um modelo de base existente e, opcionalmente, ajustá-lo com seus próprios dados de treinamento. Há muitas fontes de modelo que você pode usar.

No Microsoft Azure, você pode encontrar modelos de base no serviço OpenAI do Azure e no Catálogo de Modelos. O Catálogo de Modelos é uma fonte de modelos para cientistas e desenvolvedores de dados usando o Estúdio de IA do Azure e o Azure Machine Learning. Isso oferece o benefício de modelos de linguagem de ponta, como a coleção de modelos GPT (transformador generativo pré-treinado) (na qual o ChatGPT e os próprios serviços de IA generativa da Microsoft são baseados), bem como o modelo DALL-E para geração de imagem. Usar esses modelos do serviço OpenAI do Azure significa que você também obtém o benefício de uma plataforma de nuvem segura e escalonável do Azure na qual os modelos estão hospedados.

Além dos modelos do OpenAI do Azure, o catálogo de modelos inclui os modelos de software livre mais recentes da Microsoft e de vários parceiros, incluindo:

  • OpenAI
  • HuggingFace
  • Mistral
  • Meta e outros.

Alguns dos modelos comuns do OpenAI do Azure são:

  • GPT-3.5-Turbo, GPT-4 e GPT-4o: Modelos de linguagem de entrada e mensagem.
  • GPT-4 Turbo with Vision: Um modelo de linguagem desenvolvido pelo OpenAI que pode analisar imagens e fornecer respostas textuais a perguntas sobre elas. Ele incorpora o processamento de linguagem natural e a compreensão visual.
  • DALL-E: Um modelo de linguagem que gera imagens originais, variações de imagens e pode editar imagens.

Modelos de linguagem grandes e pequenos

Há muitos modelos de linguagem disponíveis que você pode usar para alimentar aplicativos de IA generativa. Em geral, os modelos de linguagem podem ser considerados em dois categorizados: Modelos de linguagem grandes (LLMs) e modelos de linguagem pequenos (SLMs).

LLMs (modelos de linguagem grandes) Modelos de linguagem pequenos (SLMs)
As LLMs são treinadas com grandes quantidades de texto que representam uma ampla gama de assuntos gerais, normalmente fornecendo dados da Internet e de outras publicações disponíveis em geral. Os SLMs são treinados com conjuntos de dados menores e mais focados no assunto
Quando treinados, as LLMs têm muitos bilhões (até trilhões) de parâmetros (pesos que podem ser aplicados a inserções de vetor para calcular sequências de token previstas). Normalmente, têm menos parâmetros do que LLMs.
Capaz de exibir recursos abrangentes de geração de linguagem em uma ampla gama de contextos de conversação. Esse vocabulário focado os torna muito eficazes em tópicos de conversa específicos, mas menos eficazes na geração de linguagem mais geral.
Seu tamanho grande pode afetar seu desempenho e torná-los difíceis de implantar localmente em dispositivos e computadores. O tamanho menor de SLMs pode fornecer mais opções para implantação, incluindo implantação local em dispositivos e computadores locais; e os torna mais rápidos e fáceis de ajustar.
Ajustar o modelo com dados adicionais para personalizar sua experiência no assunto pode ser demorado e caro em termos do poder de computação necessário para executar o treinamento adicional. O ajuste fino pode ser menos demorado e caro.