Använda språkmodeller

Slutförd

Organisationer och utvecklare kan träna sina egna språkmodeller från grunden, men i de flesta fall är det mer praktiskt att använda en befintlig grundmodell och eventuellt finjustera den med dina egna träningsdata. Det finns många modellkällor som du kan använda.

I Microsoft Azure hittar du grundmodeller i Azure OpenAI-tjänsten och i modellkatalogen. Modellkatalogen är en kuraterad modellkälla för dataforskare och utvecklare som använder Azure AI Studio och Azure Machine Learning. Detta ger fördelen med banbrytande språkmodeller som gpt-samlingen (generative pre-trained transformer) modeller (som ChatGPT och Microsofts egna generativa AI-tjänster baseras på) samt DALL-E-modellen för bildgenerering. Att använda dessa modeller från Azure OpenAI-tjänsten innebär att du också får fördelen av en säker, skalbar Azure-molnplattform där modellerna finns.

Förutom Azure OpenAI-modellerna innehåller modellkatalogen de senaste modellerna med öppen källkod från Microsoft och flera partner, inklusive:

  • OpenAI
  • HuggingFace
  • Mistral
  • Meta och andra.

Stora och små språkmodeller

Det finns många tillgängliga språkmodeller som du kan använda för att driva generativa AI-program. I allmänhet kan språkmodeller beaktas i två kategoriser: Stora språkmodeller (LLM) och små språkmodeller (SLM).

Stora språkmodeller (LLM: er) Små språkmodeller (SLA)
LLM:er tränas med stora mängder text som representerar ett brett spektrum av allmänna ämnen – vanligtvis genom att hämta data från Internet och andra allmänt tillgängliga publikationer. SLA tränas med mindre, mer ämnesfokuserade datamängder
När de tränas har LLM:er många miljarder (till och med biljoner) parametrar (vikter som kan tillämpas på vektorbäddningar för att beräkna förutsagda tokensekvenser). Har vanligtvis färre parametrar än LLM:er.
Kunna uppvisa omfattande språkgenereringsfunktioner i en mängd olika konversationskontexter. Detta fokuserade ordförråd gör dem mycket effektiva i specifika konversationsämnen, men mindre effektiva vid mer allmän språkgenerering.
Deras stora storlek kan påverka deras prestanda och göra dem svåra att distribuera lokalt på enheter och datorer. Den mindre storleken på SLA:er kan ge fler alternativ för distribution, inklusive lokal distribution till enheter och lokala datorer. och gör dem snabbare och enklare att finjustera.
Att finjustera modellen med ytterligare data för att anpassa ämnesexpertisen kan vara tidskrävande och dyrt när det gäller den beräkningskraft som krävs för att utföra den ytterligare utbildningen. Finjustering kan potentiellt vara mindre tidskrävande och dyrt.