Använda språkmodeller
Organisationer och utvecklare kan träna sina egna språkmodeller från grunden, men i de flesta fall är det mer praktiskt att använda en befintlig grundmodell och eventuellt finjustera den med dina egna träningsdata. Det finns många modellkällor som du kan använda.
I Microsoft Azure hittar du grundmodeller i Azure OpenAI-tjänsten och i modellkatalogen. Modellkatalogen är en kuraterad modellkälla för dataforskare och utvecklare som använder Azure AI Studio och Azure Machine Learning. Detta ger fördelen med banbrytande språkmodeller som gpt-samlingen (generative pre-trained transformer) modeller (som ChatGPT och Microsofts egna generativa AI-tjänster baseras på) samt DALL-E-modellen för bildgenerering. Att använda dessa modeller från Azure OpenAI-tjänsten innebär att du också får fördelen av en säker, skalbar Azure-molnplattform där modellerna finns.
Förutom Azure OpenAI-modellerna innehåller modellkatalogen de senaste modellerna med öppen källkod från Microsoft och flera partner, inklusive:
- OpenAI
- HuggingFace
- Mistral
- Meta och andra.
Stora och små språkmodeller
Det finns många tillgängliga språkmodeller som du kan använda för att driva generativa AI-program. I allmänhet kan språkmodeller beaktas i två kategoriser: Stora språkmodeller (LLM) och små språkmodeller (SLM).
Stora språkmodeller (LLM: er) | Små språkmodeller (SLA) |
---|---|
LLM:er tränas med stora mängder text som representerar ett brett spektrum av allmänna ämnen – vanligtvis genom att hämta data från Internet och andra allmänt tillgängliga publikationer. | SLA tränas med mindre, mer ämnesfokuserade datamängder |
När de tränas har LLM:er många miljarder (till och med biljoner) parametrar (vikter som kan tillämpas på vektorbäddningar för att beräkna förutsagda tokensekvenser). | Har vanligtvis färre parametrar än LLM:er. |
Kunna uppvisa omfattande språkgenereringsfunktioner i en mängd olika konversationskontexter. | Detta fokuserade ordförråd gör dem mycket effektiva i specifika konversationsämnen, men mindre effektiva vid mer allmän språkgenerering. |
Deras stora storlek kan påverka deras prestanda och göra dem svåra att distribuera lokalt på enheter och datorer. | Den mindre storleken på SLA:er kan ge fler alternativ för distribution, inklusive lokal distribution till enheter och lokala datorer. och gör dem snabbare och enklare att finjustera. |
Att finjustera modellen med ytterligare data för att anpassa ämnesexpertisen kan vara tidskrävande och dyrt när det gäller den beräkningskraft som krävs för att utföra den ytterligare utbildningen. | Finjustering kan potentiellt vara mindre tidskrävande och dyrt. |