Delen via


Uw model voor het begrijpen van gesprekstalen trainen

Nadat u klaar bent met het labelen van uw uitingen, kunt u beginnen met het trainen van een model. Training is het proces waarbij het model leert van uw gelabelde uitingen.

Als u een model wilt trainen, start u een trainingstaak. Alleen voltooide taken maken een model. Trainingstaken verlopen na zeven dagen. Na deze tijd kunt u de taakgegevens niet meer ophalen. Als uw trainingstaak is voltooid en er een model is gemaakt, wordt dit niet beïnvloed door het verlopen van de taak. U kunt slechts één trainingstaak tegelijk uitvoeren en u kunt geen andere taken in hetzelfde project starten.

De trainingstijden kunnen een paar seconden duren wanneer u met eenvoudige projecten te maken krijgt, tot een paar uur wanneer u de maximale limiet van utterances bereikt.

Modelevaluatie wordt automatisch geactiveerd nadat de training is voltooid. Het evaluatieproces begint met het getrainde model om voorspellingen uit te voeren op de uitingen in de testset en vergelijkt de voorspelde resultaten met de opgegeven labels (waarmee een basislijn van waarheid wordt vastgesteld).

Vereisten

Trainingsgegevens in balans

U moet proberen uw schema goed in balans te houden als het gaat om trainingsgegevens. Het opnemen van grote hoeveelheden van de ene intentie en zeer weinig van een andere leidt tot een model dat sterk bevooroordeeld is ten opzichte van bepaalde intenties.

Als u dit wilt oplossen, moet u mogelijk uw trainingsset downsampleen of hieraan toevoegen. Downsampling kan worden uitgevoerd door:

  • Een bepaald percentage van de trainingsgegevens willekeurig verwijderen.
  • Op een meer systematische manier door de gegevensset te analyseren en oververtegenwoordigde dubbele vermeldingen te verwijderen.

U kunt ook toevoegen aan de trainingsset door Uitingen voorstellen te selecteren op het tabblad Gegevenslabels in Language Studio. Gespreks-Language Understanding stuurt een aanroep naar Azure OpenAI om vergelijkbare uitingen te genereren.

Een schermopname met een suggestie voor een uiting in Language Studio.

U moet ook zoeken naar onbedoelde 'patronen' in de trainingsset. Als de trainingsset voor een bepaalde intentie bijvoorbeeld uit kleine letters bestaat of begint met een bepaalde woordgroep. In dergelijke gevallen kan het model dat u traint deze onbedoelde vooroordelen in de trainingsset leren in plaats van te generaliseren.

We raden u aan om hoofdletters en interpunctiediversiteit in de trainingsset te introduceren. Als van uw model wordt verwacht dat variaties worden verwerkt, moet u een trainingsset hebben die ook die diversiteit weerspiegelt. Neem bijvoorbeeld enkele utterances op in de juiste hoofdletters en andere in kleine letters.

Gegevens splitsen

Voordat u het trainingsproces start, worden gelabelde utterances in uw project onderverdeeld in een trainingsset en een testset. Elk van hen heeft een andere functie. De trainingsset wordt gebruikt voor het trainen van het model. Dit is de set waaruit het model de gelabelde uitingen leert. De testset is een blinde set die niet wordt geïntroduceerd in het model tijdens de training, maar alleen tijdens de evaluatie.

Nadat het model is getraind, kan het model worden gebruikt om voorspellingen te doen op basis van de uitingen in de testset. Deze voorspellingen worden gebruikt om metrische evaluatiegegevens te berekenen. Het wordt aanbevolen om ervoor te zorgen dat al uw intenties en entiteiten voldoende worden weergegeven in zowel de trainings- als de testset.

Begrip van gesprekstaal ondersteunt twee methoden voor het splitsen van gegevens:

  • De testset automatisch splitsen van trainingsgegevens: het systeem splitst uw getagde gegevens tussen de trainings- en testsets, op basis van de percentages die u kiest. Het aanbevolen percentage splitsing is 80% voor training en 20% voor testen.

Notitie

Als u de optie De testset automatisch splitsen uit trainingsgegevens kiest, worden alleen de gegevens die zijn toegewezen aan de trainingsset gesplitst volgens de opgegeven percentages.

  • Gebruik een handmatige splitsing van training- en testgegevens: met deze methode kunnen gebruikers definiëren welke uitingen tot welke set moeten behoren. Deze stap wordt alleen ingeschakeld als u utterances hebt toegevoegd aan uw testset tijdens het labelen.

Trainingsmodi

CLU ondersteunt twee modi voor het trainen van uw modellen

  • Standaardtraining maakt gebruik van snelle machine learning-algoritmen om uw modellen relatief snel te trainen. Dit is momenteel alleen beschikbaar voor Engels en is uitgeschakeld voor elk project dat geen Engels (VS) of Engels (VK) als primaire taal gebruikt. Deze trainingsoptie is gratis. Met standaardtraining kunt u uitingen toevoegen en deze snel en gratis testen. De weergegeven evaluatiescores moeten u helpen bij het aanbrengen van wijzigingen in uw project en het toevoegen van meer uitingen. Nadat u een paar keer hebt herhaald en incrementele verbeteringen hebt aangebracht, kunt u overwegen geavanceerde training te gebruiken om een andere versie van uw model te trainen.

  • Geavanceerde training maakt gebruik van de nieuwste machine learning-technologie om modellen aan te passen met uw gegevens. Hierdoor worden naar verwachting betere prestatiescores voor uw modellen weergegeven en kunt u ook gebruikmaken van de meertalige mogelijkheden van CLU. Geavanceerde training is anders geprijsd. Zie de prijsinformatie voor meer informatie.

Gebruik de evaluatiescores om uw beslissingen te nemen. Het kan gebeuren dat een specifiek voorbeeld onjuist wordt voorspeld in geavanceerde training, in tegenstelling tot wanneer u de standaardtrainingsmodus gebruikt. Als de algehele evaluatieresultaten echter beter zijn met behulp van geavanceerd, is het raadzaam om uw uiteindelijke model te gebruiken. Als dat niet het geval is en u geen meertalige mogelijkheden wilt gebruiken, kunt u model blijven gebruiken dat is getraind met de standaardmodus.

Notitie

U zou een verschil in gedrag moeten zien in betrouwbaarheidsscores voor intenties tussen de trainingsmodi, omdat elk algoritme hun scores anders kalibreert.

Model trainen

Ga als volgende te werk om te beginnen met het trainen van uw model vanuit Language Studio:

  1. Selecteer Model trainen in het menu aan de linkerkant.

  2. Selecteer Een trainingstaak starten in het bovenste menu.

  3. Selecteer Een nieuw model trainen en voer een nieuwe modelnaam in het tekstvak in. Als u een bestaand model wilt vervangen door een model dat is getraind op de nieuwe gegevens, selecteert u Een bestaand model overschrijven en selecteert u vervolgens een bestaand model. Het overschrijven van een getraind model kan niet ongedaan worden gemaakt, maar dit heeft geen invloed op uw geïmplementeerde modellen totdat u het nieuwe model implementeert.

  4. Selecteer de trainingsmodus. U kunt standaardtraining kiezen voor een snellere training, maar deze is alleen beschikbaar voor het Engels. U kunt ook geavanceerde training kiezen die wordt ondersteund voor andere talen en meertalige projecten, maar die langere trainingstijden met zich meebrengt. Meer informatie over trainingsmodi.

  5. Selecteer een methode voor het splitsen van gegevens . U kunt de testset automatisch splitsen uit trainingsgegevens kiezen, waarbij het systeem uw uitingen splitst tussen de trainings- en testsets, op basis van de opgegeven percentages. U kunt ook Een handmatige splitsing van training- en testgegevens gebruiken. Deze optie is alleen ingeschakeld als u uitingen hebt toegevoegd aan uw testset toen u uw uitingen hebt gelabeld.

  6. Selecteer de knop Trainen .

    Een schermopname van de trainingspagina in Language Studio.

  7. Selecteer de id van de trainingstaak in de lijst. Er wordt een deelvenster weergegeven waarin u de voortgang van de training, de taakstatus en andere details voor deze taak kunt controleren.

    Notitie

    • Alleen met succes voltooide trainingstaken worden modellen gegenereerd.
    • Training kan enkele minuten tot enkele uren duren, afhankelijk van het aantal uitingen.
    • U kunt slechts één trainingstaak tegelijk uitvoeren. U kunt geen andere trainingstaken binnen hetzelfde project starten totdat de actieve taak is voltooid.
    • De machine learning die wordt gebruikt om modellen te trainen, wordt regelmatig bijgewerkt. Als u wilt trainen met een eerdere configuratieversie, selecteert u Hier selecteren om te wijzigen vanaf de pagina Een trainingstaak starten en kiest u een eerdere versie.

Trainingstaak annuleren

Een trainingstaak annuleren vanuit Language Studio

  1. Selecteer op de pagina Model trainen de trainingstaak die u wilt annuleren en selecteer Annuleren in het bovenste menu.

Volgende stappen