Uw model voor het begrijpen van gesprekstalen trainen

Artikel
12/19/2023

Nadat u klaar bent met het labelen van uw uitingen, kunt u beginnen met het trainen van een model. Training is het proces waarbij het model leert van uw gelabelde uitingen.

Als u een model wilt trainen, start u een trainingstaak. Alleen voltooide taken maken een model. Trainingstaken verlopen na zeven dagen. Na deze tijd kunt u de taakgegevens niet meer ophalen. Als uw trainingstaak is voltooid en er een model is gemaakt, wordt dit niet beïnvloed door het verlopen van de taak. U kunt slechts één trainingstaak tegelijk uitvoeren en u kunt geen andere taken in hetzelfde project starten.

De trainingstijden kunnen een paar seconden duren wanneer u met eenvoudige projecten te maken krijgt, tot een paar uur wanneer u de maximale limiet van utterances bereikt.

Modelevaluatie wordt automatisch geactiveerd nadat de training is voltooid. Het evaluatieproces begint met het getrainde model om voorspellingen uit te voeren op de uitingen in de testset en vergelijkt de voorspelde resultaten met de opgegeven labels (waarmee een basislijn van waarheid wordt vastgesteld).

Vereisten

Een project is gemaakt met een geconfigureerd Azure Blob Storage-account
Gelabelde uitingen

Trainingsgegevens in balans

U moet proberen uw schema goed in balans te houden als het gaat om trainingsgegevens. Het opnemen van grote hoeveelheden van de ene intentie en zeer weinig van een andere leidt tot een model dat sterk bevooroordeeld is ten opzichte van bepaalde intenties.

Als u dit wilt oplossen, moet u mogelijk uw trainingsset downsampleen of hieraan toevoegen. Downsampling kan worden uitgevoerd door:

Een bepaald percentage van de trainingsgegevens willekeurig verwijderen.
Op een meer systematische manier door de gegevensset te analyseren en oververtegenwoordigde dubbele vermeldingen te verwijderen.

U kunt ook toevoegen aan de trainingsset door Uitingen voorstellen te selecteren op het tabblad Gegevenslabels in Language Studio. Gespreks-Language Understanding stuurt een aanroep naar Azure OpenAI om vergelijkbare uitingen te genereren.

U moet ook zoeken naar onbedoelde 'patronen' in de trainingsset. Als de trainingsset voor een bepaalde intentie bijvoorbeeld uit kleine letters bestaat of begint met een bepaalde woordgroep. In dergelijke gevallen kan het model dat u traint deze onbedoelde vooroordelen in de trainingsset leren in plaats van te generaliseren.

We raden u aan om hoofdletters en interpunctiediversiteit in de trainingsset te introduceren. Als van uw model wordt verwacht dat variaties worden verwerkt, moet u een trainingsset hebben die ook die diversiteit weerspiegelt. Neem bijvoorbeeld enkele utterances op in de juiste hoofdletters en andere in kleine letters.

Gegevens splitsen

Voordat u het trainingsproces start, worden gelabelde utterances in uw project onderverdeeld in een trainingsset en een testset. Elk van hen heeft een andere functie. De trainingsset wordt gebruikt voor het trainen van het model. Dit is de set waaruit het model de gelabelde uitingen leert. De testset is een blinde set die niet wordt geïntroduceerd in het model tijdens de training, maar alleen tijdens de evaluatie.

Nadat het model is getraind, kan het model worden gebruikt om voorspellingen te doen op basis van de uitingen in de testset. Deze voorspellingen worden gebruikt om metrische evaluatiegegevens te berekenen. Het wordt aanbevolen om ervoor te zorgen dat al uw intenties en entiteiten voldoende worden weergegeven in zowel de trainings- als de testset.

Begrip van gesprekstaal ondersteunt twee methoden voor het splitsen van gegevens:

De testset automatisch splitsen van trainingsgegevens: het systeem splitst uw getagde gegevens tussen de trainings- en testsets, op basis van de percentages die u kiest. Het aanbevolen percentage splitsing is 80% voor training en 20% voor testen.

Notitie

Als u de optie De testset automatisch splitsen uit trainingsgegevens kiest, worden alleen de gegevens die zijn toegewezen aan de trainingsset gesplitst volgens de opgegeven percentages.

Gebruik een handmatige splitsing van training- en testgegevens: met deze methode kunnen gebruikers definiëren welke uitingen tot welke set moeten behoren. Deze stap wordt alleen ingeschakeld als u utterances hebt toegevoegd aan uw testset tijdens het labelen.

Trainingsmodi

CLU ondersteunt twee modi voor het trainen van uw modellen

Standaardtraining maakt gebruik van snelle machine learning-algoritmen om uw modellen relatief snel te trainen. Dit is momenteel alleen beschikbaar voor Engels en is uitgeschakeld voor elk project dat geen Engels (VS) of Engels (VK) als primaire taal gebruikt. Deze trainingsoptie is gratis. Met standaardtraining kunt u uitingen toevoegen en deze snel en gratis testen. De weergegeven evaluatiescores moeten u helpen bij het aanbrengen van wijzigingen in uw project en het toevoegen van meer uitingen. Nadat u een paar keer hebt herhaald en incrementele verbeteringen hebt aangebracht, kunt u overwegen geavanceerde training te gebruiken om een andere versie van uw model te trainen.
Geavanceerde training maakt gebruik van de nieuwste machine learning-technologie om modellen aan te passen met uw gegevens. Hierdoor worden naar verwachting betere prestatiescores voor uw modellen weergegeven en kunt u ook gebruikmaken van de meertalige mogelijkheden van CLU. Geavanceerde training is anders geprijsd. Zie de prijsinformatie voor meer informatie.

Gebruik de evaluatiescores om uw beslissingen te nemen. Het kan gebeuren dat een specifiek voorbeeld onjuist wordt voorspeld in geavanceerde training, in tegenstelling tot wanneer u de standaardtrainingsmodus gebruikt. Als de algehele evaluatieresultaten echter beter zijn met behulp van geavanceerd, is het raadzaam om uw uiteindelijke model te gebruiken. Als dat niet het geval is en u geen meertalige mogelijkheden wilt gebruiken, kunt u model blijven gebruiken dat is getraind met de standaardmodus.

Notitie

U zou een verschil in gedrag moeten zien in betrouwbaarheidsscores voor intenties tussen de trainingsmodi, omdat elk algoritme hun scores anders kalibreert.

Ga als volgende te werk om te beginnen met het trainen van uw model vanuit Language Studio:

Selecteer Model trainen in het menu aan de linkerkant.
Selecteer Een trainingstaak starten in het bovenste menu.
Selecteer Een nieuw model trainen en voer een nieuwe modelnaam in het tekstvak in. Als u een bestaand model wilt vervangen door een model dat is getraind op de nieuwe gegevens, selecteert u Een bestaand model overschrijven en selecteert u vervolgens een bestaand model. Het overschrijven van een getraind model kan niet ongedaan worden gemaakt, maar dit heeft geen invloed op uw geïmplementeerde modellen totdat u het nieuwe model implementeert.
Selecteer de trainingsmodus. U kunt standaardtraining kiezen voor een snellere training, maar deze is alleen beschikbaar voor het Engels. U kunt ook geavanceerde training kiezen die wordt ondersteund voor andere talen en meertalige projecten, maar die langere trainingstijden met zich meebrengt. Meer informatie over trainingsmodi.
Selecteer een methode voor het splitsen van gegevens . U kunt de testset automatisch splitsen uit trainingsgegevens kiezen, waarbij het systeem uw uitingen splitst tussen de trainings- en testsets, op basis van de opgegeven percentages. U kunt ook Een handmatige splitsing van training- en testgegevens gebruiken. Deze optie is alleen ingeschakeld als u uitingen hebt toegevoegd aan uw testset toen u uw uitingen hebt gelabeld.
Selecteer de knop Trainen .
Selecteer de id van de trainingstaak in de lijst. Er wordt een deelvenster weergegeven waarin u de voortgang van de training, de taakstatus en andere details voor deze taak kunt controleren.
Notitie
- Alleen met succes voltooide trainingstaken worden modellen gegenereerd.
- Training kan enkele minuten tot enkele uren duren, afhankelijk van het aantal uitingen.
- U kunt slechts één trainingstaak tegelijk uitvoeren. U kunt geen andere trainingstaken binnen hetzelfde project starten totdat de actieve taak is voltooid.
- De machine learning die wordt gebruikt om modellen te trainen, wordt regelmatig bijgewerkt. Als u wilt trainen met een eerdere configuratieversie, selecteert u Hier selecteren om te wijzigen vanaf de pagina Een trainingstaak starten en kiest u een eerdere versie.

Trainingstaak starten

Maak een POST-aanvraag met behulp van de volgende URL, headers en JSON-hoofdtekst om een trainingstaak in te dienen.

Aanvraag-URL

Gebruik de volgende URL bij het maken van uw API-aanvraag. Vervang de waarden van de tijdelijke aanduiding door uw eigen waarden.

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Tijdelijke aanduiding	Waarde	Voorbeeld
`{ENDPOINT}`	Het eindpunt voor het verifiëren van uw API-aanvraag.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	De naam voor uw project. Deze waarde is hoofdlettergevoelig.	`EmailApp`
`{API-VERSION}`	De versie van de API die u aanroept.	`2023-04-01`

Kopteksten

Gebruik de volgende header om uw aanvraag te verifiëren.

Sleutel	Waarde
`Ocp-Apim-Subscription-Key`	De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.

Aanvraagbody

Gebruik het volgende object in uw aanvraag. Het model krijgt de naam van de waarde die u voor de parameter gebruikt zodra de modelLabel training is voltooid.

{
  "modelLabel": "{MODEL-NAME}",
  "trainingMode": "{TRAINING-MODE}",
  "trainingConfigVersion": "{CONFIG-VERSION}",
  "evaluationOptions": {
    "kind": "percentage",
    "testingSplitPercentage": 20,
    "trainingSplitPercentage": 80
  }
}

Sleutel	Tijdelijke aanduiding	Waarde	Voorbeeld
`modelLabel`	`{MODEL-NAME}`	Uw modelnaam.	`Model1`
`trainingConfigVersion`	`{CONFIG-VERSION}`	De versie van het trainingsconfiguratiemodel. Standaard wordt de nieuwste modelversie gebruikt.	`2022-05-01`
`trainingMode`	`{TRAINING-MODE}`	De trainingsmodus die moet worden gebruikt voor de training. Ondersteunde modi zijn Standaardtraining, snellere training, maar alleen beschikbaar voor Engels en Geavanceerde training die wordt ondersteund voor andere talen en meertalige projecten, maar omvat langere trainingstijden. Meer informatie over trainingsmodi.	`standard`
`kind`	`percentage`	Splitsmethoden. Mogelijke waarden zijn `percentage` of `manual`. Zie Een model trainen voor meer informatie.	`percentage`
`trainingSplitPercentage`	`80`	Percentage van uw getagde gegevens dat moet worden opgenomen in de trainingsset. De aanbevolen waarde is `80`.	`80`
`testingSplitPercentage`	`20`	Percentage van uw getagde gegevens dat moet worden opgenomen in de testset. De aanbevolen waarde is `20`.	`20`

Notitie

De trainingSplitPercentage en testingSplitPercentage zijn alleen vereist als Kind is ingesteld op percentage en de som van beide percentages gelijk moet zijn aan 100.

Zodra u uw API-aanvraag hebt verzonden, ontvangt u een 202 antwoord dat aangeeft dat het is gelukt. Extraheer de waarde in de operation-location antwoordheaders. De indeling wordt als volgt weergegeven:

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

U kunt deze URL gebruiken om de status van de trainingstaak op te halen.

Status van trainingstaak ophalen

Training kan enige tijd duren, afhankelijk van de grootte van uw trainingsgegevens en de complexiteit van uw schema. U kunt de volgende aanvraag gebruiken om de status van de trainingstaak te blijven peilen totdat deze is voltooid.

Wanneer u een geslaagde trainingsaanvraag verzendt, wordt de volledige aanvraag-URL voor het controleren van de status van de taak (inclusief uw eindpunt, projectnaam en taak-id) opgenomen in de header van operation-location het antwoord.

Gebruik de volgende GET-aanvraag om de status van de trainingsvoortgang van uw model op te halen. Vervang de waarden van de tijdelijke aanduidingen hieronder door uw eigen waarden.

Aanvraag-URL

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Tijdelijke aanduiding	Waarde	Voorbeeld
`{YOUR-ENDPOINT}`	Het eindpunt voor het verifiëren van uw API-aanvraag.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	De naam voor uw project. Deze waarde is hoofdlettergevoelig.	`EmailApp`
`{JOB-ID}`	De id voor het zoeken naar de trainingsstatus van uw model.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	De versie van de API die u aanroept.	`2023-04-01`

Kopteksten

Gebruik de volgende header om uw aanvraag te verifiëren.

Sleutel	Waarde
`Ocp-Apim-Subscription-Key`	De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.

Hoofdtekst van antwoord

Nadat u de aanvraag hebt verzonden, krijgt u het volgende antwoord. Blijf dit eindpunt pollen totdat de statusparameter verandert in 'geslaagd'.

{
  "result": {
    "modelLabel": "{MODEL-LABEL}",
    "trainingConfigVersion": "{TRAINING-CONFIG-VERSION}",
    "trainingMode": "{TRAINING-MODE}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "xxxxx-xxxxx-xxxx-xxxxx-xxxx",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Sleutel	Waarde	Voorbeeld
`modelLabel`	De modelnaam	`Model1`
`trainingConfigVersion`	De configuratieversie van de training. Standaard wordt de nieuwste versie gebruikt.	`2022-05-01`
`trainingMode`	De geselecteerde trainingsmodus.	`standard`
`startDateTime`	De tijd waarop de training is gestart	`2022-04-14T10:23:04.2598544Z`
`status`	De status van de trainingstaak	`running`
`estimatedEndDateTime`	Geschatte tijd voor het voltooien van de trainingstaak	`2022-04-14T10:29:38.2598544Z`
`jobId`	Uw trainingstaak-id	`xxxxx-xxxx-xxxx-xxxx-xxxxxxxxx`
`createdDateTime`	Aanmaakdatum en -tijd van trainingstaak	`2022-04-14T10:22:42Z`
`lastUpdatedDateTime`	Datum en tijd van de trainingstaak voor het laatst bijgewerkt	`2022-04-14T10:23:45Z`
`expirationDateTime`	Vervaldatum en -tijd van trainingstaak	`2022-04-14T10:22:42Z`

Trainingstaak annuleren

Language Studio
REST-API's

Een trainingstaak annuleren vanuit Language Studio

Selecteer op de pagina Model trainen de trainingstaak die u wilt annuleren en selecteer Annuleren in het bovenste menu.

Maak een POST-aanvraag met behulp van de volgende URL, headers en JSON-hoofdtekst om een trainingstaak te annuleren.

Aanvraag-URL

Gebruik de volgende URL bij het maken van uw API-aanvraag. Vervang de waarden van de tijdelijke aanduidingen hieronder door uw eigen waarden.

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Tijdelijke aanduiding	Waarde	Voorbeeld
`{ENDPOINT}`	Het eindpunt voor het verifiëren van uw API-aanvraag.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	De naam voor uw project. Deze waarde is hoofdlettergevoelig.	`EmailApp`
`{JOB-ID}`	Dit is de id van de trainingstaak.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	De versie van de API die u aanroept.	`2023-04-01`

Kopteksten

Gebruik de volgende header om uw aanvraag te verifiëren.

Sleutel	Waarde
`Ocp-Apim-Subscription-Key`	De sleutel voor uw resource. Wordt gebruikt voor het verifiëren van uw API-aanvragen.

Zodra u uw API-aanvraag hebt verzonden, ontvangt u een 202-antwoord dat aangeeft dat uw trainingstaak is geannuleerd. Een geslaagde aanroep resulteert in een Operation-Location header die wordt gebruikt om de status van de taak te controleren.

Volgende stappen

Metrische gegevens voor modelevaluatie

Delen via

Uw model voor het begrijpen van gesprekstalen trainen

Vereisten

Trainingsgegevens in balans

Gegevens splitsen

Trainingsmodi

Model trainen

Trainingstaak starten

Aanvraag-URL

Kopteksten

Aanvraagbody

Status van trainingstaak ophalen

Aanvraag-URL

Kopteksten

Hoofdtekst van antwoord

Trainingstaak annuleren

Aanvraag-URL

Kopteksten

Volgende stappen

Feedback

Feedback

Aanvullende resources