Dela via


Träna din modell för förståelse av konversationsspråk

När du har slutfört etikettering av dina yttranden kan du börja träna en modell. Träning är den process där modellen lär sig av dina märkta yttranden.

Om du vill träna en modell startar du ett träningsjobb. Endast slutförda jobb skapar en modell. Träningsjobb upphör att gälla efter sju dagar, efter den här tiden kommer du inte längre att kunna hämta jobbinformationen. Om ditt träningsjobb har slutförts och en modell har skapats påverkas det inte av att jobbet upphör att gälla. Du kan bara ha ett träningsjobb i taget och du kan inte starta andra jobb i samma projekt.

Träningstiderna kan vara var som helst från några sekunder när du hanterar enkla projekt, upp till ett par timmar när du når den maximala gränsen för yttranden.

Modellutvärdering utlöses automatiskt när träningen har slutförts. Utvärderingsprocessen börjar med att använda den tränade modellen för att köra förutsägelser på yttrandena i testuppsättningen och jämför de förutsagda resultaten med de angivna etiketterna (som upprättar en baslinje för sanning).

Förutsättningar

Balansera träningsdata

När det gäller träningsdata kan du försöka hålla schemat väl balanserat. Att inkludera stora mängder av en avsikt och mycket få av en annan resulterar i en modell som är partisk mot vissa avsikter.

För att hantera det här scenariot kan du behöva göra en nedsampling av träningsuppsättningen. Eller så kan du behöva lägga till det. Om du vill göra en nedsampling kan du:

  • Bli av med en viss procentandel av träningsdata slumpmässigt.
  • Analysera datamängden och ta bort överrepresenterade duplicerade poster, vilket är ett mer systematiskt sätt.

Om du vill lägga till träningsuppsättningen går du till Language Studio och väljer Föreslå yttranden på fliken Dataetiketter. Conversational Language Understanding skickar ett anrop till Azure OpenAI för att generera liknande yttranden.

Skärmbild som visar ett yttrandeförslag i Language Studio.

Du bör också leta efter oavsiktliga "mönster" i träningsuppsättningen. Titta till exempel för att se om träningsuppsättningen för en viss avsikt bara är gemener eller börjar med en viss fras. I sådana fall kan den modell som du tränar lära sig dessa oavsiktliga fördomar i träningsuppsättningen i stället för att kunna generalisera.

Vi rekommenderar att du introducerar mångfald av höljen och skiljetecken i träningsuppsättningen. Om din modell förväntas hantera variationer måste du ha en träningsuppsättning som också återspeglar den mångfalden. Ta till exempel med några yttranden i rätt hölje och vissa i alla gemener.

Datadelning

Innan du påbörjar träningsprocessen delas märkta yttranden i projektet in i en träningsuppsättning och en testuppsättning. Var och en av dem har olika funktioner. Träningsuppsättningen används för att träna modellen. Det här är den uppsättning som modellen lär sig de märkta yttrandena från. Testuppsättningen är en blinduppsättning som inte introduceras i modellen under träningen utan bara under utvärderingen.

När modellen har tränats kan modellen användas för att göra förutsägelser från yttrandena i testuppsättningen. Dessa förutsägelser används för att beräkna utvärderingsmått. Vi rekommenderar att du ser till att alla dina avsikter och entiteter är tillräckligt representerade i både tränings- och testuppsättningen.

Förståelse av konversationsspråk stöder två metoder för datadelning:

  • Dela automatiskt upp testuppsättningen från träningsdata: Systemet delar dina taggade data mellan tränings- och testuppsättningarna enligt de procentsatser du väljer. Den rekommenderade procentuella uppdelningen är 80 % för träning och 20 % för testning.

Kommentar

Om du väljer alternativet Dela upp testuppsättningen automatiskt från träningsdata delas endast de data som tilldelats träningsuppsättningen upp enligt de procentsatser som anges.

  • Använd en manuell uppdelning av tränings- och testdata: Med den här metoden kan användarna definiera vilka yttranden som ska tillhöra vilken uppsättning. Det här steget aktiveras bara om du har lagt till yttranden i testuppsättningen under etikettering.

Träningslägen

CLU har stöd för två lägen för träning av dina modeller

  • Standardträningen använder snabba maskininlärningsalgoritmer för att träna dina modeller relativt snabbt. Detta är för närvarande endast tillgängligt för engelska och är inaktiverat för alla projekt som inte använder engelska (USA) eller engelska (Storbritannien) som primärt språk. Det här träningsalternativet är kostnadsfritt. Med standardträning kan du lägga till yttranden och testa dem snabbt utan kostnad. Utvärderingspoängen som visas bör vägleda dig om var du kan göra ändringar i projektet och lägga till fler yttranden. När du har itererat några gånger och gjort stegvisa förbättringar kan du överväga att använda avancerad utbildning för att träna en annan version av din modell.

  • Avancerad utbildning använder det senaste inom maskininlärningsteknik för att anpassa modeller med dina data. Detta förväntas visa bättre prestandapoäng för dina modeller och gör att du även kan använda de flerspråkiga funktionerna i CLU. Avancerad utbildning prissätts på olika sätt. Mer information finns i prisinformationen.

Använd utvärderingspoängen för att vägleda dina beslut. Det kan finnas tillfällen då ett specifikt exempel förutsägs felaktigt i avancerad träning i stället för när du använde standardträningsläge. Men om de övergripande utvärderingsresultaten är bättre med avancerat rekommenderar vi att du använder din slutliga modell. Om så inte är fallet och du inte vill använda flerspråkiga funktioner kan du fortsätta att använda modellen som tränats med standardläge.

Kommentar

Du bör förvänta dig att se en skillnad i beteenden i avsiktens konfidenspoäng mellan träningslägena när varje algoritm kalibrerar sina poäng på olika sätt.

Träna en modell

Så här börjar du träna din modell inifrån Language Studio:

  1. Välj Träna modell på menyn till vänster.

  2. Välj Starta ett träningsjobb på den översta menyn.

  3. Välj Träna en ny modell och ange ett nytt modellnamn i textrutan. Om du vill ersätta en befintlig modell med en modell som tränats på nya data väljer du Skriv över en befintlig modell och väljer sedan en befintlig modell. Att skriva över en tränad modell är oåterkalleligt, men det påverkar inte dina distribuerade modeller förrän du distribuerar den nya modellen.

  4. Välj träningsläge. Du kan välja Standardträning för snabbare träning, men det är bara tillgängligt för engelska. Eller så kan du välja Avancerad utbildning som stöds för andra språk och flerspråkiga projekt, men det innebär längre utbildningstider. Läs mer om träningslägen.

  5. Välj en datadelningsmetod . Du kan välja Att automatiskt dela upp testuppsättningen från träningsdata där systemet delar upp dina yttranden mellan tränings- och testuppsättningarna, enligt de angivna procentandelarna. Eller så kan du använda en manuell uppdelning av tränings- och testdata. Det här alternativet är bara aktiverat om du har lagt till yttranden i testuppsättningen när du etiketterade dina yttranden.

  6. Välj knappen Träna.

    En skärmbild som visar träningssidan i Language Studio.

  7. Välj träningsjobbets ID i listan. En panel visas där du kan kontrollera träningsförloppet, jobbstatusen och annan information för det här jobbet.

    Kommentar

    • Endast slutförda träningsjobb genererar modeller.
    • Träningen kan ta lite tid mellan ett par minuter och ett par timmar baserat på antalet yttranden.
    • Du kan bara köra ett träningsjobb i taget. Du kan inte starta andra träningsjobb i samma projekt förrän jobbet som körs har slutförts.
    • Den maskininlärning som används för att träna modeller uppdateras regelbundet. Om du vill träna på en tidigare konfigurationsversion väljer du Välj här om du vill ändra från sidan Starta ett träningsjobb och välja en tidigare version.

Avbryt träningsjobbet

Så här avbryter du ett träningsjobb från Language Studio

  1. På sidan Träna modell väljer du det träningsjobb som du vill avbryta och väljer Avbryt på den översta menyn.

Nästa steg