Beszélgetési nyelvfelismerési modell betanítása

Cikk
12/19/2023

Miután befejezte a kimondott szövegek címkézését, megkezdheti a modell betanítását. A betanítás az a folyamat, amelyben a modell tanul a címkézett kimondott szövegekből.

Modell betanításához kezdjen el egy betanítási feladatot. Csak a sikeresen befejezett feladatok hoznak létre modellt. A betanítási feladatok hét nap után lejárnak, ezután már nem fogja tudni lekérni a feladat részleteit. Ha a betanítási feladat sikeresen befejeződött, és létrejött egy modell, a feladat lejáró feladata nem lesz hatással rá. Egyszerre csak egy betanítási feladat futhat, és nem indíthat el más feladatokat ugyanabban a projektben.

A betanítási idő akár néhány másodpercig is eltarthat, amikor egyszerű projekteket kezel, akár néhány óráig is, amikor eléri a kimondott szövegek maximális korlátját .

A modell kiértékelése automatikusan aktiválódik a betanítás sikeres befejezése után. A kiértékelési folyamat a betanított modell használatával kezdődik, amely előrejelzéseket futtat a tesztelési csoportban lévő kimondott szövegeken, és összehasonlítja az előrejelzett eredményeket a megadott címkékkel (amelyek az igazság alapkonfigurációját állapítják meg).

Előfeltételek

Sikeresen létrehozott projekt egy konfigurált Azure Blob Storage-fiókkal
Címkézett kimondott szövegek

Betanítási adatok kiegyensúlyozása

A betanítási adatokkal kapcsolatban érdemes megpróbálni egyensúlyban tartani a sémát. Ha nagy mennyiségű szándékot is beleszámítottunk, a másikból nagyon kevés olyan modellt eredményez, amely erősen elfogult az adott szándékokkal szemben.

Ennek megoldásához előfordulhat, hogy le kell állítania a betanítási készletet, vagy hozzá kell adnia. A lecsúszást a következőkkel végezheti el:

A betanítási adatok bizonyos százalékától véletlenszerűen megszabadulni.
Szisztematikusabb módon elemezheti az adathalmazt, és eltávolíthatja a túlreprezentált ismétlődő bejegyzéseket.

A betanítási készlethez a Language Studio Adatcímkézés lapján a Kimondott szövegek ajánlása lehetőséget választva is hozzáadhatja. A beszélgetési Language Understanding hívást küldenek az Azure OpenAI-nak hasonló beszédelemek létrehozásához.

A betanítási készletben nem kívánt "mintákat" is meg kell keresnie. Ha például egy adott szándék betanítási készlete kisbetűs, vagy egy adott kifejezéssel kezdődik. Ilyen esetekben előfordulhat, hogy a betanított modell ezeket a nem kívánt torzításokat a betanítási készletben tanulja meg ahelyett, hogy általánosíthatná őket.

Javasoljuk, hogy a betanítási készletben vezesse be a burkolatok és írásjelek sokféleségét. Ha a modell várhatóan kezeli a variációkat, győződjön meg arról, hogy rendelkezik egy olyan betanítási készlettel, amely szintén tükrözi ezt a sokféleséget. Adjon meg például néhány kimondott szöveget a megfelelő szövegbe, néhányat pedig kisbetűkbe.

Adatok felosztása

A betanítási folyamat megkezdése előtt a projektben a címkézett beszédelemek betanítási és tesztelési készletre vannak osztva. Mindegyik más-más funkciót szolgál. A betanítási készlet a modell betanításához használatos. Ez az a készlet, amelyből a modell megtanulja a címkézett kimondott szövegeket. A tesztelési készlet egy olyan vakkészlet, amely nem a betanítás során, hanem csak az értékelés során kerül bevezetésre a modellbe.

A modell sikeres betanítása után a modell használatával előrejelzéseket készíthet a tesztelési csoportban lévő kimondott szövegekből. Ezek az előrejelzések a kiértékelési metrikák kiszámítására szolgálnak. Ajánlott gondoskodni arról, hogy az összes szándék és entitás megfelelően szerepeljen a betanítási és tesztelési készletben.

A társalgási nyelvfelismerés két módszert támogat az adatfelosztáshoz:

A tesztelési készlet automatikus felosztása a betanítási adatokból: A rendszer a kiválasztott százalékos arányoknak megfelelően felosztja a címkézett adatokat a betanítási és a tesztelési készletek között. Az ajánlott százalékos felosztás 80% a betanításhoz és 20% teszteléshez.

Megjegyzés

Ha a Tesztelési csoport automatikus felosztása a betanítási adatokból beállítást választja, csak a betanítási készlethez rendelt adatok lesznek felosztva a megadott százalékos értékek szerint.

Betanítási és tesztelési adatok manuális felosztása: Ez a módszer lehetővé teszi a felhasználók számára, hogy meghatározzák, mely kimondott szövegek melyik készlethez tartoznak. Ez a lépés csak akkor engedélyezett, ha kimondott szövegeket adott hozzá a tesztelési csoporthoz a címkézés során.

Betanítási módok

A CLU két módot támogat a modellek betanításához

A standard betanítás gyors gépi tanulási algoritmusokat használ a modellek viszonylag gyors betanításához. Ez jelenleg csak angol nyelven érhető el, és le van tiltva minden olyan projekt esetében, amely nem használja elsődleges nyelvként az angolt (USA) vagy az angolt (UK). Ez a betanítási lehetőség ingyenes. A standard betanítás lehetővé teszi kimondott szövegek hozzáadását és gyors tesztelését díjmentesen. A megjelenített értékelési pontszámok alapján megtudhatja, hogy hol végezhet módosításokat a projektben, és további kimondott szövegeket adhat hozzá. Miután néhányszor iterált, és növekményes fejlesztéseket hajtott végre, fontolja meg a speciális betanítás használatát a modell egy másik verziójának betanításához.
A speciális betanítás a gépi tanulási technológia legújabb verziójával szabja testre a modelleket az adataival. Ez várhatóan jobb teljesítményt mutat a modellekhez, és lehetővé teszi a CLU többnyelvű funkcióinak használatát is. A speciális képzés ára eltérő. A részletekért tekintse meg a díjszabással kapcsolatos információkat .

A kiértékelési pontszámokkal irányíthatja a döntéseket. Előfordulhat, hogy egy adott példát helytelenül jeleznek előre a speciális betanításban, szemben a normál betanítási móddal. Ha azonban az általános kiértékelési eredmények jobbak a fejlett használatban, akkor ajánlott a végső modellt használni. Ha nem ez a helyzet, és nem szeretne többnyelvű képességeket használni, továbbra is használhatja a standard módban betanított modellt.

Megjegyzés

A betanítási módok közötti szándékbizalmassági pontszámok viselkedésében eltérést kell látnia, mivel az egyes algoritmusok eltérően kalibrálják a pontszámukat.

A modell betanítása a Language Studióban:

A bal oldali menüben válassza a Modell betanítása lehetőséget.
A felső menüben válassza a Betanítási feladat indítása lehetőséget.
Válassza az Új modell betanítása lehetőséget, és írjon be egy új modellnevet a szövegmezőbe. Ha egy meglévő modellt az új adatokon betanított modellre szeretne cserélni, válassza a Meglévő modell felülírása lehetőséget, majd válasszon ki egy meglévő modellt. A betanított modellek felülírása visszafordíthatatlan, de az új modell üzembe helyezéséig nem lesz hatással az üzembe helyezett modellekre.
Válassza ki a betanítási módot. A gyorsabb betanításhoz választhatja a Standard képzést , de csak angol nyelven érhető el. Választhat speciális képzést is, amely más nyelvekhez és többnyelvű projektekhez is támogatott, de hosszabb betanítási időt igényel. További tudnivalók a betanítási módokról.
Válasszon ki egy adatfelosztási módszert. A tesztelési készlet automatikus felosztása betanítási adatokból lehetőséget választhatja, ahol a rendszer a megadott százalékos arányok szerint felosztja a kimondott szövegeket a betanítási és a tesztelési készletek között. Vagy használhatja a betanítási és tesztelési adatok manuális felosztását is, ez a beállítás csak akkor engedélyezett, ha kimondott szövegeket adott hozzá a tesztkészlethez a kimondott szövegek címkézésekor.
Válassza a Betanítása gombot.
Válassza ki a betanítási feladat azonosítóját a listából. Megjelenik egy panel, ahol ellenőrizheti a betanítási folyamatot, a feladat állapotát és a feladat egyéb részleteit.
Megjegyzés
- Csak a sikeres betanítási feladatok hoznak létre modelleket.
- A betanítás eltarthat néhány perc és néhány óra között a kimondott szövegek számától függően.
- Egyszerre csak egy betanítási feladat futtatható. Nem indíthat el más betanítási feladatokat ugyanabban a projektben, amíg a futó feladat be nem fejeződik.
- A modellek betanítása során használt gépi tanulás rendszeresen frissül. Ha egy korábbi konfigurációs verzióra szeretne betanítást végezni, válassza a Kiválasztás itt lehetőséget a betanítási feladat indítása lapon, és válasszon ki egy korábbi verziót.

Betanítási feladat indítása

Hozzon létre egy POST-kérést a következő URL-cím, fejlécek és JSON-törzs használatával egy betanítási feladat elküldéséhez.

URL-cím kérése

Az API-kérelem létrehozásakor használja az alábbi URL-címet. Cserélje le a helyőrző értékeket a saját értékeire.

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Helyőrző	Érték	Példa
`{ENDPOINT}`	Az API-kérelem hitelesítésének végpontja.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét.	`EmailApp`
`{API-VERSION}`	A hívott API verziója .	`2023-04-01`

Fejlécek

A kérés hitelesítéséhez használja az alábbi fejlécet.

Kulcs	Érték
`Ocp-Apim-Subscription-Key`	Az erőforrás kulcsa. Az API-kérések hitelesítésére szolgál.

A kérés törzse

Használja a következő objektumot a kérésben. A modell neve a betanítás befejezése után a modelLabel paraméterhez használt érték után lesz elnevezve.

{
  "modelLabel": "{MODEL-NAME}",
  "trainingMode": "{TRAINING-MODE}",
  "trainingConfigVersion": "{CONFIG-VERSION}",
  "evaluationOptions": {
    "kind": "percentage",
    "testingSplitPercentage": 20,
    "trainingSplitPercentage": 80
  }
}

Kulcs	Helyőrző	Érték	Példa
`modelLabel`	`{MODEL-NAME}`	A modell neve.	`Model1`
`trainingConfigVersion`	`{CONFIG-VERSION}`	A betanítási konfigurációs modell verziója. Alapértelmezés szerint a legújabb modellverziót használja a rendszer.	`2022-05-01`
`trainingMode`	`{TRAINING-MODE}`	A betanításhoz használandó betanítási mód. A támogatott módok a standard képzések, a gyorsabb képzések, de csak más nyelvekhez és többnyelvű projektekhez támogatott angol és haladó képzésekhez érhetők el, de hosszabb betanítási időt foglalnak magukban. További tudnivalók a betanítási módokról.	`standard`
`kind`	`percentage`	Felosztási metódusok. Lehetséges értékek: `percentage` vagy `manual`. További információért tekintse meg a modellek betanítása című témakört .	`percentage`
`trainingSplitPercentage`	`80`	A betanítási készletbe felvenni kívánt címkézett adatok százalékos aránya. Ajánlott érték: `80`.	`80`
`testingSplitPercentage`	`20`	A tesztelési csoportban szerepeltetni kívánt címkézett adatok százalékos aránya. Ajánlott érték: `20`.	`20`

Megjegyzés

A trainingSplitPercentage és testingSplitPercentage értékre csak akkor van szükség, ha Kind az értékre percentage van állítva, és a két százalékösszegnek 100-nak kell lennie.

Az API-kérés elküldése után egy 202 sikeres választ fog kapni. A válaszfejlécekben bontsa ki az operation-location értéket. A következő módon lesz formázva:

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Ezzel az URL-címmel lekérheti a betanítási feladat állapotát.

Betanítási feladat állapotának lekérése

A betanítás a betanítási adatok méretétől és a séma összetettségétől függően eltarthat egy ideig. A következő kéréssel továbbra is lekérdezheti a betanítási feladat állapotát, amíg az sikeresen be nem fejeződik.

Sikeres betanítási kérés elküldésekor a válasz fejlécében megtalálható a feladat állapotának ellenőrzésére szolgáló teljes kérelem URL-címe (beleértve a végpontot, a projektnevet és a feladatazonosítót operation-location ).

A modell betanítási folyamatának állapotának lekéréséhez használja az alábbi GET kérést. Cserélje le az alábbi helyőrző értékeket a saját értékeire.

URL-cím kérése

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Helyőrző	Érték	Példa
`{YOUR-ENDPOINT}`	Az API-kérelem hitelesítésének végpontja.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét.	`EmailApp`
`{JOB-ID}`	A modell betanítási állapotának helyének azonosítója.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	A hívott API verziója .	`2023-04-01`

Fejlécek

A kérés hitelesítéséhez használja az alábbi fejlécet.

Kulcs	Érték
`Ocp-Apim-Subscription-Key`	Az erőforrás kulcsa. Az API-kérések hitelesítésére szolgál.

Válasz törzse

A kérés elküldése után a következő választ kapja. Folytassa a végpont lekérdezését, amíg az állapotparaméter "sikeres" értékre nem változik.

{
  "result": {
    "modelLabel": "{MODEL-LABEL}",
    "trainingConfigVersion": "{TRAINING-CONFIG-VERSION}",
    "trainingMode": "{TRAINING-MODE}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "xxxxx-xxxxx-xxxx-xxxxx-xxxx",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Kulcs	Érték	Példa
`modelLabel`	A modell neve	`Model1`
`trainingConfigVersion`	A betanítási konfiguráció verziója. Alapértelmezés szerint a rendszer a legújabb verziót használja.	`2022-05-01`
`trainingMode`	A kiválasztott betanítási mód.	`standard`
`startDateTime`	A betanítás megkezdésének időpontja	`2022-04-14T10:23:04.2598544Z`
`status`	A betanítási feladat állapota	`running`
`estimatedEndDateTime`	A betanítási feladat befejezésének becsült ideje	`2022-04-14T10:29:38.2598544Z`
`jobId`	A betanítási feladat azonosítója	`xxxxx-xxxx-xxxx-xxxx-xxxxxxxxx`
`createdDateTime`	Betanítási feladat létrehozásának dátuma és időpontja	`2022-04-14T10:22:42Z`
`lastUpdatedDateTime`	Betanítási feladat utolsó frissítésének dátuma és időpontja	`2022-04-14T10:23:45Z`
`expirationDateTime`	Betanítási feladat lejárati dátuma és időpontja	`2022-04-14T10:22:42Z`

Betanítási feladat megszakítása

Language Studio
REST API-k

Betanítási feladat megszakítása a Language Studióban

A Modell betanítása lapon válassza ki a megszakítani kívánt betanítási feladatot, majd a felső menüben válassza a Mégse lehetőséget.

Hozzon létre egy POST-kérést a következő URL-cím, fejlécek és JSON-törzs használatával a betanítási feladat megszakításához.

URL-cím kérése

Az API-kérelem létrehozásakor használja az alábbi URL-címet. Cserélje le az alábbi helyőrző értékeket a saját értékeire.

{ENDPOINT}/language/authoring/analyze-conversations/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Helyőrző	Érték	Példa
`{ENDPOINT}`	Az API-kérelem hitelesítésének végpontja.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét.	`EmailApp`
`{JOB-ID}`	Ez a betanítási feladat azonosítója.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	A hívott API verziója .	`2023-04-01`

Fejlécek

A kérés hitelesítéséhez használja az alábbi fejlécet.

Kulcs	Érték
`Ocp-Apim-Subscription-Key`	Az erőforrás kulcsa. Az API-kérések hitelesítésére szolgál.

Az API-kérés elküldése után egy 202-ben kapott válasz jelzi a sikert, ami azt jelenti, hogy a betanítási feladat megszakadt. A sikeres hívás eredménye a Operation-Location feladat állapotának ellenőrzésére szolgáló fejléccel.

Következő lépések

Modellértékelési metrikák

Beszélgetési nyelvfelismerési modell betanítása

Előfeltételek

Betanítási adatok kiegyensúlyozása

Adatok felosztása

Betanítási módok

Modell betanítása

Betanítási feladat megszakítása

Következő lépések

További források