Egyéni szövegbesorolási modell betanítása

Cikk
10/16/2024

A betanítás az a folyamat, amelyben a modell a címkézett adatokból tanul. A betanítás befejezése után megtekintheti a modell teljesítményét annak megállapításához, hogy javítania kell-e a modellt.

Modell betanításához indítsa el a betanítási feladatot. Csak a sikeresen befejezett feladatok hozhatnak létre használható modellt. A betanítási feladatok hét nap után lejárnak. Ezen időszak után nem fogja tudni lekérni a feladat részleteit. Ha a betanítási feladat sikeresen befejeződött, és létrejött egy modell, a feladat lejárata nem fogja befolyásolni. Egyszerre csak egy betanítási feladat futtatható, és nem indíthat el más feladatokat ugyanabban a projektben.

A betanítási idő néhány perctől kezdve bárhol előfordulhat, amikor kevés dokumentumot kezel, akár több órát is az adathalmaz méretétől és a séma összetettségétől függően.

Előfeltételek

A modell betanítása előtt a következőkre van szüksége:

Sikeresen létrehozott projekt egy konfigurált Azure Blob Storage-fiókkal,
A tárfiókba feltöltött szöveges adatok.
Címkézett adatok

További információkért tekintse meg a projektfejlesztési életciklust .

Adatok felosztása

A betanítási folyamat megkezdése előtt a projekt címkézett dokumentumai betanítási és tesztelési csoportra vannak osztva. Mindegyik egy másik függvényt szolgál ki. A betanítási csoport a modell betanításához használatos, ez az a készlet, amelyből a modell megtanulja az egyes dokumentumokhoz rendelt osztályokat/osztályokat. A tesztkészlet egy olyan vakkészlet, amely nem a betanítás során, hanem csak az értékelés során kerül bevezetésre a modellbe. A modell sikeres betanítása után a rendszer előrejelzéseket készít a tesztkészlet dokumentumaiból. Ezek alapján az előrejelzések alapján a modell kiértékelési metrikái ki lesznek számítva. Javasoljuk, hogy győződjön meg arról, hogy az összes osztály megfelelően képviselteti magát mind a betanítási, mind a tesztelési csoportban.

Az egyéni szövegbesorolás két módszert támogat az adatfelosztáshoz:

A tesztelési csoport automatikus felosztása a betanítási adatokból: A rendszer a kiválasztott százalékos értékeknek megfelelően felosztja a címkézett adatokat a betanítási és tesztelési csoportok között. A rendszer megkísérli az összes osztály ábrázolását a betanítási csoportban. A javasolt százalékos felosztás 80% a betanításhoz és 20% teszteléshez.

Feljegyzés

Ha a tesztelési csoport automatikus felosztását választja a betanítási adatok beállításából, akkor csak a betanítási csoporthoz rendelt adatok lesznek felosztva a megadott százalékos értékek szerint.

A betanítási és tesztelési adatok manuális felosztása: Ez a módszer lehetővé teszi a felhasználók számára, hogy meghatározzák, hogy mely címkézett dokumentumok tartoznak a készlethez. Ez a lépés csak akkor engedélyezett, ha az adatok címkézése során dokumentumokat adott hozzá a tesztelési csoporthoz.

A modell betanításának megkezdése a Language Studióban:

A bal oldali menüben válassza a Betanítási feladatok lehetőséget.
Válassza a Betanítási feladat indítása lehetőséget a felső menüben.
Válassza az Új modell betanítása lehetőséget, és írja be a modell nevét a szövegmezőbe. A meglévő modell felülírásához válassza ezt a lehetőséget, és válassza ki azt a modellt, amelyet felül szeretne írni a legördülő menüből. A betanított modellek felülírása visszavonhatatlan, de az az új modell üzembe helyezéséig nem érinti az üzembe helyezett modelleket.
Válassza ki az adatfelosztási módszert. Választhatja a tesztelési csoport automatikus felosztását a betanítási adatokból , ahol a rendszer a megadott százalékok szerint felosztja a címkézett adatokat a betanítási és tesztelési csoportok között. Vagy használhatja a betanítási és tesztelési adatok manuális felosztását is, ez a beállítás csak akkor engedélyezett, ha dokumentumokat adott hozzá a tesztelési csoporthoz az adatfeliratozás során. Az adatfelosztással kapcsolatos további információkért tekintse meg a modell betanítását ismertető témakört.
Válassza a Betanítása gombot.
Ha kiválasztja a betanítási feladat azonosítóját a listából, megjelenik egy oldalpanel, ahol ellenőrizheti a betanítás állapotát, a feladat állapotát és a feladat egyéb adatait.
Feljegyzés
- Csak a sikeresen befejezett betanítási feladatok hoznak létre modelleket.
- A modell betanítása néhány perc és több óra közötti időt vehet igénybe a címkézett adatok méretétől függően.
- Egyszerre csak egy betanítási feladat futtatható. Amíg a futó feladat be nem fejeződik, nem lehet másik betanítási feladatot elindítani ugyanabban a projektben.

Betanítási feladat indítása

Post-kérés elküldése a következő URL-cím, fejlécek és JSON-törzs használatával egy betanítási feladat elküldéséhez. Cserélje le az alábbi helyőrző értékeket a saját értékeire.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Helyőrző	Érték	Példa
`{ENDPOINT}`	Az API-kérés hitelesítésének végpontja.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét.	`myProject`
`{API-VERSION}`	A hívott API verziója. Az itt hivatkozott érték a legújabb kiadott verzióhoz tartozik. További információ a többi elérhető API-verzióról	`2022-05-01`

Fejlécek

A kérés hitelesítéséhez használja az alábbi fejlécet.

Kulcs	Érték
`Ocp-Apim-Subscription-Key`	Az erőforrás kulcsa. Az API-kérések hitelesítésére szolgál.

Kérés törzse

Használja a következő JSON-t a kérelem törzsében. A modell megkapja a {MODEL-NAME} betanítás befejezését. Csak a sikeres betanítási feladatok hoznak létre modelleket.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Kulcs	Helyőrző	Érték	Példa
modelLabel	`{MODEL-NAME}`	A modell neve, amely a sikeres betanítása után lesz hozzárendelve a modellhez.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Ez a modellverzió lesz a modell betanítása.	`2022-05-01`
evaluationOptions		Lehetőség az adatok betanítási és tesztelési csoportok közötti felosztására.	`{}`
kind	`percentage`	Felosztási módszerek. A lehetséges értékek: `percentage` és `manual`. További információkért tekintse meg a modell betanítása című témakört.	`percentage`
trainingSplitPercentage	`80`	A betanítási csoportban szerepeltetni kívánt címkézett adatok százalékos aránya. A javasolt érték a .`80`	`80`
testingSplitPercentage	`20`	A tesztkészletbe felvenni kívánt címkézett adatok százalékos aránya. A javasolt érték a .`20`	`20`

Feljegyzés

Az trainingSplitPercentage és testingSplitPercentage csak akkor szükséges, ha Kind be van állítva percentage , és mindkét százalék összege 100-nak kell lennie.

Miután elküldte az API-kérést, kapni fog egy 202 választ, amely jelzi, hogy a feladat helyesen lett elküldve. A válaszfejlécekben bontsa ki az location értéket. A következő módon lesz formázva:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

A(z) {JOB-ID} a kérés azonosítására szolgál, mivel ez a művelet aszinkron. Ezzel az URL-címel lekérheti a betanítás állapotát.

Betanítási feladat állapotának lekérése

A betanítás a betanítási adatok méretétől és a séma összetettségétől függően eltarthat. A következő kéréssel továbbra is lekérdezheti a betanítási feladat állapotát, amíg az sikeresen be nem fejeződik.

A modell betanítási folyamatának állapotának lekéréséhez használja az alábbi GET-kérést . Cserélje le az alábbi helyőrző értékeket a saját értékeire.

URL-cím kérése

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Helyőrző	Érték	Példa
`{ENDPOINT}`	Az API-kérés hitelesítésének végpontja.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét.	`myProject`
`{JOB-ID}`	A modell betanítási állapotának helyének azonosítója. Ez az érték az `location` előző lépésben kapott fejlécértékben van.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	A hívott API verziója. Az itt hivatkozott érték a legújabb kiadott verzióhoz tartozik. A modell életciklusában további információt talál a többi elérhető API-verzióról.	`2022-05-01`

Fejlécek

A kérés hitelesítéséhez használja az alábbi fejlécet.

Kulcs	Érték
`Ocp-Apim-Subscription-Key`	Az erőforrás kulcsa. Az API-kérések hitelesítésére szolgál.

Válasz törzse

A kérés elküldése után a következő választ kapja.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Betanítási feladat megszakítása

Language Studio
REST API-k

Ha le szeretne mondani egy betanítási feladatot a Language Studióban, lépjen a Betanítási feladatok lapra. Válassza ki a megszakítani kívánt betanítási feladatot, majd a felső menüBen válassza a Mégse elemet.

Hozzon létre egy POST-kérést az alábbi URL-cím, fejlécek és JSON-törzs használatával egy betanítási feladat megszakításához.

URL-cím kérése

Az API-kérés létrehozásakor használja az alábbi URL-címet. Cserélje le az alábbi helyőrző értékeket a saját értékeire.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Helyőrző	Érték	Példa
`{ENDPOINT}`	Az API-kérés hitelesítésének végpontja.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	A projekt neve. Ez az érték megkülönbözteti a kis- és nagybetűk értékét.	`EmailApp`
`{JOB-ID}`	Ez az érték a betanítási feladat azonosítója.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	A meghívni kívánt API verziója. A hivatkozott érték a legújabb kiadású modellverzióhoz tartozik.	`2022-05-01`

Fejlécek

A kérés hitelesítéséhez használja az alábbi fejlécet.

Kulcs	Érték
`Ocp-Apim-Subscription-Key`	Az erőforrás kulcsa. Az API-kérések hitelesítésére szolgál.

Az API-kérés elküldése után egy 202-es választ kap a Operation-Location feladat állapotának ellenőrzéséhez használt fejléccel.

Következő lépések

A betanítás befejezése után megtekintheti a modell teljesítményét , ha szükséges, igény szerint javíthatja a modellt. Ha elégedett a modellel, üzembe helyezheti, és elérhetővé teheti a szöveg besorolásához.

Megosztás a következőn keresztül:

Egyéni szövegbesorolási modell betanítása

Előfeltételek

Adatok felosztása

Modell betanítása

Betanítási feladat indítása

Fejlécek

Kérés törzse

Betanítási feladat állapotának lekérése

URL-cím kérése

Fejlécek

Válasz törzse

Betanítási feladat megszakítása

URL-cím kérése

Fejlécek

Következő lépések

Visszajelzés

További források