Trénování modelu Textová Analýza na míru pro zdravotnictví

Článek
12/19/2023

Trénování je proces, při kterém se model učí z označených dat. Po dokončení trénování budete moct zobrazit výkon modelu , abyste zjistili, jestli potřebujete model vylepšit.

Pokud chcete vytrénovat model, spustíte trénovací úlohu a model vytvoří pouze úspěšně dokončené úlohy. Platnost trénovacích úloh vyprší po sedmi dnech, což znamená, že po této době nebudete moct načíst podrobnosti o úloze. Pokud se vaše trénovací úloha úspěšně dokončila a vytvořil se model, model to neovlivní. Najednou můžete mít spuštěnou jenom jednu úlohu trénování a nemůžete spustit jiné úlohy ve stejném projektu.

Doba trénování může být od několika minut při zpracování několika dokumentů až po několik hodin v závislosti na velikosti datové sady a složitosti schématu.

Požadavky

Úspěšně vytvořený projekt s nakonfigurovaným účtem úložiště objektů blob v Azure
Textová data, která se nahrála do vašeho účtu úložiště.
Popsaná data

Další informace najdete v tématu Životní cyklus vývoje projektu .

Rozdělování dat

Než začnete s procesem trénování, jsou označené dokumenty ve vašem projektu rozdělené na trénovací sadu a testovací sadu. Každá z nich má jinou funkci. Trénovací sada se používá při trénování modelu. Jedná se o sadu, ze které se model učí označené entity a jaké rozsahy textu se mají extrahovat jako entity. Testovací sada je sada nevidomých, která se nezavádí do modelu během trénování, ale pouze během vyhodnocení. Po úspěšném dokončení trénování modelu se model použije k vytváření předpovědí z dokumentů v testování a na základě těchto předpovědí se počítají metriky vyhodnocení . Trénování a vyhodnocení modelu je pouze pro nově definované entity s naučenými komponentami. proto jsou Analýza textu pro zdravotní entity vyloučeny z trénování a hodnocení modelu, protože se jedná o entity s předem připravenými komponentami. Doporučujeme zajistit, aby všechny označené entity byly v trénovací i testovací sadě dostatečně zastoupené.

Vlastní Analýza textu pro stav podporuje dvě metody rozdělení dat:

Automatické rozdělení testovací sady od trénovacích dat:Systém rozdělí označená data mezi trénovací a testovací sadu podle zvolených procent. Doporučené procento rozdělení je 80 % pro trénování a 20 % pro testování.

Poznámka

Pokud zvolíte možnost Automaticky rozdělit testovací sadu od trénovacích dat , rozdělí se podle zadaných procent pouze data přiřazená k trénovací sadě.

Použití ručního rozdělení trénovacích a testovacích dat: Tato metoda umožňuje uživatelům definovat, které označené dokumenty mají patřit do které sady. Tento krok je povolený jenom v případě, že jste během označování dat přidali dokumenty do testovací sady.

Pokud chcete začít s trénováním modelu v sadě Language Studio:

V nabídce na levé straně vyberte Trénovací úlohy .
V horní nabídce vyberte Spustit trénovací úlohu .
Vyberte Trénování nového modelu a do textového pole zadejte název modelu. Existující model můžete také přepsat tak, že vyberete tuto možnost a v rozevírací nabídce zvolíte model, který chcete přepsat. Přepsání natrénovaného modelu je nevratné, ale nasazené modely neovlivní, dokud nový model nenasadíte.
Vyberte metodu dělení dat. Můžete zvolit automatické rozdělení testovací sady od trénovacích dat , kdy systém rozdělí označená data mezi trénovací a testovací sadu podle zadaných procent. Nebo můžete použít ruční rozdělení trénovacích a testovacích dat. Tato možnost je povolená jenom v případě, že jste do testovací sady přidali dokumenty. Informace o rozdělování dat najdete v tématu Popisování dat a postup trénování modelu .
Vyberte tlačítko Train (Trénovat).
Pokud ze seznamu vyberete ID trénovací úlohy, zobrazí se boční podokno, kde můžete zkontrolovat průběh trénování, stav úlohy a další podrobnosti pro tuto úlohu.
Poznámka
- Modely budou generovat pouze úspěšně dokončené trénovací úlohy.
- Trénování může na základě velikosti označených dat nějakou dobu trvat několik minut až několik hodin.
- Najednou můžete mít spuštěnou pouze jednu úlohu trénování. V rámci stejného projektu nemůžete spustit další úlohu trénování, dokud se nedokončí spuštěná úloha.

Spustit trénovací úlohu

Odešlete požadavek POST pomocí následující adresy URL, hlaviček a textu JSON a odešlete trénovací úlohu. Zástupné hodnoty nahraďte vlastními hodnotami.

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/:train?api-version={API-VERSION}

Zástupný symbol	Hodnota	Příklad
`{ENDPOINT}`	Koncový bod pro ověření požadavku rozhraní API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Název projektu. V této hodnotě se rozlišují malá a velká písmena.	`myProject`
`{API-VERSION}`	Verze rozhraní API, které voláte. Hodnota, na kterou se zde odkazuje, je pro nejnovější vydanou verzi. Další informace o dalších dostupných verzích rozhraní API najdete v tématu Životní cyklus modelu .	`2022-05-01`

Hlavičky

K ověření požadavku použijte následující hlavičku.

Klíč	Hodnota
`Ocp-Apim-Subscription-Key`	Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.

Text požadavku

V textu požadavku použijte následující kód JSON. Model se dostane po {MODEL-NAME} dokončení trénování. Modely se generují jenom úspěšné úlohy trénování.

{
	"modelLabel": "{MODEL-NAME}",
	"trainingConfigVersion": "{CONFIG-VERSION}",
	"evaluationOptions": {
		"kind": "percentage",
		"trainingSplitPercentage": 80,
		"testingSplitPercentage": 20
	}
}

Klíč	Zástupný symbol	Hodnota	Příklad
popisek modelu	`{MODEL-NAME}`	Název modelu, který je přiřazen k vašemu modelu po úspěšném natrénování.	`myModel`
trainingConfigVersion	`{CONFIG-VERSION}`	Toto je verze modelu , která se používá k trénování modelu.	`2022-05-01`
evaluationOptions		Možnost rozdělit data mezi trénovací a testovací sady.	`{}`
Druhu	`percentage`	Metody rozdělení. Možné hodnoty jsou `percentage` nebo `manual`. Další informace najdete v tématu Postup trénování modelu .	`percentage`
trainingSplitPercentage	`80`	Procento označených dat, která se mají zahrnout do trénovací sady Doporučená hodnota je `80`.	`80`
testingSplitPercentage	`20`	Procento označených dat, která se mají zahrnout do testovací sady Doporučená hodnota je `20`.	`20`

Poznámka

Hodnoty trainingSplitPercentage a testingSplitPercentage jsou vyžadovány pouze v případě, že Kind je nastavená na percentage hodnotu a součet obou procent by se měl rovnat hodnotě 100.

Jakmile odešlete požadavek rozhraní API, obdržíte 202 odpověď s informací, že se úloha odeslala správně. V hlavičce odpovědi extrahujte location hodnotu . Je formátovaný takto:

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

{JOB-ID} slouží k identifikaci vašeho požadavku, protože tato operace je asynchronní. Pomocí této adresy URL můžete zjistit stav trénování.

Získání stavu trénovací úlohy

Trénování může nějakou dobu trvat v závislosti na velikosti trénovacích dat a složitosti schématu. Pomocí následujícího požadavku můžete pokračovat v dotazování na stav trénovací úlohy, dokud se úspěšně nedokončí.

Pomocí následujícího požadavku GET získáte stav průběhu trénování modelu. Nahraďte následující zástupné hodnoty vlastními hodnotami.

Adresa URL požadavku

{ENDPOINT}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}?api-version={API-VERSION}

Zástupný symbol	Hodnota	Příklad
`{ENDPOINT}`	Koncový bod pro ověření požadavku rozhraní API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Název projektu. V této hodnotě se rozlišují velká a malá písmena.	`myProject`
`{JOB-ID}`	ID pro vyhledání stavu trénování modelu. Tato hodnota je v hodnotě `location` záhlaví, kterou jste získali v předchozím kroku.	`xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx`
`{API-VERSION}`	Verze rozhraní API, které voláte. Zde se odkazuje na hodnotu pro nejnovější vydanou verzi. Další informace o dalších dostupných verzích rozhraní API najdete v tématu Životní cyklus modelu .	`2022-05-01`

Hlavičky

K ověření požadavku použijte následující hlavičku.

Klíč	Hodnota
`Ocp-Apim-Subscription-Key`	Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.

Text odpovědi

Po odeslání žádosti se zobrazí následující odpověď.

{
  "result": {
    "modelLabel": "{MODEL-NAME}",
    "trainingConfigVersion": "{CONFIG-VERSION}",
    "estimatedEndDateTime": "2022-04-18T15:47:58.8190649Z",
    "trainingStatus": {
      "percentComplete": 3,
      "startDateTime": "2022-04-18T15:45:06.8190649Z",
      "status": "running"
    },
    "evaluationStatus": {
      "percentComplete": 0,
      "status": "notStarted"
    }
  },
  "jobId": "{JOB-ID}",
  "createdDateTime": "2022-04-18T15:44:44Z",
  "lastUpdatedDateTime": "2022-04-18T15:45:48Z",
  "expirationDateTime": "2022-04-25T15:44:44Z",
  "status": "running"
}

Zrušit trénovací úlohu

Language Studio
Rozhraní REST API

Pokud chcete zrušit trénovací úlohu v nástroji Language Studio, přejděte na stránku Školicí úlohy . Vyberte trénovací úlohu, kterou chcete zrušit, a v horní nabídce vyberte Zrušit .

Pokud chcete zrušit trénovací úlohu, vytvořte požadavek POST pomocí následující adresy URL, hlaviček a textu JSON.

Adresa URL požadavku

Při vytváření požadavku rozhraní API použijte následující adresu URL. Nahraďte následující zástupné hodnoty vlastními hodnotami.

{Endpoint}/language/authoring/analyze-text/projects/{PROJECT-NAME}/train/jobs/{JOB-ID}/:cancel?api-version={API-VERSION}

Zástupný symbol	Hodnota	Příklad
`{ENDPOINT}`	Koncový bod pro ověření požadavku rozhraní API.	`https://<your-custom-subdomain>.cognitiveservices.azure.com`
`{PROJECT-NAME}`	Název projektu. V této hodnotě se rozlišují velká a malá písmena.	`EmailApp`
`{JOB-ID}`	Tato hodnota je ID trénovací úlohy.	`XXXXX-XXXXX-XXXX-XX`
`{API-VERSION}`	Verze rozhraní API, které voláte. Odkazovaná hodnota je pro nejnovější vydanou verzi modelu.	`2022-05-01`

Hlavičky

K ověření požadavku použijte následující hlavičku.

Klíč	Hodnota
`Ocp-Apim-Subscription-Key`	Klíč k vašemu prostředku. Používá se k ověřování požadavků rozhraní API.

Po odeslání požadavku rozhraní API obdržíte odpověď 202 s hlavičkou Operation-Location použitou ke kontrole stavu úlohy.

Další kroky

Po dokončení trénování budete moct zobrazit výkon modelu a v případě potřeby model volitelně vylepšit. Jakmile budete s modelem spokojeni, můžete ho nasadit a zpřístupnit ho k extrahování entit z textu.

Sdílet prostřednictvím

Trénování modelu Textová Analýza na míru pro zdravotnictví

Požadavky

Rozdělování dat

Trénování modelu

Spustit trénovací úlohu

Hlavičky

Text požadavku

Získání stavu trénovací úlohy

Adresa URL požadavku

Hlavičky

Text odpovědi

Zrušit trénovací úlohu

Adresa URL požadavku

Hlavičky

Další kroky

Další materiály