Trénování vlastního modelu rozpoznávání pojmenovaných entit
Trénování je proces, při kterém se model učí z označených dat. Po dokončení trénování budete moct zobrazit výkon modelu , abyste zjistili, jestli potřebujete model vylepšit.
Pokud chcete vytrénovat model, spustíte trénovací úlohu a model vytvoří pouze úspěšně dokončené úlohy. Platnost trénovacích úloh vyprší po sedmi dnech, což znamená, že po této době nebudete moct načíst podrobnosti o úloze. Pokud se vaše trénovací úloha úspěšně dokončila a vytvořil se model, model to neovlivní. Najednou můžete mít spuštěnou jenom jednu úlohu trénování a nemůžete spustit jiné úlohy ve stejném projektu.
Doba trénování může být od několika minut při zpracování několika dokumentů až po několik hodin v závislosti na velikosti datové sady a složitosti schématu.
Požadavky
- Úspěšně vytvořený projekt s nakonfigurovaným účtem úložiště objektů blob v Azure
- Textová data, která se nahrála do vašeho účtu úložiště.
- Popsaná data
Další informace najdete v tématu Životní cyklus vývoje projektu .
Rozdělování dat
Než začnete s procesem trénování, jsou označené dokumenty ve vašem projektu rozdělené na trénovací sadu a testovací sadu. Každá z nich má jinou funkci. Trénovací sada se používá při trénování modelu. Jedná se o sadu, ze které se model učí označené entity a jaké rozsahy textu se mají extrahovat jako entity. Testovací sada je sada nevidomých, která se nezavádí do modelu během trénování, ale pouze během vyhodnocení. Po úspěšném dokončení trénování modelu se model použije k vytváření předpovědí z dokumentů v testování a na základě těchto předpovědí se počítají metriky vyhodnocení . Doporučujeme zajistit, aby všechny vaše entity byly adekvátně zastoupeny v trénovací i testovací sadě.
Vlastní NER podporuje dvě metody rozdělení dat:
- Automatické rozdělení testovací sady od trénovacích dat:Systém rozdělí označená data mezi trénovací a testovací sadu podle toho, kolik procent zvolíte. Doporučené procento rozdělení je 80 % pro trénování a 20 % pro testování.
Poznámka
Pokud zvolíte možnost Automaticky rozdělit testovací sadu od trénovacích dat , rozdělí se podle zadaných procent pouze data přiřazená k trénovací sadě.
- Použití ručního rozdělení trénovacích a testovacích dat: Tato metoda umožňuje uživatelům definovat, které označené dokumenty mají patřit do které sady. Tento krok je povolený jenom v případě, že jste během označování dat přidali dokumenty do testovací sady.
Trénování modelu
Pokud chcete začít s trénováním modelu v sadě Language Studio:
V nabídce na levé straně vyberte Trénovací úlohy .
V horní nabídce vyberte Spustit trénovací úlohu .
Vyberte Trénování nového modelu a do textového pole zadejte název modelu. Existující model můžete také přepsat tak, že vyberete tuto možnost a v rozevírací nabídce zvolíte model, který chcete přepsat. Přepsání natrénovaného modelu je nevratné, ale nasazené modely neovlivní, dokud nový model nenasadíte.
Vyberte metodu dělení dat. Můžete zvolit automatické rozdělení testovací sady od trénovacích dat , kdy systém rozdělí označená data mezi trénovací a testovací sadu podle zadaných procent. Nebo můžete použít ruční rozdělení trénovacích a testovacích dat. Tato možnost je povolená jenom v případě, že jste během označování dat přidali dokumenty do testovací sady. Informace o rozdělování dat najdete v tématu Jak vytrénovat model .
Vyberte tlačítko Train (Trénovat).
Pokud ze seznamu vyberete ID trénovací úlohy, zobrazí se boční podokno, kde můžete zkontrolovat průběh trénování, stav úlohy a další podrobnosti pro tuto úlohu.
Poznámka
- Modely budou generovat pouze úspěšně dokončené trénovací úlohy.
- Trénování může na základě velikosti označených dat nějakou dobu trvat několik minut až několik hodin.
- Najednou můžete mít spuštěnou pouze jednu úlohu trénování. V rámci stejného projektu nemůžete spustit další úlohu trénování, dokud se nedokončí spuštěná úloha.
Zrušit trénovací úlohu
Pokud chcete zrušit trénovací úlohu v nástroji Language Studio, přejděte na stránku Trénovací úlohy . Vyberte trénovací úlohu, kterou chcete zrušit, a v horní nabídce vyberte Zrušit .
Další kroky
Po dokončení trénování budete moct zobrazit výkon modelu a případně model vylepšovat v případě potřeby. Jakmile budete s modelem spokojení, můžete ho nasadit a zpřístupnit ho k extrahování entit z textu.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro