Označení textových dat pro trénování modelu

Před trénováním modelu musíte dokumenty označit třídami, do které je chcete zařadit do kategorií. Označování dat je zásadním krokem životního cyklu vývoje. v tomto kroku můžete vytvořit třídy, do které chcete data zařadit do kategorií, a označit dokumenty těmito třídami. Tato data se použijí v dalším kroku při trénování modelu, aby se model mohl učit z označených dat. Pokud už máte označená data, můžete je přímo naimportovat do projektu, ale musíte se ujistit, že data mají formát akceptovaných dat.

Před vytvořením vlastního modelu klasifikace textu musíte nejprve mít označená data. Pokud vaše data ještě nejsou označená, můžete je označit v nástroji Language Studio. Označená data informují model o tom, jak interpretovat text, a používají se k trénování a vyhodnocení.

Požadavky

Před popiskem dat potřebujete:

Další informace najdete v tématu Životní cyklus vývoje projektu .

Pokyny k popisování dat

Po přípravě dat, návrhu schématu a vytvoření projektu budete muset data označit popiskem. Označování dat je důležité, aby model věděl, které dokumenty budou přidruženy k potřebným třídám. Když data označíte popiskem v nástroji Language Studio (nebo naimportujete označená data), uloží se tyto popisky do souboru JSON v kontejneru úložiště, který jste připojili k tomuto projektu.

Při označování dat mějte na paměti:

  • Obecně platí, že více označených dat vede k lepším výsledkům za předpokladu, že jsou data označená přesně.

  • Neexistuje žádný pevný počet popisků, které by mohly zaručit nejlepší výkon vašeho modelu. Modelujte výkon možné nejednoznačnosti ve schématu a kvalitu označených dat. Pro každou třídu ale doporučujeme 50 označených dokumentů.

Označení dat

K označení dat použijte následující postup:

  1. V nástroji Language Studio přejděte na stránku projektu.

  2. V nabídce vlevo vyberte Popisování dat. V kontejneru úložiště najdete seznam všech dokumentů. Podívejte se na následující obrázek.

    Tip

    Pomocí filtrů v horní nabídce můžete zobrazit neoznačené soubory, abyste je mohli začít popisovat. Filtry můžete také použít k zobrazení dokumentů označených konkrétní třídou.

  3. V horní nabídce přejděte na jedno zobrazení souborů z levé strany nebo vyberte konkrétní soubor a začněte popisovat. Nalevo najdete seznam všech .txt souborů dostupných ve vašich projektech. Dokumenty můžete procházet pomocí tlačítek Zpět a Další v dolní části stránky.

    Poznámka

    Pokud jste pro svůj projekt povolili více jazyků, najdete v horní nabídce rozevírací seznam Jazyk , který vám umožní vybrat jazyk každého dokumentu.

  4. V pravém bočním podokně přidejte do projektu třídu , abyste jimi mohli začít označovat data.

  5. Začněte soubory popisovat.

    Klasifikace s více popisky: Soubor může být označen několika třídami. Uděláte to tak, že zaškrtnete všechna příslušná políčka vedle tříd, kterými chcete tento dokument označit.

    Snímek obrazovky zobrazující stránku s více značkami klasifikace štítků

    K zajištění úplného popisování můžete také použít funkci automatického popisování.

  6. V pravém podokně pod pivotem Popisky najdete všechny třídy v projektu a počet označených instancí na každou z nich.

  7. V dolní části pravého bočního podokna můžete přidat aktuální soubor, který si prohlížíte, do trénovací sady nebo testovací sady. Ve výchozím nastavení se do trénovací sady přidají všechny dokumenty. Přečtěte si další informace o trénovacích a testovacích sadách a o tom, jak se používají k trénování a vyhodnocování modelů.

    Tip

    Pokud plánujete použít automatické rozdělení dat, použijte výchozí možnost přiřazení všech dokumentů do trénovací sady.

  8. V pivotu Distribuce můžete zobrazit rozdělení mezi trénovací a testovací sady. Máte dvě možnosti zobrazení:

    • Celkový počet instancí , kde můžete zobrazit počet všech označených instancí konkrétní třídy.
    • dokumenty s alespoň jedním popiskem , kde se každý dokument počítá, pokud obsahuje alespoň jednu označenou instanci této třídy.
  9. Během vytváření popisků se vaše změny budou pravidelně synchronizovat. Pokud ještě nebyly uloženy, zobrazí se v horní části stránky upozornění. Pokud chcete uložit ručně, vyberte tlačítko Uložit štítky v dolní části stránky.

Odebrat popisky

Pokud chcete odebrat popisek, zrušte zaškrtnutí tlačítka vedle třídy.

Odstranění nebo třídy

Pokud chcete třídu odstranit, vyberte ikonu odstranění vedle třídy, kterou chcete odebrat. Odstraněním třídy se z datové sady odeberou všechny její označené instance.

Další kroky

Po označení dat můžete začít trénovat model , který se bude učit na základě vašich dat.