Označení dat pomocí nástroje Language Studio

Označování dat je zásadním krokem životního cyklu vývoje. V tomto kroku označíte dokumenty novými entitami, které jste definovali ve schématu, a naplníte tak jejich naučené komponenty. Tato data se použijí v dalším kroku při trénování modelu, aby se model mohl učit z označených dat a zjistit, které entity se mají extrahovat. Pokud už máte označená data, můžete je přímo importovat do projektu, ale musíte se ujistit, že data mají formát přijatých dat. Další informace o importu označených dat do projektu najdete v tématu Vytvoření projektu . Pokud vaše data ještě nejsou označená, můžete je označit v nástroji Language Studio.

Požadavky

Před popiskem dat potřebujete:

  • Úspěšně vytvořený projekt s nakonfigurovaným účtem úložiště objektů blob v Azure
  • Textová data, která se nahrála do vašeho účtu úložiště.

Další informace najdete v tématu Životní cyklus vývoje projektu .

Pokyny k popisování dat

Po přípravě dat, návrhu schématu a vytvoření projektu budete muset data označit popiskem. Označování dat je důležité, aby model věděl, která slova budou přidružená k typům entit, které je potřeba extrahovat. Když data označíte popiskem v nástroji Language Studio (nebo je naimportujete), uloží se tyto popisky do dokumentu JSON v kontejneru úložiště, který jste připojili k tomuto projektu.

Při označování dat mějte na paměti:

  • Nemůžete přidat popisky pro Analýza textu pro entity stavu, protože jsou to předem připravené entity. Popisky můžete přidávat jenom do nových kategorií entit, které jste definovali během definice schématu.

Pokud chcete zlepšit úplnost pro předem připravenou entitu, můžete ji rozšířit přidáním komponenty seznamu při definování schématu.

  • Obecně platí, že více označených dat vede k lepším výsledkům za předpokladu, že jsou data označená přesně.

  • Přesnost, konzistence a úplnost označených dat jsou klíčovými faktory pro určení výkonu modelu.

    • Přesné popisky: Vždy označte každou entitu správným typem. Zahrňte jenom to, co chcete extrahovat, vyhněte se zbytečným datům v popiscích.
    • Popisek konzistentně: Stejná entita by měla mít ve všech dokumentech stejný popisek.
    • Popisek úplně: Označte všechny instance entity ve všech dokumentech.

    Poznámka

    Neexistuje žádný pevný počet popisků, které by mohly zaručit nejlepší výkon vašeho modelu. Výkon modelu závisí na možné nejednoznačnosti ve schématu a na kvalitě označených dat. Nicméně doporučujeme mít přibližně 50 označených instancí pro každý typ entity.

Označení dat

K označení dat použijte následující postup:

  1. V nástroji Language Studio přejděte na stránku projektu.

  2. V nabídce vlevo vyberte Popisování dat. V kontejneru úložiště najdete seznam všech dokumentů.

    Tip

    Pomocí filtrů v horní nabídce můžete zobrazit neoznačené dokumenty, abyste je mohli začít popisovat. Filtry můžete použít také k zobrazení dokumentů označených určitým typem entity.

  3. Přejděte na zobrazení jednoho dokumentu z levé strany v horní nabídce nebo vyberte konkrétní dokument a začněte popisovat. Nalevo najdete seznam všech .txt dokumentů dostupných v projektu. Dokumenty můžete procházet pomocí tlačítek Zpět a Další v dolní části stránky.

    Poznámka

    Pokud jste pro svůj projekt povolili více jazyků, najdete v horní nabídce rozevírací seznam Jazyk , který vám umožní vybrat jazyk každého dokumentu. Hebrejština není podporována u vícejazyčných projektů.

  4. V pravém bočním podokně můžete pomocí tlačítka Přidat typ entity přidat do projektu další entity, které jste vynechali při definici schématu.

  5. Dokument můžete označit dvěma způsoby:

    Možnost Popis
    Popisek pomocí štětce Vyberte ikonu štětce vedle typu entity v pravém podokně a pak zvýrazněte text v dokumentu, který chcete k tomuto typu entity přidat.
    Popisek pomocí nabídky Zvýrazněte slovo, které chcete označit jako entitu, a zobrazí se nabídka. Vyberte typ entity, který chcete této entitě přiřadit.

    Následující snímek obrazovky ukazuje popisky pomocí štětce.

    Snímek obrazovky s možnostmi popisování nabízenými v části Vlastní NER

  6. V pravém podokně pod kontingenčním panelem Popisky najdete všechny typy entit v projektu a počet označených instancí na každou z nich. Předem připravené entity se zobrazí pro referenci, ale nebudete moct popisovat tyto předem připravené entity, protože jsou předem vytrénované.

  7. V dolní části pravého bočního podokna můžete přidat aktuální dokument, který si prohlížíte, do trénovací sady nebo testovací sady. Ve výchozím nastavení se do trénovací sady přidají všechny dokumenty. Informace o tom, jak se používají pro trénování a vyhodnocování modelů, najdete v tématu trénovací a testovací sady .

    Tip

    Pokud plánujete používat automatické dělení dat, použijte výchozí možnost přiřazení všech dokumentů do trénovací sady.

  8. V pivotu Distribuce můžete zobrazit rozdělení mezi trénovací a testovací sady. Máte dvě možnosti zobrazení:

    • Celkový počet instancí , kde můžete zobrazit počet všech označených instancí určitého typu entity.
    • Dokumenty s alespoň jedním popiskem , kde se každý dokument počítá, pokud obsahuje aspoň jednu označenou instanci této entity.
  9. Při označování štítky se změny pravidelně synchronizují. Pokud ještě nebyly uloženy, zobrazí se v horní části stránky upozornění. Pokud chcete uložit ručně, vyberte tlačítko Uložit štítky v dolní části stránky.

Odebrat popisky

Odebrání popisku

  1. Vyberte entitu, ze které chcete odebrat popisek.
  2. Projděte si nabídku, která se zobrazí, a vyberte Odebrat popisek.

Odstranění entit

Nelze odstranit žádné Analýza textu pro předem vytrénované entity stavu, protože mají předem připravenou komponentu. Můžete odstranit pouze nově definované kategorie entit. Pokud chcete entitu odstranit, vyberte ikonu odstranění vedle entity, kterou chcete odebrat. Odstraněním entity se z datové sady odeberou všechny její označené instance.

Další kroky

Po označení dat můžete začít trénovat model , který se bude učit na základě vašich dat.