Sdílet prostřednictvím


Označení dat v nástroji Azure Language in Foundry Tools Studio

Před trénováním modelu musíte dokumenty označovat vlastními entitami, které chcete extrahovat. Popisování dat je zásadní krok v životním cyklu vývoje. Můžete vytvořit typy entit, které chcete extrahovat z dat, a označovat je v dokumentech. Tato data se používají v dalším kroku při trénování modelu, aby se váš model mohl učit z označených dat. Pokud jste už data označili jako označená, můžete je přímo importovat do projektu, ale musíte se ujistit, že vaše data mají stejný formát jako přijatá. Další informace o importu označených dat do projektu najdete v tématu vytvoření projektu .

Před vytvořením vlastního modelu NER je nejprve potřeba označit data. Pokud vaše data ještě nejsou označená, můžete je označit v sadě Language Studio. Označená data informují model o tom, jak interpretovat text, a slouží k trénování a vyhodnocení.

Požadavky

Než budete moct data označovat, potřebujete:

  • Úspěšně vytvořený projekt s nakonfigurovaným účtem služby Azure Blob Storage
  • Textová data se nahrají do účtu úložiště.

Další informace najdete v životním cyklu vývoje projektu.

Pokyny k označování dat

Po přípravě dat, návrhu schématu a vytvoření projektu je potřeba data označovat. Označení dat je důležité, aby model věděl, která slova jsou přidružená k typům entit, které potřebujete extrahovat. Když označíte data v sadě Language Studio (nebo importujete označená data), uloží se tyto popisky do dokumentu JSON v kontejneru úložiště, který jste připojili k tomuto projektu.

Při označování dat mějte na paměti:

  • Obecně platí, že více označená data vedou k lepším výsledkům za předpokladu, že jsou data označená přesně.

  • Přesnost, konzistence a úplnost označených dat jsou klíčovými faktory pro určení výkonu modelu.

    • Popište přesně: Vždy přesně označujte každou entitu správným typem. Uveďte jenom to, co chcete extrahovat. Vyhněte se zbytečným datům v popiscích.
    • Popisek konzistentně: Stejná entita by měla mít stejný popisek ve všech dokumentech.
    • Úplně označte: Označte všechny instance entity ve všech svých dokumentech. Pomocí funkce automatického označování můžete zajistit jeho úplnost.

    Poznámka:

    Neexistuje žádný pevný počet popisků, které by mohly zaručit, že váš model funguje nejlépe. Výkon modelu závisí na možné nejednoznačnosti ve schématu a na kvalitě označených dat. Nicméně doporučujeme mít přibližně 50 označených instancí na typ entity.

Označte svá data

K označení dat použijte následující postup:

  1. Přejděte na stránku projektu v aplikaci Language Studio.

  2. Z levého menu vyberte Označování dat. Seznam všech dokumentů najdete v kontejneru úložiště.

    Tip

    Filtry v horní nabídce můžete použít k zobrazení neoznačené dokumenty, abyste je mohli začít popisovat. Filtry můžete použít také k zobrazení dokumentů, které jsou označené určitým typem entity.

  3. Přejděte na jedno zobrazení dokumentu z levé strany v horní nabídce nebo vyberte konkrétní dokument, který chcete začít popisovat. Seznam všech .txt dokumentů dostupných v projektu najdete vlevo. K procházení dokumentů můžete použít tlačítko Zpět a Další v dolní části stránky.

    Poznámka:

    Pokud jste pro svůj projekt povolili více jazyků, najdete v horní nabídce rozevírací seznam Jazyk , který umožňuje vybrat jazyk jednotlivých dokumentů.

  4. V pravém podokně přidejte do projektu typ entity, abyste mohli začít popisovat data pomocí nich.

  5. Dokument můžete označovat dvěma způsoby:

    Možnost Popis
    Označení štětcem Vyberte ikonu štětce vedle typu entity v pravém podokně a pak zvýrazněte text v dokumentu, který chcete přidat k poznámce s tímto typem entity.
    Označení pomocí nabídky Zvýrazněte slovo, které chcete označit jako entitu, a zobrazí se nabídka. Vyberte typ entity, který chcete pro tuto entitu přiřadit.

    Následující snímek obrazovky ukazuje popisky pomocí štětce.

    Snímek obrazovky s možnostmi označování nabízenými ve vlastním modelu NER.

  6. V pravém bočním podokně v pivotu Popisky najdete všechny typy entit v projektu a počet označených instancí na každý z nich.

  7. V dolní části pravého bočního podokna můžete přidat aktuální dokument, který si prohlížíte, do trénovací sady nebo testovací sady. Ve výchozím nastavení se do trénovací sady přidají všechny dokumenty. Přečtěte si další informace o trénovacích a testovacích sadách a o tom, jak se používají k trénování a vyhodnocení modelu.

    Tip

    Pokud plánujete používat automatické rozdělení dat, použijte výchozí možnost přiřazování všech dokumentů do trénovací sady.

  8. V pivotu Distribuce můžete zobrazit distribuci napříč trénovacími a testovacími sadami. Máte dvě možnosti zobrazení:

    • Celkový počet instancí , ve kterých můžete zobrazit počet všech označených instancí určitého typu entity.
    • dokumenty s alespoň jedním popiskem , kde se každý dokument počítá, pokud obsahuje aspoň jednu označenou instanci této entity.
  9. Při označování štítků se vaše změny pravidelně synchronizují, pokud se ještě neuloží, zobrazí se v horní části stránky upozornění. Pokud chcete uložit ručně, vyberte tlačítko Uložit štítky v dolní části stránky.

Odstraňte popisky

Odebrat popisek

  1. Vyberte entitu, ze které chcete odebrat popisek.
  2. Procházejte zobrazenou nabídku a vyberte Odebrat popisek.

Odstranění entit

Pokud chcete entitu odstranit, vyberte ikonu odstranění vedle entity, kterou chcete odebrat. Odstranění entity odebere všechny její označené instance z vaší datové sady.

Další kroky

Po označení dat můžete začít trénovat model , který se bude učit na základě vašich dat.