Označení dat pomocí sady Language Studio

Článek
10/16/2024

Popisování dat je zásadní krok v životním cyklu vývoje. V tomto kroku označíte dokumenty novými entitami, které jste definovali ve schématu, aby se naplnily jejich naučené komponenty. Tato data se použijí v dalším kroku při trénování modelu, aby se váš model mohl učit z označených dat, abyste věděli, které entity se mají extrahovat. Pokud už máte data označená jako označená, můžete je přímo naimportovat do projektu, ale musíte se ujistit, že vaše data mají stejný formát. Další informace o importu označených dat do projektu najdete v tématu vytvoření projektu . Pokud vaše data ještě nejsou označená, můžete je označit v sadě Language Studio.

Požadavky

Než budete moct data označovat, potřebujete:

Úspěšně vytvořený projekt s nakonfigurovaným účtem služby Azure Blob Storage
Textová data, která se nahrála do vašeho účtu úložiště

Další informace najdete v životním cyklu vývoje projektu.

Pokyny k označování dat

Po přípravě dat budete muset data označovat tak, že navrhnete schéma a vytvoříte projekt. Označení dat je důležité, aby model věděl, která slova budou přidružená k typům entit, které potřebujete extrahovat. Když označíte data v sadě Language Studio (nebo importujete označená data), uloží se tyto popisky do dokumentu JSON v kontejneru úložiště, který jste připojili k tomuto projektu.

Při označování dat mějte na paměti:

Popisky pro Analýza textu pro entity stavu nemůžete přidávat, protože jsou předem natrénované předem připravené entity. Popisky můžete přidávat pouze do nových kategorií entit, které jste definovali během definice schématu.

Pokud chcete vylepšit úplnost předem připravené entity, můžete ji rozšířit přidáním komponenty seznamu při definování schématu.

Obecně platí, že více označená data vedou k lepším výsledkům za předpokladu, že jsou data označená přesně.
Přesnost, konzistence a úplnost označených dat jsou klíčovými faktory pro určení výkonu modelu.
- Popisek přesně: Vždy označte každou entitu správným typem. Uveďte jenom to, co chcete extrahovat, vyhněte se zbytečným datům v popiscích.
- Popisek konzistentně: Stejná entita by měla mít stejný popisek ve všech dokumentech.
- Popisek je zcela: Všechny instance entity ve všech dokumentech označte.
Poznámka:

Neexistuje žádný pevný počet popisků, které by mohly zaručit, že váš model bude fungovat co nejlépe. Výkon modelu závisí na možné nejednoznačnosti ve schématu a na kvalitě označených dat. Nicméně doporučujeme mít přibližně 50 označených instancí na typ entity.

Označení dat

K označení dat použijte následující postup:

Přejděte na stránku projektu v sadě Language Studio.
V nabídce na levé straně vyberte Popisky dat. Seznam všech dokumentů najdete v kontejneru úložiště.

Tip

Filtry v horní nabídce můžete použít k zobrazení neoznačené dokumenty, abyste je mohli začít popisovat. Filtry můžete použít také k zobrazení dokumentů, které jsou označené určitým typem entity.
Přejděte na jedno zobrazení dokumentu z levé strany v horní nabídce nebo vyberte konkrétní dokument, který chcete začít popisovat. Seznam všech .txt dokumentů dostupných v projektu najdete vlevo. K procházení dokumentů můžete použít tlačítko Zpět a Další v dolní části stránky.

Poznámka:

Pokud jste pro svůj projekt povolili více jazyků, najdete v horní nabídce rozevírací seznam Jazyk , který umožňuje vybrat jazyk každého dokumentu. Hebrejština není podporována u vícejazyčných projektů.
V pravém podokně můžete pomocí tlačítka Přidat typ entity přidat do projektu další entity, které jste vynechali během definice schématu.

Dokument můžete označovat dvěma způsoby:

Možnost	Popis
Popisek pomocí štětce	Vyberte ikonu štětce vedle typu entity v pravém podokně a pak zvýrazněte text v dokumentu, který chcete přidat k poznámce s tímto typem entity.
Popisek pomocí nabídky	Zvýrazněte slovo, které chcete označit jako entitu, a zobrazí se nabídka. Vyberte typ entity, který chcete pro tuto entitu přiřadit.

Následující snímek obrazovky ukazuje popisky pomocí štětce.

V pravém bočním podokně v pivotu Popisky najdete všechny typy entit v projektu a počet označených instancí na každý z nich. Předem připravené entity se zobrazí pro referenci, ale pro tyto předem připravené entity nebudete moct popisovat.
V dolní části pravého bočního podokna můžete přidat aktuální dokument, který si prohlížíte, do trénovací sady nebo testovací sady. Ve výchozím nastavení se do trénovací sady přidají všechny dokumenty. Informace o tom, jak se používají k trénování a vyhodnocení modelu, najdete v trénovacích a testovacích sadách .

Tip

Pokud plánujete používat automatické rozdělení dat, použijte výchozí možnost přiřazení všech dokumentů do trénovací sady.
V pivotu Distribuce můžete zobrazit distribuci napříč trénovacími a testovacími sadami. Máte dvě možnosti zobrazení:
- Celkový počet instancí , ve kterých můžete zobrazit počet všech označených instancí určitého typu entity.
- Dokumenty s alespoň jedním popiskem , kde se každý dokument počítá, pokud obsahuje aspoň jednu označenou instanci této entity.
Při označování štítků se vaše změny pravidelně synchronizují, pokud ještě nebyly uloženy, zobrazí se v horní části stránky upozornění. Pokud chcete uložit ručně, vyberte tlačítko Uložit štítky v dolní části stránky.

Odebrání popisků

Odebrání popisku

Vyberte entitu, ze které chcete odebrat popisek.
Procházejte zobrazenou nabídku a vyberte Odebrat popisek.

Odstranění entit

Žádnou z Analýza textu pro předem natrénované entity stavu nelze odstranit, protože mají předem připravenou komponentu. Můžete odstranit pouze nově definované kategorie entit. Pokud chcete entitu odstranit, vyberte ikonu odstranění vedle entity, kterou chcete odebrat. Odstranění entity odebere všechny její označené instance z vaší datové sady.

Další kroky

Po označení dat můžete začít trénovat model , který se naučí na základě vašich dat.

Sdílet prostřednictvím