Sdílet prostřednictvím


Příprava dat a definování schématu pro Textová Analýza na míru pro zdravotnictví

K vytvoření vlastního modelu TA4H budete potřebovat kvalitní data k jeho trénování. Tento článek popisuje, jak byste měli vybrat a připravit data, spolu s definováním schématu. Definování schématu je prvním krokem v životním cyklu vývoje projektu a zahrnuje definování typů entit nebo kategorií, které potřebujete, aby model extrahovali z textu za běhu.

Návrh schématu

Vlastní Analýza textu pro stav umožňuje rozšířit a přizpůsobit Analýza textu pro mapu entit stavu. Prvním krokem tohoto procesu je vytvoření schématu, které vám umožní definovat nové typy entit nebo kategorie, které potřebujete, aby model extrahovali z textu, a navíc k Analýza textu pro stav existujících entit za běhu.

  • Zkontrolujte dokumenty v datové sadě, abyste se seznámili s jejich formátem a strukturou.

  • Identifikujte entity, které chcete z dat extrahovat.

    Pokud například extrahujete entity z e-mailů podpory, možná budete muset extrahovat "Jméno zákazníka", "Název produktu", "Datum žádosti" a "Kontaktní informace".

  • Vyhněte se nejednoznačnosti typů entit.

    K nejednoznačnosti dochází v případě, že jsou typy entit, které vyberete, podobné. Čím nejednoznačinější je schéma, tím více označená data budete muset rozlišovat mezi různými typy entit.

    Pokud například extrahujete data z právní smlouvy a chcete extrahovat "Název první strany" a "Název druhé strany", budete muset přidat další příklady, abyste se vyřešili nejednoznačností, protože názvy obou stran vypadají podobně. Vyhněte se nejednoznačnosti, protože šetří čas, úsilí a přináší lepší výsledky.

  • Vyhněte se složitým entitám. Složité entity může být obtížné vybrat přesně z textu. Zvažte jejich rozdělení do více entit.

    Například extrakce adresy by byla náročná, pokud není rozdělená na menší entity. Existuje tolik variant, jak se adresy zobrazují, a proto by bylo potřeba velkého počtu označených entit, aby model naučil extrahovat adresu jako celek, aniž by ji rozložil. Pokud ale "Address" nahradíte "Název ulice", "PO Box", "City", "State" a "Zip", bude model vyžadovat méně popisků pro každou entitu.

Přidání entit

Přidání entit do projektu:

  1. Přechod na pivot Entity z horní části stránky

  2. Analýza textu pro entity stavu se automaticky načtou do projektu. Pokud chcete přidat další kategorie entit, vyberte v horní nabídce Přidat . Před vytvořením entity se zobrazí výzva k zadání názvu.

  3. Po vytvoření entity budete přesměrováni na stránku s podrobnostmi o entitě, kde můžete definovat nastavení složení pro tuto entitu.

  4. Entity jsou definovány komponentami entit: naučené, seznamové nebo předem připravené. Analýza textu pro entity stavu se ve výchozím nastavení naplní předem připravenou komponentou a nesmí obsahovat naučené komponenty. Nově definované entity se dají po přidání popisků do dat naplnit naučenou komponentou, ale není možné je naplnit předem připravenou komponentou.

  5. Do libovolné entity můžete přidat komponentu seznamu .

Přidat komponentu seznamu

Pokud chcete přidat komponentu seznamu , vyberte Přidat nový seznam. Ke každé entitě můžete přidat více seznamů.

  1. Nový seznam vytvoříte tak, že do textového pole Zadat hodnotu zadáte normalizovanou hodnotu, která se vrátí při extrahování hodnoty synonym.

  2. U vícejazyčných projektů vyberte z rozevírací nabídky jazyka v seznamu synonym jazyk a začněte psát synonyma a po každém z nich stiskněte Enter. Doporučuje se mít seznamy synonym ve více jazycích.

Definování možností entity

Na stránce s podrobnostmi entity přejděte na pivot Možnosti entity. Pokud je pro entitu definováno více komponent, mohou se jejich předpovědi překrývat. Když dojde k překrývání, konečná předpověď každé entity se určí na základě možnosti entity , kterou vyberete v tomto kroku. Vyberte ten, který chcete použít pro tuto entitu, a vyberte tlačítko Uložit v horní části.

Po vytvoření entit se můžete vrátit a upravit je. Výběrem této možnosti v horní nabídce můžete upravit komponenty entit nebo je odstranit .

Výběr dat

Kvalita dat, se kterými model trénujete, výrazně ovlivňuje výkon modelu.

  • K efektivnímu trénování modelu použijte skutečná data, která odrážejí problémový prostor vaší domény. Syntetická data můžete použít k urychlení počátečního procesu trénování modelu, ale pravděpodobně se budou lišit od vašich reálných dat a při použití budou model méně efektivní.

  • Co nejvíce vyvažte distribuci dat, aniž byste se odchýlili od distribuce v reálném životě. Pokud například trénujete model tak, aby extrahovali entity z právních dokumentů, které mohou být v mnoha různých formátech a jazycích, měli byste poskytnout příklady, které ilustrují rozmanitost, jak byste očekávali v reálném životě.

  • Pokud je to možné, používejte různá data, abyste se vyhnuli přeurčení modelu. Menší rozmanitost trénovacích dat může vést k tomu, že se model naučí falešné korelace, které nemusí existovat v reálných datech.

  • Vyhněte se duplicitním dokumentům v datech. Duplicitní data mají negativní vliv na proces trénování, metriky modelu a výkon modelu.

  • Zvažte, odkud vaše data pocházejí. Pokud shromažďujete data od jedné osoby, oddělení nebo části vašeho scénáře, pravděpodobně vám chybí rozmanitost, o které může být váš model důležitý.

Poznámka

Pokud jsou vaše dokumenty ve více jazycích, vyberte během vytváření projektu možnost Povolit vícejazyčné a nastavte jazyk na jazyk většiny dokumentů.

Příprava dat

Předpokladem pro vytvoření projektu je, že trénovací data je potřeba nahrát do kontejneru objektů blob ve vašem účtu úložiště. Školicí dokumenty můžete vytvářet a nahrávat přímo z Azure nebo pomocí nástroje Průzkumník služby Azure Storage. Pomocí nástroje Průzkumník služby Azure Storage můžete rychle nahrát více dat.

Můžete použít .txt jenom dokumenty. Pokud jsou data v jiném formátu, můžete formát dokumentu změnit pomocí příkazu CLUtils parse .

Můžete nahrát datovou sadu s poznámkami nebo můžete nahrát neoznačený datový soubor a označit data popiskem v language studiu.

Testovací sada

Při definování testovací sady nezapomeňte zahrnout ukázkové dokumenty, které se v trénovací sadě nenachází. Definování testovací sady je důležitým krokem pro výpočet výkonu modelu. Ujistěte se také, že testovací sada obsahuje dokumenty, které představují všechny entity použité v projektu.

Další kroky

Pokud jste to ještě neudělali, vytvořte projekt Textová Analýza na míru pro zdravotnictví. Pokud Textová Analýza na míru pro zdravotnictví používáte poprvé, zvažte vytvoření ukázkového projektu podle pokynů v rychlém startu. Další podrobnosti o tom, co potřebujete k vytvoření projektu, najdete také v článku s postupy .