Definice a termíny rozpoznávání vlastních pojmenovaných entit

V tomto článku se dozvíte o některých definicích a termínech, se kterými se můžete setkat při používání vlastního NER.

Entita

Entita je rozsah textu, který označuje určitý typ informací. Rozsah textu se může skládat z jednoho nebo více slov. V oboru vlastního NER entity představují informace, které chce uživatel extrahovat z textu. Vývojáři označí entity ve svých datech potřebnými entitami, než je předají modelu pro trénování. Například "Číslo faktury", "Počáteční datum", "Číslo zásilky", "Místo narození", "Město původu", "Jméno dodavatele" nebo "Adresa klienta".

Například ve větě "Jan si od Freda půjčil 25 000 USD" mohou být entity:

Název/typ entity Entita
Jméno vypůjčitele John
Jméno věřitele Fred
Výše půjčky 25 000 USD

Skóre F1

Skóre F1 je funkce přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.

Modelování

Model je objekt, který je vytrénovaný k určitému úkolu, v tomto případě k rozpoznávání vlastních entit. Modely se trénují tak, že poskytují označená data, ze které se můžete učit, aby je bylo možné později použít pro úlohy rozpoznávání.

  • Trénování modelu je proces výuky modelu, co se má extrahovat na základě označených dat.
  • Vyhodnocení modelu je proces, který se provádí hned po trénování, abyste věděli, jak dobře model funguje.
  • Nasazení je proces přiřazení modelu k nasazení, aby byl dostupný pro použití prostřednictvím rozhraní API pro predikce.

Přesnost

Měří, jak přesný/přesný je váš model. Jedná se o poměr mezi správně identifikovanými pozitivy (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.

Project

Projekt je pracovní oblast pro vytváření vlastních modelů ML na základě vašich dat. K vašemu projektu máte přístup jenom vy a ostatní uživatelé, kteří mají přístup k používanému prostředku Azure. Jako předpoklad pro vytvoření vlastního projektu extrakce entit musíte při vytváření nového projektu připojit prostředek k účtu úložiště s datovou sadou. Projekt automaticky zahrne všechny .txt soubory dostupné v kontejneru.

V rámci projektu můžete provádět následující akce:

  • Označení dat: Proces označování dat tak, aby se při trénování modelu dozvěděl, co chcete extrahovat.
  • Sestavení a trénování modelu: Základní krok projektu, kdy se model začne učit z označených dat.
  • Zobrazení podrobností o vyhodnocení modelu: Zkontrolujte výkon modelu a rozhodněte se, jestli je co zlepšovat, nebo jestli jste s výsledky spokojení.
  • Nasazení: Jakmile zkontrolujete výkon modelu a rozhodnete se, že je možné ho použít ve vašem prostředí, musíte ho přiřadit k nasazení, abyste ho mohli používat. Přiřazení modelu k nasazení ho zpřístupní pro použití prostřednictvím rozhraní API pro predikce.
  • Testovací model: Po nasazení modelu otestujte nasazení v nástroji Language Studio , abyste zjistili, jak by fungovalo v produkčním prostředí.

Recall

Měří schopnost modelu predikovat skutečné pozitivní třídy. Jedná se o poměr mezi predikovanými pravdivě pozitivními výsledky a tím, co bylo skutečně označeno. Metrika úplnosti ukazuje, kolik predikovaných tříd je správných.

Další kroky