Definice a termíny rozpoznávání vlastních pojmenovaných entit

V tomto článku se dozvíte o některých definicích a termínech, se kterými se můžete setkat při použití vlastního systému NER.

Entita

Entita je rozsah textu, který označuje určitý typ informací. Rozsah textu se může skládat z jednoho nebo více slov. V oboru vlastního NER představují entity informace, které chce uživatel extrahovat z textu. Vývojáři označí entity ve svých datech s potřebnými entitami před jejich předáním do modelu pro trénování. Například "Číslo faktury", "Počáteční datum", "Číslo zásilky", "Místo narození", "Město původu", "Název dodavatele" nebo "Adresa klienta".

Například ve větě "John si půjčil 25 000 USD od Freda", entity mohou být:

Název nebo typ entity	Entita
Jméno dlužníka	John
Jméno věřitele	Fred
Částka půjčky	25 000 USD

skóre F1

Skóre F1 je potřeba, když hledáte rovnováhu mezi přesností a vyvoláním.

Model

Model je objekt, který je vytrénován k určitému úkolu, v tomto případě vlastní rozpoznávání entit. Modely se vytrénují tak, že poskytují označená data, ze které se mají učit, aby se později mohly použít pro úlohy rozpoznávání.

Trénování modelu je proces, při kterém se váš model učí, co má být extrahováno na základě vámi označených dat.
Vyhodnocení modelu je proces, který se děje hned po trénování, abyste věděli, jak dobře model funguje.
Nasazení je proces přiřazení modelu k nasazení, aby byl dostupný pro použití prostřednictvím rozhraní API pro predikce.

Přesnost

Měří, jak přesný a přesnost má váš model. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.

Projekt

Projekt je pracovní oblast pro vytváření vlastních modelů ML na základě vašich dat. Váš projekt je přístupný pouze vám a ostatním, kteří mají přístup k používanému prostředku Azure. Předpokladem pro vytvoření vlastního projektu pro extrakci entit je, že při vytváření nového projektu musíte připojit svůj prostředek k účtu úložiště s vaší datovou sadou. Projekt automaticky zahrne všechny .txt soubory dostupné v kontejneru.

Tady je seznam akcí, které můžete provést:

Označení dat: Proces označování dat tak, aby se při trénování modelu dozvěděl, co chcete extrahovat.
Sestavení a trénování modelu: Základní krok projektu, ve kterém se váš model začíná učit z označených dat.
Zobrazení podrobností o vyhodnocení modelu: Zkontrolujte výkon modelu a rozhodněte se, jestli je k dispozici prostor pro zlepšení nebo jestli jste s výsledky spokojení.
Nasazení: Po kontrole výkonu modelu a rozhodnutí, že ho můžete použít ve vašem prostředí, musíte ho přiřadit k nasazení, aby ho bylo možné použít. Přiřazení modelu k nasazení ho zpřístupní pro použití prostřednictvím rozhraní API pro predikce.
Testovací model: Po nasazení modelu otestujte nasazení v Microsoft Foundry a podívejte se, jak by to fungovalo v produkčním prostředí.

Odvolat

Měří schopnost modelu předpovědět skutečné kladné klasifikace. Je to poměr mezi predikovanými pravými pozitivy a tím, co bylo označeno. Metrika úplnosti ukazuje, kolik predikovaných tříd jsou správné.

Další kroky

Omezení dat a služeb
Přehled vlastního NER

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-18