Co je vlastní rozpoznávání pojmenovaných entit?

Článek
12/19/2023

Custom NER je jednou z vlastních funkcí, které nabízí jazyk Azure AI. Jedná se o cloudovou službu API, která používá inteligenci strojového učení a umožňuje vytvářet vlastní modely pro vlastní úlohy rozpoznávání pojmenovaných entit.

Vlastní NER umožňuje uživatelům vytvářet vlastní modely AI, které extrahují entity specifické pro doménu z nestrukturovaného textu, jako jsou smlouvy nebo finanční dokumenty. Vytvořením vlastního projektu NER mohou vývojáři iterativně označovat data, trénovat, vyhodnocovat a vylepšovat výkon modelu před tím, než ho zpřístupní ke spotřebě. Kvalita označených dat výrazně ovlivňuje výkon modelu. Pro zjednodušení vytváření a přizpůsobení modelu nabízí služba vlastní webový portál, ke kterému se dostanete přes Language Studio. Se službou můžete snadno začít pracovat podle kroků v tomto rychlém startu.

Tato dokumentace obsahuje následující typy článků:

Rychlá zprovoznění jsou úvodní pokyny, které vás provedou vytvářením požadavků na službu.
Koncepty poskytují vysvětlení funkcí a funkcí služby.
Návody obsahují pokyny pro používání služby konkrétnějšími nebo přizpůsobenými způsoby.

Ukázkové scénáře použití

Rozpoznávání vlastních pojmenovaných entit je možné použít v různých scénářích v různých odvětvích:

Extrakce informací

Mnoho finančních a právních organizací denně extrahuje a normalizuje data z tisíců složitých nestrukturovaných textových zdrojů. Mezi tyto zdroje patří bankovní výpisy, právní smlouvy nebo bankovní formuláře. Například extrakce dat o aplikaci hypotéky provedená ručně lidskými revidujícími může trvat několik dní. Automatizace těchto kroků vytvořením vlastního modelu NER zjednodušuje proces a šetří náklady, čas a úsilí.

Dolování znalostí za účelem vylepšení/obohacení sémantického vyhledávání

Vyhledávání je základní pro každou aplikaci, která uživatelům zobrazí textový obsah. Mezi běžné scénáře patří vyhledávání v katalogu nebo dokumentu, vyhledávání maloobchodních produktů nebo dolování znalostí pro datové vědy. Mnoho podniků v různých odvětvích chce vytvořit bohaté vyhledávací prostředí pro soukromý heterogenní obsah, který zahrnuje strukturované i nestrukturované dokumenty. V rámci svého kanálu můžou vývojáři použít vlastní NER k extrakci entit z textu, které jsou relevantní pro jejich odvětví. Tyto entity je možné použít k obohacení indexování souboru a získat tak více přizpůsobené možnosti vyhledávání.

Audit a dodržování předpisů

Místo ruční kontroly výrazně dlouhých textových souborů pro audit a použití zásad můžou IT oddělení ve finančních nebo právních podnicích použít vlastní NER k vytváření automatizovaných řešení. Tato řešení můžou být užitečná při vynucování zásad dodržování předpisů a nastavení nezbytných obchodních pravidel na základě kanálů dolování znalostí, které zpracovávají strukturovaný i nestrukturovaný obsah.

Životní cyklus vývoje projektu

Použití vlastního NER obvykle zahrnuje několik různých kroků.

Definování schématu: Znalost dat a identifikace entit , které chcete extrahovat. Vyhněte se nejednoznačnosti.
Popisování dat: Označování dat je klíčovým faktorem při určování výkonu modelu. Popisky přesně, konzistentně a úplně.
1. Přesné popisky: Vždy označte každou entitu správným typem. Zahrňte jenom to, co chcete extrahovat, a vyhněte se zbytečným datům v popiscích.
2. Konzistentní popisování: Stejná entita by měla mít ve všech souborech stejný popisek.
3. Popisek úplně: Označte všechny instance entity ve všech souborech.
Trénování modelu: Model se začne učit z označených dat.
Zobrazení výkonu modelu: Po dokončení trénování si můžete prohlédnout podrobnosti o vyhodnocení modelu, jeho výkon a pokyny, jak ho vylepšit.
Nasazení modelu: Nasazení modelu ho zpřístupní pro použití prostřednictvím rozhraní API pro analýzu.
Extrakce entit: Vlastní modely používejte pro úlohy extrakce entit.

Referenční dokumentace a ukázky kódu

Při používání vlastního NER si projděte následující referenční dokumentaci a ukázky pro jazyk Azure AI:

Možnost vývoje / jazyk	Referenční dokumentace	Ukázky
Rozhraní REST API (vytváření)	Dokumentace k rozhraní REST API
Rozhraní REST API (runtime)	Dokumentace k rozhraní REST API
C# (runtime)	Dokumentace k jazyku C#	Ukázky C#
Java (runtime)	Dokumentace k Javě	Ukázky v Javě
JavaScript (runtime)	Dokumentace k JavaScriptu	Ukázky JavaScriptu
Python (runtime)	Dokumentace k Pythonu	Ukázky Pythonu

Zodpovědná umělá inteligence

Systém AI zahrnuje nejen technologii, ale také lidi, kteří ho budou používat, lidi, kterých se to bude týkat, a prostředí, ve kterém je nasazený. Přečtěte si poznámku k transparentnosti pro vlastní NER , kde se dozvíte o zodpovědném používání a nasazování AI ve vašich systémech. Další informace najdete také v následujících článcích:

Další kroky

Pomocí článku Rychlý start můžete začít používat vlastní rozpoznávání pojmenovaných entit.
Při procházení životního cyklu vývoje projektu si prohlédněte glosář , kde najdete další informace o termínech používaných v dokumentaci k této funkci.
Nezapomeňte si prohlédnout limity služeb pro informace, jako je regionální dostupnost.