Nejčastější dotazy k rozpoznávání vlastních pojmenovaných entit

Článek
12/19/2023

Tady najdete odpovědi na nejčastější dotazy týkající se konceptů a scénářů souvisejících s vlastním NER v jazyce Azure AI.

Návody začít se službou?

Projděte si rychlý start pro rychlé vytvoření prvního projektu nebo si prohlédněte, jak vytvořit projekty , kde najdete podrobnější informace.

Jaká má služba omezení?

Další informace najdete v článku o omezeních služeb .

Kolik označených souborů je potřeba?

Obecně platí, že různorodá a reprezentativní označená data vedou k lepším výsledkům vzhledem k tomu, že označování probíhá přesně, konzistentně a úplně. Neexistuje žádný nastavený počet označených instancí, které zajistí, aby každý model fungoval dobře. Výkon vysoce závisí na vašem schématu a nejednoznačnosti schématu. Nejednoznačné typy entit vyžadují více značek. Výkon také závisí na kvalitě označování. Doporučený počet označených instancí na entitu je 50.

Trénování trvá dlouho, je to očekávané?

Proces trénování může trvat dlouhou dobu. Jako hrubý odhad je očekávaná doba trénování souborů o kombinované délce 12 800 000 znaků 6 hodin.

Návody sestavit vlastní model programově?

Poznámka

V současné době můžete model vytvořit jenom pomocí rozhraní REST API nebo nástroje Language Studio.

K vytváření vlastních modelů můžete použít rozhraní REST API . V tomto rychlém startu můžete začít vytvářet projekt a vytvářet model prostřednictvím rozhraní API, kde najdete příklady volání rozhraní API pro vytváření obsahu.

Až budete připraveni začít používat model k vytváření předpovědí, můžete použít rozhraní REST API nebo klientskou knihovnu.

Jaký je doporučený proces CI/CD?

V rámci stejného projektu můžete trénovat více modelů na stejné datové sadě. Po úspěšném natrénování modelu můžete zobrazit jeho výkon. Model můžete nasadit a otestovat v nástroji Language Studio. Můžete přidat nebo odebrat popisky dat a trénovat nový model a také ho testovat. Pokud chcete získat informace o maximálním počtu vytrénovaných modelů se stejným projektem, podívejte se na limity služeb. Při trénování modelu můžete určit, jak se datová sada rozdělí na trénovací a testovací sady. Data můžete také náhodně rozdělit na trénovací a testovací sadu, kde není zaručeno, že vyhodnocení promítaný model bude přibližně ve stejné testovací sadě a výsledky nebudou srovnatelné. Doporučuje se vyvinout vlastní testovací sadu a použít ji k vyhodnocení obou modelů, abyste mohli měřit vylepšení.

Zaručuje nízké nebo vysoké skóre modelu špatný nebo dobrý výkon v produkčním prostředí?

Vyhodnocení modelu nemusí být vždy komplexní. To závisí na:

Pokud je testovací sada příliš malá, takže dobré/špatné skóre neodpovídá skutečnému výkonu modelu. Pokud konkrétní typ entity chybí nebo je v testovací sadě nedostatečně zastoupený, bude to mít vliv na výkon modelu.
Pokud data pokrývají pouze několik scénářů nebo příkladů textu, který očekáváte v produkčním prostředí, nebude váš model vystaven všem možným scénářům a může mít špatný výkon ve scénářích, na které nebyl natrénován.
Reprezentace dat , pokud datová sada použitá k trénování modelu nepředstavuje data, která by se do modelu zavedla v produkčním prostředí, bude výkon modelu výrazně ovlivněn.

Další informace najdete v článku o výběru dat a návrhu schématu .

Návody zlepšit výkon modelu?

Prohlédněte si konfuzní matici modelu. Pokud si všimnete, že určitý typ entity často není správně predikován, zvažte přidání dalších označených instancí pro tuto třídu. Pokud si všimnete, že se dva typy entit často predikují navzájem, znamená to, že schéma je nejednoznačné a měli byste zvážit jejich sloučení do jednoho typu entity pro lepší výkon.
Zkontrolujte predikce testovací sady. Pokud má jeden z typů entit mnohem více označených instancí než ostatní, může být váš model vůči tomuto typu zaujatý. Přidejte další data do ostatních typů entit nebo odeberte příklady z dominantního typu.
Přečtěte si další informace o výběru dat a návrhu schématu.
Zkontrolujte testovací sadu a zobrazte si předpovězené a označené entity vedle sebe, abyste získali lepší představu o výkonu modelu a rozhodněte se, jestli jsou nutné nějaké změny ve schématu nebo značkách.

Proč se při přetrénování modelu zobrazují různé výsledky?

Při trénování modelu můžete určit, jestli chcete data náhodně rozdělit do trénovacích a testovacích sad. Pokud to uděláte, neexistuje žádná záruka, že promítnuté vyhodnocení modelu je ve stejné testovací sadě, takže výsledky nebudou srovnatelné.
Pokud přetrénujete stejný model, testovací sada bude stejná, ale můžete si všimnout mírné změny předpovědí modelu. Je to proto, že natrénovaný model není dostatečně robustní, a to je faktorem toho, jak jsou vaše data reprezentativní a jedinečná, a kvality označených dat.

Návody získat předpovědi v různých jazycích?

Nejprve je potřeba povolit možnost více jazyků při vytváření projektu nebo ji můžete povolit později na stránce nastavení projektu. Jakmile model vytrénujete a nasadíte, můžete ho začít dotazovat v několika jazycích. Pro různé jazyky se můžou zobrazit různé výsledky. Pokud chcete zlepšit přesnost libovolného jazyka, přidejte do projektu v tomto jazyce další označené instance, abyste natrénovanému modelu představili syntaxi tohoto jazyka.

Model jsem vytrénoval, ale nemůžu ho otestovat

Abyste mohli model otestovat , musíte ho nasadit.

Návody používat pro předpovědi můj natrénovaný model?

Po nasazení modelu zavoláte rozhraní API pro predikce pomocí rozhraní REST API nebo klientských knihoven.

Ochrana osobních údajů a zabezpečení dat

Custom NER je zpracovatel údajů pro účely obecného nařízení o ochraně osobních údajů (GDPR). V souladu se zásadami GDPR mají uživatelé služby Custom NER plnou kontrolu nad zobrazením, exportem nebo odstraněním jakéhokoli uživatelského obsahu, a to buď prostřednictvím nástroje Language Studio , nebo programově pomocí rozhraní REST API.

Vaše data se ukládají jenom ve vašem účtu Azure Storage. Vlastní NER má přístup jenom ke čtení během trénování.

Jak naklonovat projekt?

Pokud chcete naklonovat projekt, musíte k exportu prostředků projektu použít rozhraní API pro export a pak je importovat do nového projektu. Projděte si referenční informace k rozhraní REST API pro obě operace.

Sdílet prostřednictvím