Nejčastější dotazy k rozpoznávání vlastních pojmenovaných entit

Najděte odpovědi na nejčastější dotazy týkající se konceptů a scénářů souvisejících s vlastním NER v nástrojích Azure Language in Foundry.

Jak začít používat službu?

Další informace najdete v našem rychlém startu nebo postupu při vytváření projektů.

Jaká má služba omezení?

Další informace najdete v tématuOmezení služeb.

Kolik označených souborů je potřeba?

Obecně, různorodá a reprezentativní označená data vedou k lepším výsledkům vzhledem k tomu, že označování se provádí přesně, konzistentně a zcela. Neexistuje žádný stanovený počet označených instancí, aby model fungoval dobře. Výkon je vysoce závislý na vašem schématu a nejednoznačnosti vašeho schématu. Nejednoznačné typy entit potřebují více značek. Výkon také závisí na kvalitě označování. Doporučený počet označených instancí na entitu je 50.

Jak dlouho by mělo trvat trénování modelu?

Proces trénování může trvat dlouhou dobu. Očekávaný čas trénování souborů s kombinovanou délkou 12 800 000 znaků je přibližně 6 hodin.

Jak vytvořím vlastní model programaticky?

Poznámka:

V současné době můžete model sestavit pouze pomocí rozhraní REST API nebo sady Language Studio.

K vytvoření vlastních modelů můžete použít rozhraní REST API . Pomocí tohoto rychlého startu začněte vytvářet projekt a vytvářet model prostřednictvím rozhraní API, kde najdete příklady volání rozhraní API pro tvorbu.

Až budete připraveni začít používat model k předpovědím, můžete použít rozhraní REST API nebo klientskou knihovnu.

Jaký je doporučený proces CI/CD?

Tady je seznam akcí, které v Microsoft Foundry provedete:

Trénování více modelů na stejné datové sadě v rámci jednoho projektu
Prohlédněte si výkon modelu.
Nasaďte a otestujte model a přidejte nebo odeberte popisky z dat.
Zvolte způsob rozdělení datové sady na trénovací a testovací sady.

Data se dají náhodně rozdělit do trénovacích a testovacích sad, ale to znamená, že vyhodnocení modelu nemusí být založeno na stejné testovací sadě, což vede k nekompatibilním výsledkům. Doporučujeme, abyste vytvořili vlastní testovací sadu a použili ji k vyhodnocení obou modelů, abyste přesně změřili vylepšení.

Nezapomeňte zkontrolovat limity služeb, abyste porozuměli maximálnímu počtu trénovaných modelů povolených pro každý projekt.

Zaručuje nízké nebo vysoké skóre modelu špatný nebo dobrý výkon v produkčním prostředí?

Vyhodnocení modelu nemusí být vždy komplexní. Rozsah závisí na následujících faktorech:

Velikost testovací sady. Pokud je testovací sada příliš malá, nebudou dobré/špatné skóre reprezentovat skutečný výkon modelu. Pokud v testovací sadě chybí nebo není reprezentovaný konkrétní typ entity, má vliv na výkon modelu.
Rozmanitost vašich dat. Pokud vaše data obsahují pouze omezený počet scénářů nebo příkladů textu, který očekáváte v produkčním prostředí, nemusí váš model narazit na každou možnou situaci. V důsledku toho může model fungovat špatně, když se setkáte s neznámými scénáři.
Reprezentace v datech. Pokud datová sada použitá k trénování modelu nepředstavuje data, která by se do modelu zavedla v produkčním prostředí, výrazně se to týká výkonu modelu.

Další informace najdete v tématuVýběr dat a návrh schématu.

Návody zlepšení výkonu modelu?

Zobrazte konfuzní matici modelu. Pokud si všimnete, že určitý typ entity není často předpovězen správně, zvažte přidání dalších označených instancí pro tuto třídu.

Pokud jsou dva různé typy entit často predikované jako navzájem, znamená to, že schéma nemá přehlednost. Pokud chcete zvýšit výkon, měli byste uvažovat o kombinování těchto dvou typů entit do jednoho sjednoceného typu. Pokud se dva typy entit během předpovědi konzistentně mýlí, tento výsledek ve vašem schématu naznačuje nejednoznačnost. Sloučením do jednoho typu entity můžete zvýšit celkovou přesnost modelu.

Zkontrolujte predikce testovací sady. Pokud jeden z typů entit obsahuje mnohem více označených instancí než ostatní, může být váš model zkreslený vůči tomuto typu. Přidejte další data do jiných typů entit nebo odeberte příklady z dominujícího typu.
Přečtěte si další informace o výběru dat a návrhu schématu.
Zkontrolujte testovací sadu. Projděte si předpovězené entity společně s označenými entitami a získejte přehled o přesnosti modelu. Toto porovnání vám může pomoct určit, jestli jsou potřeba úpravy schématu nebo sady značek.

Proč při opětovném trénování modelu získám jiné výsledky?

Při trénování modelu můžete určit, jestli chcete, aby se data náhodně rozdělila na trénovací a testovací sady. Pokud se rozhodnete pokračovat, neexistuje žádná jistota, že se vyhodnocení modelu provádí na stejné testovací sadě, což znamená, že výsledky nemusí být přímo srovnatelné. Tím riskujete vyhodnocení modelu na jiné testovací sadě, což znemožňuje spolehlivé porovnání výsledků.
Pokud přetrénujete stejný model, testovací sada je stejná, ale můžete si všimnout mírné změny předpovědí provedených modelem. K tomuto problému dochází, protože natrénovaný model nemá dostatečnou odolnost. Tento výsledek závisí na tom, jak dobře vaše data představují různé scénáře, jak odlišné jsou datové body, a celkovou kvalitu označování dat. Výkon modelu ovlivňuje několik faktorů. Odolnost modelu, rozlišovatelnost a rozmanitost datové sady a přesnost a jednotnost značek přiřazených k datům hrají důležité role. Abyste dosáhli optimálních výsledků, musíte zajistit, aby datová sada nejen přesně představovala cílovou doménu, ale také nabízí jedinečné příklady a že všechny značky se použijí s konzistencí i přesností v datech.

Jak získám předpovědi v různých jazycích?

Nejprve je potřeba povolit vícejazyčnou možnost při vytváření projektu nebo ji později povolit na stránce nastavení projektu. Jakmile model vytrénujete a nasadíte, můžete ho začít dotazovat v několika jazycích. Pro různé jazyky můžete získat různé výsledky. Pokud chcete zvýšit přesnost libovolného jazyka, přidejte do projektu v tomto jazyce další označené instance, abyste do tohoto jazyka zavedli trénovaný model pro více syntaxe daného jazyka.

Vytrénoval(a) jsem model, ale nemůžu ho otestovat

Než ho budete moct otestovat, musíte model nasadit .

Jak použít svůj trénovaný model pro predikce?

Po nasazení modelu zavoláte rozhraní API pro predikce pomocí rozhraní REST API nebo klientských knihoven.

Ochrana osobních údajů a zabezpečení dat

Vaše data se ukládají jenom ve vašem účtu Azure Storage. Vlastní NER má během trénování přístup pouze ke čtení dat. Vlastní uživatelé NER mají úplnou kontrolu nad zobrazením, exportem nebo odstraněním veškerého uživatelského obsahu prostřednictvím Foundry nebo programově pomocí rozhraní REST API. Další informace najdete v tématuData, ochrana osobních údajů a zabezpečení jazyka.

Jak naklonovat můj projekt?

Pokud chcete projekt naklonovat, musíte k exportu prostředků projektu použít rozhraní API pro export a pak je importovat do nového projektu. Informace o obou operacích najdete v referenčních informacích k rozhraní REST API .

Další kroky

Váš názor

Byla tato stránka užitečná?

Last updated on 2025-11-18