Termíny a definice používané ve vlastní klasifikaci textu
V tomto článku se dozvíte o některých definicích a termínech, se kterými se můžete setkat při používání vlastní klasifikace textu.
Třída
Třída je uživatelsky definovaná kategorie, která označuje celkovou klasifikaci textu. Vývojáři označí svá data svými třídami, než je předají k trénování modelu.
Skóre F1
Skóre F1 je funkcí přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.
Modelování
Model je objekt, který je vytrénovaný tak, aby dělal určitou úlohu, v tomto případě úkoly klasifikace textu. Modely se trénují tak, že poskytují data s popisky, ze které se můžete poučit, aby je bylo možné později použít pro úlohy klasifikace.
- Trénování modelu je proces výuky modelu, jak klasifikovat dokumenty na základě označených dat.
- Vyhodnocení modelu je proces, který probíhá hned po trénování, abyste věděli, jak dobře model funguje.
- Nasazení je proces přiřazení modelu k nasazení, aby byl dostupný pro použití prostřednictvím rozhraní API pro predikce.
Přesnost
Měří, jak přesný/přesný je váš model. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.
Project
Projekt je pracovní oblast pro vytváření vlastních modelů ML na základě vašich dat. K vašemu projektu máte přístup jenom vy a ostatní uživatelé, kteří mají přístup k používanému prostředku Azure.
Předpokladem pro vytvoření vlastního projektu klasifikace textu je připojení prostředku k účtu úložiště s datovou sadou při vytváření nového projektu. Projekt automaticky zahrne všechny soubory, které jsou .txt
k dispozici v kontejneru.
V rámci projektu můžete provést následující akce:
- Popisování dat: Proces popisování dat tak, aby se model při trénování naučil, co chcete extrahovat.
- Sestavení a trénování modelu: Základní krok projektu, kdy se model začne učit z označených dat.
- Zobrazení podrobností o vyhodnocení modelu: Zkontrolujte výkon modelu a rozhodněte se, jestli je prostor pro zlepšení, nebo jestli jste s výsledky spokojení.
- Nasazení: Jakmile zkontrolujete výkon modelu a rozhodnete se, že je vhodný pro použití ve vašem prostředí; Abyste ho mohli dotazovat, musíte ho přiřadit k nasazení. Přiřazení modelu k nasazení ho zpřístupní pro použití prostřednictvím rozhraní API pro predikce.
- Testovací model: Po nasazení modelu můžete tuto operaci použít v nástroji Language Studio a vyzkoušet si nasazení a zjistit, jak by fungovalo v produkčním prostředí.
Typy projektů
Vlastní klasifikace textu podporuje dva typy projektů.
- Klasifikace bez popisku – každému dokumentu v datové sadě můžete přiřadit jednu třídu. Například filmový scénář lze klasifikovat pouze jako "Romance" nebo "Komedie".
- Klasifikace s více popisky – každému dokumentu v datové sadě můžete přiřadit více tříd. Například filmový scénář může být klasifikován jako "Komedie" nebo "Romance" a "Komedie".
Recall
Měří schopnost modelu predikovat skutečné pozitivní třídy. Je to poměr mezi predikovanými pravdivě pozitivními výsledky a tím, co bylo skutečně označeno. Metrika úplnosti odhalí, kolik predikovaných tříd je správných.
Další kroky
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro