Termíny a definice používané ve vlastní klasifikaci textu

Článek
12/19/2023

V tomto článku se dozvíte o některých definicích a termínech, se kterými se můžete setkat při používání vlastní klasifikace textu.

Třída

Třída je uživatelsky definovaná kategorie, která označuje celkovou klasifikaci textu. Vývojáři označí svá data svými třídami, než je předají k trénování modelu.

Skóre F1

Skóre F1 je funkcí přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.

Modelování

Model je objekt, který je vytrénovaný tak, aby dělal určitou úlohu, v tomto případě úkoly klasifikace textu. Modely se trénují tak, že poskytují data s popisky, ze které se můžete poučit, aby je bylo možné později použít pro úlohy klasifikace.

Trénování modelu je proces výuky modelu, jak klasifikovat dokumenty na základě označených dat.
Vyhodnocení modelu je proces, který probíhá hned po trénování, abyste věděli, jak dobře model funguje.
Nasazení je proces přiřazení modelu k nasazení, aby byl dostupný pro použití prostřednictvím rozhraní API pro predikce.

Přesnost

Měří, jak přesný/přesný je váš model. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.

Project

Projekt je pracovní oblast pro vytváření vlastních modelů ML na základě vašich dat. K vašemu projektu máte přístup jenom vy a ostatní uživatelé, kteří mají přístup k používanému prostředku Azure. Předpokladem pro vytvoření vlastního projektu klasifikace textu je připojení prostředku k účtu úložiště s datovou sadou při vytváření nového projektu. Projekt automaticky zahrne všechny soubory, které jsou .txt k dispozici v kontejneru.

V rámci projektu můžete provést následující akce:

Popisování dat: Proces popisování dat tak, aby se model při trénování naučil, co chcete extrahovat.
Sestavení a trénování modelu: Základní krok projektu, kdy se model začne učit z označených dat.
Zobrazení podrobností o vyhodnocení modelu: Zkontrolujte výkon modelu a rozhodněte se, jestli je prostor pro zlepšení, nebo jestli jste s výsledky spokojení.
Nasazení: Jakmile zkontrolujete výkon modelu a rozhodnete se, že je vhodný pro použití ve vašem prostředí; Abyste ho mohli dotazovat, musíte ho přiřadit k nasazení. Přiřazení modelu k nasazení ho zpřístupní pro použití prostřednictvím rozhraní API pro predikce.
Testovací model: Po nasazení modelu můžete tuto operaci použít v nástroji Language Studio a vyzkoušet si nasazení a zjistit, jak by fungovalo v produkčním prostředí.

Typy projektů

Vlastní klasifikace textu podporuje dva typy projektů.

Klasifikace bez popisku – každému dokumentu v datové sadě můžete přiřadit jednu třídu. Například filmový scénář lze klasifikovat pouze jako "Romance" nebo "Komedie".
Klasifikace s více popisky – každému dokumentu v datové sadě můžete přiřadit více tříd. Například filmový scénář může být klasifikován jako "Komedie" nebo "Romance" a "Komedie".

Recall

Měří schopnost modelu predikovat skutečné pozitivní třídy. Je to poměr mezi predikovanými pravdivě pozitivními výsledky a tím, co bylo skutečně označeno. Metrika úplnosti odhalí, kolik predikovaných tříd je správných.

Sdílet prostřednictvím