Termíny a definice používané ve vlastní klasifikaci textu

V tomto článku se dozvíte o některých definicích a termínech, se kterými se můžete setkat při používání vlastní klasifikace textu.

Třída

Třída je uživatelsky definovaná kategorie, která označuje celkovou klasifikaci textu. Vývojáři označí svá data svými třídami, než je předají k trénování modelu.

Skóre F1

Skóre F1 je funkcí přesnosti a úplnosti. Je potřeba, když hledáte rovnováhu mezi přesností a úplností.

Modelování

Model je objekt, který je vytrénovaný tak, aby dělal určitou úlohu, v tomto případě úkoly klasifikace textu. Modely se trénují tak, že poskytují data s popisky, ze které se můžete poučit, aby je bylo možné později použít pro úlohy klasifikace.

  • Trénování modelu je proces výuky modelu, jak klasifikovat dokumenty na základě označených dat.
  • Vyhodnocení modelu je proces, který probíhá hned po trénování, abyste věděli, jak dobře model funguje.
  • Nasazení je proces přiřazení modelu k nasazení, aby byl dostupný pro použití prostřednictvím rozhraní API pro predikce.

Přesnost

Měří, jak přesný/přesný je váš model. Jedná se o poměr mezi správně identifikovanými pozitivními výsledky (pravdivě pozitivními výsledky) a všemi identifikovanými pozitivními výsledky. Metrika přesnosti ukazuje, kolik predikovaných tříd je správně označeno.

Project

Projekt je pracovní oblast pro vytváření vlastních modelů ML na základě vašich dat. K vašemu projektu máte přístup jenom vy a ostatní uživatelé, kteří mají přístup k používanému prostředku Azure. Předpokladem pro vytvoření vlastního projektu klasifikace textu je připojení prostředku k účtu úložiště s datovou sadou při vytváření nového projektu. Projekt automaticky zahrne všechny soubory, které jsou .txt k dispozici v kontejneru.

V rámci projektu můžete provést následující akce:

  • Popisování dat: Proces popisování dat tak, aby se model při trénování naučil, co chcete extrahovat.
  • Sestavení a trénování modelu: Základní krok projektu, kdy se model začne učit z označených dat.
  • Zobrazení podrobností o vyhodnocení modelu: Zkontrolujte výkon modelu a rozhodněte se, jestli je prostor pro zlepšení, nebo jestli jste s výsledky spokojení.
  • Nasazení: Jakmile zkontrolujete výkon modelu a rozhodnete se, že je vhodný pro použití ve vašem prostředí; Abyste ho mohli dotazovat, musíte ho přiřadit k nasazení. Přiřazení modelu k nasazení ho zpřístupní pro použití prostřednictvím rozhraní API pro predikce.
  • Testovací model: Po nasazení modelu můžete tuto operaci použít v nástroji Language Studio a vyzkoušet si nasazení a zjistit, jak by fungovalo v produkčním prostředí.

Typy projektů

Vlastní klasifikace textu podporuje dva typy projektů.

  • Klasifikace bez popisku – každému dokumentu v datové sadě můžete přiřadit jednu třídu. Například filmový scénář lze klasifikovat pouze jako "Romance" nebo "Komedie".
  • Klasifikace s více popisky – každému dokumentu v datové sadě můžete přiřadit více tříd. Například filmový scénář může být klasifikován jako "Komedie" nebo "Romance" a "Komedie".

Recall

Měří schopnost modelu predikovat skutečné pozitivní třídy. Je to poměr mezi predikovanými pravdivě pozitivními výsledky a tím, co bylo skutečně označeno. Metrika úplnosti odhalí, kolik predikovaných tříd je správných.

Další kroky