Postup přípravy dat a definování schématu klasifikace textu

Článek
12/19/2023

Pokud chcete vytvořit vlastní model klasifikace textu, budete k jeho trénování potřebovat kvalitní data. Tento článek popisuje, jak byste měli vybrat a připravit data, spolu s definováním schématu. Definování schématu je prvním krokem životního cyklu vývoje projektu a definuje třídy, které model potřebujete ke klasifikaci textu za běhu.

Návrh schématu

Schéma definuje třídy, které váš model potřebuje ke klasifikaci textu za běhu.

Kontrola a identifikace: Zkontrolujte dokumenty v datové sadě, abyste se seznámili s jejich strukturou a obsahem, a pak určete, jak chcete data klasifikovat.

Pokud například klasifikujete lístky podpory, můžete potřebovat následující třídy: problém s přihlášením, problém s hardwarem, problém s připojením a žádost o nové vybavení.
Vyhněte se nejednoznačnosti ve třídách: Nejednoznačnost vzniká, když zadané třídy sdílejí navzájem podobný význam. Čím více nejednoznačný je vaše schéma, tím více označených dat můžete potřebovat rozlišovat mezi různými třídami.

Pokud například klasifikujete recepty na jídlo, můžou být do určité míry podobné. Pokud chcete rozlišovat mezi receptem na dezert a recept na hlavní jídlo, možná budete muset označit více příkladů, které vašemu modelu pomůžou rozlišovat mezi těmito dvěma třídami. Zabránění nejednoznačnosti šetří čas a přináší lepší výsledky.
Data mimo rozsah: Pokud model používáte v produkčním prostředí, zvažte přidání třídy mimo rozsah do schématu, pokud očekáváte dokumenty, které nepatří do žádné z vašich tříd. Pak do datové sady přidejte několik dokumentů, které budou označené jako mimo rozsah. Model se může naučit rozpoznávat irelevantní dokumenty a odpovídajícím způsobem předpovídat jejich popisky.

Výběr dat

Kvalita dat, se kterými model vytrénujete, výrazně ovlivňuje výkon modelu.

K efektivnímu trénování modelu využijte data z reálného života, která odrážejí problémový prostor vaší domény. Syntetická data můžete použít k urychlení počátečního procesu trénování modelu, ale pravděpodobně se budou lišit od vašich reálných dat a při použití budou váš model méně efektivní.
Co nejvíce vyvažte distribuci dat, aniž byste se od distribuce v reálném životě odchýlili.
Kdykoli je to možné, používejte různá data, abyste se vyhnuli přeurčení modelu. Menší rozmanitost trénovacích dat může vést k tomu, že se model učí nechybné korelace, které nemusí existovat v datech reálného života.
Vyhněte se duplicitním dokumentům v datech. Duplicitní data mají negativní vliv na trénovací proces, metriky modelu a výkon modelu.
Zvažte, odkud vaše data pocházejí. Pokud shromažďujete data od jedné osoby, oddělení nebo části vašeho scénáře, pravděpodobně vám chybí rozmanitost, o které se váš model může dozvědět důležité.

Poznámka

Pokud jsou vaše dokumenty ve více jazycích, vyberte během vytváření projektu možnost více jazyků a nastavte možnost jazyka na jazyk většiny dokumentů.

Příprava dat

Jako předpoklad pro vytvoření vlastního projektu klasifikace textu je potřeba trénovací data nahrát do kontejneru objektů blob ve vašem účtu úložiště. Trénovací dokumenty můžete vytvářet a nahrávat přímo z Azure nebo pomocí nástroje Průzkumník služby Azure Storage. Pomocí nástroje Průzkumník služby Azure Storage můžete rychle nahrát více dat.

Můžete použít .txtpouze . dokumenty pro vlastní text. Pokud jsou data v jiném formátu, můžete formát souboru změnit pomocí příkazu CLUtils parse .

Můžete nahrát datovou sadu s poznámkami nebo můžete nahrát datovou sadu bez poznámek a označit data popiskem v Language Studiu.

Testovací sada

Při definování testovací sady nezapomeňte zahrnout ukázkové dokumenty, které nejsou v trénovací sadě. Definování testovací sady je důležitým krokem pro výpočet výkonu modelu. Ujistěte se také, že testovací sada obsahuje dokumenty, které představují všechny třídy použité v projektu.

Další kroky

Pokud jste to ještě neudělali, vytvořte vlastní projekt klasifikace textu. Pokud vlastní klasifikaci textu používáte poprvé, zvažte použití tohoto rychlého startu k vytvoření ukázkového projektu. Další podrobnosti o tom, co potřebujete k vytvoření projektu, najdete také v požadavcích projektu.

Sdílet prostřednictvím