Jak przygotować dane i zdefiniować schemat klasyfikacji tekstu

Artykuł
12/19/2023

Aby utworzyć niestandardowy model klasyfikacji tekstu, należy wytrenować dane dotyczące jakości. W tym artykule opisano sposób wybierania i przygotowywania danych oraz definiowania schematu. Definiowanie schematu jest pierwszym krokiem w cyklu projektowania projektu i definiuje klasy potrzebne modelowi do klasyfikowania tekstu w czasie wykonywania.

Projekt schematu

Schemat definiuje klasy, do których model ma klasyfikować tekst w czasie wykonywania.

Przejrzyj i zidentyfikuj: Przejrzyj dokumenty w zestawie danych, aby zapoznać się z ich strukturą i zawartością, a następnie określ sposób klasyfikowania danych.

Na przykład w przypadku klasyfikowania biletów pomocy technicznej mogą być potrzebne następujące klasy: problem z logowaniem, problem ze sprzętem, problem z łącznością i nowe żądanie sprzętu.
Unikaj niejednoznaczności w klasach: niejednoznaczność pojawia się, gdy określone klasy mają podobne znaczenie do siebie. Tym bardziej niejednoznaczne jest schemat, tym bardziej oznaczone dane mogą być potrzebne do rozróżnienia między różnymi klasami.

Jeśli na przykład klasyfikujesz przepisy kulinarne, mogą one być podobne do pewnego stopnia. Aby odróżnić przepis na deser i przepis na danie główne, może być konieczne etykietowanie większej liczby przykładów, aby ułatwić modelowi rozróżnienie między dwiema klasami. Unikanie niejednoznaczności pozwala zaoszczędzić czas i uzyskać lepsze wyniki.
Dane poza zakresem: w przypadku korzystania z modelu w środowisku produkcyjnym rozważ dodanie klasy poza zakresem do schematu, jeśli oczekujesz dokumentów, które nie należą do żadnej z klas. Następnie dodaj kilka dokumentów do zestawu danych, które mają być oznaczone jako poza zakresem. Model może nauczyć się rozpoznawać nieistotne dokumenty i odpowiednio przewidywać etykiety.

Wybór danych

Jakość danych, za pomocą których trenujesz model, ma duży wpływ na wydajność modelu.

Użyj rzeczywistych danych, które odzwierciedlają przestrzeń problemu domeny, aby skutecznie wytrenować model. Możesz użyć danych syntetycznych, aby przyspieszyć początkowy proces trenowania modelu, ale prawdopodobnie różni się od danych rzeczywistych i sprawi, że model będzie mniej skuteczny, gdy będzie używany.
Zrównoważ dystrybucję danych tak bardzo, jak to możliwe, bez odejmowania od rozkładu w czasie rzeczywistym.
Używaj różnorodnych danych zawsze, gdy jest to możliwe, aby uniknąć nadmiernego dopasowania modelu. Mniejsza różnorodność danych treningowych może prowadzić do fikcyjnych korelacji uczenia się modelu, które mogą nie istnieć w rzeczywistych danych.
Unikaj duplikowania dokumentów w danych. Zduplikowane dane mają negatywny wpływ na proces trenowania, metryki modelu i wydajność modelu.
Zastanów się, skąd pochodzą twoje dane. Jeśli zbierasz dane z jednej osoby, działu lub części scenariusza, prawdopodobnie brakuje różnorodności, która może być ważna dla twojego modelu, aby dowiedzieć się więcej.

Uwaga

Jeśli dokumenty znajdują się w wielu językach, wybierz opcję wiele języków podczas tworzenia projektu i ustaw opcję języka na język większości dokumentów.

Przygotowywanie danych

W ramach wymagań wstępnych dotyczących tworzenia niestandardowego projektu klasyfikacji tekstu dane szkoleniowe muszą zostać przekazane do kontenera obiektów blob na koncie magazynu. Dokumenty szkoleniowe można tworzyć i przekazywać bezpośrednio z platformy Azure lub za pomocą narzędzia Eksplorator usługi Azure Storage. Użycie narzędzia Eksplorator usługi Azure Storage umożliwia szybkie przekazywanie większej ilości danych.

Można używać tylko ..txt dokumenty dla tekstu niestandardowego. Jeśli dane są w innym formacie, możesz użyć polecenia analizy CLUtils , aby zmienić format pliku.

Możesz przekazać adnotację do zestawu danych lub przekazać nienotowany zestaw danych i oznaczyć je etykietami w narzędziu Language Studio.

Zestaw testowy

Podczas definiowania zestawu testowania pamiętaj, aby uwzględnić przykładowe dokumenty, które nie są obecne w zestawie treningowym. Definiowanie zestawu testowego jest ważnym krokiem do obliczenia wydajności modelu. Upewnij się również, że zestaw testów zawiera dokumenty reprezentujące wszystkie klasy używane w projekcie.

Następne kroki

Jeśli jeszcze tego nie zrobiono, utwórz niestandardowy projekt klasyfikacji tekstu. Jeśli po raz pierwszy używasz niestandardowej klasyfikacji tekstu, rozważ skorzystanie z przewodnika Szybki start , aby utworzyć przykładowy projekt. Możesz również zapoznać się z wymaganiami dotyczącymi projektu , aby uzyskać więcej informacji na temat tego, co należy utworzyć projekt.

Udostępnij za pośrednictwem