Etykietowanie danych tekstowych na potrzeby trenowania modelu

Artykuł
12/19/2023

Przed rozpoczęciem trenowania modelu należy oznaczyć dokumenty klasami, do których chcesz je skategoryzować. Etykietowanie danych to kluczowy krok w cyklu projektowania; W tym kroku można utworzyć klasy, które chcesz podzielić na kategorie danych, i oznaczyć je etykietami przy użyciu tych klas. Te dane będą używane w następnym kroku podczas trenowania modelu, aby model mógł uczyć się na podstawie oznaczonych danych. Jeśli masz już etykiety danych, możesz bezpośrednio zaimportować je do projektu, ale musisz upewnić się, że dane są zgodne z akceptowanym formatem danych.

Przed utworzeniem niestandardowego modelu klasyfikacji tekstu musisz najpierw oznaczyć dane etykietami. Jeśli dane nie są jeszcze oznaczone etykietami, możesz je oznaczyć w programie Language Studio. Dane oznaczone etykietami informują model o sposobie interpretowania tekstu i jest używany do trenowania i oceny.

Wymagania wstępne

Aby można było oznaczyć dane etykietami, potrzebne są następujące elementy:

Pomyślnie utworzono projekt ze skonfigurowanym kontem usługi Azure Blob Storage.
Dokumenty zawierające dane tekstowe , które zostały przekazane do konta magazynu.

Aby uzyskać więcej informacji, zobacz cykl projektowania projektu .

Wytyczne dotyczące etykietowania danych

Po przygotowaniu danych należy zaprojektować schemat i utworzyć projekt, aby oznaczyć je etykietami. Etykietowanie danych jest ważne, aby model wiedział, które dokumenty będą skojarzone z potrzebnymi klasami. Gdy oznaczysz dane w programie Language Studio (lub zaimportujesz dane oznaczone etykietą), te etykiety będą przechowywane w pliku JSON w kontenerze magazynu, który został połączony z tym projektem.

Podczas etykietowania danych należy pamiętać o:

Ogólnie rzecz biorąc, bardziej oznaczone dane prowadzą do lepszych wyników, pod warunkiem, że dane są dokładnie oznaczone etykietą.
Nie ma stałej liczby etykiet, które mogą zagwarantować, że model będzie działał najlepiej. Wydajność modelu na podstawie możliwej niejednoznaczności w schemacie i jakości danych oznaczonych etykietami. Niemniej jednak zalecamy użycie 50 dokumentów oznaczonych etykietami na klasę.

Etykietowanie danych

Aby oznaczyć dane, wykonaj następujące kroki:

Przejdź do strony projektu w programie Language Studio.
W menu po lewej stronie wybierz pozycję Etykietowanie danych. Listę wszystkich dokumentów można znaleźć w kontenerze magazynu. Zobacz poniższy obraz.

Porada

Możesz użyć filtrów w górnym menu, aby wyświetlić pliki bez etykiet, aby można było rozpocząć ich etykietowanie. Możesz również użyć filtrów, aby wyświetlić dokumenty, które są oznaczone określoną klasą.
Przejdź do pojedynczego widoku plików po lewej stronie w górnym menu lub wybierz określony plik, aby rozpocząć etykietowanie. Listę wszystkich .txt plików dostępnych w projektach można znaleźć po lewej stronie. Możesz użyć przycisku Wstecz i Dalej w dolnej części strony, aby przejść przez dokumenty.

Uwaga

Jeśli dla projektu włączono wiele języków, w górnym menu znajdziesz listę rozwijaną Język , która pozwala wybrać język każdego dokumentu.
W okienku po prawej stronie dodaj klasę do projektu, aby można było rozpocząć etykietowanie danych za pomocą nich.
Rozpocznij etykietowanie plików.
- Klasyfikacja wielu etykiet
- Klasyfikacja pojedynczej etykiety
Klasyfikacja z wieloma etykietami: plik może być oznaczony wieloma klasami. W tym celu zaznacz wszystkie odpowiednie pola wyboru obok klas, z których chcesz oznaczyć ten dokument etykietą.

Klasyfikacja z pojedynczą etykietą: plik może być oznaczony tylko jedną klasą; Możesz to zrobić, wybierając jeden z przycisków obok klasy, za pomocą której chcesz oznaczyć dokument etykietą.
Możesz również użyć funkcji automatycznego etykietowania , aby zapewnić pełne etykietowanie.
W okienku po prawej stronie w obszarze przestawnym Etykiety można znaleźć wszystkie klasy w projekcie i liczbę wystąpień z etykietami dla każdego z nich.
W dolnej sekcji okienka po prawej stronie możesz dodać bieżący plik wyświetlany do zestawu treningowego lub zestawu testów. Domyślnie wszystkie dokumenty są dodawane do zestawu treningowego. Dowiedz się więcej na temat zestawów trenowania i testowania oraz sposobu ich użycia do trenowania i oceny modelu.

Porada

Jeśli planujesz użycie automatycznego dzielenia danych, użyj domyślnej opcji przypisania wszystkich dokumentów do zestawu treningowego.
W obszarze przestawnym Dystrybucja można wyświetlić rozkład między zestawami trenowania i testowania. Dostępne są dwie opcje wyświetlania:
- Łączna liczba wystąpień , w których można wyświetlić liczbę wszystkich wystąpień oznaczonych określoną klasą.
- dokumenty z co najmniej jedną etykietą , w której każdy dokument jest liczone, jeśli zawiera co najmniej jedno wystąpienie tej klasy z etykietą.
Podczas etykietowania zmiany będą okresowo synchronizowane, jeśli nie zostały jeszcze zapisane, w górnej części strony zostanie wyświetlone ostrzeżenie. Jeśli chcesz zapisać ręcznie, wybierz przycisk Zapisz etykiety w dolnej części strony.

Usuwanie etykiet

Jeśli chcesz usunąć etykietę, usuń zaznaczenie przycisku obok klasy.

Usuwanie lub klasy

Aby usunąć klasę, wybierz ikonę usuwania obok klasy, którą chcesz usunąć. Usunięcie klasy spowoduje usunięcie wszystkich wystąpień oznaczonych etykietą z zestawu danych.

Następne kroki

Po oznaczeniu danych możesz rozpocząć trenowanie modelu , który będzie uczyć się na podstawie danych.