Etykietowanie danych w programie Language Studio

Artykuł
10/16/2024

Przed rozpoczęciem trenowania modelu należy oznaczyć dokumenty jednostkami niestandardowymi, które chcesz wyodrębnić. Etykietowanie danych to kluczowy krok w cyklu projektowania. W tym kroku możesz utworzyć typy jednostek, które chcesz wyodrębnić z danych i oznaczyć te jednostki w dokumentach. Te dane będą używane w następnym kroku podczas trenowania modelu, aby model mógł uczyć się na podstawie oznaczonych danych. Jeśli masz już etykiety danych, możesz bezpośrednio zaimportować je do projektu, ale musisz upewnić się, że dane są zgodne z akceptowanym formatem danych. Zobacz tworzenie projektu , aby dowiedzieć się więcej na temat importowania danych oznaczonych etykietami do projektu.

Przed utworzeniem niestandardowego modelu NER należy najpierw oznaczyć dane etykietami. Jeśli dane nie są jeszcze oznaczone etykietą, możesz oznaczyć je w programie Language Studio. Dane oznaczone etykietami informują model, jak interpretować tekst i jest używany do trenowania i oceny.

Wymagania wstępne

Aby można było oznaczyć dane etykietami, potrzebne są następujące elementy:

Pomyślnie utworzono projekt przy użyciu skonfigurowanego konta usługi Azure Blob Storage
Dane tekstowe przekazane na konto magazynu.

Aby uzyskać więcej informacji, zobacz cykl projektowania projektu.

Wytyczne dotyczące etykietowania danych

Po przygotowaniu danych należy zaprojektować schemat i utworzyć projekt, aby oznaczyć je etykietami. Etykietowanie danych jest ważne, aby model wiedział, które wyrazy będą skojarzone z typami jednostek, które należy wyodrębnić. Po oznaczeniu danych w programie Language Studio (lub zaimportowaniu oznaczonych danymi) te etykiety będą przechowywane w dokumencie JSON w kontenerze magazynu, który został połączony z tym projektem.

Podczas etykietowania danych należy pamiętać:

Ogólnie rzecz biorąc, bardziej oznaczone dane prowadzą do lepszych wyników, pod warunkiem, że dane są dokładnie oznaczone etykietą.
Precyzja, spójność i kompletność danych oznaczonych etykietami są kluczowymi czynnikami do określania wydajności modelu.
- Etykieta dokładnie: Oznacz każdą jednostkę w odpowiednim typie zawsze. Uwzględnij tylko wyodrębnione dane, unikaj niepotrzebnych danych w etykietach.
- Spójna etykieta: ta sama jednostka powinna mieć tę samą etykietę we wszystkich dokumentach.
- Etykieta całkowicie: Oznacz wszystkie wystąpienia jednostki we wszystkich dokumentach. Możesz użyć funkcji automatycznego etykietowania, aby zapewnić pełne etykietowanie.
Uwaga

Nie ma stałej liczby etykiet, które mogą zagwarantować, że model będzie działać najlepiej. Wydajność modelu zależy od możliwej niejednoznaczności w schemacie i jakości danych oznaczonych etykietami. Niemniej jednak zalecamy posiadanie około 50 wystąpień oznaczonych etykietą na typ jednostki.

Etykietowanie danych

Aby oznaczyć dane, wykonaj następujące czynności:

Przejdź do strony projektu w programie Language Studio.
W menu po lewej stronie wybierz pozycję Etykietowanie danych. Listę wszystkich dokumentów można znaleźć w kontenerze magazynu.

Napiwek

Możesz użyć filtrów w górnym menu, aby wyświetlić niezaznaczone dokumenty, aby rozpocząć etykietowanie. Możesz również użyć filtrów, aby wyświetlić dokumenty oznaczone określonym typem jednostki.
Przejdź do pojedynczego widoku dokumentu po lewej stronie w górnym menu lub wybierz konkretny dokument, aby rozpocząć etykietowanie. Listę wszystkich .txt dokumentów dostępnych w projekcie można znaleźć po lewej stronie. Aby przejść przez dokumenty, możesz użyć przycisku Wstecz i dalej w dolnej części strony.

Uwaga

Jeśli dla projektu włączono wiele języków, w górnym menu znajdziesz listę rozwijaną Język , która umożliwia wybranie języka każdego dokumentu.
W okienku po prawej stronie dodaj typ jednostki do projektu, aby rozpocząć etykietowanie danych przy użyciu nich.

Dostępne są dwie opcje etykietowania dokumentu:

Opcja	Opis
Etykieta przy użyciu pędzla	Wybierz ikonę pędzla obok typu jednostki w okienku po prawej stronie, a następnie wyróżnij tekst w dokumencie, który chcesz dodać adnotację do tego typu jednostki.
Etykieta przy użyciu menu	Wyróżnij słowo, które chcesz oznaczyć jako jednostkę, a zostanie wyświetlone menu. Wybierz typ jednostki, który chcesz przypisać dla tej jednostki.

Poniższy zrzut ekranu przedstawia etykietowanie przy użyciu pędzla.

W okienku po prawej stronie w obszarze przestawnym Etykiety można znaleźć wszystkie typy jednostek w projekcie i liczbę wystąpień oznaczonych etykietami dla każdego z nich.
W dolnej sekcji okienka po prawej stronie możesz dodać bieżący dokument wyświetlany do zestawu treningowego lub zestawu testów. Domyślnie wszystkie dokumenty są dodawane do zestawu treningowego. Dowiedz się więcej na temat zestawów trenowania i testowania oraz sposobu ich użycia na potrzeby trenowania i oceny modelu.

Napiwek

Jeśli planujesz użycie automatycznego dzielenia danych, użyj domyślnej opcji przypisania wszystkich dokumentów do zestawu treningowego.
W obszarze przestawnym Dystrybucja można wyświetlić rozkład między zestawami trenowania i testowania. Dostępne są dwie opcje wyświetlania:
- Łączna liczba wystąpień , w których można wyświetlić liczbę wszystkich wystąpień oznaczonych określonym typem jednostki.
- dokumenty z co najmniej jedną etykietą , w której każdy dokument jest liczone, jeśli zawiera co najmniej jedno wystąpienie oznaczone etykietą tej jednostki.
Po oznaczeniu etykiet zmiany będą okresowo synchronizowane, jeśli nie zostały jeszcze zapisane, w górnej części strony zostanie wyświetlone ostrzeżenie. Jeśli chcesz zapisać ręcznie, wybierz przycisk Zapisz etykiety w dolnej części strony.

Usuwanie etykiet

Aby usunąć etykietę

Wybierz jednostkę, z której chcesz usunąć etykietę.
Przewiń wyświetlone menu i wybierz pozycję Usuń etykietę.

Usuwanie jednostek

Aby usunąć jednostkę, wybierz ikonę usuwania obok jednostki, którą chcesz usunąć. Usunięcie jednostki spowoduje usunięcie wszystkich swoich wystąpień oznaczonych etykietą z zestawu danych.

Następne kroki

Po oznaczeniu danych etykietą możesz rozpocząć trenowanie modelu , który będzie uczyć się na podstawie danych.